本書獲台灣 IBM 推薦
身處於資訊爆炸的時代,數據無時無刻不間斷產生,大型購物網站的會員資料、工廠大規模的感測器數據…等等,當要處理的資料規模達到大數據等級時,就不再是單機的 R 或 Python 可以應付得來的。
Apache Spark 是一套分散式和高擴展性的資料分析系統,在大數據分析乃至於計器學習的應用上佔有一席之地。為了因應資料量爆炸性的成長,Spark 也不斷擴充其功能模組,提供更具效率的資料分析與處理流程,也因此造成許多開發者對於 Spark 各個功能模組的用法與差異並不了解,對於新的功能模組也不得其門而入。
徹底了解Apache Spark 2.x中的新功能,建構全自動化的機器學習流程
本書由標準 Apache Spark 模組開始,將一一介紹記憶體管理、二進位處理、快取感知計算和程式碼生成,加快在 Spark 上的執行效率。並整合整合 H2O 和 Deeplearning4j,進行目前當紅的機器學習應用,以及運用 Jupyter 筆記本、Zeppelin、Docker 和 Kubernetes 在雲端架構上使用 Spark。書中使用支援度高且運算快的原生語言
Scala 來開發,並深入探討 Apache Spark 2.x 的細節以及提供實際的範例作為教學如:從 MQTT 接收 IoT 洗衣機的串流數據、道路安全數據中使用機器學習來做分類、使用深度學習來處理軸承的震動感測器數據的異常偵測…等等。
而最重要的,本書作者 Romeo Kienzler 做為 IBM Watson IoT worldwide 團隊的首席資料科學家,期許以業界的觀點,透過理論與實作帶領讀者進入大數據與機器學習的世界。你還將徹底了解 Apache Spark 2.x 中的新功能,特別是使用 SparkML 建構全自動化的機器學習流程,讓你對 Spark 有完全不同的全新認識。
本書特色
● 來自 IBM Watson IoT worldwide 團隊首席資料科學家的業界親傳
● 處理各種串流:TCP、Flume、Kafka、Twitter、MQTT
● Spark 的強力夥伴-機器學習函式庫:MLlib、SparkML、SystemML
● 最熱門的深度學習:DeepLearning4j、H2O
● Spark 的雲端部署:Docker、Kubernetes、 IBM DataScience Experience