本書是由Spark這個專案的成員所撰寫,詳盡的說明如何使用、部署與維運Apache Spark。本書將帶領您探索Spark結構化API基礎操作、結構化串流,並透過新的高階API建立端到端的串流應用。開發與系統管理人員可由本書學習到如何進行Spark的監控、調校以及除錯,以及如何使用MLlib分散式機器學習函式庫。
.完整說明大數據與Spark
.透過實際的範例學習DataFrame、SQL與Dataset等Spark核心API概念
.深入了解Spark低階API、RDD以及DataFrame與SQL的關係
.學習如何在叢集環境運行Spark
.針對Spark叢集與應用程式進行除錯、監控與調校
.體會Spark結構化串流處理引擎的威力
.學習MLlib函式庫並將其應用於多種分類或推薦等機器學習專案中
Bill Chambers是Databricks的產品經理,專注於大數據分析並提供企業用戶完整的文件與協作讓客戶藉由Spark與Databricks取得成功。
Matei Zaharia是史丹佛電腦科學系的助理教授以及Databricks的技術長。他於2009在加州柏克萊大學發起Spark專案,同時他也是Apache Mesos專案的共同發起人以及Apache Hadoop的早期貢獻者。
好評推薦
「本書是專業Spark開發人員的必讀指南,提供在其他書上找不到的技巧與訣竅」 —Ion Stoica, Director of the UC Berkeley RISE Lab