本書是關于大數(shù)據(jù)和Spark的一個簡明手冊。它將助你學習如何用Spark來完成很多大數(shù)據(jù)分析任務,其中覆蓋了高效利用Spark所需要知道的重要主題:如何使用SparkShell進行交互式數(shù)據(jù)分析、如何編寫Spark應用、如何在Spark中對大規(guī)模數(shù)據(jù)進行交互分析、如何使用SparkStreaming處理高速數(shù)據(jù)流、如何使用Spark進行機器學習、如何使用Spark進行圖處理、如何使用集群管理員部署Spark、如何監(jiān)控Spark應用等。本書還對其他配合Spark一起使用的大數(shù)據(jù)技術進行了介紹,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本書也對機器學習和圖的概念進行了介紹。