性xx色动画xx无尽,国产精品三级av三级av三级 ,中文在线√天堂,亚洲国产成人久久一区久久,亚洲熟妇色l20p

當前位置 : 首頁  圖書 正文

Spark大數(shù)據(jù)分析實戰(zhàn)簡介,目錄書摘

2020-03-23 14:22 來源:京東 作者:京東
spark大數(shù)據(jù)分析實戰(zhàn)
Spark大數(shù)據(jù)分析實戰(zhàn)
暫無報價
3700+評論 98%好評
編輯推薦:

  通過典型數(shù)據(jù)分析應(yīng)用場景、算法與系統(tǒng)架構(gòu),結(jié)合6大案例,全面、深入講解Spark大數(shù)據(jù)分析的各種技術(shù)和方法

  作為一個通用大數(shù)據(jù)計算框架,Spark廣泛應(yīng)用于多種典型大數(shù)據(jù)分析場景。

  通過這本書,你將了解到:

  Spark的機制與生態(tài)系統(tǒng)

  Spark算法分析與應(yīng)用

  典型的數(shù)據(jù)分析場景

  Spark在日志分析、情感分析、協(xié)同過濾、個性化推薦、社交網(wǎng)絡(luò)分析、搜索、文本分析等場景的應(yīng)用

  Spark與其他開源工具及系統(tǒng)的集成

  Spark已經(jīng)在全球范圍內(nèi)被廣泛使用,無論是微軟、Intel、阿里巴巴、百度、騰訊等國際互聯(lián)網(wǎng)巨頭,還是一些初創(chuàng)公司,都在使用Spark。本書作者結(jié)合實戰(zhàn)經(jīng)驗,編寫了這本書。本書抽象出典型數(shù)據(jù)分析應(yīng)用場景,適當簡化,只進行主干介紹,講解Spark應(yīng)用開發(fā)、數(shù)據(jù)分析算法,并結(jié)合其他開源系統(tǒng)與組件,勾勒出數(shù)據(jù)分析流水線全貌。

內(nèi)容簡介:

  這是一本根據(jù)應(yīng)用場景講解如何通過Spark進行大數(shù)據(jù)分析與應(yīng)用構(gòu)建的著作,以實戰(zhàn)為導(dǎo)向。作者結(jié)合典型應(yīng)用場景,抽象出通用與簡化后的模型,以便于讀者能舉一反三,直接應(yīng)用。

  本書首先從技術(shù)層面講解了Spark的機制、生態(tài)系統(tǒng)與開發(fā)相關(guān)的內(nèi)容;然后從應(yīng)用角度講解了日志分析、推薦系統(tǒng)、情感分析、協(xié)同過濾、搜索引擎、社交網(wǎng)絡(luò)分析、新聞數(shù)據(jù)分析等多個常見的大數(shù)據(jù)場景下的數(shù)據(jù)分析。在每個場景中,首先是對場景進行抽象與概括,然后將Spark融入其中構(gòu)建數(shù)據(jù)分析算法與應(yīng)用,最后結(jié)合其他開源系統(tǒng)或工具構(gòu)建更為豐富的數(shù)據(jù)分析流水線。  

作者簡介:

  高彥杰,

  畢業(yè)于中國人民大學,就職于微軟亞洲研究院。開源技術(shù)愛好者,對Spark及其他開源大數(shù)據(jù)系統(tǒng)與技術(shù)有較為深入的認識和研究,實踐經(jīng)驗豐富。較早接觸并使用Spark,對Spark應(yīng)用開發(fā)、Spark系統(tǒng)的運維和測試比較熟悉,深度閱讀了Spark的源代碼,了解Spark的運行機制,擅長Spark的查詢優(yōu)化。

  曾著有暢銷書《Spark大數(shù)據(jù)處理:技術(shù)、應(yīng)用與性能優(yōu)化》。


  倪亞宇,

  清華大學自動化系在讀博士研究生,曾于微軟亞洲研究院、IBM研究院實習。對大規(guī)模的推薦系統(tǒng)和機器學習算法有較為深入的研究和豐富的實踐經(jīng)驗。

目錄:

前 言
第1章 Spark簡介  1
1.1 初識Spark  1
1.2 Spark生態(tài)系統(tǒng)BDAS  3
1.3 Spark架構(gòu)與運行邏輯  4
1.4 彈性分布式數(shù)據(jù)集  6
1.4.1 RDD簡介  6
1.4.2 RDD算子分類  8
1.5 本章小結(jié)  17
第2章 Spark開發(fā)與環(huán)境配置  18
2.1 Spark應(yīng)用開發(fā)環(huán)境配置  18
2.1.1 使用Intellij開發(fā)Spark
程序  18
2.1.2 使用SparkShell進行交互式數(shù)據(jù)分析  23
2.2 遠程調(diào)試Spark程序  24
2.3 Spark編譯  26
2.4 配置Spark源碼閱讀環(huán)境  29
2.5 本章小結(jié)  29
第3章 BDAS簡介  30
3.1 SQL on Spark  30
3.1.1 為什么使用Spark SQL  31
3.1.2 Spark SQL架構(gòu)分析  32
3.2 Spark Streaming  35
3.2.1 Spark Streaming簡介  35
3.2.2 Spark Streaming架構(gòu)  38
3.2.3 Spark Streaming原理剖析  38
3.3 GraphX  45
3.3.1 GraphX簡介  45
3.3.2 GraphX的使用簡介  45
3.3.3 GraphX體系結(jié)構(gòu)  48
3.4 MLlib  50
3.4.1 MLlib簡介  50
3.4.2 MLlib中的聚類和分類  52
3.5 本章小結(jié)  57
第4章 Lamda架構(gòu)日志分析流水線  58
4.1 日志分析概述  58
4.2 日志分析指標  61
4.3 Lamda架構(gòu)  62
4.4 構(gòu)建日志分析數(shù)據(jù)流水線  64
4.4.1 用Flume進行日志采集  64
4.4.2 用Kafka將日志匯總  68
4.4.3 用Spark Streaming進行實時日志分析  70
4.4.4 Spark SQL離線日志分析  75
4.4.5 用Flask將日志KPI可視化  78
4.5 本章小結(jié)  81
第5章 基于云平臺和用戶日志的推薦系統(tǒng)  82
5.1 Azure云平臺簡介  82
5.1.1 Azure網(wǎng)站模型  83
5.1.2 Azure數(shù)據(jù)存儲  84
5.1.3 Azure Queue消息傳遞  84
5.2 系統(tǒng)架構(gòu)  85
5.3 構(gòu)建Node.js應(yīng)用  86
5.3.1 創(chuàng)建Azure Web應(yīng)用  87
5.3.2 構(gòu)建本地Node.js網(wǎng)站  90
5.3.3 發(fā)布應(yīng)用到云平臺  90
5.4 數(shù)據(jù)收集與預(yù)處理  91
5.4.1 通過JS收集用戶行為日志  92
5.4.2 用戶實時行為回傳到Azure Queue  94
5.5 Spark Streaming實時分析用戶日志  96
5.5.1 構(gòu)建Azure Queue的Spark Streaming Receiver  96
5.5.2 Spark Streaming實時處理Azure Queue日志  97
5.5.3 Spark Streaming數(shù)據(jù)存儲于Azure Table  98
5.6 MLlib離線訓(xùn)練模型  99
5.6.1 加載訓(xùn)練數(shù)據(jù)  99
5.6.2 使用rating RDD訓(xùn)練ALS模型  100
5.6.3 使用ALS模型進行電影推薦  101
5.6.4 評估模型的均方差  101
5.7 本章小結(jié)  102
第6章 Twitter情感分析  103
6.1 系統(tǒng)架構(gòu)  103
6.2 Twitter數(shù)據(jù)收集  104
6.2.1 設(shè)置  104
6.2.2 Spark Streaming接收并輸出Tweet  109
6.3 數(shù)據(jù)預(yù)處理與Cassandra存儲  111
6.3.1 添加SBT依賴  111
6.3.2 創(chuàng)建Cassandra Schema  112
6.3.3 數(shù)據(jù)存儲于Cassandra  112
6.4 Spark Streaming熱點Twitter分析  113
6.5 Spark Streaming在線情感分析  115
6.6 Spark SQL進行Twitter分析  118
6.6.1 讀取Cassandra數(shù)據(jù)  118
6.6.2 查看JSON數(shù)據(jù)模式  118
6.6.3 Spark SQL分析Twitter  119
6.7 Twitter可視化  123
6.8 本章小結(jié)  125
第7章 熱點新聞分析系統(tǒng)  126
7.1 新聞數(shù)據(jù)分析  126
7.2 系統(tǒng)架構(gòu)  126
7.3 爬蟲抓取網(wǎng)絡(luò)信息  127
7.3.1 Scrapy簡介  127
7.3.2 創(chuàng)建基于Scrapy的新聞爬蟲  128
7.3.3 爬蟲分布式化  133
7.4 新聞文本數(shù)據(jù)預(yù)處理  134
7.5 新聞聚類  135
7.5.1 數(shù)據(jù)轉(zhuǎn)換為向量(向量空間模型VSM)  135
7.5.2 新聞聚類  136
7.5.3 詞向量同義詞查詢  138
7.5.4 實時熱點新聞分析  138
7.6 Spark Elastic Search構(gòu)建全文檢索引擎  139
7.6.1 部署Elastic Search  139
7.6.2 用Elastic Search索引MongoDB數(shù)據(jù)  141
7.6.3 通過Elastic Search檢索數(shù)據(jù)  143
7.7 本章小結(jié)  145
第8章 構(gòu)建分布式的協(xié)同過濾推薦系統(tǒng)  146
8.1 推薦系統(tǒng)簡介  146
8.2 協(xié)同過濾介紹  147
8.2.1 基于用戶的協(xié)同過濾算法User-based CF  148
8.2.2 基于項目的協(xié)同過濾算法Item-based CF  149
8.2.3 基于模型的協(xié)同過濾推薦Model-based CF  150
8.3 基于Spark的矩陣運算實現(xiàn)協(xié)同過濾算法  152
8.3.1 Spark中的矩陣類型  152
8.3.2 Spark中的矩陣運算  153
8.3.3 實現(xiàn)User-based協(xié)同過濾的示例  153
8.3.4 實現(xiàn)Item-based協(xié)同過濾的示例  154
8.3.5 基于奇異值分解實現(xiàn)Model-based協(xié)同過濾的示例  155
8.4 基于Spark的MLlib實現(xiàn)協(xié)同過濾算法  155
8.4.1 MLlib的推薦算法工具  155
8.4.2 MLlib協(xié)同過濾推薦示例  156
8.5 案例:使用MLlib協(xié)同過濾實現(xiàn)電影推薦  157
8.5.1 MovieLens數(shù)據(jù)集  157
8.5.2 確定最佳的協(xié)同過濾模型參數(shù)  158
8.5.3 利用最佳模型進行電影推薦  160
8.6 本章小結(jié)  161
第9章 基于Spark的社交網(wǎng)絡(luò)分析  162
9.1 社交網(wǎng)絡(luò)介紹  162
9.1.1 社交網(wǎng)絡(luò)的類型  162
9.1.2 社交網(wǎng)絡(luò)的相關(guān)概念  163
9.2 社交網(wǎng)絡(luò)中社團挖掘算法  164
9.2.1 聚類分析和K均值算法簡介  165
9.2.2 社團挖掘的衡量指標  165
9.2.3 基于譜聚類的社團挖掘算法  166
9.3 Spark中的K均值算法  168
9.3.1 Spark中與K均值有關(guān)的對象和方法  168
9.3.2 Spark下K均值算法示例  168
9.4 案例:基于Spark的Facebook社團挖掘  169
9.4.1 SNAP社交網(wǎng)絡(luò)數(shù)據(jù)集介紹  169
9.4.2 基于Spark的社團挖掘?qū)崿F(xiàn)  170
9.5 社交網(wǎng)絡(luò)中的鏈路預(yù)測算法  172
9.5.1 分類學習簡介  172
9.5.2 分類器的評價指標  173
9.5.3 基于Logistic回歸的鏈路預(yù)測算法  174
9.6 Spark MLlib中的Logistic回歸  174
9.6.1 分類器相關(guān)對象  174
9.6.2 模型驗證對象  175
9.6.3 基于Spark的Logistic回歸示例  175
9.7 案例:基于Spark的鏈路預(yù)測算法  177
9.7.1 SNAP符號社交網(wǎng)絡(luò)Epinions數(shù)據(jù)集  177
9.7.2 基于Spark的鏈路預(yù)測算法  177
9.8 本章小結(jié)  179
第10章 基于Spark的大規(guī)模新聞主題分析  180
10.1 主題模型簡介  180
10.2 主題模型LDA  181
10.2.1 LDA模型介紹  181
10.2.2 LDA的訓(xùn)練算法  183
10.3 Spark中的LDA模型  185
10.3.1 MLlib對LDA的支持  185
10.3.2 Spark中LDA模型訓(xùn)練示例  186
10.4 案例:Newsgroups新聞的主題分析  189
10.4.1 Newsgroups數(shù)據(jù)集介紹  190
10.4.2 交叉驗證估計新聞的主題個數(shù)  190
10.4.3 基于主題模型的文本聚類算法  193
10.4.4 基于主題模型的文本分類算法  195
10.5 本章小結(jié)  196
第11章 構(gòu)建分布式的搜索引擎  197
11.1 搜索引擎簡介  197
11.2 搜索排序概述  198
11.3 查詢無關(guān)模型PageRank  199
11.4 基于Spark的分布式PageRank實現(xiàn)  200
11.4.1 PageRank的MapReduce實現(xiàn)  200
11.4.2 Spark的分布式圖模型GraphX  203
11.4.3 基于GraphX的PageRank實現(xiàn)  203
11.5 案例:GoogleWeb Graph的PageRank計算  204
11.6 查詢相關(guān)模型Ranking SVM  206
11.7 Spark中支持向量機的實現(xiàn)  208
11.7.1 Spark中的支持向量機模型  208
11.7.2 使用Spark測試數(shù)據(jù)演示支持向量機的訓(xùn)練  209
11.8 案例:基于MSLR數(shù)據(jù)集的查詢排序  211
11.8.1 Microsoft Learning to Rank數(shù)據(jù)集介紹  211
11.8.2 基于Spark的Ranking SVM實現(xiàn)  212
11.9 本章小結(jié)  213

熱門推薦文章
相關(guān)優(yōu)評榜
品類齊全,輕松購物 多倉直發(fā),極速配送 正品行貨,精致服務(wù) 天天低價,暢選無憂
購物指南
購物流程
會員介紹
生活旅行/團購
常見問題
大家電
聯(lián)系客服
配送方式
上門自提
211限時達
配送服務(wù)查詢
配送費收取標準
海外配送
支付方式
貨到付款
在線支付
分期付款
郵局匯款
公司轉(zhuǎn)賬
售后服務(wù)
售后政策
價格保護
退款說明
返修/退換貨
取消訂單
特色服務(wù)
奪寶島
DIY裝機
延保服務(wù)
京東E卡
京東通信
京東JD+