數(shù)據(jù)交易導(dǎo)航網(wǎng)是一個(gè)數(shù)據(jù)要素市場(chǎng)相關(guān)的數(shù)據(jù)交易、數(shù)據(jù)管理、數(shù)據(jù)服務(wù)等數(shù)商企業(yè)商業(yè)生態(tài)導(dǎo)航平臺(tái)。
數(shù)據(jù)產(chǎn)品
——? PRODUCTS CENTER? ——
本書從架構(gòu)、業(yè)務(wù)、技術(shù)三個(gè)維度深入淺出地介紹了大數(shù)據(jù)處理領(lǐng)域端到端的知識(shí)。主要內(nèi)容包括三部分:*部分從數(shù)據(jù)的產(chǎn)生、采集、計(jì)算、存儲(chǔ)、消費(fèi)端到端的角度介紹大數(shù)據(jù)技術(shù)的起源、發(fā)展、關(guān)鍵技術(shù)點(diǎn)和未來趨勢(shì),結(jié)合生動(dòng)的業(yè)界*產(chǎn)品,以及學(xué)術(shù)界*的研究方向和成果,讓深?yuàn)W的技術(shù)淺顯易懂;第二部分從業(yè)務(wù)和技術(shù)角度介紹實(shí)際案例,讓讀者理解大數(shù)據(jù)的用途及技術(shù)的本質(zhì);第三部分介紹大數(shù)據(jù)技術(shù)不是孤立的,講解如何與前沿的云技術(shù)、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等相結(jié)合。
朱潔,2008年加入華為,具有8年大數(shù)據(jù)研發(fā)管理經(jīng)驗(yàn),現(xiàn)任華為大數(shù)據(jù)服務(wù)首席規(guī)劃師。專注于大數(shù)據(jù)服務(wù)平臺(tái)建設(shè)、規(guī)劃和實(shí)踐應(yīng)用,同時(shí)參與多項(xiàng)企業(yè)級(jí)大數(shù)據(jù)項(xiàng)目解決方案的規(guī)劃、設(shè)計(jì)和實(shí)施工作,在深化大數(shù)據(jù)行業(yè)落地方面有諸多實(shí)踐經(jīng)驗(yàn),對(duì)解讀大數(shù)據(jù)垂直行業(yè)的技術(shù)創(chuàng)新與開發(fā)有諸多獨(dú)到的見解和心得。
目 錄
部分 大數(shù)據(jù)的本質(zhì)
第1章 大數(shù)據(jù)是什么 2
1.1 大數(shù)據(jù)導(dǎo)論 2
1.1.1 大數(shù)據(jù)簡史 2
1.1.2 大數(shù)據(jù)現(xiàn)狀 3
1.1.3 大數(shù)據(jù)與BI 3
1.2 企業(yè)數(shù)據(jù)資產(chǎn) 4
1.3 大數(shù)據(jù)挑戰(zhàn) 5
1.3.1 成本挑戰(zhàn) 6
1.3.2 實(shí)時(shí)性挑戰(zhàn) 6
1.3.3 安全挑戰(zhàn) 6
1.4 小結(jié) 6
第2章 運(yùn)營商大數(shù)據(jù)架構(gòu) 7
2.1 架構(gòu)驅(qū)動(dòng)的因素 7
2.2 大數(shù)據(jù)平臺(tái)架構(gòu) 7
2.3 平臺(tái)發(fā)展趨勢(shì) 8
2.4 小結(jié) 8
第3章 運(yùn)營商大數(shù)據(jù)業(yè)務(wù) 9
3.1 運(yùn)營商常見的大數(shù)據(jù)業(yè)務(wù) 9
3.1.1 SQM(運(yùn)維質(zhì)量管理) 9
3.1.2 CSE(客戶體驗(yàn)提升) 9
3.1.3 MSS(市場(chǎng)運(yùn)維支撐) 10
3.1.4 DMP(數(shù)據(jù)管理平臺(tái)) 10
3.2 小結(jié) 11
第二部分 大數(shù)據(jù)技術(shù)
第4章 數(shù)據(jù)獲取 14
4.1 數(shù)據(jù)分類 14
4.2 數(shù)據(jù)獲取組件 14
4.3 探針 15
4.3.1 探針原理 15
4.3.2 探針的關(guān)鍵能力 16
4.4 網(wǎng)頁采集 26
4.4.1 網(wǎng)絡(luò)爬蟲 26
4.4.2 簡單爬蟲Python代碼示例 32
4.5 日志收集 33
4.5.1 Flume 33
4.5.2 其他日志收集組件 47
4.6 數(shù)據(jù)分發(fā)中間件 47
4.6.1 數(shù)據(jù)分發(fā)中間件的作用 47
4.6.2 Kafka架構(gòu)和原理 47
4.7 小結(jié) 82
第5章 流處理 83
5.1 算子 83
5.2 流的概念 83
5.3 流的應(yīng)用場(chǎng)景 84
5.3.1 金融領(lǐng)域 84
5.3.2 電信領(lǐng)域 85
5.4 業(yè)界兩種典型的流引擎 85
5.4.1 Storm 85
5.4.2 Spark Streaming 89
5.4.3 融合框架 102
5.5 CEP 108
5.5.1 CEP是什么 108
5.5.2 CEP的架構(gòu) 109
5.5.3 Esper 110
5.6 實(shí)時(shí)結(jié)合機(jī)器學(xué)習(xí) 110
5.6.1 Eagle的特點(diǎn) 111
5.6.2 Eagle概覽 111
5.7 小結(jié) 116
第6章 交互式分析 117
6.1 交互式分析的概念 117
6.2 MPP DB技術(shù) 118
6.2.1 MPP的概念 118
6.2.2 典型的MPP數(shù)據(jù)庫 121
6.2.3 MPP DB調(diào)優(yōu)實(shí)戰(zhàn) 131
6.2.4 MPP DB適用場(chǎng)景 162
6.3 SQL on Hadoop 163
6.3.1 Hive 163
6.3.2 Phoenix 165
6.3.3 Impala 166
6.4 大數(shù)據(jù)倉庫 167
6.4.1 數(shù)據(jù)倉庫的概念 167
6.4.2 OLTP/OLAP對(duì)比 168
6.4.3 大數(shù)據(jù)場(chǎng)景下的同與不同 168
6.4.4 查詢引擎 169
6.4.5 存儲(chǔ)引擎 170
6.5 小結(jié) 171
第7章 批處理技術(shù) 172
7.1 批處理技術(shù)的概念 172
7.2 MPP DB技術(shù) 172
7.3 MapReduce編程框架 173
7.3.1 MapReduce起源 173
7.3.2 MapReduce原理 173
7.3.3 Shuffle 174
7.3.4 性能差的主要原因 177
7.4 Spark架構(gòu)和原理 177
7.4.1 Spark的起源和特點(diǎn) 177
7.4.2 Spark的核心概念 178
7.5 BSP框架 217
7.5.1 什么是BSP模型 217
7.5.2 并行模型介紹 218
7.5.3 BSP模型基本原理 220
7.5.4 BSP模型的特點(diǎn) 222
7.5.5 BSP模型的評(píng)價(jià) 222
7.5.6 BSP與MapReduce對(duì)比 222
7.5.7 BSP模型的實(shí)現(xiàn) 223
7.5.8 Apache Hama簡介 223
7.6 批處理關(guān)鍵技術(shù) 227
7.6.1 CodeGen 227
7.6.2 CPU親和技術(shù) 228
7.7 小結(jié) 229
第8章 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘 230
8.1 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的聯(lián)系與區(qū)別 230
8.2 典型的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)過程 231
8.3 機(jī)器學(xué)習(xí)概覽 232
8.3.1 學(xué)習(xí)方式 232
8.3.2 算法類似性 233
8.4 機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘應(yīng)用案例 235
8.4.1 尿布和啤酒的故事 235
8.4.2 決策樹用于電信領(lǐng)域故障快速定位 236
8.4.3 圖像識(shí)別領(lǐng)域 236
8.4.4 自然語言識(shí)別 238
8.5 交互式分析 239
8.6 深度學(xué)習(xí) 240
8.6.1 深度學(xué)習(xí)概述 240
8.6.2 機(jī)器學(xué)習(xí)的背景 241
8.6.3 人腦視覺機(jī)理 242
8.6.4 關(guān)于特征 244
8.6.5 需要有多少個(gè)特征 245
8.6.6 深度學(xué)習(xí)的基本思想 246
8.6.7 淺層學(xué)習(xí)和深度學(xué)習(xí) 246
8.6.8 深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò) 247
8.6.9 深度學(xué)習(xí)的訓(xùn)練過程 248
8.6.10 深度學(xué)習(xí)的框架 248
8.6.11 深度學(xué)習(xí)與GPU 255
8.6.12 深度學(xué)習(xí)小結(jié)與展望 256
8.7 小結(jié) 257
第9章 資源管理 258
9.1 資源管理的基本概念 258
9.1.1 資源調(diào)度的目標(biāo)和價(jià)值 258
9.1.2 資源調(diào)度的使用限制及難點(diǎn) 258
9.2 Hadoop領(lǐng)域的資源調(diào)度框架 259
9.2.1 YARN 259
9.2.2 Borg 260
9.2.3 Omega 262
9.2.4 本節(jié)小結(jié) 263
9.3 資源分配算法 263
9.3.1 算法的作用 263
9.3.2 幾種調(diào)度算法分析 263
9.4 數(shù)據(jù)中心統(tǒng)一資源調(diào)度 271
9.4.1 Mesos Marathon架構(gòu)和原理 271
9.4.2 Mesos Marathon小結(jié) 283
9.5 多租戶技術(shù) 284
9.5.1 多租戶概念 284
9.5.2 多租戶方案 284
9.6 基于應(yīng)用描述的智能調(diào)度 287
9.7 Apache Mesos架構(gòu)和原理 288
9.7.1 Apache Mesos背景 288
9.7.2 Apache Mesos總體架構(gòu) 288
9.7.3 Apache Mesos工作原理 290
9.7.4 Apache Mesos關(guān)鍵技術(shù) 295
9.7.5 Mesos與YARN比較 304
9.8 小結(jié) 305
第10章 存儲(chǔ)是基礎(chǔ) 306
10.1 分久必合,合久必分 306
10.2 存儲(chǔ)硬件的發(fā)展 306
10.2.1 機(jī)械硬盤的工作原理 306
10.2.2 SSD的原理 307
10.2.3 3DXPoint 309
10.2.4 硬件發(fā)展小結(jié) 309
10.3 存儲(chǔ)關(guān)鍵指標(biāo) 309
10.4 RAID技術(shù) 309
10.5 存儲(chǔ)接口 310
10.5.1 文件接口 311
10.5.2 裸設(shè)備 311
10.5.3 對(duì)象接口 312
10.5.4 塊接口 316
10.5.5 融合是趨勢(shì) 328
10.6 存儲(chǔ)加速技術(shù) 328
10.6.1 數(shù)據(jù)組織技術(shù) 328
10.6.2 緩存技術(shù) 335
10.7 小結(jié) 336
第11章 大數(shù)據(jù)云化 337
11.1 云計(jì)算定義 337
11.2 應(yīng)用上云 337
11.2.1 Cloud Native概念 338
11.2.2 微服務(wù)架構(gòu) 338
11.2.3 Docker配合微服務(wù)架構(gòu) 342
11.2.4 應(yīng)用上云小結(jié) 348
11.3 大數(shù)據(jù)上云 348
11.3.1 大數(shù)據(jù)云服務(wù)的兩種模式 348
11.3.2 集群模式AWSEMR 349
11.3.3 服務(wù)模式Azure Data Lake Analytics 352
11.4 小結(jié) 354
第三部分 大數(shù)據(jù)文化
第12章 大數(shù)據(jù)技術(shù)開發(fā)文化 356
12.1 開源文化 356
12.2 DevOps理念 356
12.2.1 Development和Operations的組合 357
12.2.2 對(duì)應(yīng)用程序發(fā)布的影響 357
12.2.3 遇到的問題 358
12.2.4 協(xié)調(diào)人 358
12.2.5 成功的關(guān)鍵 359
12.3 速度遠(yuǎn)比你想的重要 359
12.4 小結(jié) 361
相關(guān)推薦
在線咨詢