數(shù)據(jù)交易導(dǎo)航網(wǎng)是一個數(shù)據(jù)要素市場相關(guān)的數(shù)據(jù)交易、數(shù)據(jù)管理、數(shù)據(jù)服務(wù)等數(shù)商企業(yè)商業(yè)生態(tài)導(dǎo)航平臺。
數(shù)據(jù)產(chǎn)品
——? PRODUCTS CENTER? ——
本書按照需求規(guī)劃、需求實現(xiàn)、需求可視化的流程進(jìn)行編排,遵循項目開發(fā)的實際流程,全面介紹了數(shù)據(jù)倉庫的搭建過程。在整個數(shù)據(jù)倉庫的搭建過程中,本書介紹了主要組件的安裝部署過程、需求實現(xiàn)的具體思路、部分問題的解決方案等,并在其中穿插了許多與大數(shù)據(jù)和數(shù)據(jù)倉庫相關(guān)的理論知識,包括大數(shù)據(jù)概論、數(shù)據(jù)倉庫概論、電商業(yè)務(wù)概述、數(shù)據(jù)倉庫理論準(zhǔn)備、數(shù)據(jù)倉庫建模等。
本書從邏輯上可以分為三部分:一是大數(shù)據(jù)與數(shù)據(jù)倉庫概論及項目需求描述,主要介紹了數(shù)據(jù)倉庫的概念、應(yīng)用場景和搭建需求;二是項目部署的環(huán)境準(zhǔn)備,介紹了如何從零開始搭建一個完整的數(shù)據(jù)倉庫環(huán)境;三是需求模塊實現(xiàn),針對不同需求分模塊進(jìn)行實現(xiàn),是本書的重點(diǎn)部分。
本書適合具有一定的編程基礎(chǔ)并對大數(shù)據(jù)感興趣的讀者閱讀。通過閱讀本書,讀者可以快速了解數(shù)據(jù)倉庫,全面掌握數(shù)據(jù)倉庫的相關(guān)技術(shù)。
尚硅谷IT教育是一家專業(yè)的IT教育培訓(xùn)機(jī)構(gòu),開設(shè)了JavaEE、大數(shù)據(jù)、HTML5前端等多門學(xué)科,在互聯(lián)網(wǎng)上發(fā)布的JavaEE、大數(shù)據(jù)、HTML5前端、區(qū)塊鏈、C語言、Python等技術(shù)視頻教程廣受贊譽(yù)。
第1章 大數(shù)據(jù)與數(shù)據(jù)倉庫概論 1
1.1 大數(shù)據(jù)概論 1
1.1.1 什么是大數(shù)據(jù) 1
1.1.2 大數(shù)據(jù)生態(tài)圈簡介 2
1.1.3 大數(shù)據(jù)應(yīng)用場景 3
1.2 數(shù)據(jù)倉庫概論 4
1.2.1 什么是數(shù)據(jù)倉庫 4
1.2.2 數(shù)據(jù)倉庫能干什么 4
1.2.3 數(shù)據(jù)倉庫的特點(diǎn) 5
1.3 學(xué)前導(dǎo)讀 6
1.3.1 學(xué)習(xí)的基礎(chǔ)要求 6
1.3.2 你將學(xué)到什么 7
1.4 本章總結(jié) 7
第2章 項目需求描述 8
2.1 任務(wù)概述 8
2.1.1 產(chǎn)品描述 9
2.1.2 系統(tǒng)目標(biāo) 9
2.1.3 系統(tǒng)功能結(jié)構(gòu) 9
2.1.4 系統(tǒng)流程圖 10
2.2 業(yè)務(wù)描述 10
2.2.1 采集模塊業(yè)務(wù)描述 10
2.2.2 數(shù)據(jù)倉庫需求業(yè)務(wù)描述 16
2.2.3 數(shù)據(jù)可視化業(yè)務(wù)描述 17
2.3 系統(tǒng)運(yùn)行環(huán)境 17
2.3.1 硬件環(huán)境 17
2.3.2 軟件環(huán)境 18
2.4 本章總結(jié) 20
第3章 項目部署的環(huán)境準(zhǔn)備 21
3.1 Linux環(huán)境準(zhǔn)備 21
3.1.1 VMware安裝 21
3.1.2 CentOS安裝 21
3.1.3 遠(yuǎn)程終端安裝 31
3.2 Linux環(huán)境配置 34
3.2.1 網(wǎng)絡(luò)配置 34
3.2.2 網(wǎng)絡(luò)IP地址配置 35
3.2.3 主機(jī)名配置 36
3.2.4 防火墻配置 37
3.2.5 一般用戶設(shè)置 38
3.3 Hadoop環(huán)境搭建 38
3.3.1 虛擬機(jī)環(huán)境準(zhǔn)備 39
3.3.2 JDK安裝 45
3.3.3 Hadoop安裝 46
3.3.4 Hadoop分布式集群部署 47
3.3.5 配置Hadoop支持LZO壓縮 52
3.3.6 配置Hadoop支持Snappy壓縮 53
3.4 本章總結(jié) 54
第4章 用戶行為數(shù)據(jù)采集模塊 55
4.1 日志生成 55
4.2 采集日志的Flume 57
4.2.1 Flume組件 58
4.2.2 Flume安裝 58
4.2.3 采集日志Flume配置 59
4.2.4 Flume的ETL攔截器和日志類型區(qū)分?jǐn)r截器 61
4.2.5 采集日志Flume啟動、停止腳本 67
4.3 消息隊列Kafka 68
4.3.1 Zookeeper安裝 68
4.3.2 Zookeeper集群啟動、停止腳本 70
4.3.3 Kafka安裝 71
4.3.4 Kafka集群啟動、停止腳本 73
4.3.5 Kafka Topic相關(guān)操作 74
4.4 消費(fèi)Kafka日志的Flume 75
4.4.1 消費(fèi)日志Flume配置 75
4.4.2 消費(fèi)日志Flume啟動、停止腳本 78
4.5 采集通道啟動、停止腳本 79
4.6 本章總結(jié) 80
第5章 業(yè)務(wù)數(shù)據(jù)采集模塊 81
5.1 電商業(yè)務(wù)概述 81
5.1.1 電商業(yè)務(wù)流程 81
5.1.2 電商常識 82
5.1.3 電商表結(jié)構(gòu) 82
5.1.4 數(shù)據(jù)同步策略 89
5.2 業(yè)務(wù)數(shù)據(jù)采集 90
5.2.1 MySQL安裝 90
5.2.2 業(yè)務(wù)數(shù)據(jù)生成 92
5.2.3 業(yè)務(wù)數(shù)據(jù)建模 94
5.2.4 Sqoop安裝 96
5.2.5 業(yè)務(wù)數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫 97
5.3 本章總結(jié) 109
第6章 數(shù)據(jù)倉庫搭建模塊 110
6.1 數(shù)據(jù)倉庫理論準(zhǔn)備 110
6.1.1 范式理論 110
6.1.2 關(guān)系模型與維度模型 113
6.1.3 星形模型、雪花模型與星座模型 114
6.1.4 表的分類 116
6.1.5 為什么要分層 117
6.1.6 數(shù)據(jù)倉庫建模 118
6.1.7 業(yè)務(wù)術(shù)語 121
6.2 數(shù)據(jù)倉庫搭建環(huán)境準(zhǔn)備 123
6.2.1 MySQL HA 123
6.2.2 Hive安裝 130
6.2.3 Tez引擎安裝 134
6.3 數(shù)據(jù)倉庫搭建——ODS層 138
6.3.1 創(chuàng)建數(shù)據(jù)庫 138
6.3.2 用戶行為數(shù)據(jù) 138
6.3.3 ODS層用戶行為數(shù)據(jù)導(dǎo)入腳本 141
6.3.4 業(yè)務(wù)數(shù)據(jù) 142
6.3.5 ODS層業(yè)務(wù)數(shù)據(jù)導(dǎo)入腳本 151
6.4 數(shù)據(jù)倉庫搭建——DWD層 154
6.4.1 用戶行為啟動日志表解析 154
6.4.2 用戶行為事件表拆分 157
6.4.3 用戶行為事件表解析 167
6.4.4 業(yè)務(wù)數(shù)據(jù)維度表解析 189
6.4.5 業(yè)務(wù)數(shù)據(jù)事實表解析 195
6.4.6 拉鏈表構(gòu)建之用戶維度表 209
6.4.7 DWD層數(shù)據(jù)導(dǎo)入腳本 214
6.5 數(shù)據(jù)倉庫搭建——DWS層 223
6.5.1 系統(tǒng)函數(shù) 223
6.5.2 用戶行為數(shù)據(jù)聚合 224
6.5.3 業(yè)務(wù)數(shù)據(jù)聚合 226
6.5.4 DWS層數(shù)據(jù)導(dǎo)入腳本 237
6.6 數(shù)據(jù)倉庫搭建——DWT層 246
6.6.1 設(shè)備主題寬表 247
6.6.2 會員主題寬表 249
6.6.3 商品主題寬表 251
6.6.4 優(yōu)惠券主題寬表 254
6.6.5 活動主題寬表 256
6.6.6 DWT層數(shù)據(jù)導(dǎo)入腳本 258
6.7 數(shù)據(jù)倉庫搭建——ADS層 264
6.7.1 設(shè)備主題 264
6.7.2 會員主題 272
6.7.3 商品主題 275
6.7.4 營銷主題 279
6.7.5 ADS層數(shù)據(jù)導(dǎo)入腳本 283
6.8 結(jié)果數(shù)據(jù)導(dǎo)出腳本 291
6.9 會員主題指標(biāo)獲取的全調(diào)度流程 293
6.9.1 Azkaban安裝 293
6.9.2 創(chuàng)建可視化的MySQL數(shù)據(jù)庫和表 300
6.9.3 編寫指標(biāo)獲取調(diào)度流程 301
6.10 本章總結(jié) 306
第7章 數(shù)據(jù)可視化模塊 307
7.1 模擬可視化數(shù)據(jù) 307
7.1.1 會員主題 307
7.1.2 地區(qū)主題 308
7.2 Superset部署 310
7.2.1 環(huán)境準(zhǔn)備 310
7.2.2 Superset安裝 312
7.3 Superset使用 314
7.3.1 對接MySQL數(shù)據(jù)源 314
7.3.2 制作儀表盤 317
7.4 本章總結(jié) 322
第8章 即席查詢模塊 323
8.1 Presto 323
8.1.1 Presto特點(diǎn) 323
8.1.2 Presto安裝 324
8.1.3 Presto優(yōu)化之?dāng)?shù)據(jù)存儲 328
8.1.4 Presto優(yōu)化之查詢SQL 329
8.1.5 Presto注意事項 330
8.2 Druid 330
8.2.1 Druid簡介 330
8.2.2 Druid框架原理 331
8.2.3 Druid數(shù)據(jù)結(jié)構(gòu) 332
8.2.4 Druid安裝(單機(jī)版) 333
8.3 Kylin 338
8.3.1 Kylin簡介 338
8.3.2 HBase安裝 339
8.3.3 Kylin安裝 341
8.3.4 Kylin使用 343
8.3.5 Kylin Cube構(gòu)建原理 353
8.3.6 Kylin Cube構(gòu)建優(yōu)化 356
8.3.7 Kylin BI工具集成 360
8.4 即席查詢框架對比 367
8.5 本章總結(jié) 368
第9章 元數(shù)據(jù)管理模塊 369
9.1 Atlas入門 369
9.1.1 Atlas概述 369
9.1.2 Atlas架構(gòu)原理 370
9.2 Atlas安裝及使用 371
9.2.1 安裝前環(huán)境準(zhǔn)備 371
9.2.2 集成外部框架 373
9.2.3 集群啟動 377
9.2.4 導(dǎo)入Hive元數(shù)據(jù)到Atlas 377
9.3 Atlas界面查看及使用 378
9.3.1 查看基本信息 378
9.3.2 查看血緣依賴關(guān)系 381
9.4 本章總結(jié) 386
相關(guān)推薦
在線咨詢