課程亮點(diǎn)
以課堂講解、演示、案例分析為主,輔以互動(dòng)研討、現場(chǎng)答疑、學(xué)以致用。
適用對象
不限
學(xué)習目標
了解大數據業(yè)內*新發(fā)展趨勢,深入掌握Hadoop的原理,Hadoop生態(tài)系統
課程內容
大數據背景與思維
1. 什么是大數據
2. 大數據技術(shù)的產(chǎn)生背景
3. 大數據應用場(chǎng)景
4. 大數據思維
5. 大數據產(chǎn)業(yè)鏈
6. 大數據是如何變革各行業(yè)的技術(shù)架構、商業(yè)模式和組織方式
7. 大數據必備的技術(shù)基礎
*天
Hadoop 2.0
大數據基礎理論介紹
Master/Slave結構
消息機制
RPC原理
Hadoop 1.0 存在的問(wèn)題及現有的解決方案
Hadoop 2.0 各廠(chǎng)商版本對比
Cloudera
Hontorworks
華為等
Apache Hadoop 大數據平臺全流程解決方案
Cloudera Hadoop 大數據平臺全流程解決方案
HDP Hadoop 大數據平臺解決方案
Hadoop 2.0 項目結構解析
Hadoop工作原理及架構
第二天
Hadoop集群運維高階實(shí)踐-案例與實(shí)驗
運行節點(diǎn)的監控
失敗節點(diǎn)的恢復
新節點(diǎn)的添加
Master節點(diǎn)的HA解決方案
失敗任務(wù)的恢復
損壞數據的恢復
第三天
Hive架構及實(shí)踐案例沙盤(pán)演練
Hive系統部署與搭建
Hive工作機制
基于Hive的大數據加載過(guò)程
Hive程序編寫(xiě)性能建議
MapJoin
數據傾斜
Join順序
UDF編寫(xiě)注意事項
快速獲取結果TopN
通過(guò)Explain觀(guān)察Hive行為
動(dòng)手實(shí)驗:完成Hive的搭建與配置
典型案例分析:基于Hive的大型電信通話(huà)記錄分析示例,詳細分析Hive的架構應用、性能調優(yōu)及其使用場(chǎng)景與整體系統架構的結合
第四天
Spark架構及實(shí)踐
案例沙盤(pán)演練
1.2 Spark的重要擴展
1.2.1 Spark SQL和Dataframe
1.2.2 Spark Streaming
1.2.3 Spark MLlib和ML
1.2.4 GraphX
1.2.5 SparkR
2.3 運行Spark應用程序
2.3.1 Local模式運行Spark應用程序
2.3.2 Standalone模式運行Spark應用程序
2.3.3 YARN模式運行Spark
2.3.4 應用程序提交和參數傳遞
3 Spark程序開(kāi)發(fā)
3.1 使用Spark Shell編寫(xiě)程序
3.1.1 啟動(dòng)Spark Shell
3.1.2 加載text文件
3.1.3 簡(jiǎn)單RDD操作
3.1.4 簡(jiǎn)單RDD操作應用
3.1.5 RDD緩存
3.2 構建Spark的開(kāi)發(fā)環(huán)境
3.2.1 準備環(huán)境
3.2.2 構建Spark的Eclipse開(kāi)發(fā)環(huán)境
3.2.3 構建Spark的IntelliJ IDEA開(kāi)發(fā)環(huán)境
3.3 獨立應用程序編程
3.3.1 創(chuàng )建SparkContext對象
3.3.2 編寫(xiě)簡(jiǎn)單應用程序
3.3.3 編譯并提交應用程序
案例實(shí)戰:一個(gè)用戶(hù)畫(huà)像的Spark分析實(shí)例, 演練使用Spark進(jìn)行經(jīng)典用戶(hù)畫(huà)像分析的實(shí)例
第五天
Spark Streaming應用開(kāi)發(fā)
Spark Streaming Java實(shí)例開(kāi)發(fā)、運行
Spark Streaming Java實(shí)例的運行過(guò)程分析
Spark Streaming內部數據傳輸過(guò)程分析
Spark Streaming應用開(kāi)發(fā)總結(API回顧,典型應用模式總結)
Spark Streaming消息可靠性保證機制介紹
Spark Streaming實(shí)時(shí)大數據算法解析案例
Spark Streaming實(shí)時(shí)大數據報警案例
Spark Streaming實(shí)時(shí)大數據的調整與改進(jìn)