課程亮點(diǎn)
師資:*講師團隊,豐富行業(yè)經(jīng)驗和企業(yè)培訓經(jīng)驗
特色:小班培訓,精品課程,面授+直播+錄播,上課方式多樣
培訓:免費重聽(tīng)
適用對象
不限
課程內容
*天
主題1:大數據平臺方案與應用
傳統大規模數據處理與分析存在的問(wèn)題
大數據計算框架
離線(xiàn)計算框架
流式計算框架
內存計算框架
大數據分析平臺方案
CDH 、Hortonworks、MapR
傳統IT公司方案:Oracle Exadata,SAP HANA
核心組件
Hadoop 1.0與2.0版本關(guān)聯(lián)與區別
Hadoop生態(tài)系統
Apache Hadoop方案
國外主流大數據平臺方案
國內主流大數據平臺方案與廠(chǎng)商
大數據平臺方案比較
主題2:大數據存儲系統
HDFS分布式文件系統
NameNode單點(diǎn)故障解決方案
block的備份策略
fsimage和editslog
HDFS系統架構與原理
NameNode功能詳解
DataNode功能詳解
HDFS讀寫(xiě)機制
HDFS高可用方案
主題3:大數據分析技術(shù)(一)–MapReduce計算框架
MapReduce編程模型
Map處理
Reduce處理
MapReduce處理流程
MapReduce開(kāi)發(fā)高級應用
Combiner技術(shù)
Partitioner技術(shù)
多Reducers應用
主題4:SQL on Hadoop大數據分析查詢(xún)
基于MapReduce的大數據查詢(xún)Hive
列存儲和行存儲
Hive架構與工作原理
Hive數據加載
Hive內部表和外部表
Hive分區表和分桶表
Hive的存儲方式
Hive SQL基本操作
第二天
主題5:大數據分析技術(shù)(二)– Spark
Spark編程模型
Scala:面向函數的編程
Scala常見(jiàn)函數
Spark編譯與運行
Spark RDD開(kāi)發(fā)模型
Cache操作
Persist操作與存儲級別
寬依賴(lài)
窄依賴(lài)
count
collect
reduce
saveAsTextFile
map
flatmap
filter
reduceByKey
分區與并行度
Spark RDD運行機制
Spark RDD主要Transformation
Spark RDD主要Action
Spark RDD依賴(lài)關(guān)系
Spark緩存機制
Spark集群架構與運行模式
本地模式
獨立模式
YARN模式與Mesos模式
Spark作業(yè)運行機制
執行DAG圖
任務(wù)集
executor執行模型
BlockManager管理
Spark開(kāi)發(fā)與應用實(shí)戰
基于Spark的業(yè)務(wù)日志TopN分析