了解Hadoop就像是在打開(kāi)大數據這扇門(mén)。首先它本身是一個(gè)分布式計算架構,更重要的是它是一個(gè)可擴展的生態(tài)系統,像IBM,EMC,Amazon,微軟,甲骨文等大型IT公司都已經(jīng)有了基于Hadoop的商業(yè)化大數據產(chǎn)品。雖然現在還有比Hadoop更為先進(jìn)的分布式架構(Dremel,DataFlow等),但也都是基于Hadoop的改進(jìn)升級,因此也說(shuō)Hadoop是大數據的基礎,基礎的穩固決定了未來(lái)能走多遠!!以下是小編為你整理的大數據主要學(xué)哪些內容 ?
Hadoop是什么 ?
Hadoop是一個(gè)大家族,是一個(gè)開(kāi)源的生態(tài)系統,是一個(gè)分布式運行系統,是基于Java編程語(yǔ)言的架構。不過(guò)它*明的技術(shù)還是HDFS和MapReduce,使得它可以分布式處理海量數據。 ?
HDFS(分布式文件系統): ?
它與現存的文件系統不同的特性有很多,比如高度容錯(即使中途出錯,也能繼續運行),支持多媒體數據和流媒體數據訪(fǎng)問(wèn),高效率訪(fǎng)問(wèn)大型數據集合,數據保持嚴謹一致,部署成本降低,部署效率提交等,如圖是HDFS的基礎架構
MapReduce(并行計算架構): ?
它可以將計算任務(wù)拆分成大量可以獨立運行的子任務(wù),接著(zhù)并行運算,另外會(huì )有一個(gè)系統調度的架構負責收集和匯總每個(gè)子任務(wù)的分析結果。其中 包含映射算法與規約算法。 ?
Cetas項目關(guān)注點(diǎn) ?
在線(xiàn)應用分析: ?
及時(shí)乃至實(shí)時(shí)的決策提供了投資的成功可能性!隨著(zhù)各式各樣應用產(chǎn)生不規則的數據產(chǎn)生,這些數據到底想告訴你我什么呢?我們相信大數據將提供一個(gè)遠見(jiàn),一個(gè)對客戶(hù)的洞察。那就沒(méi)有理由去懷疑,基于用戶(hù)的產(chǎn)品和服務(wù)會(huì )成功!Cetas提供了一個(gè)易于管理,自助服務(wù)的虛擬環(huán)境,支持企業(yè)自定義創(chuàng )建多種應用。這里提供了多維度的行為分析和大量高級的分析算法。 ?
IT運營(yíng)分析: ?
除了提供在線(xiàn)應用實(shí)時(shí)的高級分析之外,還能分析IT運營(yíng)管理,提供企業(yè)的管理運營(yíng)能力。這為企業(yè)提供了對企業(yè)IT運營(yíng)效果的面面觀(guān)。 ?
企業(yè)Hadoop分析: ?
為企業(yè)或個(gè)人提供可擴展,高性能的Hadoop自助分析平臺,也提供了可視化的數據發(fā)現功能,并且嵌入了大量先進(jìn)的機器學(xué)習算法,這些都促進(jìn)研究和深度挖掘大數據所隱藏的內容。甚至如果你有建模的需要,這個(gè)平臺也能滿(mǎn)足你!! ?
從虛擬化的基礎上創(chuàng )建起的這三項服務(wù),分別面向私人,公共,甚至是公私混合。從而Cetas使得大數據分析更加輕量化,這也是VMware公司收購Cetas之后加大投入的方向。 ?
如今Cetas加入VMware的大家族,未來(lái)將被賦予更重要的角色和作用。這方面也讓我們拭目以待VMware這架虛擬化馬車(chē)駛出的大數據分析之路。 ?
Hadoop起源 ?
Hadoop有個(gè)背景,就是起源于A(yíng)pache Lucene項目中的一個(gè)搜索引擎Nutch。Lucene目前是世界上*,并且開(kāi)源的搜索引擎框架和產(chǎn)品。Lucene本身就有非常多好的大數據經(jīng)驗和思路。這為Hadoop預備了巨大能量,使得Hadoop注定是一個(gè)偉大的產(chǎn)品。 ?
Hadoop命名:
?
其實(shí)是一個(gè)孩子給棕黃色大象的命名。Hadoop圖標在本系列中也隨處可見(jiàn)。Google也是一個(gè)這樣的例子。這樣有一個(gè)很好的點(diǎn)就是想到Hadoop,就會(huì )想到大數據,而不會(huì )是其他。 ?
Hadoop目標: ?
Hadoop的出現是為了解決搜索引擎無(wú)法接受數以?xún)|計單位的數據量的問(wèn)題。借助Google分享的GFS和MapReduce成熟理論,Hadoop一躍而出,成功解決了海量數據存儲和搜索的架構問(wèn)題。未來(lái)Hadoop將支持更巨大的數據和更智能的數據管理。 ?
Pig基礎知識 ?
Pig是進(jìn)行Hadoop計算的另一種框架,是一個(gè)高級過(guò)程語(yǔ)言,適合于使用 Hadoop 和 MapReduce 平臺來(lái)查詢(xún)大型半結構化數據集。通過(guò)允許對分布式數據集進(jìn)行類(lèi)似 SQL 的查詢(xún),Pig 可以簡(jiǎn)化 Hadoop 的使用。 ?
1、Pig概述 2、安裝Pig 3、使用Pig完成手機流量統計業(yè)務(wù) ?
Hive ?
hive是基于Hadoop的一個(gè)數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡(jiǎn)單的sql查詢(xún)功能,可以將sql語(yǔ)句轉換為MapReduce任務(wù)進(jìn)行運行。 其優(yōu)點(diǎn)是學(xué)習成本低,可以通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現簡(jiǎn)單的MapReduce統計,不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應用。 ?
1、數據倉庫基礎知識 2、Hive定義 3、Hive體系結構簡(jiǎn)介 4、Hive集群 5、客戶(hù)端簡(jiǎn)介 6、HiveQL定義 7、HiveQL與SQL的比較 8、數據類(lèi)型 9、表與表分區概念 10、表的操作與CLI客戶(hù)端 11、數據導入與CLI客戶(hù)端 12、查詢(xún)數據與CLI客戶(hù)端 13、數據的連接與CLI客戶(hù)端 14、用戶(hù)自定義函數(UDF) ?