從數據的收集開(kāi)始,到整理歸類(lèi)發(fā)現其隱藏的信息,再到做出分析報告,都沒(méi)有概念,我們面對日益發(fā)展的環(huán)境,又該如何進(jìn)行數據分析呢?以下是小編為你整理的大數據都學(xué)什么 ?
首先,先從采購角度入手,為采購提供數據支持,分析市場(chǎng)行情判斷采購節點(diǎn),想任何工作盡可能更加專(zhuān)業(yè)化發(fā)展,不再依靠經(jīng)驗而是靠數據說(shuō)話(huà); ?
其次,要掌握專(zhuān)業(yè)的數據分析和挖掘技能,乃至于成為數據科學(xué)家,是非常非常艱難的,從零基礎、在短時(shí)間內提升數據獲取、數據分析、數據可視化的水平,是完全可能的; ?
接著(zhù),數據分析都無(wú)疑是一項重中之重的技能,不僅是技術(shù)層面,更包括思維層面;
然后,從零學(xué)會(huì )大數據核心,數據分析系列課程,Udacity-Data Analyst相關(guān)課程,Excel知識,統計學(xué)知識; ?
再次,入門(mén)一個(gè)新領(lǐng)域時(shí),有一個(gè)前輩幫你及時(shí)糾正錯誤方向,還有一群互相鼓勵的小伙伴們是很有必要的; ?
*,每月月會(huì )寫(xiě)一份當月學(xué)習總結,囊括對知識的掌握和時(shí)間安排方面的感悟,并及時(shí)對計劃做出適當的調整,詳細規劃下個(gè)月學(xué)習任務(wù)的時(shí)間安排; ?
云端的大數據 ?
“云”其實(shí)指的是多臺虛擬服務(wù)器的組合,云為不同的使用者提供一個(gè)計算的平臺。這就是IaaS(基礎設置即服務(wù)),亞馬遜的Amazon EC2和Amazon S3就是這樣一個(gè)服務(wù)。 ?
IaaS帶給你的是大數據計算的資源,而PaaS將為您提供更為高級的大數據服務(wù)。所謂平臺即服務(wù)(PaaS)指的是提供各種開(kāi)發(fā)解決方案和系統環(huán)境。按需使用的PaaS又稱(chēng)為中間件,極大的節省了部署環(huán)境的時(shí)間和成本。 ?
目前主要的大數據服務(wù)提供商是Amazon/Microsoft/Google,這些大型的服務(wù)商提供IaaS和PaaS的混合服務(wù),以滿(mǎn)足不同業(yè)務(wù)要求。其中Google專(zhuān)注于大數據應用的研究上,Amazon發(fā)力提供更多規模的大數據服務(wù)平臺。 ?
Sqoop ?
Sqoop(發(fā)音:skup)是一款開(kāi)源的工具,主要用于在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進(jìn)行數據的傳遞,可以將一個(gè)關(guān)系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進(jìn)到Hadoop的HDFS中,也可以將HDFS的數據導進(jìn)到關(guān)系型數據庫中。 ?
1、配置Sqoop 2、使用Sqoop把數據從MySQL導入到HDFS中 3、使用Sqoop把數據從HDFS導出到MySQL中
?
Storm為分布式實(shí)時(shí)計算提供了一組通用原語(yǔ),可被用于“流處理”之中,實(shí)時(shí)處理消息并更新數據庫。這是管理隊列及工作者集群的另一種方式。 Storm也可被用于“連續計算”(continuous computation),對數據流做連續查詢(xún),在計算時(shí)就將結果以流的形式輸出給用戶(hù)。它還可被用于“分布式RPC”,以并行的方式運行昂貴的運算。 ?
1、Storm基礎知識:包括Storm的基本概念和Storm應用場(chǎng)景,體系結構與基本原理,Storm和Hadoop的對比 2、Storm集群搭建:詳細講述Storm集群的安裝和安裝時(shí)常見(jiàn)問(wèn)題 3、Storm組件介紹: spout、bolt、stream groupings等 4、Storm消息可靠性:消息失敗的重發(fā) 5、Hadoop 2.0和Storm的整合:Storm on YARN 6、Storm編程實(shí)戰 ?
Hadoop是什么 ?
Hadoop是一個(gè)大家族,是一個(gè)開(kāi)源的生態(tài)系統,是一個(gè)分布式運行系統,是基于Java編程語(yǔ)言的架構。不過(guò)它*明的技術(shù)還是HDFS和MapReduce,使得它可以分布式處理海量數據。 ?
HDFS(分布式文件系統): ?
它與現存的文件系統不同的特性有很多,比如高度容錯(即使中途出錯,也能繼續運行),支持多媒體數據和流媒體數據訪(fǎng)問(wèn),高效率訪(fǎng)問(wèn)大型數據集合,數據保持嚴謹一致,部署成本降低,部署效率提交等,如圖是HDFS的基礎架構 ?
MapReduce(并行計算架構): ?
它可以將計算任務(wù)拆分成大量可以獨立運行的子任務(wù),接著(zhù)并行運算,另外會(huì )有一個(gè)系統調度的架構負責收集和匯總每個(gè)子任務(wù)的分析結果。其中 包含映射算法與規約算法。如圖是MapReduce的內部計算步驟 ?
Pig/Hive(Hadoop編程): ?
Pig是一種高級編程語(yǔ)言,在處理半結構化數據上擁有非常高的性能,可以幫助我們縮短開(kāi)發(fā)周期。 ?
Hive是數據分析查詢(xún)工具,尤其在使用類(lèi)SQL查詢(xún)分析時(shí)顯示是極高的性能??梢栽诜址昼娡瓿蒃TL要一晚上才能完成的事情,這就是優(yōu)勢,占了先機! ?