面對大數據,各種處理系統層出不窮,各有特色.總體來(lái)說(shuō),我們普開(kāi)數據可以總結出的發(fā)展趨勢,以下是小編為你整理的如何學(xué)習好大數據 ?
(1) 數據處理引擎專(zhuān)用化:為了降低成本,提高能效,大數據系統需要擺脫傳統的通用體系,趨向專(zhuān)用化架構技術(shù).為此,國內外的互聯(lián)網(wǎng)龍頭企業(yè)都在基于開(kāi)源系統開(kāi)發(fā)面向典型應用的大規模、高通量、低成本、強擴展的專(zhuān)用化系統;
(2) 數據處理平臺多樣化:自2008年以來(lái)克隆了Google的GFS和MapReduce的Apache Hadoop逐漸被互聯(lián)網(wǎng)企業(yè)所廣泛接納,并成為大數據處理領(lǐng)域的事實(shí)標準.但在全面兼容Hadoop的基礎上,Spark通過(guò)更多的利用內存處理大幅提高系統性能.而Scribe,Flume,Kafka,Storm,Drill,Impala,TEZ/Stinger,Presto,Spark/Shark等的出現并不是取代Hadoop,而是擴大了大數據技術(shù)的生態(tài)環(huán)境,促使生態(tài)環(huán)境向良性化和完整化發(fā)展. ?
(3) 數據計算實(shí)時(shí)化:在大數據背景下,作為批量計算的補充,旨在將PB級數據的處理時(shí)間縮短到秒級的實(shí)時(shí)計算受到越來(lái)越多的關(guān)注. ?
大數據學(xué)習的(必備技能) ?
1. 數據結構 ?
2. 關(guān)系型數據庫 ?
3. Linux系統操作 ?
4. Linux操作系統概述 ?
5. 安裝Linux操作系統 ?
6. 圖形界面操作基礎 ?
7. Linux字符界面基礎 ?
8. 字符界面操作進(jìn)階 ?
9. 用戶(hù)、組群和權限管理 ?
10. 文件系統管理 ?
11. 軟件包管理與系統備份 ?
12. Linux網(wǎng)絡(luò )配置 ?
主要掌握Linux操作系統的理論基礎和服務(wù)器配置實(shí)踐知識,同時(shí)通過(guò)大量實(shí)驗,著(zhù)重培養學(xué)生的動(dòng)手能力。使學(xué)生了解Linux操作系統在行業(yè)中的重要地位和廣泛的使用范圍。在學(xué)習Linux的基礎上,加深對服務(wù)器操作系統的認識和實(shí)踐配置能力。加深對計算機網(wǎng)絡(luò )基礎知識的理解,并在實(shí)踐中加以應用。掌握Linux操作系統的安裝、命令行操作、用戶(hù)管理、磁盤(pán)管理、文件系統管理、軟件包管理、進(jìn)程管理、系統監測和系統故障排除。掌握Linux操作系統的網(wǎng)絡(luò )配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服務(wù)的配置與管理。為更深一步學(xué)習其它網(wǎng)絡(luò )操作系統和軟件系統開(kāi)發(fā)奠定堅實(shí)的基礎。與此同時(shí),如果大家有時(shí)間把javaweb及框架學(xué)習一番,會(huì )讓你的大數據學(xué)習更自由一些。 ?
學(xué)大數據要注意的事項 ?
特征。特征分析是從數據庫中的一組數據中提取出關(guān)于這些數據的特征式,這些特征式表達了該數據集的總體特征。如營(yíng)銷(xiāo)人員通過(guò)對客戶(hù)流失因素的特征提取,可以得到導致客戶(hù)流失的一系列原因和主要特征,利用這些特征可以有效地預防客戶(hù)的流失。
?
變化和偏差分析。偏差包括很大一類(lèi)潛在有趣的知識,如分類(lèi)中的反常實(shí)例,模式的例外,觀(guān)察結果對期望的偏差等,其目的是尋找觀(guān)察結果與參照量之間有意義的差別。在企業(yè)危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發(fā)現、分析、識別、評價(jià)和預警等方面。 ?
Web頁(yè)挖掘。隨著(zhù)Internet的迅速發(fā)展及Web 的全球普及, 使得Web上的信息量無(wú)比豐富,通過(guò)對Web的挖掘,可以利用Web 的海量數據進(jìn)行分析,收集政治、經(jīng)濟、政策、科技、金融、各種市場(chǎng)、競爭對手、供求信息、客戶(hù)等有關(guān)的信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內部經(jīng)營(yíng)信息,并根據分析結果找出企業(yè)管理過(guò)程中出現的各種問(wèn)題和可能引起危機的先兆,對這些信息進(jìn)行分析和處理,以便識別、分析、評價(jià)和管理危機。 ?
MapReduce工作機制
MapReduce的主體是兩個(gè)函數Map()和Reduce(),Map負責清洗數據,Reduce負責數據分析并輸出最終結果,而且這兩個(gè)功能之間并非一對一的關(guān)系,可以根據具體業(yè)務(wù)選擇匹配關(guān)系。 ?
Map函數
輸入:鍵值關(guān)系的數據隊列,鍵是每段內容開(kāi)頭的偏移量。
處理:從輸入中抽取出自定義的關(guān)鍵字段。這個(gè)處理過(guò)程可以很簡(jiǎn)單,也可以很復雜。
輸出:鍵值關(guān)系的數據隊列,通常是保存在硬盤(pán)上,而不是HDFS中。因為這個(gè)數據集只是個(gè)中間過(guò)程,計算結束時(shí)需要被刪除。 ?
Reduce函數
輸入:Map的輸出結果經(jīng)過(guò)MapReduce框架處理之后分發(fā)給Reduce函數,因為通常一個(gè)Reduce函數需要拿到完整的數據集之后才能開(kāi)始分析。
處理:這一步的分析處理將是最為艱難和富有價(jià)值的環(huán)節。根據不同業(yè)務(wù)指標定義處理函數。
輸出:輸出自定義的格式文件,并且保存在HDFS上。 ?
Combiner函數
輸入:Map的輸出結果未經(jīng)過(guò)MapReduce框架處理之后直接傳送給Combiner函數。
處理:Combiner函數著(zhù)手做合并歸類(lèi)和排序等處理,經(jīng)過(guò)處理之后,數據集大大縮小。
輸出:這時(shí)的輸出結果才傳送給MapReduce架構處理中心。
解決問(wèn)題:減少帶寬傳輸壓力!