天才教育網(wǎng)合作機構 > 培訓機構 >

                                                                                        天才領(lǐng)路者

                                                                                        歡迎您!
                                                                                        朋友圈

                                                                                        400-850-8622

                                                                                        全國統一學(xué)習專(zhuān)線(xiàn) 9:00-21:00

                                                                                        位置:培訓資訊 > 終于知道怎么樣學(xué)大數據分析

                                                                                        終于知道怎么樣學(xué)大數據分析

                                                                                        日期:2019-10-31 16:06:56     瀏覽:495    來(lái)源:天才領(lǐng)路者
                                                                                        核心提示:接著(zhù)前兩篇對大數據的介紹之后,本篇從實(shí)際操作的角度分享大數據內部關(guān)鍵的運作機制,這是在真正開(kāi)始學(xué)習大數據之前對大數據的一個(gè)概覽。為的是讓我們成為大數據的主人。

                                                                                        接著(zhù)前兩篇對大數據的介紹之后,本篇從實(shí)際操作的角度分享大數據內部關(guān)鍵的運作機制,這是在真正開(kāi)始學(xué)習大數據之前對大數據的一個(gè)概覽。為的是讓我們成為大數據的主人。以下是小編為你整理的怎么樣學(xué)大數據分析 ?

                                                                                        大數據運行機制 ?

                                                                                        這是對大數據運行機制的概覽,如果你閱讀過(guò)上一篇(OODA),就會(huì )感覺(jué)非常熟悉。不錯,他們在概念上是如出一撤的!不過(guò)實(shí)際操作卻又有巨大的不同。

                                                                                        怎么樣學(xué)大數據分析

                                                                                        ?

                                                                                        收集數據: ?

                                                                                        大數據的*站就是收集和存儲海量數據(公開(kāi)/隱私)?,F在每個(gè)人都是一個(gè)巨大的數據源,通過(guò)智能手機和個(gè)人筆記本釋放出大量的個(gè)人行為信息。獲取數據似乎已經(jīng)變得越來(lái)越容易,數據收集這一模塊*的挑戰在于獲取海量數據的高速要求以及數據的全面性考慮。 ?

                                                                                        清洗數據: ?

                                                                                        傳統商業(yè)智能在數據清洗處理的做法(ETL)是,把準確的數據放入定義好的格式中,通過(guò)基礎的抽取統計生成高維度的數據,方便直接使用。然而大數據有個(gè)最突出的特征——數據非結構化或者半結構化。因為數據有可能是圖片,二進(jìn)制等等。數據清洗的*挑戰來(lái)了——如何轉化處理大量非結構數據,便于分布式地計算分析。 ?

                                                                                        硬件: ?

                                                                                        這是大家都很熟悉的概念,和大數據相關(guān)的是虛擬化。主要包括存儲虛擬化,計算虛擬化。因此又說(shuō)虛擬化存儲和云計算是大數據的“左膀右臂”!!大數據還需要支持多種類(lèi)型的數據庫,因此一個(gè)支持擴展的數據倉庫是大數據中的基礎。 ?

                                                                                        HBase/Sqoop/Flume(數據導入與導出): ?

                                                                                        HBase是運行在HDFS架構上的列存儲數據庫,并且已經(jīng)與Pig/Hive很好地集成。通過(guò)Java API可以近無(wú)縫地使用HBase。 ?

                                                                                        Sqoop設計的目的是方便從傳統數據庫導入數據到Hadoop數據集合(HDFS/Hive)。 ?

                                                                                        Flume設計的目的是便捷地從日志文件系統直接把數據導到Hadoop數據集合(HDFS)中。 ?

                                                                                        以上這些數據轉移工具都極大的方便了使用的人,提高了工作效率,把經(jīng)歷專(zhuān)注在業(yè)務(wù)分析上! ?

                                                                                        ZooKeeper/Oozie(系統管理架構): ?

                                                                                        ZooKeeper是一個(gè)系統管理協(xié)調架構,用于管理分布式架構的基本配置。它提供了很多接口,使得配置管理任務(wù)簡(jiǎn)單化! ?

                                                                                        Oozie服務(wù)是用于管理工作流。用于調度不同工作流,使得每個(gè)工作都有始有終。 ?

                                                                                        這些架構幫助我們輕量化地管理大數據分布式計算架構。 ?

                                                                                        7 ?

                                                                                        Ambari/Whirr(系統部署管理): ?

                                                                                        Ambari幫助相關(guān)人員快捷地部署搭建整個(gè)大數據分析架構,并且實(shí)時(shí)監控系統的運行狀況。 ?

                                                                                        Whirr的主要作用是幫助快速的進(jìn)行云計算開(kāi)發(fā)。

                                                                                        ?

                                                                                        Mahout(機器學(xué)習): ?

                                                                                        Mahout旨在幫助我們快速地完成高智商的系統。其中已經(jīng)實(shí)現了部分機器學(xué)習的邏輯。這個(gè)架構可以讓我們快速地集成更多機器學(xué)習的智能!! ?

                                                                                        大數據服務(wù)對比 ?

                                                                                        不同大數據服務(wù)提供商有不同的產(chǎn)品線(xiàn),因此不同提供商的產(chǎn)品適用場(chǎng)景也會(huì )有所不同。我們重點(diǎn)分析三大服務(wù)提供商的大數據服務(wù)架構。 ?

                                                                                        亞馬遜 ?

                                                                                        擁有大量關(guān)于大數據處理的經(jīng)驗。初期大數據使用者大部分都使用亞馬遜打造的Hadoop架構服務(wù)(EC2)。 ?

                                                                                        經(jīng)過(guò)厚重沉淀之后,Amazon在2009年提供開(kāi)發(fā)EMR大數據服務(wù)。EMR服務(wù)提供了多種大數據處理分析方案,比如簡(jiǎn)單查詢(xún)服務(wù),關(guān)聯(lián)數據分析服務(wù)。EMR服務(wù)可以使用Hadoop語(yǔ)言繼續開(kāi)發(fā),并且訪(fǎng)問(wèn)EMR服務(wù)的步驟也相當簡(jiǎn)單并且安全。 ?

                                                                                        亞馬遜使用托管DynamoDB代替HBase,作為易于擴展的NoSQL數據庫。

                                                                                        ?

                                                                                        谷歌 ?

                                                                                        谷歌云服務(wù)平臺出類(lèi)拔萃,它所提供的并非虛擬化解決方案,而是提供由API定義的服務(wù)和應用程序。程序員無(wú)需顧慮硬件,甚至不需要關(guān)心后臺的運作行為。 ?

                                                                                        當然這從某種程度也限制了程序員的工作,不過(guò)如果谷歌的服務(wù)適合業(yè)務(wù),那么使用起來(lái)將是全世界*效快捷的大數據架構服務(wù)。 ?

                                                                                        谷歌的AppEngine作為云平臺管理服務(wù),提供了基于MapReduce的大數據并行計算服務(wù)。所有的這些服務(wù)都可以通過(guò)REST風(fēng)格的API訪(fǎng)問(wèn)。 ?

                                                                                        BigQuery作為分析的數據庫,提供了類(lèi)SQL的查詢(xún)語(yǔ)法。它的性能要比Apache Hive來(lái)得快! ?

                                                                                        微軟 ?

                                                                                        微軟在大數據中屬于后來(lái)居上者。通過(guò)Microsoft Azure大數據服務(wù)平臺,微軟融合自身海量成熟的軟件,例如SQL Server,提供了多種IaaS服務(wù)。 ?

                                                                                        微軟的服務(wù)面向更多的程序員,使得可以使用不同語(yǔ)言來(lái)對接大數據平臺Azure。Azure旨在提供一個(gè)生態(tài)的大數據分析開(kāi)發(fā)環(huán)境,使得普通研究員也可以施展自己對大數據的理解! ?

                                                                                        Hadoop大比較 ?

                                                                                        為什么選擇Hadoop,而不是其他數據處理架構,比如傳統關(guān)系型數據庫或者其他。Hadoop在我的眼里,更像是在“暴力解鎖”,它可以處理每一條數據,乃至每一種可能的設想。Hadoop的巨大貢獻在于快速分析大數據所隱藏的事實(shí),這在過(guò)去也許需要幾天甚至幾個(gè)月的時(shí)間才能完成,而Hadoop很可能只需要幾分鐘甚至幾秒鐘的時(shí)間就可以很完整地做好! ?

                                                                                        關(guān)系型數據庫的幾個(gè)特點(diǎn)使得它無(wú)緣大數據分析,當然它也有自己擅長(cháng)的領(lǐng)域。 ?

                                                                                        (1)磁盤(pán)可以存儲大量?jì)热?,卻無(wú)法快速存取!并且存儲空間的擴展是有限度的。 ?

                                                                                        (2)在更新一小部分數據的同時(shí),會(huì )對整張表乃至整個(gè)數據庫都會(huì )產(chǎn)生影響。 ?

                                                                                        (3)要求存儲的數據都是結構化的,能處理的數據也都是結構化。 ?

                                                                                        網(wǎng)格計算嘗試通過(guò)多臺機器(不同的任務(wù))處理和管理共享文件系統,最終達到大數據計算的目的。這樣的嘗試以網(wǎng)絡(luò )帶寬的約束而失敗告終。因為數據量達到GB級別以上時(shí),網(wǎng)格計算的方法顯得力不從心。不過(guò)網(wǎng)格計算用在中小型科研實(shí)驗確實(shí)是說(shuō)一不二的選擇! ?

                                                                                        如果本頁(yè)不是您要找的課程,您也可以百度查找一下:

                                                                                        奇米在线7777在线精品|国产成人精品免费视|精品无码不卡一区二区三区|国内综合精品午夜久久资源|亚洲视频在线观看..