數據被譽(yù)為新時(shí)代的石油,隨著(zhù)大數據市場(chǎng)的發(fā)展,數據開(kāi)始流通,越來(lái)越多人也開(kāi)始挖掘數據的價(jià)值。本文盡可能全面地介紹國內的數據源、搜索數據的方法以及數據交易的平臺,幫助數據工作者們快速全面地找數據。文中涉及的數據交易方式包括API數據接口、數據包下載、數據定制等,涵蓋免費的公開(kāi)源數據以及付費數據。以下是小編為你整理的大數據學(xué)習步驟 ?
統計數據 ?
*統計局/*數據 ?
最正統、最官方的數據,數據范圍涵蓋各行各業(yè),時(shí)間跨度也較大,可下載為各種常見(jiàn)格式 ?
*網(wǎng)站通常有統計數據,但不同*數據量有多有少,目前為止數據并不算深入,但隨著(zhù)數據開(kāi)放政策的深入,相信*網(wǎng)站會(huì )成為很好的數據源 ?
*列表可以在**網(wǎng)找,下文中的各行業(yè)數據都可以在相關(guān)的*網(wǎng)站找到數據,就不一一列舉了
數據需要申請或購買(mǎi),公開(kāi)的并不多,但不失為一個(gè)選擇 ?
咨詢(xún)、金融、市場(chǎng)調研公司,尤其是業(yè)內頂尖的,通常有自己的數據,但同樣并不免費公開(kāi),部分數據可購買(mǎi) ?
大部分主要行業(yè)都有自己的年鑒,數據比較寶貴,只是給機器用之前還需要處理;價(jià)值高的年鑒通常需要付費獲取;這里推薦一下人大經(jīng)濟論壇,氛圍較好 ?
如何統計數據 ?
公開(kāi)信息及整理比如統計局的數據、公司自己發(fā)布的年報、其他市場(chǎng)機構的研究報告、或者根據公開(kāi)的零散信息整理; ?
購買(mǎi)的數據庫市場(chǎng)上有很多產(chǎn)品化的數據庫,比如Bloomberg、OneSource、Wind等等,這個(gè)一般是以公司的名義買(mǎi)入口,不光咨詢(xún)公司還有很多高等院校及研究機構也買(mǎi)了; ?
自己的數據庫自己維護的數據庫有,但是比較少,一是專(zhuān)業(yè)的數據公司差不多能想到的都做了,二是自己做數據庫其實(shí)是一件很麻煩的事情。在有些數據是外界無(wú)法得到的情況下有可能自己維護一個(gè)小型的數據庫; ?
咨詢(xún)行業(yè)專(zhuān)家當然是有償的,這個(gè)在項目中應該蠻常見(jiàn)的。有些行業(yè)專(zhuān)家會(huì )專(zhuān)門(mén)收集和銷(xiāo)售數據,想要的基本能買(mǎi)到。 ?
發(fā)問(wèn)卷有時(shí)候為了單獨的項目也會(huì )收集很特別的數據,如果外界實(shí)在沒(méi)有但是項目上沒(méi)有不行就只有自己做了,比如自己發(fā)發(fā)問(wèn)卷之類(lèi)的,但是這類(lèi)數據需求要控制工作量,因為除非數據本身是交付內容之一,要不然不能為了個(gè)中間件花費太多時(shí)間和精力; ?
客戶(hù)有些數據就是來(lái)源于客戶(hù),甚至是咨詢(xún)公司的產(chǎn)品。舉個(gè)例子,比如HR咨詢(xún)公司的行業(yè)工資數據、四大的一些數據庫等等,這些數據的采集需要比較強的專(zhuān)業(yè)性或者時(shí)間積累,很大一部分是通過(guò)調查客戶(hù)的HR收集來(lái)的數據進(jìn)行統計的。 ?
HBase集群及其管理 ?
1、集群的搭建過(guò)程 2、集群的監控 3、集群的管理 ?
Pig基礎知識 ?
Pig是進(jìn)行Hadoop計算的另一種框架,是一個(gè)高級過(guò)程語(yǔ)言,適合于使用 Hadoop 和 MapReduce 平臺來(lái)查詢(xún)大型半結構化數據集。通過(guò)允許對分布式數據集進(jìn)行類(lèi)似 SQL 的查詢(xún),Pig 可以簡(jiǎn)化 Hadoop 的使用。 ?
1、Pig概述 2、安裝Pig 3、使用Pig完成手機流量統計業(yè)務(wù)
?
Hive ?
hive是基于Hadoop的一個(gè)數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡(jiǎn)單的sql查詢(xún)功能,可以將sql語(yǔ)句轉換為MapReduce任務(wù)進(jìn)行運行。 其優(yōu)點(diǎn)是學(xué)習成本低,可以通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現簡(jiǎn)單的MapReduce統計,不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應用。 ?
1、數據倉庫基礎知識 2、Hive定義 3、Hive體系結構簡(jiǎn)介 4、Hive集群 5、客戶(hù)端簡(jiǎn)介 6、HiveQL定義 7、HiveQL與SQL的比較 8、數據類(lèi)型 9、表與表分區概念 10、表的操作與CLI客戶(hù)端 11、數據導入與CLI客戶(hù)端 12、查詢(xún)數據與CLI客戶(hù)端 13、數據的連接與CLI客戶(hù)端 14、用戶(hù)自定義函數(UDF) ?
Scala ?
Scala是另一種基于Java的語(yǔ)言,并且和Java相同的是,它正日益成為大規模機器學(xué)習,或構建高層次算法的工具。它富有表現力,并且還能夠構建健壯的系統。 ?
“Java就像是建造時(shí)的鋼鐵,而Scala則像黏土,因為你之后可以將之放入窯內轉變成鋼鐵,”Driscoll說(shuō)。 ?
數據結構化對企業(yè)的增益
將對非結構化的內容的管理納入到您企業(yè)的數據管理能力。非結構化數據一直是企業(yè)業(yè)務(wù)運營(yíng)的一部分,但既然現在我們已經(jīng)有了更好的技術(shù)來(lái)探索,分析和這些非結構化的內容,進(jìn)而幫助改善業(yè)務(wù)流程和工業(yè)務(wù)洞察,所以我們最終將其正式納入我們的數據管理是非常重要的。大多數企業(yè)目前都被困在了這一步驟。數據庫中基本的、非結構化的數據是以評論的形式或者自由的形式存在的,其至少是數據庫的一部分,應該被納入到數據管理。但挖掘這些數據信息則是非常難的。 ?
數字數據存儲在傳統的結構化數據庫和業(yè)務(wù)流程外,很少有許多的治理范圍分組和數據管理的實(shí)現,除了當其被看作是一個(gè)技術(shù)問(wèn)題時(shí)。一般來(lái)說(shuō),除了嚴格遵守相關(guān)的安全政策,今天的企業(yè)尚未對其進(jìn)行真正有效的管理。當您的企業(yè)開(kāi)始大跨步實(shí)現了大數據項目之后,您會(huì )發(fā)現這一類(lèi)型的數據信息迅速進(jìn)入了您需要管理的范疇,其輸出會(huì )影響您企業(yè)的商業(yè)智能解決方案或者甚至是您企業(yè)的業(yè)務(wù)活動(dòng)。積極的考慮將這些數據納入到您企業(yè)的數據管理功能的范圍,并明確企業(yè)的所有權,并記錄好這些數據信息的諸如如何使用、信息來(lái)源等等資料。不要采取“容易的輕松路線(xiàn)”,單純依靠大數據技術(shù)是您企業(yè)*正式的非結構化數據管理的過(guò)程。 ?
隨著(zhù)時(shí)間的推移,企業(yè)將收集越來(lái)越多的非結構化數據,請務(wù)必搞清楚哪些數據是好的,哪些是壞的,他們分別來(lái)自何處,以及其使用是否一致,將變得越來(lái)越重要,甚至在其生命周期使用這個(gè)數據都是至關(guān)重要的。要保持這種清晰,您可以使用大數據和其他工具,以了解您企業(yè)所收集的數據信息,確定其有怎樣的價(jià)值,需要怎樣的管理,這是至關(guān)重要的。 ?
大多數進(jìn)入您企業(yè)的大數據系統的非結構化數據都已經(jīng)經(jīng)過(guò)一些監控了,但通常是作為一個(gè)BLOB(binarylargeobject)二進(jìn)制大對象和非結構化的形式進(jìn)行的。隨著(zhù)您的企業(yè)不斷的在您的業(yè)務(wù)流程中“發(fā)掘”出這一類(lèi)型的數據,其變得更加精確和有價(jià)值。其可能還具有額外的特點(diǎn),符合安全,隱私或法律和法規的元素要求。最終,這些數據塊可以成為新的數據元素或添加到現有的數據,但您必須有元數據對其進(jìn)行描述和管理,以便盡可能最有效地利用這些數據。 ?
正式在生產(chǎn)環(huán)境運行之前進(jìn)行測試。如果您的企業(yè)做的是一次性的分析或完整的一次性的試點(diǎn),這可能并不適用于您的企業(yè),但對大多數企業(yè)來(lái)說(shuō),他們最初的大數據工作將迅速發(fā)展,他們找到一個(gè)可持續利用他們已經(jīng)挖掘出的極具價(jià)值的信息的需求。這意味著(zhù)需要在您的沙箱環(huán)境中進(jìn)行測試,然后才正式的在您的生產(chǎn)環(huán)境運行。