在維基百科中對數據挖掘的解釋是:數據挖掘(英語(yǔ):data mining)是一個(gè)跨*的計算機科學(xué)分支 它是用人工智能、機器學(xué)習、統計學(xué)和數據庫的交叉方法在相對較大型的數據集中發(fā)現模式的計算過(guò)程。數據挖掘過(guò)程的總體目標是從一個(gè)數據集中提取信息,并將其轉換成可理解的結構,以進(jìn)一步使用。以下是小編為你整理的零基礎學(xué)大數據 ?
分類(lèi)。分類(lèi)是找出數據庫中一組數據對象的共同特點(diǎn)并按照分類(lèi)模式將其劃分為不同的類(lèi),其目的是通過(guò)分類(lèi)模型,將數據庫中的數據項映射到某個(gè)給定的類(lèi)別。 ?
回歸分析?;貧w分析方法反映的是事務(wù)數據庫中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數據項映射到一個(gè)實(shí)值預測變量的函數,發(fā)現變量或屬性間的依賴(lài)關(guān)系,其主要研究問(wèn)題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關(guān)關(guān)系等。
聚類(lèi)。聚類(lèi)分析是把一組數據按照相似性和差異性分為幾個(gè)類(lèi)別,其目的是使得屬于同一類(lèi)別的數據間的相似性盡可能大,不同類(lèi)別中的數據間的相似性盡可能小。 ?
關(guān)聯(lián)規則。關(guān)聯(lián)規則是描述數據庫中數據項之間所存在的關(guān)系的規則,即根據一個(gè)事務(wù)中某些項的出現可導出另一些項在同一事務(wù)中也出現,即隱藏在數據間的關(guān)聯(lián)或相互關(guān)系。 ?
導入/預處理 ?
雖然采集端本身會(huì )有很多數據庫,但是如果要對這些海量數據進(jìn)行有效的分析,還是應該將這些來(lái)自前端的數據導入到一個(gè)集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡(jiǎn)單的清洗和預處理工作。也有一些用戶(hù)會(huì )在導入時(shí)使用來(lái)自Twitter的Storm來(lái)對數據進(jìn)行流式計算,來(lái)滿(mǎn)足部分業(yè)務(wù)的實(shí)時(shí)計算需求。導入與預處理過(guò)程的特點(diǎn)和挑戰主要是導入的數據量大,每秒鐘的導入量經(jīng)常會(huì )達到百兆,甚至千兆級別。 ?
挖掘 ?
與前面統計和分析過(guò)程不同的是,數據挖掘一般沒(méi)有什么預先設定好的主題,主要是在現有數據上面進(jìn)行基于各種算法的計算,從而起到預測的效果,從而實(shí)現一些高級別數據分析的需求。比較典型算法有用于聚類(lèi)的K-Means、用于統計學(xué)習的SVM和用于分類(lèi)的Naive Bayes,主要使用的工具有HadoopMahout等。該過(guò)程的特點(diǎn)和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,還有,常用數據挖掘算法都以單線(xiàn)程為主。 ?
Hadoop和Hive ?
一群基于Java的工具被開(kāi)發(fā)出來(lái)以滿(mǎn)足數據處理的巨大需求。Hadoop作為*的基于Java的框架用于批處理數據已經(jīng)點(diǎn)燃了大家的熱情。Hadoop比其他一些處理工具慢,但它出奇的準確,因此被廣泛用于后端分析。它和Hive——一個(gè)基于查詢(xún)并且運行在頂部的框架可以很好地結對工作。 ?
Scala ?
Scala是另一種基于Java的語(yǔ)言,并且和Java相同的是,它正日益成為大規模機器學(xué)習,或構建高層次算法的工具。它富有表現力,并且還能夠構建健壯的系統。 ?
“Java就像是建造時(shí)的鋼鐵,而Scala則像黏土,因為你之后可以將之放入窯內轉變成鋼鐵,”Driscoll說(shuō)。
?
Kafka和Storm ?
那么,當你需要快速實(shí)時(shí)的分析時(shí)又該怎么辦呢?Kafka會(huì )成為你的好朋友。它大概5年前就已經(jīng)出現了,但是直到最近才成為流處理的流行框架。 ?
Kafka,誕生于LinkedIn內部,是一個(gè)超快速的查詢(xún)消息系統。Kafka的缺點(diǎn)?好吧,它太快了。在實(shí)時(shí)操作時(shí)會(huì )導致自身出錯,并且偶爾地會(huì )遺漏東西。 ?
“有精度和速度之間有一個(gè)權衡,”Driscoll說(shuō), “因此,硅谷所有的大型高科技公司都會(huì )使用兩條管道:Kafka或Storm用于實(shí)時(shí)處理,然后Hadoop用于批處理系統,此時(shí)雖然是緩慢的但超級準確?!? ?
Storm是用Scala編寫(xiě)的另一個(gè)框架,它在硅谷中因為流處理而受到了大量的青睞。它被Twitter納入其中,勿庸置疑的,這樣一來(lái),Twitter就能在快速事件處理中得到巨大的裨益。 ?
Spark(內存DAG計算模型) ?
Spark是一個(gè)Apache項目,它被標榜為“快如閃電的集群計算”。它擁有一個(gè)繁榮的開(kāi)源社區,并且是目前最活躍的Apache項目。 ?
最早Spark是UC Berkeley AMP lab所開(kāi)源的類(lèi)Hadoop MapReduce的通用的并行計算框架。 ?
Spark提供了一個(gè)更快、更通用的數據處理平臺。和Hadoop相比,Spark可以讓你的程序在內存中運行時(shí)速度提升100倍,或者在磁盤(pán)上運行時(shí)速度提升10倍 ?
Giraph(圖計算模型) ?
Apache Giraph是一個(gè)可伸縮的分布式迭代圖處理系統, 基于Hadoop平臺,靈感來(lái)自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。 ?
最早出自雅虎。雅虎在開(kāi)發(fā)Giraph時(shí)采用了Google工程師2010年發(fā)表的論文《Pregel:大規模圖表處理系統》中的原理。后來(lái),雅虎將Giraph捐贈給Apache軟件基金會(huì )。 ?
目前所有人都可以下載Giraph,它已經(jīng)成為Apache軟件基金會(huì )的開(kāi)源項目,并得到Facebook的支持,獲得多方面的改進(jìn)。 ?
GraphX(圖計算模型) ?
Spark GraphX*是伯克利AMPLAB的一個(gè)分布式圖計算框架項目,目前整合在spark運行框架中,為其提供BSP大規模并行圖計算能力。 ?