一.大數據采集 即對于結構化和非結構化海量的各種來(lái)源的數據,所進(jìn)行的收集活動(dòng)。
1. 數據庫獲取:目前比較流行的是Sqoop和ETL,很多企業(yè)仍然使用MySQL、Oracle等傳統關(guān)系數據庫進(jìn)行數據存儲。當然,對于開(kāi)源Kettle和Talend本身,也集成了大數據集成內容,可以實(shí)現HDFS、hbase和主流Nosq數據庫之間的數據同步和集成。
2. 網(wǎng)絡(luò )數據收集:通過(guò)web爬蟲(chóng)或網(wǎng)站公共API從網(wǎng)頁(yè)中獲取非結構化或半結構化數據,并將其結構統一為本地數據的數據收集方法。
3.文件采集:包括實(shí)時(shí)文件采集與處理技術(shù)flume、基于ELK的日志采集、增量采集等。
二.大數據預處理 大數據預處理,指的是在數據分析之前,對*個(gè)收集的原始數據進(jìn)行如"沖洗、灌裝、光滑、合并、標準化和一致性檢查"等一系列的行動(dòng),旨在提高數據的質(zhì)量和為以后的分析打好基礎。
三. 大數據存儲 大數據存儲是指存儲器以數據庫的形式存儲采集到的數據的過(guò)程。 四. 大數據分析與挖掘 大數據分析與挖掘是從可視化分析、數據挖掘算法、預測分析、語(yǔ)義引擎和數據質(zhì)量管理等方面對無(wú)序數據進(jìn)行提取、提煉和分析的過(guò)程。