任何想要調配應用程序的工程師必須知道的基本概念之一是Bash 腳本編程。你必須對linux和bash 腳本編程感到舒適,這是處理大數據的基本要求。 核心是,大部分大數據技術(shù)都是用Java或Scala編寫(xiě)的。但是別擔心,如果你不想用這些語(yǔ)言編寫(xiě)代碼,那么你可以選擇Python或者R,因為大部分的大數據技術(shù)現在都支持Python和R。因此,你可以從上述任何一種語(yǔ)言開(kāi)始。 我建議選擇Python或Java。 接下來(lái),你需要熟悉云端工作。 這是因為如果你沒(méi)有在云端處理大數據,沒(méi)有人會(huì )認真對待。 請嘗試在A(yíng)WS,softlayer或任何其他云端供應商上練習小型數據集。 他們大多數都有一個(gè)免費的層次,讓學(xué)生練習。如果你想的話(huà),你可以暫時(shí)跳過(guò)此步驟,但請務(wù)必在進(jìn)行任何面試之前在云端工作。 接下來(lái),你需要了解一個(gè)分布式文件系統。比較流行的分布式文件系統就是Hadoop分布式文件系統。在這個(gè)階段你還可以學(xué)習一些你發(fā)現與你所在領(lǐng)域相關(guān)的NoSQL數據庫。下圖可以幫助你選擇一個(gè)NoSQL數據庫,以便根據你感興趣的領(lǐng)域進(jìn)行學(xué)習。 現在,你決定是否要處理數據流或靜止的大量數據。 這是用于定義大數據(Volume,Velocity,Variety和Veracity)的四個(gè)V中的兩個(gè)之間的選擇。