1.大數據架構東西與組件
企業(yè)大數據結構的搭建,多是挑選根據開(kāi)源技能結構來(lái)實(shí)現的,這其中就包含Hadoop、Spark、Storm、Flink為主的一系列組件結構,及其生態(tài)圈組件。
2.深化了解SQL和其它數據庫解決方案
大數據工程師需要了解數據庫辦理體系,深化了解SQL。相同其它數據庫解決方案,例如Cassandra或MangoDB也須了解,由于不是每個(gè)數據庫都是由可識別的標準來(lái)構建。
3.數據倉庫和ETL東西
數據倉庫和ETL才能對于大數據工程師至關(guān)重要。像Redshift或Panoply這樣的數據倉庫解決方案,以及ETL東西,比方StitchData或Segment都十分有用。
4.根據Hadoop的剖析
對根據Apache Hadoop的數據處理結構,需要有深化的了解,至少Hbase,Hive和MapReduce的知識存儲是必需的。
5.編碼
編碼與開(kāi)發(fā)才能是作為大數據工程師的重要要求,主要掌握Java、Scala、Python三門(mén)語(yǔ)言,這在大數據當中十分關(guān)鍵。