現如今都是信息社會(huì ),并且還倡導“大物移云”【包含大數據、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、云計算】等新型技術(shù)來(lái)為人們的日常生活服務(wù),于是乎信息技術(shù)【Information technology簡(jiǎn)稱(chēng)IT技術(shù)】也就隨之也火熱起來(lái)啦,因此一大波的人投身于互聯(lián)網(wǎng)中,下來(lái)就給大家介紹一下如何學(xué)習IT課程,希望對大家有所幫助!以下是小編為你整理的大數據如何學(xué) ?
需要學(xué)習或者從事IT工作,剛開(kāi)始肯定是一頭霧水,常人所理解的IT工作者肯定是一些程序員之類(lèi)的角色,這里我想說(shuō)你的理解有些偏差,并且即使是程序員也分好多種從事算法的、Web開(kāi)發(fā)、C++客戶(hù)端研發(fā)等,還有好多細小的分類(lèi)【下圖大致說(shuō)一下我理解的IT有哪些方向吧,有點(diǎn)不全面,只是一個(gè)詮釋?zhuān)绻鳛橐粋€(gè)新手我覺(jué)得可以去一些平臺論壇比如說(shuō)zhi hu等里面會(huì )有許多專(zhuān)業(yè)人士針對某個(gè)問(wèn)題進(jìn)行專(zhuān)業(yè)的詮釋?zhuān)蠹铱梢越梃b一下】 ?
一個(gè)人是不可能將所有的方向都學(xué)到的。只能從事一個(gè)大的研究方向然后再到某個(gè)高深的領(lǐng)域進(jìn)而再去擴展自己的廣度或者繼續這個(gè)深度廣度深度的問(wèn)題等著(zhù)我們學(xué)習到一定程序再開(kāi)始琢磨做決定吧!
如何具體的學(xué)習【以JavaWeb為例】: ?
【了解行業(yè)*技術(shù),選購圖書(shū)】我覺(jué)得先看基礎語(yǔ)法書(shū),了解一些大概,邊學(xué)習邊跟著(zhù)操作【實(shí)現沒(méi)有界面的學(xué)籍管理等簡(jiǎn)單的系統】: ?
進(jìn)階高級:繼續看高階的書(shū)或者跟著(zhù)視頻學(xué)習完成一些復雜的項目,比如說(shuō)從事javaweb開(kāi)發(fā)就得學(xué)習一些框架知識: ?
開(kāi)始根據項目要求團隊或者自行開(kāi)始實(shí)施做項目【有一些網(wǎng)站平臺會(huì )提供一些需要做的項目,掛在平臺上】: ?
就這樣一步步的踏入行業(yè)高級水平中,實(shí)踐中慢慢成長(cháng),結合自己的情況選擇廣度和深度 ?
? ?
數據分析例子 ?
Morton牛排店的品牌認知。當一位顧客開(kāi)玩笑地通過(guò)推特向這家位于芝加哥的牛排連鎖店訂餐送到紐約Newark機場(chǎng)(他將在一天工作之后抵達該處)時(shí),Morton就開(kāi)始了自己的社交秀。首先,分析推特數據,發(fā)現該顧客是本店的???,也是推特的常用者。根據客戶(hù)以往的訂單,推測出其所乘的航班,然后派出一位身著(zhù)燕尾服的侍者為客戶(hù)提供晚餐。也許,這聽(tīng)起來(lái)過(guò)于離奇,但是你必須審視自己:“我是否有能力做到這個(gè)程度?”Laney說(shuō)。 ?
PredPol Inc.。PredPol公司通過(guò)與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預測算法的變體和犯罪數據來(lái)預測犯罪發(fā)生的幾率,可以精確到500平方英尺的范圍內。在洛杉磯運用該算法的地區,盜竊罪和暴力犯罪分布下降了33%和21%。 Tesco PLC(特易購)和運營(yíng)效率。這家超市連鎖在其數據倉庫中收集了700萬(wàn)部冰箱的數據。通過(guò)對這些數據的分析,進(jìn)行更全面的監控并進(jìn)行主動(dòng)的維修以降低整體能耗。 ?
American Express(美國運通,AmEx)和商業(yè)智能。以往,AmEx只能實(shí)現事后諸葛式的報告和滯后的預測?!皞鹘y的BI已經(jīng)無(wú)法滿(mǎn)足業(yè)務(wù)發(fā)展的需要?!盠aney認為。于是,AmEx開(kāi)始構建真正能夠預測忠誠度的模型,基于歷史交易數據,用115個(gè)變量來(lái)進(jìn)行分析預測。該公司表示,對于澳大利亞將于之后四個(gè)月中流失的客戶(hù),已經(jīng)能夠識別出其中的24%。 ?
Express Scripts Holding Co.的產(chǎn)品制造。該公司發(fā)現那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開(kāi)發(fā)了一個(gè)新產(chǎn)品:會(huì )響鈴的藥品蓋和自動(dòng)的電話(huà)呼叫,以此提醒患者按時(shí)服藥。 ?
Infinity Property & Casualty Corp.的黑暗數據(dark data)。Laney對于黑暗數據的定義是,那些針對單一目標而收集的數據,通常用過(guò)之后就被歸檔閑置,其真正價(jià)值未能被充分挖掘。在特定情況下,這些數據可以用作其他用途。該公司用累積的理賠師報告來(lái)分析欺詐案例,通過(guò)算法挽回了1200萬(wàn)美元的代位追償金額。 ?
? ?
大數據分析的五個(gè)基本方面 ?
PredictiveAnalyticCapabilities(預測性分析能力) ?
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。 ?
DataQualityandMasterDataManagement(數據質(zhì)量和數據管理)
?
數據質(zhì)量和數據管理是一些管理方面的*實(shí)踐。通過(guò)標準化的流程和工具對數據進(jìn)行處理可以保證一個(gè)預先定義好的高質(zhì)量的分析結果。 AnalyticVisualizations(可視化分析) ?
不管是對數據分析專(zhuān)家還是普通用戶(hù),數據可視化是數據分析工具最基本的要求??梢暬梢灾庇^(guān)的展示數據,讓數據自己說(shuō)話(huà),讓觀(guān)眾聽(tīng)到結果。 SemanticEngines(語(yǔ)義引擎) ?
我們知道由于非結構化數據的多樣性帶來(lái)了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語(yǔ)義引擎需要被設計成能夠從“文檔”中智能提取信息。 ?
DataMiningAlgorithms(數據挖掘算法) ?
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數據內部,挖掘價(jià)值。這些算法不僅要處理大數據的量,也要處理大數據的速度。 ?
假如大數據真的是下一個(gè)重要的技術(shù)革新的話(huà),我們*把精力關(guān)注在大數據能給我們帶來(lái)的好處,而不僅僅是挑戰。 ?
? ?
storm集群組件 ?
了解Storm集群組件的功能 ?
Storm集群中包含兩類(lèi)節點(diǎn):主控節點(diǎn)(Master Node)和工作節點(diǎn)(Work Node)。其分別對應的角色如下: ?
主控節點(diǎn)(Master Node)上運行一個(gè)被稱(chēng)為Nimbus的后臺程序,它負責在Storm集群內分發(fā)代碼,分配任務(wù)給工作機器,并且負責監控集群運行狀態(tài)。Nimbus的作用類(lèi)似于Hadoop中JobTracker的角色。 ?
每個(gè)工作節點(diǎn)(Work Node)上運行一個(gè)被稱(chēng)為Supervisor的后臺程序。Supervisor負責監聽(tīng)從Nimbus分配給它執行的任務(wù),據此啟動(dòng)或停止執行任務(wù)的工作進(jìn)程。每一個(gè)工作進(jìn)程執行一個(gè)Topology的子集;一個(gè)運行中的Topology由分布在不同工作節點(diǎn)上的多個(gè)工作進(jìn)程組成。 ?
Nimbus和Supervisor節點(diǎn)之間所有的協(xié)調工作是通過(guò)Zookeeper集群來(lái)實(shí)現的。此外,Nimbus和Supervisor進(jìn)程都是快速失敗(fail-fast)和無(wú)狀態(tài)(stateless)的;Storm集群所有的狀態(tài)要么在Zookeeper集群中,要么存儲在本地磁盤(pán)上。這意味著(zhù)你可以用kill -9來(lái)殺死Nimbus和Supervisor進(jìn)程,它們在重啟后可以繼續工作。這個(gè)設計使得Storm集群擁有不可思議的穩定性。 ?