大數據能夠進(jìn)行數據變現的商業(yè)模式目前就是兩個(gè),一個(gè)是精準營(yíng)銷(xiāo),典型的場(chǎng)景是商品推薦和精準廣告投放,另外一個(gè)是大數據風(fēng)控,典型的場(chǎng)景是互聯(lián)網(wǎng)金融的大數據風(fēng)控。以下是小編為你整理的學(xué)大數據如何學(xué) ?
金融的本質(zhì)是風(fēng)險管理,風(fēng)控是所有金融業(yè)務(wù)的核心。典型的金融借貸業(yè)務(wù)例如抵押貸款、消費貸款、P2P、供應鏈金融、以及票據融資都需要數據風(fēng)控識別欺詐用戶(hù)及評估用戶(hù)信用等級。
傳統金融的風(fēng)控主要利用了信用屬性強大的金融數據,一般采用20個(gè)緯度左右的數據,利用評分來(lái)識別客戶(hù)的還款能力和還款意愿。信用相關(guān)程度強的數據 緯度為十個(gè)左右,包含年齡、職業(yè)、收入、學(xué)歷、工作單位、借貸情況、房產(chǎn),汽車(chē)、單位、還貸記錄等,金融企業(yè)參考用戶(hù)提交的數據進(jìn)行打分,*得到申請人 的信用評分,依據評分來(lái)決定是否貸款以及貸款額度。其他同信用相關(guān)的數據還有區域、產(chǎn)品、理財方式、行業(yè)、繳款方式、繳款記錄、金額、時(shí)間、頻率等。普惠在線(xiàn) ?
互聯(lián)網(wǎng)金融的大數據風(fēng)控并不是完全改變傳統風(fēng)控,實(shí)際是豐富傳統風(fēng)控的數據緯度?;ヂ?lián)網(wǎng)風(fēng)控中,首先還是利用信用屬性強的金融數據,判斷借款人的還 款能力和還款意愿,然后在利用信用屬性較弱的行為數據進(jìn)行補充,一般是利用數據的關(guān)聯(lián)分析來(lái)判斷借款人的信用情況,借助數據模型來(lái)揭示某些行為特征和信用 風(fēng)險之間的關(guān)系。 ?
互聯(lián)網(wǎng)金融公司利用大數據進(jìn)行風(fēng)控時(shí),都是利用多維度數據來(lái)識別借款人風(fēng)險。同信用相關(guān)的數據越多地被用于借款人風(fēng)險評估,借款人的信用風(fēng)險就被揭示的更充分,信用評分就會(huì )更加客觀(guān),接近借款人實(shí)際風(fēng)險。 ?
大數據的門(mén)檻是怎樣的 ?
數據科學(xué)家:數據科學(xué)家傾向于用搜索數據的方式來(lái)看待周?chē)氖澜?,把大量散亂的數據變成結構化的可供分析的數據,還要找出豐富的數據源,整合其他可能不完整的數據源,并清理成結果數據集,新的競爭環(huán)境中,挑戰不斷的變化,新數據不斷的流入,數據科學(xué)家需要幫助決策者穿梭于各種分析,從臨時(shí)數據分析到持續數據交互分析。當他們有所發(fā)現,建議新的業(yè)務(wù)方向。他們很有創(chuàng )造力的展示視覺(jué)化的信息,從而影響產(chǎn)品,流程和決策。 ?
大數據工程師:分析歷史,預測未來(lái),優(yōu)化選擇,這是大數據工程師在玩數據時(shí)最重要的三大任務(wù)。通過(guò)這三個(gè)工作方向,幫助企業(yè)做出更好的商業(yè)決策。大數據工程師是一個(gè)很重要的工作,就是通過(guò)分析數據找出過(guò)去事件的特征。通過(guò)引入關(guān)鍵因素,大數據工程師可以預測未來(lái)的消費趨勢。 ?
數據分析師:與傳統的數據分析師相比,互聯(lián)網(wǎng)時(shí)代的數據分析師面臨的不是數據匱乏,而是數據過(guò)剩,因此,互聯(lián)網(wǎng)時(shí)代的數據分析師必須學(xué)會(huì )借助技術(shù)手段進(jìn)行高效的數據清理。更為重要的是,互聯(lián)網(wǎng)時(shí)代的數據分析師不斷在數據研究的方法論方面進(jìn)行創(chuàng )新和突破。 ?
分情況來(lái)說(shuō):就行業(yè)來(lái)說(shuō),數據分析師的機制類(lèi)似,無(wú)論在任何時(shí)代,媒體運營(yíng)者能否準確詳細和及時(shí)地了解受眾情況和變化趨勢。都是成敗的關(guān)鍵。 ?
針對大數據的開(kāi)源包 ?
Precog:Precog提供了一項服務(wù)Labcoat,它是一個(gè)交互式的開(kāi)發(fā)環(huán)境,可以用來(lái)編寫(xiě)基于開(kāi)源的Quirrel(由Precog實(shí)現的統計查詢(xún)語(yǔ)言,Quirrel很多方面都與R編程語(yǔ)言比較相似)查詢(xún)語(yǔ)言的分析工作,該集成開(kāi)發(fā)環(huán)境包含了一個(gè)語(yǔ)言學(xué)習教程以及一些復雜的函數。Precog的COO告訴Derrick,即使沒(méi)有任何編程經(jīng)驗的人也能在幾個(gè)小時(shí)內學(xué)會(huì )操作。
?
Precog可http://m.fulinmenst.com/m/contact.aspx?FId=n7:7:7以從各種數據源抓取輸入數據,其中包括SQL數據庫、Amazon S3、Hadoop、MongoDB、客戶(hù)端Web應用和后端服務(wù)器等。RESTful API支持開(kāi)發(fā)者從外部源(如Twitter或Facebook)、CSV文件或移動(dòng)設備抓取數據。抓取的數據保存到一個(gè)叫做PrecogDB的定制數據庫中,而且還可以使用人群統計、態(tài)度、位置和其他信息,使數據更為豐富。在一次采訪(fǎng)中,Precog的CEO和創(chuàng )始人John A.De Goes解釋到:“系統的架構與數據庫分析有些相似,比如都包括面向列的存儲。但是其區別在于:前者支持完全異構的、非規范化的數據,通過(guò)對Quirrel的支持,相對于使用RDBMS進(jìn)行分析,使用這種類(lèi)似于“面向大數據的R”的語(yǔ)言,能夠很方便地執行很多更為高級的計算?!? ?
ez(DAG計算模型) ?
Tez是Apache*開(kāi)源的支持DAG作業(yè)的計算框架,它直接源于MapReduce框架,核心思想是將Map和Reduce兩個(gè)操作進(jìn)一步拆分, ?
即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等, ?
這樣,這些分解后的元操作可以任意靈活組合,產(chǎn)生新的操作,這些操作經(jīng)過(guò)一些控制程序組裝后,可形成一個(gè)大的DAG作業(yè)。 ?
目前hive支持mr、tez計算模型,tez能完美二進(jìn)制mr程序,提升運算性能。 ?
Spark(內存DAG計算模型) ?
Spark是一個(gè)Apache項目,它被標榜為“快如閃電的集群計算”。它擁有一個(gè)繁榮的開(kāi)源社區,并且是目前最活躍的Apache項目。 ?
最早Spark是UC Berkeley AMP lab所開(kāi)源的類(lèi)Hadoop MapReduce的通用的并行計算框架。 ?
Spark提供了一個(gè)更快、更通用的數據處理平臺。和Hadoop相比,Spark可以讓你的程序在內存中運行時(shí)速度提升100倍,或者在磁盤(pán)上運行時(shí)速度提升10倍 ?
Giraph(圖計算模型) ?
Apache Giraph是一個(gè)可伸縮的分布式迭代圖處理系統, 基于Hadoop平臺,靈感來(lái)自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。 ?
最早出自雅虎。雅虎在開(kāi)發(fā)Giraph時(shí)采用了Google工程師2010年發(fā)表的論文《Pregel:大規模圖表處理系統》中的原理。后來(lái),雅虎將Giraph捐贈給Apache軟件基金會(huì )。 ?
目前所有人都可以下載Giraph,它已經(jīng)成為Apache軟件基金會(huì )的開(kāi)源項目,并得到Facebook的支持,獲得多方面的改進(jìn)。 ?