大數據是現在很多企業(yè)發(fā)展中必不可少的工具,它究竟對企業(yè)會(huì )有什么作用呢?從傳統企業(yè)的運行流程來(lái)看,大數據主要能夠在了解用戶(hù)、鎖定資源、規劃生產(chǎn)、做好運營(yíng)、開(kāi)展服務(wù)等方面,那么大數據在這些方面又是怎么做的呢?以下是小編為你整理的想學(xué)大數據怎么樣去學(xué) ?
客戶(hù)是企業(yè)重要的數據源,當數量龐大的客戶(hù)處于同一個(gè)平臺上時(shí),就會(huì )產(chǎn)生無(wú)數個(gè)數據源,而企業(yè)通過(guò)大數據的整合分析,對這些數據源進(jìn)行分析,探碼大數據客流分析通過(guò)對人群熱力指數計算潛力圖,競品分布,大數據識別城市生活消費功能區,用戶(hù)畫(huà)像反映出商場(chǎng)附近客流情況以及客流潛力。將會(huì )總結出一套新的規律,從而幫助企業(yè)了解客戶(hù),為企業(yè)的確定更準確的發(fā)展方向。
今天的客戶(hù)和以往有很大不同。大數據的興起使他們能夠在購買(mǎi)一個(gè)產(chǎn)品之前徹底和孜孜不倦地研究它,并了解他們的消費情況。通過(guò)運用大數據,將客戶(hù)、用戶(hù)和產(chǎn)品進(jìn)行有機串聯(lián),對用戶(hù)的產(chǎn)品偏好,客戶(hù)的關(guān)系偏好進(jìn)行個(gè)性化定位,生產(chǎn)出用戶(hù)驅動(dòng)型的產(chǎn)品,提供客戶(hù)導向性的服務(wù)。并從數據中發(fā)掘出適應企業(yè)發(fā)展環(huán)境的社會(huì )和商業(yè)形態(tài),用數據對用戶(hù)和客戶(hù)對待產(chǎn)品的態(tài)度,進(jìn)行挖掘和洞察,準確發(fā)現并解讀客戶(hù)及用戶(hù)的諸多新需求和行為特征, ?
通過(guò)大數據技術(shù),使企業(yè)在運營(yíng)過(guò)程中,對運營(yíng)所需資源的挖掘、具體情況和儲量分布等,企業(yè)都可以進(jìn)行搜集分析,形成基于企業(yè)的資源分布可視圖,就如同“電子地圖”一般,將各種優(yōu)勢點(diǎn),進(jìn)行“點(diǎn)對點(diǎn)”的數據化、圖像化展現,讓企業(yè)的管理者可以更直觀(guān)地面對自己的企業(yè),更好地利用各種已有和潛在資源。如果沒(méi)有大數據,將很難發(fā)現曾經(jīng)認為是完全無(wú)關(guān)行為間的相互關(guān)聯(lián)性,就如同外媒曾經(jīng)提到的“啤酒”與“尿片”之間的關(guān)聯(lián)營(yíng)銷(xiāo)一樣,如果沒(méi)有大數據這將是一種幾乎不可能的事情。 ?
選擇模型/自定義模型 ?
基于業(yè)務(wù)基礎來(lái)決定選擇模型的形態(tài),比如,如果要預測產(chǎn)品銷(xiāo)量,則可以選擇數值預測模型。(可采用回歸模型,時(shí)序預測) ?
之所以叫模型,因為每個(gè)模型大致的模式是固定的,但其中還會(huì )有一些不確定的變量在里面,這樣模型才會(huì )有通用性,而訓練模型的意思就是找到最合適的參數,一旦找到*參數,模型就基本可用了! ?
也即是字面意思,但一個(gè)模型的好壞是需要放在其特定的業(yè)務(wù)場(chǎng)景下來(lái)評估的。 ?
評價(jià)模型質(zhì)量的常用指標有:平均誤差率、判定系數R2 ?
評估分類(lèi)預測模型質(zhì)量的常用指標(如下圖所示):正確率、查全率、查準率、ROC曲線(xiàn)和AUC值等 ?
第四步:應用模型 ?
評估測量完成后,就要將此模型應用于業(yè)務(wù)基礎的實(shí)踐中去,用于解決工作中的業(yè)務(wù)問(wèn)題的,比如預測客戶(hù)行為,比如劃分客戶(hù)群。 ?
第五步:優(yōu)化模型,一般發(fā)生在兩種情況下: ?
1.在評估模型中,如果發(fā)現模型欠擬合,或者過(guò)擬合,說(shuō)明這個(gè)模型待優(yōu)化; ?
2.在真實(shí)應用場(chǎng)景中,定期進(jìn)行優(yōu)化,或者當發(fā)現模型在真實(shí)的業(yè)務(wù)場(chǎng)景中效果不好時(shí),也要啟動(dòng)優(yōu)化; ?
數據存儲層 ?
數據存儲層主要用于數據的存儲。目前采用MongoDB存儲結果數。 ?
通過(guò)Storm處理后的數據,首先緩存到Redis中,每隔一定得時(shí)間間隔,將數據批量轉存到MongoDB中。 ?
MongoDB是一個(gè)高性能、易部署、易使用的分布式數據存儲系統,介于結構化數據庫和非結構化數據庫之間,數據存儲格式不固定,可以非常方便的進(jìn)行擴充。
?
04數據處理層 ?
數據處理層主要采集一些數據挖掘算法對數據進(jìn)行挖掘,或者進(jìn)行實(shí)時(shí)計算。 ?
數據挖掘主要借助于統計學(xué)方法、機器學(xué)習方法、神經(jīng)網(wǎng)絡(luò )方法等對數據進(jìn)行知識挖掘,發(fā)掘潛在的價(jià)值。 ?
比如利用線(xiàn)性回歸算法,預測車(chē)輛的停留時(shí)間。利用k-means算法對位置臨近的出租車(chē)做聚類(lèi)分析,從而發(fā)現最有可能搭載乘客的熱點(diǎn)區域。根據速度將軌跡數據進(jìn)行分段,從而分析某個(gè)時(shí)間段的道路暢通狀況等。 ?
數據分析層 ?
數據分析層主要是數據的展示和分析。 ?
比如將GPS數據加載到地圖上,利用抓路算法將GPS數據和地圖數據進(jìn)行融合,對分段的軌跡進(jìn)行不同顏色的顯示,可以讓調度人員對當前時(shí)間段的道路通行情況一目了然,輔助車(chē)輛的調度。 ?
我秀*不斷提高自身數據處理能力,就是為了給您提供更快速、更精準、更豐富的數據分析功能。 ?
利用消費記錄來(lái)進(jìn)行評分 ?
大會(huì )數據風(fēng)控除了可以識別出壞人,還可以評估貸款人的還款能力。過(guò)去傳統金融依據借款人的收入來(lái)判斷其還款能力,但是有些客戶(hù)擁有工資以外的收入,例如投資收入、顧問(wèn)咨詢(xún)收入等。另外一些客戶(hù)可能從父母、伴侶、朋友那里獲得其他的財政支持,擁有較高的支付能力。 ?
按照傳統金融的做法,在家不工作照顧家庭的主婦可能還款能力較弱。無(wú)法給其提供貸款,但是其丈夫收入很高,家庭日常支出由其太太做主。這種情況,就需要消費數據來(lái)證明其還款能力了。 ?
常用的消費記錄由銀行卡消費、電商購物、公共事業(yè)費記錄、大宗商品消費等。還可以參考航空記錄、手機話(huà)費、特殊會(huì )員消費等方式。例如頭等艙乘坐次數,物業(yè)費高低、高爾夫球俱樂(lè )部消費,游艇俱樂(lè )部會(huì )員費用,奢侈品會(huì )員,豪車(chē)4S店消費記錄等消費數據可以作為其信用評分重要參考。 ?
互聯(lián)網(wǎng)金融的主要客戶(hù)是屌絲,其電商消費記錄、旅游消費記錄、以及加油消費記錄都可以作為評估其信用的依據。有的互聯(lián)金融公司專(zhuān)門(mén)從事個(gè)人電商消費數據分析,只要客戶(hù)授權其登陸電商網(wǎng)站,其可以借助于工具將客戶(hù)歷史消費數據全部抓取并進(jìn)行匯總和評分。 ?