堅(jiān)持為客戶提供有價(jià)值的服務(wù)和內(nèi)容

大數(shù)據(jù)的挖掘“大”在哪里?

商企云 | 2021-06-29 | 分享至:
? 以前我們談?wù)摂?shù)據(jù)挖掘,而大數(shù)據(jù)時(shí)代我們談?wù)摯髷?shù)據(jù)挖掘。那么大數(shù)據(jù)挖掘“大”在哪里? 本文對此進(jìn)行了一些歸納,希望能提供一些思考問題的方法。
不足之處請留言發(fā)表意見。
?
一、數(shù)據(jù)量的大
? ? ? ?數(shù)據(jù)量大到多少? 這是一個(gè)很多人在進(jìn)行大數(shù)據(jù)挖掘時(shí)要問的問題。
從一些實(shí)際應(yīng)用看,一般每天處理的數(shù)據(jù)量達(dá)到T、P級別的,可以考慮部署Hadoop、Spark之類的大數(shù)據(jù)處理平臺,一定量級的數(shù)據(jù)處理才能突顯這些平臺的優(yōu)越性。
? ? ? 數(shù)據(jù)量少,數(shù)據(jù)的讀取、搬遷所花費(fèi)的時(shí)間占比太多,反而無法體現(xiàn)大數(shù)據(jù)處理平臺的優(yōu)勢。不少應(yīng)用只是為了大數(shù)據(jù)而大數(shù)據(jù),幾百M(fèi)也弄個(gè)Hadoop。因此,現(xiàn)在一談大數(shù)據(jù)就認(rèn)為是Hadoop、Spark等平臺是很有局限性的。
? ? ? 當(dāng)然,實(shí)際在決定是否使用大數(shù)據(jù)平臺時(shí),可能需要考慮更多的因素,例如:要集成很多的低性能機(jī)器、異構(gòu)軟硬件平臺間的可移植性、大量的非結(jié)構(gòu)化數(shù)據(jù)處理等。
?
二、數(shù)據(jù)類型的多樣化
? ? ? 在數(shù)據(jù)挖掘時(shí)代,我們挖掘的數(shù)據(jù)主要以關(guān)系型數(shù)據(jù)為主。大數(shù)據(jù)時(shí)代,各種應(yīng)用產(chǎn)生了各種數(shù)據(jù),通常在大數(shù)據(jù)挖掘中會(huì)涉及到多種數(shù)據(jù)類型。這里所說的數(shù)據(jù)類型不是程序設(shè)計(jì)中的普通數(shù)據(jù)類型,而是更接近于應(yīng)用的數(shù)據(jù)表現(xiàn)形式,通常有時(shí)間序列數(shù)據(jù)、軌跡數(shù)據(jù)、圖數(shù)據(jù)、文本數(shù)據(jù)等等。
? ? ? 每天的銷售記錄、價(jià)格是普通數(shù)據(jù)類型,但是從時(shí)間維度將它們按照順序連接起來,構(gòu)成的時(shí)間序列數(shù)據(jù)能體現(xiàn)出價(jià)格的變化規(guī)律,理所當(dāng)然具有更豐富的含義。
? ? ? ?每個(gè)人所處的位置不過是一個(gè)(x,y)的普通數(shù)據(jù)類型,但是按照移動(dòng)的先后順序把位置連接起來,就構(gòu)成了某人的活動(dòng)軌跡,背后體現(xiàn)的是他的生活、習(xí)慣,這些隱藏信息才是大數(shù)據(jù)應(yīng)當(dāng)關(guān)注的。
? ? ? ?微博或論壇中每個(gè)人是獨(dú)立存在的,也是普通數(shù)據(jù),但是如果把每個(gè)人按照粉絲、關(guān)注等關(guān)系連接起來,就可以構(gòu)成一張很大的圖,即圖數(shù)據(jù)。圖中的人群、離群,以及加上群體偏好、群體運(yùn)動(dòng)等屬性后的高等圖數(shù)據(jù),就是大數(shù)據(jù)挖掘的關(guān)注點(diǎn)。
?
三、數(shù)據(jù)處理的噪音
? ? ? 在數(shù)據(jù)挖掘時(shí)代,數(shù)據(jù)來源于關(guān)系型數(shù)據(jù)庫,都是一些與業(yè)務(wù)相關(guān)、質(zhì)量比較高的數(shù)據(jù),一般拿來就可以直接挖。大數(shù)據(jù)挖掘肯定就不是這樣,大數(shù)據(jù)思維決定了我們要考慮不同來源的數(shù)據(jù)的質(zhì)量、數(shù)據(jù)結(jié)構(gòu)魚龍混雜,以增強(qiáng)數(shù)據(jù)處理的魯棒性。比如,要進(jìn)行企業(yè)級的客戶分析,不同的分公司可能使用不同的客戶管理系統(tǒng),有的系統(tǒng)采用本科/碩士/博士來區(qū)分客戶的學(xué)歷,而有的采用本科/研究生來區(qū)分,這就要求考慮數(shù)據(jù)的一致性處理。此外,數(shù)據(jù)格式、數(shù)據(jù)完整性等等都是大數(shù)據(jù)挖掘需要考慮的。
?
四、數(shù)據(jù)挖掘的多樣化
? ? ? 在數(shù)據(jù)挖掘時(shí)代,一般側(cè)重于單項(xiàng)的數(shù)據(jù)分析,而大數(shù)據(jù)挖據(jù)可能會(huì)更側(cè)重于多項(xiàng)數(shù)據(jù)挖掘任務(wù)同時(shí)存在,如業(yè)務(wù)上同時(shí)要求分類、預(yù)測、相關(guān)性、聚類等。盡管業(yè)務(wù)需求多了,但是這些分類、預(yù)測、相關(guān)性、聚類可能在底層上采用的是同一種模型,因此,在大數(shù)據(jù)挖據(jù)時(shí)考慮模型、算法與業(yè)務(wù)的分離是非常重要的,即所謂的大數(shù)據(jù)處理層次結(jié)構(gòu)。
掃二維碼與項(xiàng)目經(jīng)理溝通

7*24小時(shí)為您服務(wù)

解答:網(wǎng)站優(yōu)化,網(wǎng)站建設(shè),APP開發(fā),小程序開發(fā),H5開發(fā),品牌推廣,新聞推廣,輿情監(jiān)測等

  非常感謝您有耐心的讀完這篇文章:"大數(shù)據(jù)的挖掘“大”在哪里?",更多內(nèi)容請繼續(xù)瀏覽,我們將為您提供更多參考使用或?qū)W習(xí)交流的信息。我們還可為您提供:網(wǎng)站建設(shè)與開發(fā)、網(wǎng)站優(yōu)化、品牌推廣、APP開發(fā)、小程序開發(fā)新聞推廣等服務(wù),我們以“降低營銷成本,提高營銷效果”的服務(wù)理念,自創(chuàng)立至今,已成功服務(wù)過不同行業(yè)的1000多家企業(yè),獲得國家高新技術(shù)企業(yè)認(rèn)證,且擁有14項(xiàng)國家軟件著作權(quán),將力爭成為國內(nèi)企業(yè)心目中值得信賴的互聯(lián)網(wǎng)產(chǎn)品及服務(wù)提供商。如您需要合作,請掃碼咨詢,我們將誠摯為您服務(wù)。
我要咨詢
姓名 :
電話 :
文章分類