大數(shù)據(jù),顧名思義,就是大量的數(shù)據(jù)。
更專業(yè)來說,大數(shù)據(jù),是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)軟件工具能力范圍的數(shù)據(jù)集合。
我們通常說:“量變引起質(zhì)變”。大數(shù)據(jù),就屬于這種情況。
當(dāng)數(shù)據(jù)體量增加到一定程度時,相關(guān)技術(shù)、理念、思維等,都隨之發(fā)生質(zhì)變,從而形成了一個新的領(lǐng)域,這就是大數(shù)據(jù)領(lǐng)域。
大數(shù)據(jù),通過對海量數(shù)據(jù)的采集、分析和處理,尋找其中的特征和趨勢,提煉更多的高價值信息,用于改善業(yè)務(wù)流程,或者輔助決策行為。
在大數(shù)據(jù)領(lǐng)域,我們經(jīng)??吹揭恍╆P(guān)于 3V、4V、7V 的說法。這些 V,到底是什么意思呢?
今天這篇文章,小棗君就簡單給大家介紹一下。
█ 3V、4V、7V 的來源
2001 年,美國麥塔集團分析師道格?蘭尼(Doug Laney)在對大數(shù)據(jù)進行理論研究的時候,發(fā)現(xiàn)大數(shù)據(jù)具備三個特征。而這三個特征的英文單詞,恰好又以字母“V”開頭,即:
Volume(體量大)、Variety(多樣化)、Velocity(速度快)。
后來,“3V”這個特征理論,逐漸被業(yè)界所接受,成為描述大數(shù)據(jù)特征的標(biāo)準(zhǔn)。
再后來,在“3V”的基礎(chǔ)上,業(yè)界的一些專家們又陸續(xù)提出了“4V”、“5V”,甚至“7V”,包括:
Veracity(真實性)、Value(價值密度)、Variability(變異性)、Visualization(可視性)等。
所有這些 V,就變成了對大數(shù)據(jù)特征的新定義。
接下來,我們就分別看看,這些“V”具體是什么意思。
█ No.1 :Volume(體量大)
大數(shù)據(jù),到底有多大?
我們傳統(tǒng) PC 和手機處理的數(shù)據(jù),是 GB / TB 級別。例如,我們的硬盤,現(xiàn)在通常是 1TB / 2TB / 4TB 的容量。
TB、GB、MB、KB 的關(guān)系,大家應(yīng)該都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大數(shù)據(jù)是什么級別呢?PB / EB 級別。
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。
1TB,只需要一塊硬盤可以存儲。容量大約是 20 萬張照片或 20 萬首 MP3 音樂,或者是 20 萬部電子書。
1PB,需要大約 2 個機柜的存儲設(shè)備。容量大約是 2 億張照片或 2 億首 MP3 音樂。如果一個人不停地聽這些音樂,可以聽差不多兩千年。
1EB,需要大約 2000 個機柜的存儲設(shè)備。如果并排放這些機柜,可以連綿 1.2 公里那么長。如果擺放在機房里,需要 21 個標(biāo)準(zhǔn)籃球場那么大的機房,才能放得下。
阿里、百度、騰訊這樣的互聯(lián)網(wǎng)巨頭,數(shù)據(jù)量據(jù)說已經(jīng)接近 EB 級。
EB 還不是最大的。目前全人類的數(shù)據(jù)量,是 ZB 級。
1 ZB = 1024 EB (ZB - zettabyte)
根據(jù) IDC 的數(shù)據(jù),在 2020 年,全球創(chuàng)建、捕獲、復(fù)制和消耗的數(shù)據(jù)總量約為 64ZB。而到了 2025 年,全球數(shù)據(jù)總量可能會達到驚人的 163ZB。如果建一個機房來存儲這些數(shù)據(jù),那么,這個機房的面積將比 196 個鳥巢體育場還大。
人類社會的數(shù)據(jù)體量不僅大,增長速度也很快 —— 每年增長 50%。也就是說,每兩年就會增長一倍多。
數(shù)據(jù)的增長,為什么會如此之快?
說到這里,就要回顧一下人類社會數(shù)據(jù)產(chǎn)生的三個重要階段。
第一個階段,是 1940-1990 年。
計算機和數(shù)據(jù)庫被發(fā)明之后,數(shù)據(jù)管理的復(fù)雜度大大降低。各行各業(yè)開始產(chǎn)生了計算機數(shù)據(jù),并記錄在數(shù)據(jù)庫中。這時的數(shù)據(jù),以結(jié)構(gòu)化數(shù)據(jù)為主(待會解釋什么是結(jié)構(gòu)化數(shù)據(jù))。數(shù)據(jù)的產(chǎn)生方式,是被動的。
第二個階段,是 1990-2010 年。
伴隨著互聯(lián)網(wǎng)的爆發(fā),網(wǎng)絡(luò)內(nèi)容開始迅速增長,增加了很多的專業(yè)輸出內(nèi)容(PGC)。Web2.0 出現(xiàn)后,人們開始使用博客、facebook、youtube 這樣的社交網(wǎng)絡(luò),輸出大量的用戶原創(chuàng)內(nèi)容(UGC),從而主動產(chǎn)生了大量的數(shù)據(jù)。移動智能終端時代的到來,也加速了該階段數(shù)據(jù)的產(chǎn)生。
第三個階段,是 2010 年至今。
隨著物聯(lián)網(wǎng)的發(fā)展,各種各樣的感知層節(jié)點(例如遍布各個角落的傳感器、攝像頭)開始自動產(chǎn)生大量的數(shù)據(jù)。企業(yè)的數(shù)字化轉(zhuǎn)型,構(gòu)建了大量的系統(tǒng),沉淀和管理這些數(shù)據(jù)。人類的數(shù)據(jù)總量,再次躍升。
經(jīng)過了“被動-主動-自動”這三個階段的發(fā)展,最終導(dǎo)致了人類數(shù)據(jù)總量的爆炸式膨脹。
值得一提的是,如今,隨著我們逐漸進入 AI 智能時代,很可能會迎來第四次數(shù)據(jù)暴增階段。以 AIGC 為代表的智能機器生產(chǎn)內(nèi)容,正在急劇增加。
█ No.2 :Variety(多樣化)
多樣性主要體現(xiàn)在三個方面 —— 數(shù)據(jù)來源多、數(shù)據(jù)類型多和數(shù)據(jù)之間關(guān)聯(lián)性強。
數(shù)據(jù)來源多:
如前面所說,數(shù)據(jù)來源于不同的應(yīng)用系統(tǒng)和設(shè)備。
例如,企業(yè)所產(chǎn)生的營銷數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)、生產(chǎn)數(shù)據(jù)等,互聯(lián)網(wǎng)行業(yè)所產(chǎn)生的社交內(nèi)容數(shù)據(jù)、訂單數(shù)據(jù)、用戶數(shù)據(jù)等,政府部門所產(chǎn)生的社會治理數(shù)據(jù)、地理數(shù)據(jù)、經(jīng)濟數(shù)據(jù)等。
數(shù)據(jù)類型多:
數(shù)據(jù)又分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù),是指可以用預(yù)先定義的數(shù)據(jù)模型表述,或者,可以存入關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)。例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結(jié)構(gòu)化數(shù)據(jù)。
而網(wǎng)頁文章、郵件內(nèi)容、圖像、音頻、視頻等,都屬于非結(jié)構(gòu)化數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù),介于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間。如 XML、JSON 等格式的數(shù)據(jù),它們有一定的組織形式,但不如結(jié)構(gòu)化數(shù)據(jù)那樣嚴(yán)格。
目前,非結(jié)構(gòu)化數(shù)據(jù)的占比是最高的。例如,在互聯(lián)網(wǎng)領(lǐng)域里,非結(jié)構(gòu)化數(shù)據(jù)的占比已經(jīng)超過了 80%。
數(shù)據(jù)之間關(guān)聯(lián)性強:
數(shù)據(jù)與數(shù)據(jù)之間,有一定的關(guān)聯(lián)性,而且頻繁交互。
例如,游客在旅游途中上傳的照片和日志,就與游客的位置、行程等信息有很強的關(guān)聯(lián)性。
█ No.3 :Velocity(速度快)
這個特性,指的是大數(shù)據(jù)的產(chǎn)生速度快、處理速度快、傳播速度快。從數(shù)據(jù)的生成到消耗,時間窗口非常小。
數(shù)據(jù)產(chǎn)生速度快,體現(xiàn)在生產(chǎn)生活中的方方面面。
我們還是用數(shù)字來說話:
就在剛剛過去的這一分鐘,數(shù)據(jù)世界里發(fā)生了什么?
Email:2000 萬封被發(fā)出
Google:380 萬次搜索請求被提交
Youtube:2100 分鐘的視頻被上傳
Facebook:69.5 萬條狀態(tài)被更新
12306:9000 張車票被賣出
……
怎么樣?是不是瞬息萬變?
數(shù)據(jù)處理速度快,體現(xiàn)在大數(shù)據(jù)可以在實時分析和決策需求的推動下,通過實時處理、并行處理等方式,快速對所產(chǎn)生的數(shù)據(jù)進行處理。
這就要求大數(shù)據(jù)系統(tǒng)具備高并發(fā)、低延遲的能力。舉例來說,大數(shù)據(jù)所采用的流式處理技術(shù),能夠在數(shù)據(jù)不斷產(chǎn)生的同時進行實時處理,確保系統(tǒng)能夠及時獲取并利用最新的信息。
數(shù)據(jù)傳播速度快,體現(xiàn)在大數(shù)據(jù)與以往的檔案、廣播、報紙等傳統(tǒng)數(shù)據(jù)載體不同。大數(shù)據(jù)的交換和傳播,是通過互聯(lián)網(wǎng)等方式實現(xiàn)的,遠比傳統(tǒng)媒介信息交換的傳播速度快。
█ No.4 :Veracity(真實性)
數(shù)據(jù)很多,但也要真實才行。
大數(shù)據(jù)的真實性,指的是數(shù)據(jù)的質(zhì)量和可信度。
在大數(shù)據(jù)環(huán)境中,由于數(shù)據(jù)來源廣泛且多樣,就會導(dǎo)致容易出現(xiàn)錯誤、冗余和不一致的數(shù)據(jù),進而影響到最終分析的準(zhǔn)確性和可靠性。
確保大數(shù)據(jù)的真實性,需要采用數(shù)據(jù)清洗、元數(shù)據(jù)管理、數(shù)據(jù)治理等手段。
此外,隨著技術(shù)的發(fā)展,越來越多的技術(shù)工具和服務(wù)被開發(fā)出來,用于對大數(shù)據(jù)真實性的管理和優(yōu)化。例如數(shù)據(jù)驗證工具、自動化的數(shù)據(jù)清理流程、先進的統(tǒng)計方法用于檢測異常值等。
█ No.5 :Value(價值密度)
大數(shù)據(jù)的數(shù)據(jù)量很大,但隨之帶來的,就是價值密度很低。數(shù)據(jù)中真正有價值的,只是其中的很少一部分。
例如通過監(jiān)控視頻尋找犯罪分子的相貌,也許數(shù)十 TB 的視頻文件,真正有價值的,只有幾秒鐘。
例如,2014 年美國波士頓爆炸案,現(xiàn)場調(diào)取了 10TB 的監(jiān)控數(shù)據(jù)(包括移動基站的通訊記錄,附近商店、加油站、報攤的監(jiān)控錄像以及志愿者提供的影像資料),最終找到了嫌疑犯的一張照片。這張照片的價值,毋庸置疑。
大數(shù)據(jù)中包含很多低價值的信息,而且,信息碎片化的情況嚴(yán)重。因此,需要通過深度分析和挖掘,才能發(fā)現(xiàn)有用的內(nèi)容。
數(shù)據(jù)挖掘、機器學(xué)習(xí)和人工智能等技術(shù),正在逐漸提升數(shù)據(jù)分析和挖掘的效率,幫助人們從低價值密度的數(shù)據(jù)中提取高價值的信息。
█ No.6 :Variability(變異性)
不要怕!這里的變異,并不是生化危機。
大數(shù)據(jù)的變異性,指的是數(shù)據(jù)在處理過程中可能發(fā)生變化的能力,也可以理解為數(shù)據(jù)的動態(tài)性、不確定性。
變異性包括幾個方面:
數(shù)據(jù)分布的不均勻性。
大數(shù)據(jù)集合可能包含來自不同來源、不同時間、不同地點的數(shù)據(jù),這使得數(shù)據(jù)的分布呈現(xiàn)出不均勻性。不同的子集,可能具有不同的統(tǒng)計性質(zhì)。在數(shù)據(jù)分析和建模時,需要考慮這個因素。
數(shù)據(jù)的動態(tài)性。
大數(shù)據(jù)往往是動態(tài)變化的,尤其是實時場景(例如股價)。變化速度,也從以前的秒級,變成了現(xiàn)在的毫秒級,甚至更短。這就要求大數(shù)據(jù)系統(tǒng)和技術(shù)必須能夠適應(yīng)這個動態(tài)變化的特性。
數(shù)據(jù)質(zhì)量的波動。
前面說了,大數(shù)據(jù)中可能包含大量的噪音、異常值和錯誤。這些負(fù)面因素,也可能隨時間變化,導(dǎo)致數(shù)據(jù)質(zhì)量出現(xiàn)明顯波動。
環(huán)境因素的影響。
大數(shù)據(jù)的變異性,還可能受到環(huán)境因素的影響,如天氣、地理位置、社會事件等。對于一些特殊場景的大數(shù)據(jù)應(yīng)用,需要考慮這些外部因素可能導(dǎo)致的變化。
█ No.7 :可視性(Visualization)
這個大家應(yīng)該比較熟悉。我們現(xiàn)在在很多的政府部門和企業(yè),都會看到數(shù)據(jù)大屏,其實也就是可視性的一種體現(xiàn)。
大數(shù)據(jù)的可視性,是指利用圖形化、圖像化的方式,對大數(shù)據(jù)進行呈現(xiàn)。這種方式,可以更直觀地展示數(shù)據(jù)的模式、趨勢和關(guān)系,快速把握數(shù)據(jù)的關(guān)鍵特征。
可視化,能夠幫助人們更好地理解和解釋復(fù)雜的數(shù)據(jù)集,提高對信息的洞察力,促使更明智的決策。
除了觀看之外,可視化也可以借助輔助工具,提供一些交互性功能。
例如,用戶能夠自由選擇感興趣的數(shù)據(jù)子集、調(diào)整視圖參數(shù),從而更靈活地進行數(shù)據(jù)探索。這有助于用戶深入挖掘數(shù)據(jù),找到其中的規(guī)律和異常。
█ 最后的話
好啦,以上就是大數(shù)據(jù)的 7V 特性。
當(dāng)然了,這些特性定義,除了前幾個以外,并沒有一個官方的認(rèn)可。如果你愿意,也可以再想一個 V,變成 8V。
作為一種全新的思維方式和商業(yè)模式,大數(shù)據(jù)正在改變我們的工作和生活。下一期,小棗君再和大家詳細聊聊,大數(shù)據(jù)到底有哪些應(yīng)用場景,能發(fā)揮什么樣的作用和價值。
敬請關(guān)注!
—— The End ——
本文來自微信公眾號:鮮棗課堂(ID:xzclasscom),作者:小棗君
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。