檔案大數(shù)據(jù)概念與涵義
當(dāng)今世界快速發(fā)展將我們帶入了一個(gè)全新的時(shí)代。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,成為巨大的數(shù)據(jù)來(lái)源。伴隨信息處理的快速提升,人類(lèi)社會(huì)的“大數(shù)據(jù)”時(shí)代正撲面而來(lái),大數(shù)據(jù)已經(jīng)成為當(dāng)前學(xué)術(shù)界和產(chǎn)業(yè)界的研究熱點(diǎn),正影響著人們?nèi)粘I罘绞?、工作?xí)慣及思考模式。
縱觀檔案界,智慧檔案這一理念的提出得益于大數(shù)據(jù)技術(shù)的迅猛發(fā)展,檔案數(shù)據(jù)倉(cāng)庫(kù)在大數(shù)據(jù)風(fēng)暴中的作用日益凸顯,縱觀全國(guó),各級(jí)檔案部門(mén)在數(shù)字檔案館和檔案數(shù)字化建設(shè)中不斷取得成果,其發(fā)展方向已經(jīng)自覺(jué)或不自覺(jué)地朝著大數(shù)據(jù)邁近。“檔案大數(shù)據(jù)”這一概念隨著智慧檔案的提出應(yīng)運(yùn)而生,它與未來(lái)檔案現(xiàn)代化建設(shè)是相輔相成、相互促進(jìn)的。數(shù)字檔案館和檔案數(shù)字化的建設(shè)將為檔案大數(shù)據(jù)提供數(shù)據(jù)基礎(chǔ)和實(shí)踐經(jīng)驗(yàn),反過(guò)來(lái),檔案大數(shù)據(jù)的思路也將指引著檔案工作的繁榮和發(fā)展,使檔案工作更趨科學(xué)合理,更具預(yù)見(jiàn)性和可持續(xù)性。
一、大數(shù)據(jù)
大數(shù)據(jù)又稱(chēng)海量數(shù)據(jù),數(shù)據(jù)量級(jí)超越傳統(tǒng)理念達(dá)到前所未見(jiàn)得程度,一般指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成有效的能夠用于決策的信息。面對(duì)這種超大規(guī)模的數(shù)據(jù)需要更適合的、更高效的、更科學(xué)的、更被普遍應(yīng)用的工具來(lái)處理。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)的特點(diǎn)主要體現(xiàn)在數(shù)據(jù)量體量龐大、數(shù)據(jù)類(lèi)型豐富繁多、數(shù)據(jù)來(lái)源廣泛等幾個(gè)方面。根據(jù)業(yè)界分析調(diào)研機(jī)構(gòu)IDC的定義,大數(shù)據(jù)具有 VOLUME(容量)、 VARIETY(多樣)、 VELOCITY(速度)、 VALUE(價(jià)值)四大特征。
1、容量(Volume)
既數(shù)據(jù)體量龐大,起步達(dá)到PB級(jí)別,具權(quán)威機(jī)構(gòu)預(yù)測(cè),到2020年,全球數(shù)據(jù)量將擴(kuò)大至少50倍以上,而且這種趨勢(shì)本身也在呈現(xiàn)上升式的變化,單一數(shù)據(jù)集的規(guī)模范圍已經(jīng)突破TB達(dá)到PB以上量級(jí)。大容量的同時(shí)數(shù)據(jù)類(lèi)別也呈現(xiàn)出非結(jié)構(gòu)化的特點(diǎn),非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度比結(jié)構(gòu)化數(shù)據(jù)快10倍以上。
2、多樣(Variety)
多樣性體現(xiàn)在結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)多樣性的產(chǎn)生是由于新型多結(jié)構(gòu)數(shù)據(jù),具體體現(xiàn)在文字、音頻、視頻、圖片、網(wǎng)絡(luò)日志地理信息、手機(jī)通話信息以及各種傳感裝置采集的各式各樣的分析數(shù)據(jù)。
3、速度( Velocity)
速度特性體現(xiàn)在大數(shù)據(jù)在被創(chuàng)建、復(fù)制、移動(dòng)及刪除的表現(xiàn)反應(yīng)。面對(duì)海量的、多結(jié)構(gòu)的數(shù)據(jù),大數(shù)據(jù)本身必須具有速度性作為保障,從而降低數(shù)據(jù)的管理,提高用戶的操作體驗(yàn),降低設(shè)備的消耗成本,以高速的效率進(jìn)行深度的數(shù)據(jù)挖掘。
4、價(jià)值(Value)
價(jià)值性決定了海量的多結(jié)構(gòu)數(shù)據(jù)的意義,從大量不相關(guān)的數(shù)據(jù)中檢索彌足珍貴的信息是大數(shù)據(jù)管理的目的??梢岳斫鉃樯忱锾越鸫蠛漆?,有價(jià)值信息的存在是海量數(shù)據(jù)聚集的目的,價(jià)值性決定了大數(shù)據(jù)具備作為信息預(yù)測(cè)的可能。