大數(shù)據(jù)時代已經(jīng)到來。這句話已經(jīng)被重復過無數(shù)次。先別忙著進行樂觀的展望,我們現(xiàn)在所談到大數(shù)據(jù),其實幅度和深度都相當有限,大量信息被封鎖在信息孤島上。各級地方政府和各部委,自上世紀90年代起上馬了各自的電子政務工程,發(fā)展到現(xiàn)在,已實現(xiàn)基本的數(shù)據(jù)積累,各項業(yè)務辦理和機關運轉也切換到電子平臺上。但各項電子政務工程并未實現(xiàn)真正意義上的信息共享,跨部門調閱數(shù)據(jù)很多情況下需要部門或地方領導出面,就更談不上這些數(shù)據(jù)無障礙開放給社會和企業(yè)了。
電子商務、金融、電信等行業(yè)的龍頭企業(yè),深耕大數(shù)據(jù)也很有成效,沉淀了大量的有效數(shù)據(jù)以及對于該企業(yè)價值不大,卻有著較高社會應用價值的數(shù)據(jù)。這些信息和數(shù)據(jù)被認為是企業(yè)的核心資產(chǎn),企業(yè)在加大信息采集、數(shù)據(jù)挖掘分析的成本投入同時,拒絕與其他企業(yè)、公共組織共享。
一些政府部門已經(jīng)意識到大數(shù)據(jù)的應用價值以及政府信息開放的必要性,卻沒有予以響應,而是通過授權或直接建立數(shù)據(jù)企業(yè)的方式,將自己掌握的公共數(shù)據(jù)打包轉讓給這樣的企業(yè)經(jīng)營。社會組織、企業(yè)、公民要想使用公共數(shù)據(jù),就得為之付費。
孤島化的大數(shù)據(jù),帶來的最突出問題是數(shù)據(jù)采集分析的重復化,造成大量社會成本無謂消耗,也使得數(shù)據(jù)挖掘分析的水平長期難以提高。根據(jù)有限數(shù)據(jù)所作的實時判斷和前瞻分析,很難避免細節(jié)甚至方向錯誤。對于創(chuàng)業(yè)者和初創(chuàng)企業(yè)來說,信息和數(shù)據(jù)采集的成本之高,常常超出他們的負擔能力,因而信息孤島造成的結果是抑制創(chuàng)新創(chuàng)業(yè),現(xiàn)有的創(chuàng)業(yè)者和企業(yè)也將盡可能避免在信息和數(shù)據(jù)采集上投入過多成本,將更主要的精力放在營銷噱頭上。以大數(shù)據(jù)、云計算、智能設備為代表的新興科技產(chǎn)業(yè),美國的發(fā)展水平要超過我國,這顯然不僅跟美國的產(chǎn)業(yè)起步較早有關,也源自美國的經(jīng)濟和社會數(shù)據(jù)開放水平更為領先。
可以說,中國大數(shù)據(jù)發(fā)展已經(jīng)走到了一個重要關口,如果繼續(xù)延續(xù)現(xiàn)有的信息孤島局面,政府、企業(yè)、社會組織、科研機構各自為政,數(shù)據(jù)挖掘分析的水平還是會繼續(xù)提升,經(jīng)濟和社會應用價值也會體現(xiàn),但必然因此滯后于美國等國家,且差距將也越來越大。與之相應的另一種選擇就是,積極推進信息開放、數(shù)據(jù)共享,實現(xiàn)數(shù)據(jù)資源的融合集聚,跟上大數(shù)據(jù)的發(fā)展潮流。
中信出版社最近出版了大數(shù)據(jù)戰(zhàn)略重點實驗室的智慧成果《塊數(shù)據(jù)》。這本書針對條塊分割“條數(shù)據(jù)”,提煉出一個對應的概念“塊數(shù)據(jù)”,即以開放、共享、連接為特征的數(shù)據(jù)融合集聚機制,不但匯集了現(xiàn)有分隔化的大數(shù)據(jù)實體的數(shù)據(jù)資源,而且還借助智能設備、社交網(wǎng)絡擴張數(shù)據(jù)來源。塊數(shù)據(jù)圍繞人及其活動而產(chǎn)生,不但要收集人的靜態(tài)數(shù)據(jù),還要記錄人的行為活動數(shù)據(jù),還將記錄思想、意識和意愿數(shù)據(jù)。
書中第三章探討了塊數(shù)據(jù)的重要價值。首先,這將帶來新一輪商業(yè)革命。傳統(tǒng)產(chǎn)業(yè)將因此獲得轉型提升的最佳機會,創(chuàng)業(yè)者和初創(chuàng)企業(yè)的信息獲取成本被顯著降低,現(xiàn)有的大數(shù)據(jù)企業(yè)也將通過更為全面、實時水平更高的數(shù)據(jù)提高數(shù)據(jù)挖掘分析特別是前瞻預測的水平。其次,塊數(shù)據(jù)將改善社會領域的社會服務、社會議題管理、社會組織運行水平,使這個領域內(nèi)的組織和個人擺脫目前受限于信息劣勢的困境。第三,將推動政府管治提升,書中提出,政府自身的“思考方式、行為方式和與民眾的互動方式”都將因此升級換代。第四,形成崇尚誠信、分享、開放的文化。
但要真正走出目前的“條數(shù)據(jù)”,走向塊數(shù)據(jù),仍面臨著諸多現(xiàn)實障礙。一是要改變數(shù)據(jù)生態(tài)系統(tǒng)和規(guī)則。無論在企業(yè)還是公共部門,數(shù)據(jù)文化都以保密為導向,開放是例外,要重塑數(shù)據(jù)文化的DNA,難度可想而知。而建立具體的數(shù)據(jù)分享規(guī)則和新的利益分配方式,也相當困難,比如,如何確保在數(shù)據(jù)挖掘分析上投入巨資的大企業(yè)在開放數(shù)據(jù)后,能夠獲得合理回報,又同時兼顧中小企業(yè)的利益,等等。二是數(shù)據(jù)結構化挑戰(zhàn)壓力較大。海量數(shù)據(jù)多以非結構化形式體現(xiàn),要予以利用需要更為先進的數(shù)據(jù)分析技術和更科學的算法,這恰恰是中國企業(yè)的短板。三是塊數(shù)據(jù)的數(shù)據(jù)安全問題和隱私安全問題,重要性緊迫性也在凸顯。書中第六章提到的數(shù)據(jù)脫敏(數(shù)據(jù)保密、數(shù)據(jù)匿名化)可以有效解決數(shù)據(jù)安全和隱私安全問題,但究竟哪些、什么樣的數(shù)據(jù)/隱私細節(jié)需要進行脫敏處理,這方面的理念和規(guī)則還沒有統(tǒng)一。