數據本身是沒有偏好的科學工具。除非這個原本枯燥的工作被賦予了太多的利益內涵而又不受制約。簡言之,數據就像是鐵面無私的法官,其公信力往往取決于數據生成全過程的抗干擾能力。
 |
作者:涂子沛 出版:中信出版社 |
《數據之巔:大數據革命,歷史、現實與未來》是開中國社會大數據之先河的徐子沛的第二本著述,如果說前一本開創性的《大數據》引發了大數據戰略、數據治國和開放數據的討論,“為華文世界開創了一個重要話題”,那《數據之巔》則在追根溯源,追述小數據的歷史與大數據的崛起過程,著重解析美國的實例,闡述歷史大架構下的數據文化以及數據治國理念的形成。歸根結底,作者是要提醒國人,當前信息技術的發展,已讓我國獲得了后發優勢,但數據文化從來是中國文化的薄弱之處,想在大數據時代的全球競爭中勝出,必須把大數據從科技符號提升成為文化符號,在全社會倡導數據文化。
按徐子沛的看法,大數據時代是從本世紀10年代開始的,標志著人類社會正在向智能社會轉型,但追述大數據的興起過程,卻要從小數據開始。他選擇從美國的數據文化根基開始講起,通過闡述初數時代、內戰時代、鍍金時代、進步時代、抽樣時代的數據文化特征,以數據分權、人口普查、土地丈量、數據遠征、數據審判等歷史事件為主線、系統梳理了美國數據文化的形成,闡述其數據治國之道。
無論是開國總統華盛頓,還是打贏南北戰爭的林肯,都高度重視統計。因“羅斯福新政”聞名于世的美國第31任總統富蘭克林·德拉諾·羅斯福更是“首倡要在公共政策的制定過程當中應用統計學的理論和方法”。高度重視統計,表明一個政府對收集社會各方面信息的科學性,此舉也必定有助于決策的科學性。
但是,現實發展不可能總是自然走向好的一面。對數據越是高度重視,越不可避免地會遇到一個常識性的“技術”問題,即數據的準確性。數據是否準確主要取決于兩大方面,一是統計標準的確立,二是統計過程的嚴謹。相較于后者,前者相對較為容易。之所以這么說,是因為統計過程的嚴謹與否,往往取決于統計人員的素質以及相關制衡機制。很難想象,一個統計工作人員如果受到工作之外的強力干擾,仍會謹守數據的準確性。而如果缺乏外在有效監督制約力量,統計很難不會朝向“趨利避害”的方向逐漸扭曲。這也就是說,統計做的是數字的工作,但歸根結底還是取決于人的素質,還有良好機制等系統機制的約束。
美國的數據權威之所以能夠得到較好的保證,拋開數屆政府堅持確立科學的統計標準外,還在于整個社會對統計數據的真實性和科學性存在諸多制衡機制,比如公開和辯論。公開,本身就是社會對統計工作監督的重要內容之一,其中又以輿論監督為最。在強大的輿論監督壓力下,統計瑕疵一旦被曝光,輕則被質疑,重則可能引發官場地震。二百多年來,美國輿論對各類數據始終保持著習慣性“虎視眈眈”傳統,絕大多數媒體還會通過民意調查等方式,從“民間”角度反證官方數據的準確性與合理性。當然,這種“民間發聲”也會被一些見風使舵的政客所利用,一些美國總統精于踩著民意統計步點,及時派“糖”以保個的支持率的實例屢見不鮮。不過,徐子沛并不認為這就是數據不可饒恕之積蔽,而是數據未來發展有必要努力克服的方向。
公開數據,還是遏制特權的有效手段。在1843年前,美國“各地的執法官為了提高(人口普查)數據的準確性,在普查完成之后,還在城市、村莊的顯要位置張貼普查結果,號召民眾補充和核對”。盡管后來出于隱私保護的考慮,對有關統計信息都有所遮蔽,但“國會的議員必須每年公開自己的財產情況,包括各類股票的數量和交易明細”卻一點不通融。奧巴馬就任總統后,“從上任的第一天起,他就在全國范圍內推動數據開放運動”。數據公開力度,某種意義上也折射出一個社會的清廉度。
僅僅公開當然是不夠的,因為有的數據不是公開后便可一目了然,這就需要專業人士的深入研究乃至充分爭論!霸趪鴷穆犠C會上,每一個數據如果稍有含糊,每一個邏輯推理的鏈條如果斷裂,都有可能被虎視眈眈的競爭對手揪出來,受到質疑和挑戰”。也只有經常性地面臨被質疑的強大壓力,才可能確保數據的生成過程始終嚴謹。
分析數據,就是為了從數字中尋找可能的規律。一個過硬的數據體系,更有益于決策的造福于社會。數據不僅在美國政界大量開花結果,民間同樣收獲頗豐。如蓋洛普公司憑借“科學抽樣”不僅成功預測數屆總統人選,還為好萊塢電影《亂世佳人》提供全程指導并大獲成功。而被譽為“質量管理之父”的愛德華·戴明通過抽樣檢查實現對產品質量的控制,還推動了日本制造業在短時間內的質量騰飛。
歷史學家黃仁宇在《萬歷十五年》中有過一個著名論斷:中國人不善于用數目字管理,對古幣存世量的討論,大多含糊其辭。近幾十年來,情況有了較大改變。1983年我國出臺了首部《統計法》,現在施行的《統計法》歷經1996年和2009年兩次修訂。社會各方越來越重視分析比較各類統計數據。不過,現實表明,我們的統計工作仍有大力提升的空間。順舉一例,據報,2013年全國31省區市的GDP之和約為63萬億,這個數據超出了全國GDP總量逾6.1萬億。事實上,像這樣巨大的統計“誤差”絕非孤例。出現這類統計誤差,原因不外乎兩個,一是統計標準不一,比如未能有效厘清對央企等特殊企業特殊行業的統計內容;二是統計中摻有政績“水分”,這也是導致統計巨大“誤差”的重要原因。2002年,國務院前總理朱镕基為國家會計學院題寫校訓“不做假賬”,這無疑是對數字工作者的巨大鞭策。然而,在多年來的“唯GDP”崇拜下,扭轉數字出政績的歷史慣性不僅需要智慧,恐怕還更需要“橫刀立馬”的勇氣。
數據本身是沒有偏好的科學工具。除非這個原本枯燥的工作被賦予了太多的利益內涵而又不受制約。簡言之,數據就像是鐵面無私的法官,其公信力往往取決于數據生成全過程的抗干擾能力。
隨著科學技術的飛速發展,特別隨著社交媒體的普及,每個網民在不知不覺中都變成了數據生產者。網民上網的過程,同時也是數據處理的過程,每個網民無形中變成了一臺臺數據處理器,所不同的是處理標差和側重點的不同。“從科技符號演變為文化符號,形成一種文化話語體系,大數據,正在撬動中國的制度創新、科技創新”。現在的問題是,面對海量的數字謎團,我們該如何從中尋找可能的內在規律?