第一部分大數(shù)據(jù)時(shí)代的思維變革02更雜:不是精確性,而是混雜性
允許不精確
在越來(lái)越多的情況下,使用所有可獲取的數(shù)據(jù)變得更為可能,但為此也要付出一定的代價(jià)。數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確,與此同時(shí),一些錯(cuò)誤的數(shù)據(jù)也會(huì)混進(jìn)數(shù)據(jù)庫(kù)。然而,重點(diǎn)是我們能夠努力避免這些問(wèn)題。我們從不認(rèn)為這些問(wèn)題是無(wú)法避免的,而且也正在學(xué)會(huì)接受它們。這就是由“小數(shù)據(jù)”到“大數(shù)據(jù)”的重要轉(zhuǎn)變之一。
對(duì)“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量。因?yàn)槭占男畔⒘勘容^少,所以我們必須確保記錄下來(lái)的數(shù)據(jù)盡量精確。無(wú)論是觀察天體的位置還是觀測(cè)顯微鏡下物體的大小,為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測(cè)量的工具。在采樣的時(shí)候,對(duì)精確度的要求就更高更苛刻了。因?yàn)槭占畔⒌挠邢抟馕吨?xì)微的錯(cuò)誤會(huì)被放大,甚至有可能影響整個(gè)結(jié)果的準(zhǔn)確『性』。
歷史上很多時(shí)候,人們會(huì)把通過(guò)測(cè)量世界來(lái)征服世界視為最大的成就。事實(shí)上,對(duì)精確度的高要求始于13世紀(jì)中期的歐洲。那時(shí)候,天文學(xué)家和學(xué)者對(duì)時(shí)間、空間的研究采取了比以往更為精確的量化方式,用歷史學(xué)家阿爾弗雷德·克羅斯比(alfredcrosby)的話來(lái)說(shuō)就是“測(cè)量現(xiàn)實(shí)”。
我們研究一個(gè)現(xiàn)象,是因?yàn)槲覀兿嘈盼覀兡軌蚶斫馑?。后?lái),測(cè)量方法逐漸被運(yùn)用到科學(xué)觀察、解釋方法中,體現(xiàn)為一種進(jìn)行量化研究、記錄,并呈現(xiàn)可重復(fù)結(jié)果的能力。羅德·凱文(lordkelvin)曾說(shuō)過(guò):“測(cè)量就是認(rèn)知?!边@已成為一條至理名言。培根也曾說(shuō)過(guò):“知識(shí)就是力量?!蓖瑫r(shí),很多數(shù)學(xué)家以及后來(lái)的精算師和會(huì)計(jì)師都發(fā)展了可以準(zhǔn)確收集、記錄和管理數(shù)據(jù)的方法。
19世紀(jì),科技率先發(fā)展起來(lái)的法國(guó)開(kāi)發(fā)了一套能準(zhǔn)確計(jì)量時(shí)間、空間單位的系統(tǒng),并逐漸成為其他國(guó)家普遍采用的標(biāo)準(zhǔn),這套系統(tǒng)還為后來(lái)國(guó)際公認(rèn)的測(cè)量條約奠定了基礎(chǔ),成為測(cè)量時(shí)代的巔峰。僅半個(gè)世紀(jì)之后,20世紀(jì)20年代,量子力學(xué)的發(fā)現(xiàn)永遠(yuǎn)粉碎了“測(cè)量臻于至善”的幻夢(mèng)。然而,在物理學(xué)這個(gè)小圈子以外的一些測(cè)量工程師和科學(xué)家仍沉湎在完美測(cè)量的夢(mèng)中。隨著理『性』學(xué)科,如數(shù)學(xué)和統(tǒng)計(jì)學(xué)逐漸影響到商業(yè)領(lǐng)域,商業(yè)界更加崇尚這種思想。
然而,在不斷涌現(xiàn)的新情況里,允許不精確的出現(xiàn)已經(jīng)成為一個(gè)新的亮點(diǎn),而非缺點(diǎn)。因?yàn)榉潘闪巳蒎e(cuò)的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)也多了起來(lái),還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡(jiǎn)單了,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。
同時(shí),我們需要與各種各樣的混『亂』做斗爭(zhēng)?;臁簛y』,簡(jiǎn)單地說(shuō)就是隨著數(shù)據(jù)的增加,錯(cuò)誤率也會(huì)相應(yīng)增加。所以,如果橋梁的壓力數(shù)據(jù)量增加1000倍的話,其中的部分讀數(shù)就可能是錯(cuò)誤的,而且隨著讀數(shù)量的增加,錯(cuò)誤率可能也會(huì)繼續(xù)增加。在整合來(lái)源不同的各類信息的時(shí)候,因?yàn)樗鼈兺ǔ2煌耆恢?,所以也?huì)加大混『亂』程度。例如,與服務(wù)器處理投訴時(shí)的數(shù)據(jù)進(jìn)行比較,用語(yǔ)音識(shí)別系統(tǒng)識(shí)別某個(gè)呼叫中心接到的投訴會(huì)產(chǎn)生一個(gè)不太準(zhǔn)確的結(jié)果,但也是有助于我們把握整個(gè)事情的大致情況的。
混『亂』還可以指格式的不一致『性』,因?yàn)橐_(dá)到格式一致,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到?!按髷?shù)據(jù)”專家帕堤爾(d.j.patil)指出,i.b.m.、t.j.watsonlabs、internationalbusinessmachines都可以用來(lái)指代ibm,甚至可能有成千上萬(wàn)種方法稱呼ibm。當(dāng)然,在萃取或處理數(shù)據(jù)的時(shí)候,混『亂』也會(huì)發(fā)生。因?yàn)樵谶M(jìn)行數(shù)據(jù)轉(zhuǎn)化的時(shí)候,我們是在把它變成另外的事物。比如,我們?cè)趯?duì)twitter的信息進(jìn)行情感分析來(lái)預(yù)測(cè)好萊塢票房的時(shí)候,就會(huì)出現(xiàn)一定的混『亂』。其實(shí),混『亂』的起源和類型本來(lái)就是一團(tuán) 『亂』麻。
假設(shè)你要測(cè)量一個(gè)葡萄園的溫 度,但是整個(gè)葡萄園只有一個(gè)溫 度測(cè)量?jī)x,那你就必須確保這個(gè)測(cè)試儀是精確的而且能夠一直工作。反過(guò)來(lái),如果每100棵葡萄樹(shù)就有一個(gè)測(cè)量?jī)x,有些測(cè)試的數(shù)據(jù)可能會(huì)是錯(cuò)誤的,也可能會(huì)更加混『亂』,但眾多的讀數(shù)合起來(lái)就可以提供一個(gè)更加準(zhǔn)確的結(jié)果。因?yàn)檫@里面包含了更多的數(shù)據(jù),而它提供的價(jià)值不僅能抵消掉錯(cuò)誤數(shù)據(jù)造成的影響,還能提供更多的額外價(jià)值。
現(xiàn)在想想增加讀數(shù)頻率的這個(gè)事情。如果每隔一分鐘就測(cè)量一下溫 度,我們至少還能夠保證測(cè)量結(jié)果是按照時(shí)間有序排列的。如果變成每分鐘測(cè)量十次甚至百次的話,不僅讀數(shù)可能出錯(cuò),連時(shí)間先后都可能搞混掉。試想,如果信息在網(wǎng)絡(luò)中流動(dòng),那么一條記錄很可能在傳輸過(guò)程中被延遲,在其到達(dá)的時(shí)候已經(jīng)沒(méi)有意義了,甚至干脆在奔涌的信息洪流中徹底『迷』失。雖然我們得到的信息不再那么準(zhǔn)確,但收集到的數(shù)量龐大的信息讓我們放棄嚴(yán)格精確的選擇變得更為劃算。
在第一個(gè)例子里,我們?yōu)榱双@得更廣泛的數(shù)據(jù)而犧牲了精確『性』,也因此看到了很多如若不然無(wú)法被關(guān)注到的細(xì)節(jié)。在第二個(gè)例子里,我們?yōu)榱烁哳l率而放棄了精確『性』,結(jié)果觀察到了一些本可能被錯(cuò)過(guò)的變化。雖然如果我們能夠下足夠多的工夫,這些錯(cuò)誤是可以避免的,但在很多情況下,與致力于避免錯(cuò)誤相比,對(duì)錯(cuò)誤的包容會(huì)帶給我們更多好處。
為了擴(kuò)大規(guī)模,我們接受適量錯(cuò)誤的存在。正如技術(shù)咨詢公司forrester所認(rèn)為的,有時(shí)得到2加2約等于3.9的結(jié)果,也很不錯(cuò)了。當(dāng)然,數(shù)據(jù)不可能完全錯(cuò)誤,但為了了解大致的發(fā)展趨勢(shì),我們?cè)敢鈱?duì)精確『性』做出一些讓步。
我們可以在大量數(shù)據(jù)對(duì)計(jì)算機(jī)其他領(lǐng)域進(jìn)步的重要『性』上看到類似的變化。我們都知道,如摩爾定律所預(yù)測(cè)的,過(guò)去一段時(shí)間里計(jì)算機(jī)的數(shù)據(jù)處理能力得到了很大的提高。摩爾定律認(rèn)為,每塊芯片上晶體管的數(shù)量每?jī)赡昃蜁?huì)翻一倍。這使得電腦運(yùn)行更快速了,存儲(chǔ)空間更大了。大家沒(méi)有意識(shí)到的是,驅(qū)動(dòng)各類系統(tǒng)的算法也進(jìn)步了——美國(guó)總統(tǒng)科技顧問(wèn)委員會(huì)的報(bào)告顯示,在很多領(lǐng)域這些算法帶來(lái)的進(jìn)步還要?jiǎng)龠^(guò)芯片的進(jìn)步。然而,社會(huì)從“大數(shù)據(jù)”中所能得到的,并非來(lái)自運(yùn)行更快的芯片或更好的算法,而是更多的數(shù)據(jù)。
由于象棋的規(guī)則家喻戶曉,且走子限制良多,在過(guò)去的幾十年里,象棋算法的變化很小。計(jì)算機(jī)象棋程序總是步步為贏是由于對(duì)殘局掌握得更好了,而之所以能做到這一點(diǎn)也只是因?yàn)橥到y(tǒng)里加入了更多的數(shù)據(jù)。實(shí)際上,當(dāng)棋盤(pán)上只剩下六枚棋子或更少的時(shí)候,這個(gè)殘局得到了全面地分析,并且接下來(lái)所有可能的走法(樣本=總體)都被制入了一個(gè)龐大的數(shù)據(jù)表格。這個(gè)數(shù)據(jù)表格如果不壓縮的話,會(huì)有一太字節(jié)那么多。所以,計(jì)算機(jī)在這些重要的象棋殘局中表現(xiàn)得完美無(wú)缺和不可戰(zhàn)勝。
大數(shù)據(jù)在多大程度上優(yōu)于算法這個(gè)問(wèn)題在自然語(yǔ)言處理上表現(xiàn)得很明顯(這是關(guān)于計(jì)算機(jī)如何學(xué)習(xí) 和領(lǐng)悟我們?cè)谌粘I钪惺褂谜Z(yǔ)言的學(xué)科方向)。在2000年的時(shí)候,微軟研究中心的米歇爾·班科(michelebanko)和埃里克·布里爾(ericbill)一直在尋求改進(jìn)word程序中語(yǔ)法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同的變化。很多對(duì)計(jì)算機(jī)學(xué)習(xí) 算法的研究都建立在百萬(wàn)字左右的語(yǔ)料庫(kù)基礎(chǔ)上。最后,他們決定往4種常見(jiàn)的算法中逐漸添加數(shù)據(jù),先是一千萬(wàn)字,再到一億字,最后到十億。
結(jié)果有點(diǎn)令人吃驚。他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。
當(dāng)數(shù)據(jù)只有500萬(wàn)的時(shí)候,有一種簡(jiǎn)單的算法表現(xiàn)得很差,但數(shù)據(jù)達(dá)10億的時(shí)候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來(lái)的75%提高到了95%以上。與之相反地,在少量數(shù)據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時(shí),也會(huì)像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。
后來(lái),班科和布里爾在他們發(fā)表的研究論文中寫(xiě)到,“如此一來(lái),我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上。”
大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效
所以,數(shù)據(jù)多比少好,更多數(shù)據(jù)比算法系統(tǒng)更智能還要重要。那么,混『亂』呢?在班科和布里爾開(kāi)始研究數(shù)據(jù)幾年后,微軟的最大競(jìng)爭(zhēng)對(duì)手,谷歌,也開(kāi)始更大規(guī)模地對(duì)這些問(wèn)題進(jìn)行探討。谷歌用的是上萬(wàn)億的語(yǔ)料庫(kù),而不是十億的。谷歌做這類研究不是因?yàn)檎Z(yǔ)法檢查,而是為了解決翻譯這個(gè)更棘手的難題。
20世紀(jì)40年代,電腦由真空管制成,要占據(jù)整個(gè)房間這么大的空間。而機(jī)器翻譯也只是計(jì)算機(jī)開(kāi)發(fā)人員的一個(gè)想法。在冷戰(zhàn)時(shí)期,美國(guó)掌握了大量關(guān)于蘇聯(lián)的各種資料,但缺少翻譯這些資料的人手。所以,計(jì)算機(jī)翻譯也成了亟須解決的問(wèn)題。
最初,計(jì)算機(jī)研發(fā)人員打算將語(yǔ)法規(guī)則和雙語(yǔ)詞典結(jié)合在一起。1954年,ibm以計(jì)算機(jī)中的250個(gè)詞語(yǔ)和六條語(yǔ)法規(guī)則為基礎(chǔ),將60個(gè)俄語(yǔ)詞組翻譯成了英語(yǔ),結(jié)果振奮人心。ibm701通過(guò)穿孔卡片讀取了“mipyeryedayemmislyiposryedstvomryechyi”這句話,并且將其譯成了“我們通過(guò)語(yǔ)言來(lái)交 流思想”。在慶祝這個(gè)成就的發(fā)布會(huì)上,一篇報(bào)道就有提到,這60句話翻譯得很流暢。這個(gè)程序的指揮官利昂·多斯特爾特(leondostert)表示,他相信“在三五年后,機(jī)器翻譯將會(huì)變得很成熟”。
事實(shí)證明,計(jì)算機(jī)翻譯最初的成功誤導(dǎo)了人們。1966年,一群機(jī)器翻譯的研究人員意識(shí)到,翻譯比他們想象的更困難,他們不得不承認(rèn)他們的失敗。機(jī)器翻譯不能只是讓電腦熟悉常用規(guī)則,還必須教會(huì)電腦處理特殊的語(yǔ)言情況。畢竟,翻譯不僅僅只是記憶和復(fù)述,也涉及選詞,而明確地教會(huì)電腦這些非常不現(xiàn)實(shí)。法語(yǔ)中的“bonjour”就一定是“早上好”嗎?有沒(méi)有可能是“日安”、“你好”或者“喂”?事實(shí)上都有可能——這需要視情況而定。
在20世紀(jì)80年代后期,ibm的研發(fā)人員提出了一個(gè)新的想法。與單純教給計(jì)算機(jī)語(yǔ)言規(guī)則和詞匯相比,他們?cè)噲D讓計(jì)算機(jī)自己估算一個(gè)詞或一個(gè)詞組適合于用來(lái)翻譯另一種語(yǔ)言中的一個(gè)詞和詞組的可能『性』,然后再?zèng)Q定某個(gè)詞和詞組在另一種語(yǔ)言中的對(duì)等詞和詞組。
20世紀(jì)90年代,ibm的這個(gè)candide項(xiàng)目花費(fèi)了大概十年的時(shí)間,將大約有300萬(wàn)句之多的加拿大議會(huì)資料譯成了英語(yǔ)和法語(yǔ)并出版。由于是官方文件,翻譯的標(biāo)準(zhǔn)就非常高。用那個(gè)時(shí)候的標(biāo)準(zhǔn)來(lái)看,數(shù)據(jù)量非常之龐大。統(tǒng)計(jì)機(jī)器學(xué)習(xí) 從誕生之日起,就聰明地把翻譯的挑戰(zhàn)變成了一個(gè)數(shù)學(xué)問(wèn)題,而這似乎很有效!計(jì)算機(jī)翻譯在短時(shí)間內(nèi)就提高了很多。然而,在這次飛躍之后,ibm公司盡管投入了很多資金,但取得的成效不大。最終,ibm公司停止了這個(gè)項(xiàng)目。
無(wú)所不包的谷歌翻譯系統(tǒng)
2006年,谷歌公司也開(kāi)始涉足機(jī)器翻譯。這被當(dāng)作實(shí)現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個(gè)目標(biāo)的一個(gè)步驟。谷歌翻譯開(kāi)始利用一個(gè)更大更繁雜的數(shù)據(jù)庫(kù),也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語(yǔ)言之間的文本翻譯。
谷歌翻譯系統(tǒng)為了訓(xùn)練計(jì)算機(jī),會(huì)吸收它能找到的所有翻譯。它會(huì)從各種各樣語(yǔ)言的公司網(wǎng)站上去尋找聯(lián)合國(guó)和歐洲委員會(huì)這些國(guó)際組織發(fā)布的官方文件和報(bào)告的譯本。它甚至?xí)账僮x項(xiàng)目中的書(shū)籍翻譯。谷歌翻譯部的負(fù)責(zé)人弗朗茲·奧齊(franzoch)是機(jī)器翻譯界的權(quán)威,他指出,“谷歌的翻譯系統(tǒng)不會(huì)像candide一樣只是仔細(xì)地翻譯300萬(wàn)句話,它會(huì)掌握用不同語(yǔ)言翻譯的質(zhì)量參差不齊的數(shù)十億頁(yè)的文檔?!辈豢紤]翻譯質(zhì)量的話,上萬(wàn)億的語(yǔ)料庫(kù)就相當(dāng)于950億句英語(yǔ)。
盡管其輸入源很混『亂』,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對(duì)而言還是最好的,而且可翻譯的內(nèi)容更多。到2012年年中,谷歌數(shù)據(jù)庫(kù)涵蓋了60多種語(yǔ)言,甚至能夠接受14種語(yǔ)言的語(yǔ)音輸入,并有很流利的對(duì)等翻譯。之所以能做到這些,是因?yàn)樗鼘⒄Z(yǔ)言視為能夠判別可能『性』的數(shù)據(jù),而不是語(yǔ)言本身。如果要將印度語(yǔ)譯成加泰羅尼亞語(yǔ),谷歌就會(huì)把英語(yǔ)作為中介語(yǔ)言。因?yàn)樵诜g的時(shí)候它能適當(dāng)增減詞匯,所以谷歌的翻譯比其他系統(tǒng)的翻譯靈活很多。
谷歌的翻譯之所以更好并不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制。和微軟的班科和布里爾一樣,這是因?yàn)楣雀璺g增加了很多各種各樣的數(shù)據(jù)。從谷歌的例子來(lái)看,它之所以能比ibm的candide系統(tǒng)多利用成千上萬(wàn)的數(shù)據(jù),是因?yàn)樗邮芰擞绣e(cuò)誤的數(shù)據(jù)。2006年,谷歌發(fā)布的上萬(wàn)億的語(yǔ)料庫(kù),就是來(lái)自于互聯(lián)網(wǎng)的一些廢棄內(nèi)容。這就是“訓(xùn)練集”,可以正確地推算出英語(yǔ)詞匯搭配在一起的可能『性』。
20世紀(jì)60年代,擁有百萬(wàn)英語(yǔ)單詞的語(yǔ)料庫(kù)——布朗語(yǔ)料庫(kù)算得上這個(gè)領(lǐng)域的開(kāi)創(chuàng)者,而如今谷歌的這個(gè)語(yǔ)料庫(kù)則是一個(gè)質(zhì)的突破,后者使用龐大的數(shù)據(jù)庫(kù)使得自然語(yǔ)言處理這一方向取得了飛躍式的發(fā)展。自然語(yǔ)言處理能力是語(yǔ)音識(shí)別系統(tǒng)和計(jì)算機(jī)翻譯的基礎(chǔ)。彼得·諾維格(peternorvig),谷歌公司人工智能方面的專家,和他的同事在一篇題為《數(shù)據(jù)的非理『性』效果》(theunreasonableeffectivenessofdata)的文章中寫(xiě)道,“大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效。”諾維格和他同事就指出,混雜是關(guān)鍵。
“從某種意義上,谷歌的語(yǔ)料庫(kù)是布朗語(yǔ)料庫(kù)的一個(gè)退步。因?yàn)楣雀枵Z(yǔ)料庫(kù)的內(nèi)容來(lái)自于未經(jīng)過(guò)濾的網(wǎng)頁(yè)內(nèi)容,所以會(huì)包含一些不完整的句子、拼寫(xiě)錯(cuò)誤、語(yǔ)法錯(cuò)誤以及其他各種錯(cuò)誤。況且,它也沒(méi)有詳細(xì)的人工糾錯(cuò)后的注解。但是,谷歌語(yǔ)料庫(kù)是布朗語(yǔ)料庫(kù)的好幾百萬(wàn)倍大,這樣的優(yōu)勢(shì)完全壓倒了缺點(diǎn)。”
紛繁的數(shù)據(jù)越多越好
傳統(tǒng)的樣本分析師們很難容忍錯(cuò)誤數(shù)據(jù)的存在,因?yàn)樗麄円簧荚谘芯咳绾畏乐购捅苊忮e(cuò)誤的出現(xiàn)。在收集樣本的時(shí)候,統(tǒng)計(jì)學(xué)家會(huì)用一整套的策略來(lái)減少錯(cuò)誤發(fā)生的概率。在結(jié)果公布之前,他們也會(huì)測(cè)試樣本是否存在潛在的系統(tǒng)『性』偏差。這些策略包括根據(jù)協(xié)議或通過(guò)受過(guò)專門(mén)訓(xùn)練的專家來(lái)采集樣本。但是,即使只是少量的數(shù)據(jù),這些規(guī)避錯(cuò)誤的策略實(shí)施起來(lái)還是耗費(fèi)巨大。尤其是當(dāng)我們收集所有數(shù)據(jù)的時(shí)候,這就行不通了。不僅是因?yàn)楹馁M(fèi)巨大,還因?yàn)樵诖笠?guī)模的基礎(chǔ)上保持?jǐn)?shù)據(jù)收集標(biāo)準(zhǔn)的一致『性』不太現(xiàn)實(shí)。就算是不讓人們進(jìn)行溝通,也不能解決這個(gè)問(wèn)題。
大數(shù)據(jù)時(shí)代要求我們重新審視精確『性』的優(yōu)劣。如果將傳統(tǒng)的思維模式運(yùn)用于數(shù)字化、網(wǎng)絡(luò)化的21世紀(jì),就會(huì)錯(cuò)過(guò)重要的信息。執(zhí)『迷』于精確『性』是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物。在那個(gè)信息貧乏的時(shí)代,任意一個(gè)數(shù)據(jù)點(diǎn)的測(cè)量情況都對(duì)結(jié)果至關(guān)重要。所以,我們需要確保每個(gè)數(shù)據(jù)的精確『性』,才不會(huì)導(dǎo)致分析結(jié)果的偏差。
混雜『性』,不是竭力避免,而是標(biāo)準(zhǔn)途徑
確切地說(shuō),在許多技術(shù)和社會(huì)領(lǐng)域,我們更傾向于紛繁混雜。我們來(lái)看看內(nèi)容分類方面的情況。幾個(gè)世紀(jì)以來(lái),人們一直用分類法和索引法來(lái)幫助自己存儲(chǔ)和檢索數(shù)據(jù)資源。這樣的分級(jí)系統(tǒng)通常都不完善——各位讀者沒(méi)有忘記圖書(shū)館卡片目錄給你們帶來(lái)的痛苦回憶吧?在“小數(shù)據(jù)”范圍內(nèi),這些方法就很有效,但一旦把數(shù)據(jù)規(guī)模增加好幾個(gè)數(shù)量級(jí),這些預(yù)設(shè)一切都各就各位的系統(tǒng)就會(huì)崩潰。
相片分享網(wǎng)站flickr在2011年擁有來(lái)自大概1億用戶的60億張照片。根據(jù)預(yù)先設(shè)定好的分類來(lái)標(biāo)注每張照片就沒(méi)有意義了。難道真會(huì)有人為他的照片取名“像希特勒一樣的貓”嗎?
恰恰相反,清楚的分類被更混『亂』卻更靈活的機(jī)制所取代。這些機(jī)制才能適應(yīng)改變著的世界。當(dāng)我們上傳照片到flickr網(wǎng)站的時(shí)候,我們會(huì)給照片添加標(biāo)簽。也就是說(shuō),我們會(huì)使用一組文本標(biāo)簽來(lái)編組和搜索這些資源。人們用自己的方式創(chuàng)造和使用標(biāo)簽,所以它是沒(méi)有標(biāo)準(zhǔn)、沒(méi)有預(yù)先設(shè)定的排列和分類,也沒(méi)有我們必須遵守的類別的。任何人都可以輸入新的標(biāo)簽,標(biāo)簽內(nèi)容事實(shí)上就成為網(wǎng)絡(luò)資源的分類標(biāo)準(zhǔn)。標(biāo)簽被廣泛地應(yīng)用于facebook、博客等社交 網(wǎng)絡(luò)上。因?yàn)樗鼈兊拇嬖冢ヂ?lián)網(wǎng)上的資源變得更加容易找到,特別是像圖片、視頻和音樂(lè)這些無(wú)法用關(guān)鍵詞搜索的非文本類資源。
當(dāng)然,有時(shí)人們錯(cuò)標(biāo)的標(biāo)簽會(huì)導(dǎo)致資源編組的不準(zhǔn)確,這會(huì)讓習(xí)慣了精確『性』的人們很痛苦。但是,我們用來(lái)編組照片集的混『亂』方法給我們帶來(lái)了很多好處。比如,我們擁有了更加豐富的標(biāo)簽內(nèi)容,同時(shí)能更深更廣地獲得各種照片。我們可以通過(guò)合并多個(gè)搜索標(biāo)簽來(lái)過(guò)濾我們需要尋找的照片,這在以前是無(wú)法完成的。我們添加標(biāo)簽時(shí)所固帶的不準(zhǔn)確『性』從某種意義上說(shuō)明我們能夠接受世界的紛繁復(fù)雜。這是對(duì)更加精確系統(tǒng)的一種對(duì)抗。這些精確的系統(tǒng)試圖讓我們接受一個(gè)世界貧乏而規(guī)整的慘相——假裝世間萬(wàn)物都是整齊地排列的。而事實(shí)上現(xiàn)實(shí)是紛繁復(fù)雜的,天地間存在的事物也遠(yuǎn)遠(yuǎn)多于系統(tǒng)所設(shè)想的。
互聯(lián)網(wǎng)上最火的網(wǎng)址都表明,它們欣賞不精確而不會(huì)假裝精確。當(dāng)一個(gè)人在網(wǎng)站上見(jiàn)到一個(gè)facebook的“喜歡”按鈕時(shí),可以看到有多少其他人也在點(diǎn)擊。當(dāng)數(shù)量不多時(shí),會(huì)顯示像“63”這種精確的數(shù)字。當(dāng)數(shù)量很大時(shí),則只會(huì)顯示近似值,比方說(shuō)“4000”。這并不代表系統(tǒng)不知道正確的數(shù)據(jù)是多少,只是當(dāng)數(shù)量規(guī)模變大的時(shí)候,確切的數(shù)量已經(jīng)不那么重要了。另外,數(shù)據(jù)更新得非???,甚至在剛剛顯示出來(lái)的時(shí)候可能就已經(jīng)過(guò)時(shí)了。所以,同樣的原理適用于時(shí)間的顯示。谷歌的gmail郵箱會(huì)確切標(biāo)注在很短時(shí)間內(nèi)收到的信件,比方說(shuō)“11分鐘之前”。但是,對(duì)于已經(jīng)收到一段時(shí)間的信件,則會(huì)標(biāo)注如“兩個(gè)小時(shí)之前”這種不太確切的時(shí)間信息。
2000年以來(lái),商務(wù)智能和分析軟件領(lǐng)域的技術(shù)供應(yīng)商們一直承諾給客戶“一個(gè)唯一真理”。執(zhí)行官們用這個(gè)詞組并沒(méi)有諷刺的意思,現(xiàn)在也依然有技術(shù)供應(yīng)商這樣說(shuō)。他們說(shuō)這個(gè)詞組的意思就是,每個(gè)使用該公司信息技術(shù)系統(tǒng)的人都能利用同樣的數(shù)據(jù)資源,這樣市場(chǎng)部和營(yíng)銷(xiāo)部的人員們就不需要再在會(huì)議開(kāi)始前爭(zhēng)論,到底是誰(shuí)掌握了正確的客戶和銷(xiāo)售數(shù)據(jù)了。這個(gè)想法就是說(shuō),如果他們知道的數(shù)據(jù)是一致的,那么他們的利益也會(huì)更一致。
但是,“一個(gè)唯一的真理”這種想法已經(jīng)徹底被改變了?,F(xiàn)在不但出現(xiàn)了一種新的認(rèn)識(shí),即“一個(gè)唯一的真理”的存在是不可能的,而且追求這個(gè)唯一的真理是對(duì)注意力的分散。要想獲得大規(guī)模數(shù)據(jù)帶來(lái)的好處,混『亂』應(yīng)該是一種標(biāo)準(zhǔn)途徑,而不應(yīng)該是竭力避免的。
我們甚至發(fā)現(xiàn),不精確已經(jīng)滲入了數(shù)據(jù)庫(kù)設(shè)計(jì)這個(gè)最不能容忍錯(cuò)誤的領(lǐng)域。傳統(tǒng)的數(shù)據(jù)庫(kù)引擎要求數(shù)據(jù)高度精確和準(zhǔn)確排列。數(shù)據(jù)不是單純地被存儲(chǔ),它往往被劃分為包含“域”的記錄,每個(gè)域都包含了特定種類和特定長(zhǎng)度信息。比方說(shuō),某個(gè)數(shù)值域是7個(gè)數(shù)字長(zhǎng),一個(gè)1000萬(wàn)或者更大的數(shù)值就無(wú)法被記錄。一個(gè)人想在某個(gè)記錄手機(jī)號(hào)碼的域中輸入一串漢字是“不被允許”的。想要被允許也可以,需要改變數(shù)據(jù)庫(kù)結(jié)構(gòu)才可以?,F(xiàn)在,我們依然在和電腦以及智能手機(jī)上的這些限制進(jìn)行斗爭(zhēng),比如軟件可能拒絕記錄我們輸入的數(shù)據(jù)。
索引是事先就設(shè)定好了的,這也就限制了人們的搜索。增加一個(gè)新的索引往往既消耗時(shí)間,又惹人討厭,因?yàn)樾枰淖兊讓拥脑O(shè)計(jì)。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)是為數(shù)據(jù)稀缺的時(shí)代設(shè)計(jì)的,所以能夠也需要仔細(xì)策劃。在那個(gè)時(shí)代,人們?cè)庥龅降膯?wèn)題無(wú)比清晰,所以數(shù)據(jù)庫(kù)被設(shè)計(jì)用來(lái)有效地回答這些問(wèn)題,
但是,這種數(shù)據(jù)存儲(chǔ)和分析的方法越來(lái)越和現(xiàn)實(shí)相沖突。我們現(xiàn)在擁有各種各樣、參差不齊的海量數(shù)據(jù),很少有數(shù)據(jù)完全符合預(yù)先設(shè)定的數(shù)據(jù)種類。而且,我們想要的數(shù)據(jù)回答的問(wèn)題,也只有在我們收集和處理數(shù)據(jù)的過(guò)程中才會(huì)知道。