引言一場生活、工作與思維的大變革大數(shù)據(jù),大挑戰(zhàn)
大數(shù)據(jù)的核心代表著我們分析信息時(shí)的三個(gè)轉(zhuǎn)變。這些轉(zhuǎn)變將改變我們理解和組建社會的方法。
第一個(gè)轉(zhuǎn)變就是,在大數(shù)據(jù)時(shí)代,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣。這部分內(nèi)容將在第1章闡述。19世紀(jì)以來,當(dāng)面臨大量數(shù)據(jù)時(shí),社會都依賴于采樣分析。但是采樣分析是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)代的產(chǎn)物。以前我們通常把這看成了理所當(dāng)然的限制,但高『性』能數(shù)字技術(shù)的流行讓我們意識到,這其實(shí)是一種人為的限制。與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來了更高的精確『性』,也讓我們看到了一些以前無法發(fā)現(xiàn)的細(xì)節(jié)——大數(shù)據(jù)讓我們更清楚地看到了樣本無法揭示的細(xì)節(jié)信息。
第二個(gè)改變就是,研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度。這部分內(nèi)容將在第2章闡述。當(dāng)我們測量事物的能力受限時(shí),關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。如果購買者不知道牛群里有80頭牛還是100頭牛,那么交 易就無法進(jìn)行。直到今天,我們的數(shù)字技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。我們假設(shè)只要電子數(shù)據(jù)表格把數(shù)據(jù)排序,數(shù)據(jù)庫引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄。
這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以我們必須盡可能精準(zhǔn)地量化我們的記錄。在某些方面,我們已經(jīng)意識到了差別。例如,一個(gè)小商店在晚上打烊的時(shí)候要把收銀臺里的每分錢都數(shù)清楚,但是我們不會、也不可能用“分”這個(gè)單位去精確計(jì)算國民生產(chǎn)總值。隨著規(guī)模的擴(kuò)大,對精確度的癡『迷』將減弱。
達(dá)到精確需要有專業(yè)的數(shù)據(jù)庫。針對小數(shù)據(jù)量和特定事情,追求精確『性』依然是可行的,比如一個(gè)人的銀行賬戶上是否有足夠的錢開具支票。但是,在這個(gè)大數(shù)據(jù)時(shí)代,在很多時(shí)候,追求精確度已經(jīng)變得不可行,甚至不受歡迎了。當(dāng)我們擁有海量即時(shí)數(shù)據(jù)時(shí),絕對的精準(zhǔn)不再是我們追求的主要目標(biāo)。
大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布在全球多個(gè)服務(wù)器上。擁有了大數(shù)據(jù),我們不再需要對一個(gè)現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可。當(dāng)然,我們也不是完全放棄了精確度,只是不再沉『迷』于此。適當(dāng)忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。
第三個(gè)轉(zhuǎn)變因前兩個(gè)轉(zhuǎn)變而促成,即我們不再熱衷于尋找因果關(guān)系。這部分內(nèi)容將在第3章闡述。尋找因果關(guān)系是人類長久以來的習(xí)慣。即使確定因果關(guān)系很困難而且用途不大,人類還是習(xí)慣『性』地尋找緣由。相反,在大數(shù)據(jù)時(shí)代,我們無須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這會給我們提供非常新穎且有價(jià)值的觀點(diǎn)。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了。
如果電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的致病原因就沒有這種治療方法本身來得重要。同樣,只要我們知道什么時(shí)候是買機(jī)票的最佳時(shí)機(jī),就算不知道機(jī)票價(jià)格瘋狂變動的原因也無所謂了。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因,我們只要讓數(shù)據(jù)自己發(fā)聲。
我們不再需要在還沒有收集數(shù)據(jù)之前,就把我們的分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲,我們會注意到很多以前從來沒有意識到的聯(lián)系的存在。
例如,對沖基金通過剖析社交 網(wǎng)絡(luò)twitter上的數(shù)據(jù)信息來預(yù)測股市的表現(xiàn);亞馬遜和奈飛(netflix)根據(jù)用戶在其網(wǎng)站上的類似查詢來進(jìn)行產(chǎn)品推薦;twitter,facebookllinkedin通過用戶的社交 網(wǎng)絡(luò)圖來得知用戶的喜好。
當(dāng)然,人類從數(shù)千年前就開始分析數(shù)據(jù)。古代美索不達(dá)米亞平原的記賬人員為了有效地跟蹤記錄信息發(fā)明了書寫。自從圣經(jīng)時(shí)代開始,『政府』就通過進(jìn)行人口普查來建立大型的國民數(shù)據(jù)庫。兩百多年來,精算師們也一直通過搜集大量的數(shù)據(jù)來進(jìn)行風(fēng)險(xiǎn)規(guī)避。
模擬時(shí)代的數(shù)據(jù)收集和分析極其耗時(shí)耗力,新問題的出現(xiàn)通常要求我們重新收集和分析數(shù)據(jù)。數(shù)字化的到來使得數(shù)據(jù)管理效率又向前邁出了重要的一步。數(shù)字化將模擬數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)可以讀取的數(shù)字?jǐn)?shù)據(jù),使得存儲和處理這些數(shù)據(jù)變得既便宜又容易,從而大大提高了數(shù)據(jù)管理效率。過去需要幾年時(shí)間才能完成的數(shù)據(jù)搜集,現(xiàn)在只要幾天就能完成。但是,光有改變還遠(yuǎn)遠(yuǎn)不夠。數(shù)據(jù)分析者太沉浸于模擬數(shù)據(jù)時(shí)代的設(shè)想,即數(shù)據(jù)庫只有單一的用途和價(jià)值,而正是我們使用的技術(shù)和方法加深了這種偏見。雖然數(shù)字化是促成向大數(shù)據(jù)轉(zhuǎn)變的重要原因,但僅有計(jì)算機(jī)的存在卻不足以實(shí)現(xiàn)大數(shù)據(jù)。
我們沒有辦法準(zhǔn)確描述現(xiàn)在正在發(fā)生的一切,但是在第4章即將提到的“數(shù)據(jù)化”概念可以幫助我們大致了解這次變革。數(shù)據(jù)化意味著我們把一切都透明化,甚至包括很多我們以前認(rèn)為和“信息”根本搭不上邊的事情。比方說,一個(gè)人所在的位置、引擎的振動、橋梁的承重等。我們要通過量化的方法把這些內(nèi)容轉(zhuǎn)化為數(shù)據(jù)。這就使得我們可以嘗試許多以前無法做到的事情,如根據(jù)引擎的散熱和振動來預(yù)測引擎是否會出現(xiàn)故障。這樣,我們就激發(fā)出了這些數(shù)據(jù)此前未被挖掘的潛在價(jià)值。
大數(shù)據(jù)時(shí)代開啟了一場尋寶游戲,而人們對于數(shù)據(jù)的看法以及對于由因果關(guān)系向相關(guān)關(guān)系轉(zhuǎn)化時(shí)釋放出的潛在價(jià)值的態(tài)度,正是主宰這場游戲的關(guān)鍵。新興技術(shù)工具的使用使這一切成為可能。寶貝不止一件,每個(gè)數(shù)據(jù)集內(nèi)部都隱藏著某些未被發(fā)掘的價(jià)值。這場發(fā)掘和利用數(shù)據(jù)價(jià)值的競賽正開始在全球上演。
第5章和第6章將講述大數(shù)據(jù)如何改變了商業(yè)、市場和社會的本質(zhì)。20世紀(jì),價(jià)值已經(jīng)從實(shí)體基建轉(zhuǎn)變?yōu)闊o形財(cái)產(chǎn),從土地和工廠轉(zhuǎn)變?yōu)槠放坪彤a(chǎn)權(quán)。如今,一個(gè)新的轉(zhuǎn)變正在進(jìn)行,那就是電腦存儲和分析數(shù)據(jù)的方法取代電腦硬件成為了價(jià)值的源泉。數(shù)據(jù)成為了有價(jià)值的公司資產(chǎn)、重要的經(jīng)濟(jì)投入和新型商業(yè)模式的基石。雖然數(shù)據(jù)還沒有被列入企業(yè)的資產(chǎn)負(fù)債表,但這只是一個(gè)時(shí)間問題。
雖然有些數(shù)據(jù)處理技術(shù)已經(jīng)出現(xiàn)了一段時(shí)間,但是它們只為調(diào)查局、研究所和世界上的一些巨頭公司所掌握。沃爾瑪和美國第一資本銀行(capitalone)率先將大數(shù)據(jù)運(yùn)用在了零售業(yè)和銀行業(yè),因此改變了整個(gè)行業(yè)。如今這種技術(shù)大多都實(shí)現(xiàn)了大眾化。
大數(shù)據(jù)對個(gè)人的影響是最驚人的。在一個(gè)可能『性』和相關(guān)『性』占主導(dǎo)地位的世界里,專業(yè)『性』變得不那么重要了。行業(yè)專家不會消失,但是他們必須與數(shù)據(jù)表達(dá)的信息進(jìn)行博弈。如同在電影 《點(diǎn)球成金》(moneyball)里,棒球星探們在統(tǒng)計(jì)學(xué)家面前相形見絀——直覺的判斷被迫讓位于精準(zhǔn)的數(shù)據(jù)分析。這將迫使人們調(diào)整在管理、決策、人力資源和教育方面的傳統(tǒng)理念。
我們大部分的習(xí) 俗和慣例都建立在一個(gè)預(yù)設(shè)好的立場上,那就是我們用來進(jìn)行決策的信息必須是少量、精確并且至關(guān)重要的。但是,當(dāng)數(shù)據(jù)量變大、數(shù)據(jù)處理速度加快,而且數(shù)據(jù)變得不那么精確時(shí),之前的那些預(yù)設(shè)立場就不復(fù)存在了。此外,因?yàn)閿?shù)據(jù)量極為龐大,最后做出決策的將是機(jī)器而不是人類自己。第7章將會討論大數(shù)據(jù)的負(fù)面影響。
在了解和監(jiān)視人類的行為方面,社會已經(jīng)有了數(shù)千年的經(jīng)驗(yàn)。但是,如何來監(jiān)管一個(gè)算法系統(tǒng)呢?在信息化時(shí)代的早期,有一些政策專家就看到了信息化給人們的隱私權(quán)帶來的威脅,社會也已經(jīng)建立起了龐大的規(guī)則體系來保障個(gè)人的信息安全。但是在大數(shù)據(jù)時(shí)代,這些規(guī)則都成了無用的馬其諾防線。人們自愿在網(wǎng)絡(luò)上分享信息,而這種分享的能力成為了網(wǎng)絡(luò)服務(wù)的一個(gè)中心特征,而不再是一個(gè)需要規(guī)避的薄弱點(diǎn)了。
對我們而言,危險(xiǎn)不再是隱私的泄『露』,而是被預(yù)知的可能『性』——這些能預(yù)測我們可能生病、拖欠還款和犯罪的算法會讓我們無法購買保險(xiǎn)、無法貸款、甚至在實(shí)施犯罪前就被預(yù)先逮捕。顯然,統(tǒng)計(jì)把大數(shù)據(jù)放在了首位,但即便如此,個(gè)人意志是否應(yīng)該凌駕于大數(shù)據(jù)之上呢?就像出版印刷行業(yè)的發(fā)展推動國家立法保護(hù)言論自由 (在此之前沒有出臺類似法律的必要,因?yàn)闆]有太多的言論需要保護(hù)),大數(shù)據(jù)時(shí)代也需要新的規(guī)章制度來保衛(wèi)權(quán)勢面前的個(gè)人權(quán)利。
『政府』機(jī)構(gòu)和社會在控制和處理數(shù)據(jù)的方法上必須有多方位的改變。不可否認(rèn),我們進(jìn)入了一個(gè)用數(shù)據(jù)進(jìn)行預(yù)測的時(shí)代,雖然我們可能無法解釋其背后的原因。如果一個(gè)醫(yī)生只要求病人遵從醫(yī)囑,卻沒法說明醫(yī)學(xué)干預(yù)的合理『性』的話,情況會怎么樣呢?實(shí)際上,這是依靠大數(shù)據(jù)取得病理分析的醫(yī)生們一定會做的事情。還有司法系統(tǒng)的“合理證據(jù)”是不是應(yīng)該改為“可能證據(jù)”呢?如果真是這樣,會對人類自由 和尊嚴(yán)產(chǎn)生什么影響呢?
我們在大數(shù)據(jù)時(shí)代倡導(dǎo)的一系列規(guī)范將在第8章進(jìn)行介紹。這些規(guī)范建立在我們很熟悉的“小數(shù)據(jù)”時(shí)代發(fā)展并保留下來的規(guī)范的基礎(chǔ)之上。新環(huán)境要求舊規(guī)范與時(shí)俱進(jìn)。
大數(shù)據(jù)標(biāo)志著人類在尋求量化和認(rèn)識世界的道路上前進(jìn)了一大步。過去不可計(jì)量、存儲、分析和共享的很多東西都被數(shù)據(jù)化了。擁有大量的數(shù)據(jù)和更多不那么精確的數(shù)據(jù)為我們理解世界打開了一扇新的大門。社會因此放棄了尋找因果關(guān)系的傳統(tǒng)偏好,開始挖掘相關(guān)關(guān)系的好處。
尋找原因是一種現(xiàn)代社會的一神論,大數(shù)據(jù)推翻了這個(gè)論斷。但我們又陷入了一個(gè)歷史的困境,那就是我們活在一個(gè)“上帝已死”的時(shí)代。也就是說,我們曾經(jīng)堅(jiān)守的信念動搖了。諷刺的是,這些信念正在被“更好”的證據(jù)所取代。那么,從經(jīng)驗(yàn)中得來的與證據(jù)相矛盾的直覺、信念和『迷』惘應(yīng)該充當(dāng)什么角『色』呢?當(dāng)世界由探求因果關(guān)系變成挖掘相關(guān)關(guān)系,我們怎樣才能既不損壞建立在因果推理基礎(chǔ)之上的社會繁榮和人類進(jìn)步的基石,又取得實(shí)際的進(jìn)步呢?本書意在解釋我們身在何處,我們從何而來,并且提供當(dāng)下亟需的指導(dǎo),以應(yīng)對眼前的利益和危險(xiǎn)。