国产最新a级毛片无码专区_综合亚洲欧美日韩久久精品_日本成年片在线观看66_一本到九九av电影_一级毛片免费网站播放_国内精品久久人无码大片_国产人成视频99在线观看_欧美不卡在线一本二本_国产亚洲电影av_可以免费看黄色软件

知ing

大數(shù)據(jù)時(shí)代

[英] 維克托?邁爾?舍恩伯格(Viktor Mayer-Sch?nberger) /

神秘師兄 上傳

第一部分大數(shù)據(jù)時(shí)代的思維變革01更多:不是隨機(jī)樣本,而是全體數(shù)據(jù)

讓數(shù)據(jù)“發(fā)聲”

“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系,然而直到最近,我們對(duì)此似乎還是難以把握。ibm的資深“大數(shù)據(jù)”專(zhuān)家杰夫·喬納斯(jeffjonas)提出要讓數(shù)據(jù)“說(shuō)話”。從某種層面上來(lái)說(shuō),這聽(tīng)起來(lái)很平常。人們使用數(shù)據(jù)已經(jīng)有相當(dāng)長(zhǎng)一段時(shí)間了,無(wú)論是日常進(jìn)行的大量非正式觀察,還是過(guò)去幾個(gè)世紀(jì)里在專(zhuān)業(yè)層面上用高級(jí)算法進(jìn)行的量化研究,都與數(shù)據(jù)有關(guān)。

在數(shù)字化時(shí)代,數(shù)據(jù)處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬(wàn)的數(shù)據(jù)。但當(dāng)我們談?wù)撃堋罢f(shuō)話”的數(shù)據(jù)時(shí),我們指的遠(yuǎn)遠(yuǎn)不止這些。

實(shí)際上,大數(shù)據(jù)與三個(gè)重大的思維轉(zhuǎn)變有關(guān),這三個(gè)轉(zhuǎn)變是相互聯(lián)系和相互作用的。

首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。

其次,我們樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確『性』。

最后,我們的思想發(fā)生了轉(zhuǎn)變,不再探求難以捉『摸』的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。

本章就將介紹第一個(gè)轉(zhuǎn)變:利用所有的數(shù)據(jù),而不再僅僅依靠一小部分?jǐn)?shù)據(jù)。

很長(zhǎng)一段時(shí)間以來(lái),準(zhǔn)確分析大量數(shù)據(jù)對(duì)我們而言都是一種挑戰(zhàn)。過(guò)去,因?yàn)橛涗?、?chǔ)存和分析數(shù)據(jù)的工具不夠好,我們只能收集少量數(shù)據(jù)進(jìn)行分析,這讓我們一度很苦惱。為了讓分析變得簡(jiǎn)單,我們會(huì)把數(shù)據(jù)量縮減到最少。這是一種無(wú)意識(shí)的自?。何覀儼雅c數(shù)據(jù)交 流的困難看成是自然的,而沒(méi)有意識(shí)到這只是當(dāng)時(shí)技術(shù)條件下的一種人為的限制。如今,技術(shù)條件已經(jīng)有了非常大的提高,雖然人類(lèi)可以處理的數(shù)據(jù)依然是有限的,也永遠(yuǎn)是有限的,但是我們可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來(lái)會(huì)越來(lái)越多。

在某些方面,我們依然沒(méi)有完全意識(shí)到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力。我們還是在信息匱乏的假設(shè)下做很多事情,建立很多機(jī)構(gòu)組織。我們假定自己只能收集到少量信息,結(jié)果就真的如此了。這是一個(gè)自我實(shí)現(xiàn)的過(guò)程。我們甚至發(fā)展了一些使用盡可能少的信息的技術(shù)。別忘了,統(tǒng)計(jì)學(xué)的一個(gè)目的就是用盡可能少的數(shù)據(jù)來(lái)證實(shí)盡可能重大的發(fā)現(xiàn)。事實(shí)上,我們形成了一種習(xí)慣,那就是在我們的制度、處理過(guò)程和激勵(lì)機(jī)制中盡可能地減少數(shù)據(jù)的使用。為了理解大數(shù)據(jù)時(shí)代的轉(zhuǎn)變意味著什么,我們需要首先回顧一下過(guò)去。

小數(shù)據(jù)時(shí)代的隨機(jī)采樣,最少的數(shù)據(jù)獲得最多的信息

直到最近,私人企業(yè)和個(gè)人才擁有了大規(guī)模收集和分類(lèi)數(shù)據(jù)的能力。在過(guò)去,這是只有教會(huì)或者『政府』才能做到的。當(dāng)然,在很多國(guó)家,教會(huì)和『政府』是等同的。有記載的、最早的計(jì)數(shù)發(fā)生在公元前8000年,當(dāng)時(shí)蘇美爾的商人用黏土珠來(lái)記錄出售的商品。大規(guī)模的計(jì)數(shù)則是『政府』的事情。數(shù)千年來(lái),『政府』都試圖通過(guò)收集信息來(lái)管理國(guó)民。

以人口普查為例。據(jù)說(shuō)古代埃及曾進(jìn)行過(guò)人口普查,《舊約》和《新約》中對(duì)此都有所提及。那次由奧古斯都凱撒主導(dǎo)實(shí)施的人口普查,提出了“每個(gè)人都必須納稅”,這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恒。1086年的《末日審判書(shū)》(thedoomsdaybook)對(duì)當(dāng)時(shí)英國(guó)的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記載?;始椅瘑T穿越整個(gè)國(guó)家對(duì)每個(gè)人、每件事都做了記載,后來(lái)這本書(shū)用《圣經(jīng)》中的《末日審判書(shū)》命名,因?yàn)槊總€(gè)人的生活都被赤『裸』『裸』地記載下來(lái)的過(guò)程就像接受“最后的審判”一樣。

然而,人口普查是一項(xiàng)耗資且費(fèi)時(shí)的事情。國(guó)王威廉一世(kingwilliami)在他發(fā)起的《末日審判書(shū)》完成之前就去世了。但是,除非放棄收集信息,否則在當(dāng)時(shí)沒(méi)有其他辦法。盡管如此,當(dāng)時(shí)收集的信息也只是一個(gè)大概情況,實(shí)施人口普查的人也知道他們不可能準(zhǔn)確記錄下每個(gè)人的信息。實(shí)際上,“人口普查”這個(gè)詞來(lái)源于拉丁語(yǔ)的“censere”,意思就是推測(cè)、估算。

三百多年前,一個(gè)名叫約翰·格朗特(johngraunt)的英國(guó)縫紉用品商提出了一個(gè)很有新意的方法。他采用了一個(gè)新方法推算出鼠疫時(shí)期倫敦的人口數(shù),這種方法就是后來(lái)的統(tǒng)計(jì)學(xué)。這個(gè)方法不需要一個(gè)人一個(gè)人地計(jì)算。雖然這個(gè)方法比較粗糙,但采用這個(gè)方法,人們可以利用少量有用的樣本信息來(lái)獲取人口的整體情況。

雖然后來(lái)證實(shí)他能夠得出正確的數(shù)據(jù)僅僅是因?yàn)檫\(yùn)氣好,但在當(dāng)時(shí)他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此無(wú)論是進(jìn)行人口普查還是其他大數(shù)據(jù)類(lèi)的任務(wù),人們還是一直使用具體計(jì)數(shù)這種“野蠻”的方法。

考慮到人口普查的復(fù)雜『性』以及耗時(shí)耗費(fèi)的特點(diǎn),『政府』極少進(jìn)行普查。古羅馬人在人口以萬(wàn)計(jì)數(shù)的時(shí)候每5年普查一次。美國(guó)憲法規(guī)定每10年進(jìn)行一次人口普查,因?yàn)殡S著國(guó)家人口越來(lái)越多,只能以百萬(wàn)計(jì)數(shù)了。但是到19世紀(jì)為止,即使這樣不頻繁的人口普查依然很困難,因?yàn)閿?shù)據(jù)變化的速度超過(guò)了人口普查局統(tǒng)計(jì)分析的能力。

穿孔卡片的美國(guó)人口普查

美國(guó)在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過(guò)時(shí)的。1890年進(jìn)行的人口普查,預(yù)計(jì)要花費(fèi)13年的時(shí)間來(lái)匯總數(shù)據(jù)。即使不考慮這種情況違反了憲法規(guī)定,它也是很荒謬的。然而,因?yàn)槎愂辗謹(jǐn)偤蛧?guó)會(huì)代表人數(shù)確定都是建立在人口的基礎(chǔ)上的,所以必須要得到正確的數(shù)據(jù),而且必須是及時(shí)的數(shù)據(jù)。

美國(guó)人口普查局面臨的問(wèn)題與當(dāng)代商人和科學(xué)家遇到的問(wèn)題很相似。很明顯,當(dāng)他們被數(shù)據(jù)淹沒(méi)的時(shí)候,已有的數(shù)據(jù)處理工具已經(jīng)難以應(yīng)付了,所以就需要有更多的新技術(shù)。

后來(lái),美國(guó)人口普查局就和當(dāng)時(shí)的美國(guó)發(fā)明家赫爾曼·霍爾瑞斯(hermanhollerith)簽訂了一個(gè)協(xié)議,用他的穿孔卡片制表機(jī)來(lái)完成1890年的人口普查。

經(jīng)過(guò)大量的努力,霍爾瑞斯成功地在1年時(shí)間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這簡(jiǎn)直就是一個(gè)奇跡,它標(biāo)志著自動(dòng)處理數(shù)據(jù)的開(kāi)端,也為后來(lái)ibm公司的成立奠定了基礎(chǔ)。但是,將其作為收集處理大數(shù)據(jù)的方法依然過(guò)于昂貴。畢竟,每個(gè)美國(guó)人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計(jì)。這么麻煩的情況下,很難想象如果不足十年就要進(jìn)行一次人口普查應(yīng)該怎么辦。但是,對(duì)于一個(gè)跨越式發(fā)展的國(guó)家而言,十年一次的人口普查的滯后『性』已經(jīng)讓普查失去了大部分意義。

這就是問(wèn)題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是當(dāng)數(shù)量無(wú)比龐大時(shí),這又不太現(xiàn)實(shí)。那如何選擇樣本呢?有人提出有目的地選擇最具代表『性』的樣本是最恰當(dāng)?shù)姆椒ā?934年,波蘭統(tǒng)計(jì)學(xué)家耶日·奈曼(jerzyneyman)指出,這只會(huì)導(dǎo)致更多更大的漏洞。事實(shí)證明,問(wèn)題的關(guān)鍵是選擇樣本時(shí)的隨機(jī)『性』。

統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確『性』隨著采樣隨機(jī)『性』的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽(tīng)起來(lái)很不可思議,但事實(shí)上,一個(gè)對(duì)1100人進(jìn)行的關(guān)于“是否”問(wèn)題的抽樣調(diào)查有著很高的精確『性』,精確度甚至超過(guò)了對(duì)所有人進(jìn)行調(diào)查時(shí)的97%。這是真的,不管是調(diào)查10萬(wàn)人還是1億人,20次調(diào)查里有19都是這樣。為什么會(huì)這樣?原因很復(fù)雜,但是有一個(gè)比較簡(jiǎn)單的解釋就是,當(dāng)樣本數(shù)量達(dá)到了某個(gè)值之后,我們從新個(gè)體身上得到的信息會(huì)越來(lái)越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。

認(rèn)為樣本選擇的隨機(jī)『性』比樣本數(shù)量更重要,這種觀點(diǎn)是非常有見(jiàn)地的。這種觀點(diǎn)為我們開(kāi)辟了一條收集信息的新道路。通過(guò)收集隨機(jī)樣本,我們可以用較少的花費(fèi)做出高精準(zhǔn)度的推斷。因此,『政府』每年都可以用隨機(jī)采樣的方法進(jìn)行小規(guī)模的人口普查,而不是只能每十年進(jìn)行一次。事實(shí)上,『政府』也這樣做了。例如,除了十年一次的人口大普查,美國(guó)人口普查局每年都會(huì)用隨機(jī)采樣的方法對(duì)經(jīng)濟(jì)和人口進(jìn)行200多次小規(guī)模的調(diào)查。當(dāng)收集和分析數(shù)據(jù)都不容易時(shí),隨機(jī)采樣就成為應(yīng)對(duì)信息過(guò)量的辦法。

很快,隨機(jī)采樣就不僅應(yīng)用于公共部門(mén)和人口普查了。在商業(yè)領(lǐng)域,隨機(jī)采樣被用來(lái)監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對(duì)生產(chǎn)出來(lái)的每個(gè)產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來(lái)說(shuō),隨機(jī)采樣讓大數(shù)據(jù)問(wèn)題變得更加切實(shí)可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問(wèn)題變成了社會(huì)科學(xué)問(wèn)題。

隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對(duì)隨機(jī)『性』,但是實(shí)現(xiàn)采樣的隨機(jī)『性』非常困難。一旦采樣過(guò)程中存在任何偏見(jiàn),分析結(jié)果就會(huì)相去甚遠(yuǎn)。

最近,以固定電話用戶為基礎(chǔ)進(jìn)行投票民調(diào)就面臨了這樣的問(wèn)題,采樣缺乏隨機(jī)『性』,因?yàn)闆](méi)有考慮到只使用移動(dòng)電話的用戶——這些用戶一般更年輕和更熱愛(ài)自由 。沒(méi)有考慮到這些用戶,自然就得不到正確的預(yù)測(cè)。2008年在奧巴馬與麥凱恩之間進(jìn)行的美國(guó)總統(tǒng)大選中,蓋洛普咨詢公司、皮尤研究中心(pew)、美國(guó)廣播公司和《華盛頓郵報(bào)》這些主要的民調(diào)組織都發(fā)現(xiàn),如果他們不把移動(dòng)用戶考慮進(jìn)來(lái),民意測(cè)試結(jié)果就會(huì)出現(xiàn)三個(gè)點(diǎn)的偏差,而一旦考慮進(jìn)來(lái),偏差就只有一個(gè)點(diǎn)。鑒于這次大選的票數(shù)差距極其微弱,這已經(jīng)是非常大的偏差了。

更糟糕的是,隨機(jī)采樣不適合考察子類(lèi)別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯(cuò)誤率會(huì)大大增加。這很容易理解。倘若你有一份隨機(jī)采樣的調(diào)查結(jié)果,是關(guān)于1000個(gè)人在下一次競(jìng)選中的投票意向。如果采樣時(shí)足夠隨機(jī),這份調(diào)查的結(jié)果就有可能在3%的誤差范圍內(nèi)顯示全民的意向。但是如果這個(gè)3%左右的誤差本來(lái)就是不確定的,卻又把這個(gè)調(diào)查結(jié)果根據(jù)『性』別、地域和收入進(jìn)行細(xì)分,結(jié)果是不是越來(lái)越不準(zhǔn)確呢?用這些細(xì)分過(guò)后的結(jié)果來(lái)表現(xiàn)全民的意愿,是否合適呢?

你設(shè)想一下,一個(gè)對(duì)1000個(gè)人進(jìn)行的調(diào)查,如果要細(xì)分到“東北部的富裕女『性』”,調(diào)查的人數(shù)就遠(yuǎn)遠(yuǎn)少于1000人了。即使是完全隨機(jī)的調(diào)查,倘若只用了幾十個(gè)人來(lái)預(yù)測(cè)整個(gè)東北部富裕女『性』選民的意愿,還是不可能得到精確結(jié)果啊!而且,一旦采樣過(guò)程中存在任何偏見(jiàn),在細(xì)分領(lǐng)域所做的預(yù)測(cè)就會(huì)大錯(cuò)特錯(cuò)。

因此,當(dāng)人們想了解更深層次的細(xì)分領(lǐng)域的情況時(shí),隨機(jī)采樣的方法就不可取了。在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域失去了作用。隨機(jī)采樣就像是模擬照片打印,遠(yuǎn)看很不錯(cuò),但是一旦聚焦某個(gè)點(diǎn),就會(huì)變得模糊不清。

隨機(jī)采樣也需要嚴(yán)密的安排和執(zhí)行。人們只能從采樣數(shù)據(jù)中得出事先設(shè)計(jì)好的問(wèn)題的結(jié)果——千萬(wàn)不要奢求采樣的數(shù)據(jù)還能回答你突然意識(shí)到的問(wèn)題。所以雖說(shuō)隨機(jī)采樣是一條捷徑,但它也只是一條捷徑。隨機(jī)采樣方法并不適用于一切情況,因?yàn)檫@種調(diào)查結(jié)果缺乏延展『性』,即調(diào)查得出的數(shù)據(jù)不可以重新分析以實(shí)現(xiàn)計(jì)劃之外的目的。

我們來(lái)看一下dna分析。由于技術(shù)成本大幅下跌以及在醫(yī)學(xué)方面的廣闊前景,個(gè)人基因排序成為了一門(mén)新興產(chǎn)業(yè)。2012年,基因組解碼的價(jià)格跌破1000美元,這也是非正式的行業(yè)平均水平。從2007年起,硅谷的新興科技公司23andme就開(kāi)始分析人類(lèi)基因,價(jià)格僅為幾百美元。這可以揭示出人類(lèi)遺傳密碼中一些會(huì)導(dǎo)致其對(duì)某些疾病抵抗力差的特征,如『乳』腺癌和心臟病。23andme希望能通過(guò)整合顧客的dna和健康信息,了解到用其他方式不能獲取的新信息。

公司對(duì)某人的一小部分dna進(jìn)行排序,標(biāo)注出幾十個(gè)特定的基因缺陷。這只是此人整個(gè)基因密碼的樣本,還有幾十億個(gè)基因堿基對(duì)未排序。最后,23andme只能回答它們標(biāo)注過(guò)的基因組表現(xiàn)出來(lái)的問(wèn)題。發(fā)現(xiàn)新標(biāo)注時(shí),此人的dna必須重新排序,更準(zhǔn)確地說(shuō),是相關(guān)的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發(fā)現(xiàn)問(wèn)題,但不能回答事先未考慮到的問(wèn)題。

大數(shù)據(jù)與喬布斯的癌癥治療

蘋(píng)果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭(zhēng)的過(guò)程中采用了不同的方式,成為世界上第一個(gè)對(duì)自身所有dna和腫瘤dna進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬(wàn)美元的費(fèi)用,這是23andme報(bào)價(jià)的幾百倍之多。所以,他得到的不是一個(gè)只有一系列標(biāo)記的樣本,他得到了包括整個(gè)基因密碼的數(shù)據(jù)文檔。

對(duì)于一個(gè)普通的癌癥患者,醫(yī)生只能期望她的dna排列同試驗(yàn)中使用的樣本足夠相似。但是,史蒂夫·喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用『藥』。如果癌癥病變導(dǎo)致『藥』物失效,醫(yī)生可以及時(shí)更換另一種『藥』,也就是喬布斯所說(shuō)的,“從一片睡蓮葉跳到另一片上?!眴滩妓归_(kāi)玩笑說(shuō):“我要么是第一個(gè)通過(guò)這種方式戰(zhàn)勝癌癥的人,要么就是最后一個(gè)因?yàn)檫@種方式死于癌癥的人?!彪m然他的愿望都沒(méi)有實(shí)現(xiàn),但是這種獲得所有數(shù)據(jù)而不僅是樣本的方法還是將他的生命延長(zhǎng)了好幾年。

全數(shù)據(jù)模式,樣本=總體

在信息處理能力受限的時(shí)代,世界需要數(shù)據(jù)分析,卻缺少用來(lái)分析所收集數(shù)據(jù)的工具,因此隨機(jī)采樣應(yīng)運(yùn)而生,它也可以被視為那個(gè)時(shí)代的產(chǎn)物。如今,計(jì)算和制表不再像過(guò)去一樣困難。感應(yīng)器、手機(jī)導(dǎo)航、網(wǎng)站點(diǎn)擊和twitter被動(dòng)地收集了大量數(shù)據(jù),而計(jì)算機(jī)可以輕易地對(duì)這些數(shù)據(jù)進(jìn)行處理。

采樣的目的就是用最少的數(shù)據(jù)得到最多的信息。當(dāng)我們可以獲得海量數(shù)據(jù)的時(shí)候,它就沒(méi)有什么意義了。數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生了翻天覆地的改變,但我們的方法和思維卻沒(méi)有跟上這種改變。

然而,采樣一直有一個(gè)被我們廣泛承認(rèn)卻又總有意避開(kāi)的缺陷,現(xiàn)在這個(gè)缺陷越來(lái)越難以忽視了。采樣忽視了細(xì)節(jié)考察。雖然我們別無(wú)選擇,只能利用采樣分析法來(lái)進(jìn)行考察,但是在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生了。如果可能的話,我們會(huì)收集所有的數(shù)據(jù),即“樣本=總體”。

正如我們所看到的,“樣本=總體”是指我們能對(duì)數(shù)據(jù)進(jìn)行深度探討,而采樣幾乎無(wú)法達(dá)到這樣的效果。上面提到的有關(guān)采樣的例子證明,用采樣的方法分析整個(gè)人口的情況,正確率可達(dá)97%。對(duì)于某些事物來(lái)說(shuō),3%的錯(cuò)誤率是可以接受的。但是你無(wú)法得到一些微觀細(xì)節(jié)的信息,甚至還會(huì)失去對(duì)某些特定子類(lèi)別進(jìn)行進(jìn)一步研究的能力。正態(tài)分布是標(biāo)準(zhǔn)的。生活中真正有趣的事情經(jīng)常藏匿在細(xì)節(jié)之中,而采樣分析法卻無(wú)法捕捉到這些細(xì)節(jié)。

谷歌流感趨勢(shì)預(yù)測(cè)并不是依賴于對(duì)隨機(jī)樣本的分析,而是分析了整個(gè)美國(guó)幾十億條互聯(lián)網(wǎng)檢索記錄。分析整個(gè)數(shù)據(jù)庫(kù),而不是對(duì)一個(gè)樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確『性』,甚至能夠推測(cè)出某個(gè)特定城市的流感狀況,而不只是一個(gè)州或是整個(gè)國(guó)家的情況。farecast的初始系統(tǒng)使用的樣本包含12000個(gè)數(shù)據(jù),所以取得了不錯(cuò)的預(yù)測(cè)結(jié)果。但是隨著奧倫·埃齊奧尼不斷添加更多的數(shù)據(jù),預(yù)測(cè)的結(jié)果越來(lái)越準(zhǔn)確。最終,farecast使用了每一條航線整整一年的價(jià)格數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)。埃齊奧尼說(shuō):“這只是一個(gè)暫時(shí)『性』的數(shù)據(jù),隨著你收集的數(shù)據(jù)越來(lái)越多,你的預(yù)測(cè)結(jié)果會(huì)越來(lái)越準(zhǔn)確。”

所以,我們現(xiàn)在經(jīng)常會(huì)放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù)。我們需要足夠的數(shù)據(jù)處理和存儲(chǔ)能力,也需要最先進(jìn)的分析技術(shù)。同時(shí),簡(jiǎn)單廉價(jià)的數(shù)據(jù)收集方法也很重要。過(guò)去,這些問(wèn)題中的任何一個(gè)都很棘手。在一個(gè)資源有限的時(shí)代,要解決這些問(wèn)題需要付出很高的代價(jià)。但是現(xiàn)在,解決這些難題已經(jīng)變得簡(jiǎn)單容易得多。曾經(jīng)只有大公司才能做到的事情,現(xiàn)在絕大部分的公司都可以做到了。

通過(guò)使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會(huì)在大量數(shù)據(jù)中淹沒(méi)掉的情況。例如,信用卡詐騙是通過(guò)觀察異常情況來(lái)識(shí)別的,只有掌握了所有的數(shù)據(jù)才能做到這一點(diǎn)。在這種情況下,異常值是最有用的信息,你可以把它與正常交 易情況進(jìn)行對(duì)比。這是一個(gè)大數(shù)據(jù)問(wèn)題。而且,因?yàn)榻?易是即時(shí)的,所以你的數(shù)據(jù)分析也應(yīng)該是即時(shí)的。

然而,使用所有的數(shù)據(jù)并不代表這是一項(xiàng)艱巨的任務(wù)。大數(shù)據(jù)中的“大”不是絕對(duì)意義上的大,雖然在大多數(shù)情況下是這個(gè)意思。谷歌流感趨勢(shì)預(yù)測(cè)建立在數(shù)億的數(shù)學(xué)模型上,而它們又建立在數(shù)十億數(shù)據(jù)節(jié)點(diǎn)的基礎(chǔ)之上。完整的人體 基因組有約30億個(gè)堿基對(duì)。但這只是單純的數(shù)據(jù)節(jié)點(diǎn)的絕對(duì)數(shù)量,并不代表它們就是大數(shù)據(jù)。大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。谷歌流感趨勢(shì)和喬布斯的醫(yī)生們采取的就是大數(shù)據(jù)的方法。

日本國(guó)民體育運(yùn)動(dòng)“相撲”中非法『操』縱比賽結(jié)果的發(fā)現(xiàn),就恰到好處地說(shuō)明了使用“樣本=總體”這種全數(shù)據(jù)模式的重要『性』。消極比賽一直被極力禁止,備受譴責(zé),很多運(yùn)動(dòng)員深受困擾。芝加哥大學(xué)的一位很有前途的經(jīng)濟(jì)學(xué)家斯蒂夫·列維特(stevenlevitt),在《美國(guó)經(jīng)濟(jì)評(píng)論》上發(fā)表了一篇研究論文,其中提到了一種發(fā)現(xiàn)這個(gè)情況的方法:查看運(yùn)動(dòng)員過(guò)去所有的比賽資料。他的暢銷(xiāo)書(shū)《魔鬼經(jīng)濟(jì)學(xué)》(freakonomics)中也提到了這個(gè)觀點(diǎn),他認(rèn)為檢查所有的數(shù)據(jù)是非常有價(jià)值的。

列維特和他的同事馬克·達(dá)根(markduggan)使用了11年中超過(guò)64000場(chǎng)摔跤比賽的記錄,來(lái)尋找異?!盒浴?。他們獲得了重大的發(fā)現(xiàn)。非法『操』縱比賽結(jié)果的情況確實(shí)時(shí)有發(fā)生,但是不會(huì)出現(xiàn)在大家很關(guān)注的比賽上。冠軍賽也有可能被『操』縱,但是數(shù)據(jù)顯示消極比賽主要還是出現(xiàn)在不太被關(guān)注的聯(lián)賽的后幾場(chǎng)中。這時(shí)基本上沒(méi)有什么風(fēng)險(xiǎn),因?yàn)檫x手根本就沒(méi)有獲獎(jiǎng)的希望。

但是相撲比賽的一個(gè)比較特殊的地方是,選手需要在15場(chǎng)聯(lián)賽中的大部分場(chǎng)次取得勝利才能保持排名和收入。這樣一來(lái)就會(huì)出現(xiàn)利益不對(duì)稱的問(wèn)題。當(dāng)一個(gè)7勝7負(fù)的摔跤手碰到一個(gè)8勝6負(fù)的對(duì)手時(shí),比賽結(jié)果對(duì)第一個(gè)選手來(lái)說(shuō)極其重要,對(duì)他的對(duì)手則沒(méi)有那么重要。列維特和達(dá)根發(fā)現(xiàn),在這樣的情況下,需要贏的那個(gè)選手很可能會(huì)贏。這看起來(lái)像是對(duì)手送的“禮物”,因?yàn)樵诼?lián)系緊密的相撲界,幫別人一把就是給自己留了一條后路。

有沒(méi)有可能是要贏的決心幫助這個(gè)選手獲勝呢?答案是,有可能。但是數(shù)據(jù)顯示的情況是,需要贏的選手的求勝心也只是比平常高了25%。所以,把勝利完全歸功于求勝心是不妥當(dāng)?shù)?。?duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析可能會(huì)發(fā)現(xiàn),與他們?cè)谇叭拇伪荣愔械谋憩F(xiàn)相比,當(dāng)他們?cè)傧嘤鰰r(shí),上次失利的一方要擁有比對(duì)方多3~4倍的勝率。

這個(gè)情況是顯而易見(jiàn)的。但是如果采用隨機(jī)采樣分析法,就無(wú)法發(fā)現(xiàn)這個(gè)情況。而大數(shù)據(jù)分析通過(guò)使用所有比賽的極大數(shù)據(jù)捕捉到了這個(gè)情況。這就像捕魚(yú)一樣,開(kāi)始時(shí)你不知道是否能捕到魚(yú),也不知道會(huì)捕到什么魚(yú)。

一個(gè)數(shù)據(jù)庫(kù)并不需要有以太字節(jié)(一般記做tb,等于2的40次方字節(jié))計(jì)的數(shù)據(jù)。在這個(gè)相撲案例中,整個(gè)數(shù)據(jù)庫(kù)包含的字節(jié)量還不如一張普通的數(shù)碼照片包含得多。但是大數(shù)據(jù)分析法不只關(guān)注一個(gè)隨機(jī)的樣本。這里的“大”取的是相對(duì)意義而不是絕對(duì)意義,也就是說(shuō)這是相對(duì)所有數(shù)據(jù)來(lái)說(shuō)的。

很長(zhǎng)一段時(shí)間內(nèi),隨機(jī)采樣都是一條好的捷徑,它使得數(shù)字時(shí)代之前的大量數(shù)據(jù)分析變得可能。但就像把一張數(shù)碼照片或者一首數(shù)碼歌曲截取成多個(gè)小文件似的,在采樣分析的時(shí)候,很多信息都無(wú)法得到。擁有全部或幾乎全部的數(shù)據(jù),我們就能夠從不同的角度,更細(xì)致地觀察研究數(shù)據(jù)的方方面面。

我們可以用lytro相機(jī)來(lái)打一個(gè)恰當(dāng)?shù)谋确?。lytro相機(jī)具有革新『性』的,因?yàn)樗汛髷?shù)據(jù)運(yùn)用到了基本的攝影中。與傳統(tǒng)相機(jī)只可以記錄一束光不同,lytro相機(jī)可以記錄整個(gè)光場(chǎng)里所有的光,達(dá)到1100萬(wàn)之多。具體生成什么樣的照片則可以在拍攝之后再根據(jù)需要決定。用戶沒(méi)必要在一開(kāi)始就聚焦,因?yàn)樵撓鄼C(jī)可以捕捉到所有的數(shù)據(jù),所以之后可以選擇聚焦圖像中的任一點(diǎn)。整個(gè)光場(chǎng)的光束都被記錄了,也就是收集了所有的數(shù)據(jù),“樣本=總體”。因此,與普通照片相比,這些照片就更具“循環(huán)『性』”。如果使用普通相機(jī),攝影師就必須在拍照之前決定好聚焦點(diǎn)。

同理,因?yàn)榇髷?shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。是大數(shù)據(jù)讓我們發(fā)現(xiàn)了相撲中的非法『操』縱比賽結(jié)果、流感的傳播區(qū)域和對(duì)抗癌癥需要針對(duì)的那部分dna。它讓我們能清楚分析微觀層面的情況。

當(dāng)然,有些時(shí)候,我們還是可以使用樣本分析法,畢竟我們?nèi)匀换钤谝粋€(gè)資源有限的時(shí)代。但是更多時(shí)候,利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。

社會(huì)科學(xué)是被“樣本=總體”撼動(dòng)得最厲害的學(xué)科。隨著大數(shù)據(jù)分析取代了樣本分析,社會(huì)科學(xué)不再單純依賴于分析經(jīng)驗(yàn)數(shù)據(jù)。這門(mén)學(xué)科過(guò)去曾非常依賴樣本分析、研究和調(diào)查問(wèn)卷。當(dāng)記錄下來(lái)的是人們的平常狀態(tài),也就不用擔(dān)心在做研究和調(diào)查問(wèn)卷時(shí)存在的偏見(jiàn)了?,F(xiàn)在,我們可以收集過(guò)去無(wú)法收集到的信息,不管是通過(guò)移動(dòng)電話表現(xiàn)出的關(guān)系,還是通過(guò)twitter信息表現(xiàn)出的感情。更重要的是,我們現(xiàn)在也不再依賴抽樣調(diào)查了。

艾伯特·拉斯洛·巴拉巴西(albertlászlobarabási),和他的同事想研究人與人之間的互動(dòng)。于是他們調(diào)查了四個(gè)月內(nèi)所有的移動(dòng)通信記錄——當(dāng)然是匿名的,這些記錄是一個(gè)為全美五分之一人口提供服務(wù)的無(wú)線運(yùn)營(yíng)商提供的。這是第一次在全社會(huì)層面用接近于“樣本=總體”的數(shù)據(jù)資料進(jìn)行網(wǎng)絡(luò)分析。通過(guò)觀察數(shù)百萬(wàn)人的所有通信記錄,我們可以產(chǎn)生也許通過(guò)任何其他方式都無(wú)法產(chǎn)生的新觀點(diǎn)。

有趣的是,與小規(guī)模的研究相比,這個(gè)團(tuán) 隊(duì)發(fā)現(xiàn),如果把一個(gè)在社區(qū)內(nèi)有很多連接關(guān)系的人從社區(qū)關(guān)系網(wǎng)中剔除開(kāi)來(lái),這個(gè)關(guān)系網(wǎng)會(huì)變得沒(méi)那么高效但卻不會(huì)解體;但如果把一個(gè)與所在社區(qū)之外的很多人有著連接關(guān)系的人從這個(gè)關(guān)系網(wǎng)中剔除,整個(gè)關(guān)系網(wǎng)很快就會(huì)破碎成很多小塊。這個(gè)研究結(jié)果非常重要也非常的出人意料。誰(shuí)能想象一個(gè)在關(guān)系網(wǎng)內(nèi)有著眾多好友的人的重要『性』還不如一個(gè)只是與很多關(guān)系網(wǎng)外的人聯(lián)系的人呢?這說(shuō)明一般來(lái)說(shuō)無(wú)論是一個(gè)集體還是一個(gè)社會(huì),多樣『性』是有額外價(jià)值的。這個(gè)結(jié)果促使我們重新審視一個(gè)人在社會(huì)關(guān)系網(wǎng)中的存在價(jià)值。

查看更多