學(xué)習(xí)啦 > 在線閱讀 > 讀書筆記 >

讀《大數(shù)據(jù)時代》有感:大數(shù)據(jù)時代的取舍

時間: 莉莎1168 分享

  學(xué)習(xí)啦:《大數(shù)據(jù)時代》是國外大數(shù)據(jù)研究的先河之作,本書作者維克托·邁爾·舍恩伯格被譽為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”。下面請欣賞《大數(shù)據(jù)時代》優(yōu)秀讀后感。

  在《大數(shù)據(jù)時代》的一開頭,講了這樣一則小故事,尤為發(fā)人深省——作者維克托的繼父去世的時候留下了16000張收藏的照片,這些照片全都是他幾十年來周游世界的影像記錄。因為體量龐大,維克托選擇保留其中的一部分。如何裁決這么多幅照片呢?最后被選出的53張照片具有兩個共同特點:1.照片上有認(rèn)識或可能認(rèn)識的人;2.照片拍攝得很漂亮。這種取舍是嚴(yán)格按照維克托所設(shè)定的程序進(jìn)行的,其背后投射出人類對大數(shù)據(jù)時代未來的思考——在記憶成為常態(tài)的時代里,什么會是遺忘的例外?說得更玄一些,大數(shù)據(jù)時代,人類應(yīng)該如何構(gòu)建積極而安全的未來?

  《大數(shù)據(jù)時代》書分三部分,分別是商業(yè)變革、管理變革和大思維變革。在翻開這本書之前,我們不妨拿這三部分去套一下開頭的故事。16000張照片精選出一部分是需要一個工具和流程的,有些人依賴情感感性地挑揀,有些人選擇按照心中一個可識別的具體要求過濾。這是對待數(shù)據(jù)本身的管理方式不同。如果是160000張照片,1600000張照片甚至更多呢?一種算法在精密地處理著每張照片,而維克托選擇了這樣的兩個要求,就要承擔(dān)使用數(shù)據(jù)之后萬一錯過某張絕世佳作的責(zé)任。再來看這16000張照片本身,它們本身就是有價值的,每一張都是長輩生活點滴的封存,每一張都有著娓娓道來的動人瞬間。只不過或許有些照片定格的瞬間更加難得,有些風(fēng)景照卻可以日后故地重游重拍,因此讓數(shù)據(jù)價值說話,在維克托的心目中,滿足這兩個條件的照片更具有被保留的意義,于是商業(yè)變革的縮影也可見一斑。最后要提到的,就是大思維變革,更多、更雜也更好的數(shù)據(jù)看似遮擋視線,但換個方式面對它們,就是在一個兼具廣泛性和多樣性的空間里選擇更適合人類的數(shù)據(jù)使用方式,讓數(shù)據(jù)不再單純被陳列,而是可以活起來。不過此處還遺留著一個不大不小的問題,被舍棄的那一萬五千多張照片,它們的命運將會何去何從,如果是紙質(zhì)的可以撕掉、燒掉,但如果是現(xiàn)在存儲在電子媒介中的,我們能確保點擊刪除的那個時刻,這些照片真的從此從這個世界上消失了嗎?這些數(shù)據(jù),真的是個體可控制,人類可管理的嗎?

  一、思維轉(zhuǎn)變,“樣本=總體”

  如果在法律的范疇中,我們提到大數(shù)據(jù)時代,第一反應(yīng)是各種各樣的。思維變革強(qiáng)調(diào)數(shù)據(jù)處理方式變化引起的思考模式轉(zhuǎn)變。

  1、更多

  從前收集數(shù)據(jù)是一件令人苦惱的事情,于是人們無意識地選擇規(guī)避大數(shù)據(jù)體量,人為限制了與數(shù)據(jù)的交流。如今,技術(shù)條件已經(jīng)大大地提高,我們的習(xí)慣卻常常停留在原地,因此大數(shù)據(jù)時代通過一些外在的動力去轉(zhuǎn)變這種桎梏是非常有必要的。比如我們想知道應(yīng)用《婚姻法》24條判案調(diào)解的情況,以前或許停留在抽查層面,不然就是要花費大量的時間挨個調(diào)研,費時費力還不一定全面。而現(xiàn)在,包括中國裁判文書網(wǎng)、北大法寶在內(nèi)的多家平臺可以提供大數(shù)據(jù)檢索,簡單輸入關(guān)鍵詞就可以在海量的數(shù)據(jù)庫里精確定位到需要的案例信息,并且呈現(xiàn)出來的數(shù)據(jù)有一定的區(qū)分,網(wǎng)站通常會自動提供一些分類指標(biāo),例如是在哪個地區(qū)哪級法院,案由是什么,方便后期進(jìn)行圖表統(tǒng)計,用以畫出餅圖、樹狀圖更直觀地了解數(shù)據(jù)面貌。

  2、 更雜

  但是問題也接踵而來,很多人會發(fā)現(xiàn)搜索結(jié)果有時并不一定完全符合預(yù)設(shè)情境,甚至文不對題,比如搜索“轉(zhuǎn)讓股權(quán)”而非“股權(quán)轉(zhuǎn)讓”就可能導(dǎo)致一些案例擦肩而過。而數(shù)據(jù)本身來源的多樣性也導(dǎo)致了數(shù)據(jù)質(zhì)量不一,各地區(qū)各層級司法文書的撰寫水平存在差異,于是經(jīng)檢索獲得的數(shù)據(jù)不一定都能充分發(fā)揮效用。但是紛繁的數(shù)據(jù)反應(yīng)出數(shù)據(jù)體量的龐大,精確性依賴的應(yīng)當(dāng)是算法而非數(shù)據(jù)源,大數(shù)據(jù)的利益促使人們精進(jìn)算法,多次嘗試不同的搜索方式以彌補數(shù)據(jù)瑕疵,我們添加標(biāo)簽時所固帶的不準(zhǔn)確性從某種意義上說明我們能夠接受世界的紛繁復(fù)雜,這是對更加精確系統(tǒng)的一種對抗。因為精確的系統(tǒng)通常試圖讓我們接受一個世界貧乏而規(guī)整的現(xiàn)象——因貧乏而規(guī)整,然而事實上現(xiàn)實就是紛繁復(fù)雜的,天地間存在的事物遠(yuǎn)多于系統(tǒng)所設(shè)想的。不是“一個唯一的真理”,一款法律條文不是只能適用于一種案情,多款法律條文組合可以推導(dǎo)出不同的邏輯鏈條。要想獲得大規(guī)模數(shù)據(jù)帶來的好處,混亂應(yīng)該是一種標(biāo)準(zhǔn)途徑,而不應(yīng)該是竭力避免的。

  3、更好

  還有一點極為精妙地同時出現(xiàn)在法律和大數(shù)據(jù)的世界里,中國作為非判例法國家,查詢其他相似案例固然可以幫助人們預(yù)測案情未來走向,但是這些信判例卻不可以直接作為法源或是最有力的論證。不過,判例中所提到的法律條文,法律條文串起的邏輯思路卻能另一起案件中得以運用。相似不代表相同,這是大數(shù)據(jù)時代個性化定制中存在的問題,人們在淘寶買了一件衣服之后,相似的預(yù)測方式會讓系統(tǒng)推薦同樣的款式不同的店家,或許由于渠道或者面料的不同,價格存在一定差異,但是消費者很少會在短時間內(nèi)重復(fù)購入。而相關(guān)的預(yù)測方式會考慮這件衣服的特質(zhì)和要素,譬如蠶絲面料、短袖、款式較為保守等等,這通常折射出消費者的偏向,于是再有這些元素組合而成的衣服也很有可能受到青睞。讓數(shù)據(jù)更好意味著提高數(shù)據(jù)的效用,選擇關(guān)聯(lián)度高的數(shù)據(jù),能成功起到預(yù)測的作用。法律是具有預(yù)測的功能的,而大數(shù)據(jù)可以驗證或者說提高預(yù)測的可信度。當(dāng)我們看到大量的案例真真實實地告訴我們許多故意殺人罪犯罪嫌疑人最終真的被判處死刑時,我們愈發(fā)地相信寫在刑法里的條文所具有的威懾力,更加謹(jǐn)言慎行。

  二、量化數(shù)據(jù),從“T” 到 “I”

  大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和分析世界的渴望,如今的信息技術(shù)變革重點落在“T”(技術(shù))上,而不是在“I”(信息)上。現(xiàn)在,我們是時候把聚光燈打向“I”,開始關(guān)注數(shù)據(jù)本身了。

  數(shù)字化和數(shù)據(jù)化是兩個不同的詞語,比如說有一篇判決書適用法律嚴(yán)絲合縫、遣詞造句文采斐然,人們把判決書的每一頁拍下來,再上傳到網(wǎng)上,于是更多的人打開一張張jpg,開始閱讀這篇判決書,這是數(shù)字化。而中國裁判文書網(wǎng)、北大法寶的字符串已經(jīng)經(jīng)過了有效的處理,在我們看來的漢字對于電腦而言是不同意味的0和1,這些網(wǎng)站的后臺當(dāng)然不是活生生的工作人員在一張一張翻看全國各地的司法文書,人為地看到“一審”就歸到“一審”那摞紙上,而是計算機(jī)算法自動識別著不同的字符串,按照指定要求分門別類,這是數(shù)據(jù)化。存儲成本的大幅下降,使得保存數(shù)據(jù)比丟棄數(shù)據(jù)更加容易,書盈四壁固然學(xué)問高深,但是大數(shù)據(jù)時代的數(shù)據(jù)卻可以得到更長久、更妥善的保存。數(shù)據(jù)的非競爭性使其不同于物質(zhì)性的東西,價值本身不會隨著使用次數(shù)增多而減少,可以不斷地被處理。前文已敘,對搜索點擊的個人用戶而言,法律數(shù)據(jù)庫的好處自然是不言而喻。而大數(shù)據(jù)時代能容許數(shù)據(jù)發(fā)揮的價值,還遠(yuǎn)不限于這些現(xiàn)時的眼前的幫助。數(shù)據(jù)的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,絕大部分隱藏在表面之下。又像是靜止在山坡上的小球,它原地靜止時不聲不響,一旦釋放滾下山坡,其中的動能就能被發(fā)現(xiàn)。數(shù)據(jù)的二次利用使得隱藏價值得以有效釋放。

  我們不妨做個假設(shè),A是一名學(xué)生,看到了北大法寶上一篇教授的法學(xué)論文后深受啟發(fā),悉心查閱資料并獨立完成了一篇青出于藍(lán)而勝于藍(lán)的畢業(yè)論文。B則是一位律師,同樣看到了這篇論文之后,他被其中的論證邏輯所折服,將其遷移到了自己正在代理的案件上,后來這個案件的判決書也上了北大法寶。C則是一個知名微信公眾號的運營小編,閱讀完這篇論文之后,他將其中的一些關(guān)鍵詞句加以摘錄,經(jīng)合理途徑征詢同意后用以評析時事新聞。不同的個體使用令這篇文章的數(shù)據(jù)得到再利用,數(shù)據(jù)的維度被不同的使用者拓展,而這些也反過來增加了這篇論文的效用,使得數(shù)據(jù)價值一翻再翻。當(dāng)然這些數(shù)據(jù)的使用建立在數(shù)據(jù)公開的前提上,數(shù)據(jù)公開依托的是大數(shù)據(jù)時代的技術(shù)發(fā)展,這是必須要感謝的科技的進(jìn)步。但技術(shù)框架的實體卻是由這些看似平凡無奇的數(shù)據(jù)所共同組成的價值不可估量的整體。數(shù)據(jù)一旦被公開,自利的人們按照自己的問題導(dǎo)向去使用數(shù)據(jù),讓數(shù)據(jù)在無形之間價值倍增,這些不同的使用方式又加成在這些數(shù)據(jù)之上,成了日后人們面對這些數(shù)據(jù)時做出預(yù)測的依據(jù)——哦,這篇論文當(dāng)年被引用了很多次啊,看來當(dāng)時很多人都是這么想的,我要多讀幾遍來了解當(dāng)時法學(xué)的觀念。

  大數(shù)據(jù)公司的蓬勃發(fā)展,眾多互聯(lián)網(wǎng)公司紛紛提出“互聯(lián)網(wǎng)+”的理念,進(jìn)軍各學(xué)科各行業(yè),足以體現(xiàn)了數(shù)據(jù)價值的轉(zhuǎn)移。行業(yè)成熟致使技術(shù)不再是秘密,而數(shù)據(jù)本身的提供者會更占優(yōu)勢,數(shù)據(jù)價值移轉(zhuǎn)到數(shù)據(jù)自身和大數(shù)據(jù)思維上。傳統(tǒng)的商業(yè)模式遭到新的風(fēng)浪,數(shù)據(jù)中間商們依靠多種多樣的數(shù)據(jù)來源,對未來充滿信心。

  三、管理變革,數(shù)據(jù)什么都知道

  大數(shù)據(jù)時代帶來的隱憂也是不可小覷的。數(shù)據(jù)本身的,數(shù)據(jù)對其他人事物的,提起來都令人蹙眉。大數(shù)據(jù)帶來的威脅源于大數(shù)據(jù)本身的目的,用規(guī)模劇增改變現(xiàn)狀。我們的腦子或有可能被數(shù)據(jù)取代,工具和目的之間的差別顯得搖搖欲墜。我們傾向于從數(shù)字?jǐn)?shù)據(jù)的增長和奧威爾寫《1984》時所處“監(jiān)事煉獄”的角度去理解大數(shù)據(jù)給個人隱私帶來的威脅,但是事實上威脅本身并不只是被加量,而出現(xiàn)了變質(zhì)的可能性。數(shù)據(jù)的二次利用使得人們在迷霧之中就遭遇了數(shù)據(jù)對于個人隱私的迫害,“告知與許可”原來是人際交往和社會運作中可靠的基石,但是在大數(shù)據(jù)時代人們還是無法完全預(yù)知數(shù)據(jù)公開后可能發(fā)揮效用的空間和領(lǐng)域,太過限縮會限制大數(shù)據(jù)潛在價值的挖掘,而太過空泛則無法真正地保護(hù)個人隱私。數(shù)據(jù)的重組使得部分?jǐn)?shù)據(jù)的喪失并不阻礙數(shù)據(jù)全貌的呈現(xiàn),當(dāng)不同的加密系統(tǒng)遮蓋住不同的區(qū)間時,解密者通過多次嘗試可以從尚未被遮蓋的區(qū)域精巧躲過障礙,直抵目的地。

  數(shù)據(jù)只知道現(xiàn)在和過去嗎?不是的,數(shù)據(jù)會說話,它仿佛會預(yù)測未來。在電影Minority Report(《少數(shù)派報告》)中,三個超自然人可以想象出逮捕的名義竟是“你即將在今天謀殺你的妻子”。數(shù)據(jù)對現(xiàn)在什么都知道,讓數(shù)據(jù)自以為精確、全面、細(xì)致地掌握了你的全貌,于是它好像比你的大腦還了解你下一步想要做什么。這是和法律上的“無罪推定”有矛盾的,因為人在真正犯罪前就被剝奪了自由權(quán)利,我們再也無法知道他究竟會不會犯罪,他會不會因為道德選擇的能力而避開這個可能永遠(yuǎn)都不會去實施的行為。當(dāng)一個買了刀、砒霜、繩子的人突然良心悔過放棄殺人計劃時,他卻很有可能會被沖進(jìn)家門的警察給嚇到,更讓他害怕的是,明明買這些東西的計劃連床邊的妻子都不知道,為什么這些警察會了解得一清二楚?

  但是,以上是我們假設(shè)的壞的情況,我們放棄了自我思考的能力和自我選擇的責(zé)任,把一切都?xì)w于大數(shù)據(jù)的操縱。也許我們可以不這么濫用大數(shù)據(jù)呢。也許當(dāng)我們的數(shù)據(jù)意識到這個人有可能會有這樣或那樣的不法舉動時,我們可以選擇提前勸阻,而不是提前審判?

  更大的數(shù)據(jù)永遠(yuǎn)來源于人本身,回過頭再去看最開頭的故事。維克托可以保留所有的16000張照片,畢竟他生活的年代和他的社會地位足以支撐起這樣的技術(shù),但是他選擇留下53張。這是數(shù)據(jù)預(yù)想不到的決定,但是人類就是做得出這樣的決定。當(dāng)Alpha go戰(zhàn)勝了那么多棋手之后,人們還是會覺得學(xué)圍棋不是一件愚蠢的事情,因為家中的祖父總是興高采烈地拽著你說“來來來,陪爺爺下一盤棋”。你下得差了,爺爺會氣鼓鼓地吹著胡子說“教了你這么多年一點長進(jìn)都沒有”;你下贏了,回頭爸爸就拽過你來叮囑你“叫你讓著一點爺爺,下棋不要贏,哄他高興最重要”。這些,數(shù)據(jù),它知道嗎?

作者:宋靜雯

  公眾號:新語莘苑

  本文為原創(chuàng)文章,版權(quán)歸作者所有,未經(jīng)授權(quán)不得轉(zhuǎn)載!——學(xué)習(xí)啦


3940227