• logo

鄭自隆》《大數據》讀書筆記

【愛傳媒鄭自隆專欄】

閉戶自肅,就是要讀書(9)

 

書名:大數據Big Data

作者:V. Mayer-Schonberger and K. Cukier

譯者:林俊宏

出版:遠見天下文化

年代:2013

 

何謂大數據

甚麼叫做「大數據」?問10個人,大概會有9個人說就是網路抓來的數據,如2018年的縣市長選舉,與2020年總統大選,有許多選戰分析針對社群媒體貼文統計,稱之「網路聲量」,就有很多人說這就是「大數據」,雖然是以管窺豹,不過也不算錯,畢竟只有網路才能產生巨量資料;但這不是大數據精神。

 

本書舉例龐雜,並不容易讀,可要耐心整理方能「淘金」,作者認為大數據理論是建立在3個基礎上…

1. 決策依據巨大的資料量;

2. 資料的蒐集,放棄對「精確」的堅持;

3. 無所謂「因果關係」。

 

這3個基礎都在挑戰傳統的社會科學調查,除非是國家的人口普查或工商普查,傳統的社會科學調查都是依據抽樣數據做為推論基礎,樣本數1067就是金鑰,我們常見的政黨或政治人物滿意度調查,或候選人支持度預測,就是以1067樣本的調查結果推論母體(全體國民或選民),稱為概化能力(generalization),即以1067人的態度推論1900萬選民的傾向,呈現抽樣(sampling)的功力。

 

其次,「精確」的資料的確是神話,傳統的社會科學調查,無論問卷如何設計,總有信度與效度問題,很難判斷答卷的受訪者有沒有說謊,問受訪者每月收入多少就是例子,即使誠實可能也答不出加班費與獎金;網路也是,網友留言千奇百怪、推陳出新,說「以新台幣『下架』義美豆漿」,這與「以選票『下架』○○○」,同樣『下架』,意義截然不同,正確語義分析有其難度。

 

更重要的,很多人都誤會大數據就是根據巨量的網路數據做單一變項分析,如聲量統計或消費者個體的消費行為分析;事實上大數據也是要做兩個變項的交叉,方能顯現功力,只不過大數據理論顛覆傳統社會科學調查的「因果關係」)causal relationship)推論,這也是大數據最重要的精神。

 

不理會「因果關係」

「大數據」是「沒有『理論』的理論」,或「不理『理論』的理論」,傳統社會科學研究,會先參酌文獻(理論),假設變項之間具有「因果相關」(建立假設),然後蒐集個案資料,再以適當統計方法證明或否證之;若經統計檢定呈現顯著的差異或關聯,接著就要進一步思考或用理論檢視此個案,到底只是「統計相關」,抑或真的有「因果相關」?其佐證模式如下 -

 

理論檢索(假設)→ 統計相關(分析)→ 因果相關(結論)

 

如「創新擴散理論」(Diffusion of Innovation)認為年齡不同,創新行為的採納也不同,某研究以此建立假設模型,再觀察民眾的串流平台使用行為,經抽樣調查發現,樣本年齡不同(「因」,也就是自變項),串流平台使用行為也有所不同(「果」,也就是應變項),統計檢驗呈現顯著差異,接著就要透過理論,推論其原因,這就是傳統社會科學調查方法,「好的研究從理論出發,最後再回到理論」。

 

但大數據理論顛覆這種思維,大數據可不管第一階段的由文獻所建構的因果相關假設,而是從浩瀚的數據中,沙裡淘金,先找出2變項的統計相關,然後再找出理由詮釋其關連,甚至不管前後因果的關係。

 

沙裡淘金(不做假設)→ 統計相關 → 因果相連(臆測推論)

 

換言之,傳統社會科學研究是先有Why,再找出What以證明之,而大數據理論是先有What,再探究之間Why的關連,也就說大數據研究並不執著2個變項的是否有理論上的因果關係,何者為因、何者為果,是A影響B,還是B影響A,若還有另一個變項C,三者關係何者是自變項、何者是應變項、何者又是中介變項或前導變項,大數據研究通通不用理會;大數據理論認為是「蛋先生雞」或「雞先生蛋」不重要,只要知道「蛋可以變雞」、「雞可以生蛋」就可以了。

 

這就是大數據理論高桿的地方,在一大堆數據中,將看似不相關的2個變項,經由統計相關,推論其關聯性的連結,如書中所舉的例子,經由長期購物資料的改變,推論婦女懷孕幾週;所以單一變項的網路聲量分析,只是小試的牛刀,並不是大數據理論的全部或菁華。

 

大數據是「樣本=母體」,沒有抽樣問題,所有與研究目的可能有關的資料庫都可以是母體來源,所以是龐大二手資料所建構的巨量資料,而這二手資料庫未必是與研究直接有關,也未必是網路行為的資料庫,如何連結取用,就看研究者功力洞見,也因為「樣本=母體」,所以沒有信心水準與抽樣誤差問題,大數據是「信心水準100%,抽樣誤差為0%」。

 

大數據的價值

作者認為大數據的價值是由資料、技術、思維等三方面提供貢獻的,資料通常來自網路平台,網友上網行為的蒐集就構成資料,技術來自分析工具或分析公司、資科工程師;資料、技術是工具面的意義,大數據最主要的價值是思維,來自思考問題、分析變項關係的人,也就是懂得「沙裡淘金」的研究者。

 

沒錯,大數據是沙裡淘金,同樣一盆沙,3位研究者,A可能淘出真金,B可能淘出愚人金,C可能怎麼看都是沙,那來的金;譬如說同樣的消費行為資料庫,有人可以找出不同政黨支持者的啤酒品牌選擇似乎有玄機,從而推論其社交網絡與媒體使用習慣與政黨支持度的關係,但也有人只會看到一堆個別數據;這也顯示,大數據研究的不可預測性,靠的是研究者智慧,一個問題可能多個答案,或是無答案,甚至是錯誤答案。

 

大數據不是萬靈丹,不會用,是「垃圾進、垃圾出」(garbage in, garbage out),GIGO還好,亂用更會形成嚴重的「誤判」,誤己誤人,所以運用大數據,不能只用所謂的網路高手,更重要的是相關領域的科學家,或社會、行銷學者。

 

2021年台灣covid-19疫苗施打就是一個很好的大數據研究題材,第一款A疫苗施打死亡率很高,後續的B疫苗就比較OK,搞得台灣人對A疫苗怕怕的,真的是A疫苗不如B或C疫苗嗎?還是第一批A疫苗施打的對象都是高齡長者,自然死亡率或許就比較高,換成B或C疫苗做第一批施打是不是也會同樣結果?疫苗與自然死亡率有何關係,這是大數據研究的題材,從大堆看似沒有關係的數據中,沙裡淘金,找出施打疫苗與死亡率的關聯,這才是高手應做的工作,至於app設計就交給資科系的同學就可以了。

 

工商服務時間:若要進一步瞭解傳統社會科學調查與大數據的差異,請參閱鄭自隆(2021)《數位整合行銷傳播》,台中:滄海。

 

作者為政治大學傳播學院兼任教授

 

●專欄文章,不代表i-Media 愛傳媒立場