燦爛時光會客室

【燦爛時光會客室】第395集|數據竟能鬼扯?-《數據的假象》揭穿數字背後的虛偽

文 / 汪昊田

《數據的假象:數據識讀是深度偽造時代最重要的思辨素養,聰明決策不被操弄》一書,作者是美國華盛頓大學的兩位教授Carl T. Bergstrom和Jevin D. West,內容分析當代常見的圖表、統計資料和數據,在日常生活展現出哪些面貌?又如何操控人心?人們該如何正確看待這些資訊不被迷惑。

本集節目邀請到資深媒體工作者黃哲斌,透過媒體工作的經驗,分析書中所提到的,媒體與大眾在看待數據時會忽略的細節,和看不見的盲點。

假新聞出現不是新聞 卻隨科技進步愈演愈烈

黃哲斌指出,新聞發展幾百年來假新聞層出不窮,並不是到近代才突然出現;但到了近代,假訊息、假新聞卻漸漸成為社會上難以忽視的課題,甚至造成社會的恐慌、焦慮。他說,科技的介入是很大的原因。

在過去的時代,資訊的產出多掌握在少數的出版業手中,資訊傳播的管道並不多,因此要想大規模的散佈假訊息並不容易;網路時代的到來大大加強了個人傳播的能力及影響範圍,資訊可以迅速的流通,且經過多次轉發後來源往往難以追蹤,強化了假訊息對社會的實質衝擊。書中舉例在2016年美國總統大選時,一則教宗支持川普的假消息在網路上廣為流傳,對於多信奉天主教或基督教的美國民眾影響甚鉅,甚至左右選情。追其來源,發現此假訊息來自一名只想賺取廣告費的馬其頓青年。

管中祥說,從過往的歷史故事就能一窺假訊息的威力,如成語「三人成虎」、「曾參殺人」皆是指假訊息廣傳後的對社會信任關係的破壞;小說《三國志》、電影《投名狀》更顯示了在戰爭時,假訊息亦是攻擊敵人的手段。

👉🏽 歡迎訂閱燦爛時光會客室 podcast頻道 Youtube頻道

數字看似比文字客觀 其連結不一定合乎邏輯

網路上有許多以數據、統計圖表背書的新聞或健康、政治等等資訊,這些資訊呈現的數據,就能真正代表真相?書中提到,大眾接收文字和數字所帶來的感受是不同的,文字比較偏向情感、主觀,而數字則較為客觀、精確,假訊息正是利用這點,讓許多人受騙上當。

黃哲斌舉例,中國外交部發言人華春瑩曾以台北市有38間山東餃子館為例,表示台灣和中國的味蕾相近,而引發「群嘲」。他說,這項資訊在台灣人眼中會覺得相當可笑,甚至能夠舉出其他數據,如日本料理店多達1200多間,來反駁這樣的說法。然而對不了解台灣環境的人而言,就可能被誤導。除了特定的對象可能會被特定的數據影響以外,那些刻意被隱藏、不提及的數據,也可能造成解讀上的落差。

管中祥補充,一項數據背後試圖連結的意義是很重要的,不僅是數字本身準確與否,若是連結的意義不合乎邏輯,且當所有相關的數據都完整列出後,很可能原本試圖連結的意義就不存在或不準確了。

黃哲斌說,新聞媒體經常會收到來自科技公司或金融產品的公關稿,其呈現出的數據、圖表,多經過一些操作與調整,並以不明顯的方式標註。這樣黑箱所產生的數據,若沒有追問或多加確認其背後的統計方式,媒體和大眾都會淪為被數據誤導的對象。

引用國外研究來源需注意 數據背後脈絡需釐清

新聞媒體引來自國外的研究報告,有時也會犯下錯誤。黃哲斌表示,當媒體編譯看見吸睛的國外報導或研究時,常未檢視引用來源就逕直翻譯,然國外媒體的品質參差不齊,所引用的數據也可能是不準確或不完整的,像是維基百科為確保其平台資訊的可靠性,列出了一份媒體名單,拒絕用戶引用這些媒體的資訊。台灣科學知識社群平台泛科學的創辦人鄭國威,就曾寫新聞指出,許多所謂的外電新聞,若不仔細查證資訊來源,難以發現都是經過多次轉手的,例如台灣媒體曾發生抄襲中國網站的內容,殊不知其內容是抄自國外的小報,因此其引用的原始內容很難被找出。

管中祥也提到,研究往往存在前提與假設,但媒體會為了追求更加吸睛的標題或內容,選擇性不揭露數據背後的前提和脈絡,導致因果關係變得模糊不清,大眾對數據的理解也將存在偏差。

社會盲目追求量化指標 數字可能扭曲社會政策

書中提到,過度依賴數字會造成反效果,並對社會強調量化與KPI提出批評。其中寫到:「我們越倚賴量化的社會指標擬定社會決策,這個指標就會越腐化也越容易曲解,甚至會扭曲它本來要監督的社會過程。」管中祥說,科學除了用做政策的制定,同樣是對政策的監督。

黃哲斌說,許多社會上的規範或策略制定,例如監獄的假釋審查、網路廣告的效益、保險費或信用貸款的核算等等,如果過於重視量化數字的結果,將不符合社會正義;以國家經濟而言,當各國盲目追求GDP的成長,則會在社會公平或環境保育上產生犧牲;管中祥則以大學教育為例,說明大學過於追求國際排名,因此過度追求研究效率,在不同科系間研究方法迥異的情況下,會造成教育資源分配不均與影響研究品質。

視覺化資訊目不暇給 解讀方法大有學問

黃哲斌說,現代大眾習慣濃縮複雜的事物,製成懶人包或是圖表,如果傳達者與接收者具有相同的知識背景,這種資訊的傳播方式是方便、高效的;然而製作這些圖表或懶人包的人可能會為了簡化資訊的複雜程度,或企圖誤導接收者,而在圖中捨去一些關鍵的資訊。

選舉的民調所呈現出的圖表和數據,充滿了可操作的空間。黃哲斌表示,政黨所委託的民調機構多有政治背景,因此在看到這些數據圖表時,可以先了解製作民調的單位背後是否有政黨提供支持;另外,如果問問題的角度和方式不同,就很有可能得出截然不同的結果;數據處理的方式與手段是否存在瑕疵,也是需要仔細檢視的部分,甚至在圖表呈現的選擇上,也存在影響資訊吸收與理解的空間。

標題需求與時俱進 從理智轉向刺激

書中談到了新聞標題,從過往濃縮新聞事實,到今日需要提供讀者一個情感體驗,感官的訴求被放大。黃哲斌表示,過去擔任報社編輯時,為新聞下標題的準則是讓讀者能夠看完標題就迅速了解新聞重點,為的是讓讀者打開報紙後,能即刻選出自己感興趣的新聞來細讀;進入網路時代後,新聞標題與內文無法同時出現,為了增加內文的點閱率,就需要一個足夠吸睛的標題來吸引讀者點閱,釣魚式的標題因此而生。釣魚式標題多靠增添標題的情緒性或是懸疑性,來激起讀者的好奇心。然而過於聳動的標題,沒有相應強度的內文來支撐,就會使讀者點進內文後感覺自己被騙、被耍了。

管中祥提到,現今的電視新聞裡,以受訪者說話聲音為主的片段(Soundbite)的比例大幅降低,過去的新聞可以抓出約20秒的受訪者原聲,現在的新聞則降低至約7秒。黃哲斌表示,現在的新聞為了要取最辛辣的片段,因此出現許多受訪者的回應內容被去脈絡化或斷章取義的狀況。

【與觀眾的Q&A時間】

Q1:想請來賓來談媒體裡面的收視率數據,曾聽說收視率的取樣背後有一些統計的問題,其實根本就不準確,排名也沒有意義?

黃哲斌:推薦有興趣的朋友可以去看台大新聞所林照真老師,她是專門研究收視率的。

收視率的背後也是一個黑盒子,台灣收視率是利用一個機上盒,裝設在1000多個家庭裡面,他們有特殊的遙控器,要看電視之前,要先選取目前是家中的誰在觀看,它會追蹤每個人看什麼樣的節目。

林照真在做收視率研究時發現背後是有很多問題的,包括取樣的準確與否、願意裝設機上盒的家庭背景,是否能夠反映整個台灣的社經分布,甚至有因為按遙控器太麻煩而索性亂按的狀況,造成錯誤的效果;由於現今電視頻道太分散,導致許多電視台的收視率僅有零點零幾,在統計上是否具有意義,這些都是(收視率)麻煩的事情。

但最致命的是,這些數據上的鬼扯,偏偏是影響全台灣所有電視台,尤其是新聞台的製作方向。每個電視台的主管每天走進辦公室,就是被這套收視率追著跑,如果前一天的收視率很差,隔天就要想辦法補回來,對於整個新聞品質影響,我相信大部分的人認為是產生負面的影響。

管中祥:一方面是台灣收視率調查公司的獨佔問題,剛剛有談到它的計算相當精確,精確到是家中的誰在看節目、以秒來計算收看時間,因此很多人會覺得麻煩或擔心隱私被竊取。有一種說法是,因為有經濟上的補貼,所以在統計上會裝機上盒的人不能算真正的隨機抽樣,因為它會變成有補貼跟沒補貼(兩種人)或是隱私會不會被侵犯的問題,背後不同的思考。

Q2:請問兩位老師,在這個資訊爆炸的時代,我們沒辦法所有資訊都去找來源,如何能有效率地辨認鬼扯呢?

黃哲斌:這幾年我們講媒體識讀,到最近講資訊素養,現在很多年輕朋友會看網路直播,已經不看傳統的電視新聞和報章雜誌了,生活跟3C產品綁在一起,資訊來源越來越多。國內外調查都顯示,以社群平台和網紅影片作為主要新聞來源的人已經超過傳統媒體了,我會說這是過剩的幸福。過去資訊匱乏的時代、戒嚴的時代,我們苦惱於所有資訊管道都被政治力量把持,選擇太少;現在則是選擇太多,但品質參差不齊,反而成為另一種痛苦。

如何解決這類痛苦,媒體識讀的單位或機構會有建議,而我個人的建議如下:找到自己信任的朋友或團體,每人列出5個值得信任的資訊來源,可能是專業媒體、記者、專欄作家、網紅、Youtuber……等等,在日常資訊的接收範疇內都可以,最好可以互相分享值得信任的原因。這是相對而言門檻較低卻有效的方式,讓我們從中去篩選出共同認可的資訊來源,比社群平台的演算法推薦的內容要可信得多。

管中祥:如果身邊都是挺綠的人,那肯定都會推薦自由時報或三立、民視;如果都是挺藍的人就肯定會推薦中時、中天或TVBS,這樣不還是落入同溫層之中嗎?訊息一樣是被某種偏好所影響的?

黃哲斌:這和個人交友狀況有關,有些人會只和自己政治立場相近的人交朋友,這並沒有不對。我看過一場TED talk演講,講者也是研究傳播資訊的老師,他某次為了研究川普,在Youtube點了幾支和川普有關的影片,結果演算法便開始推薦和川普相關的內容,甚至愈發偏激。與其被社群網路上的同溫層影響,或是讓平台的演算法操控,現實世界的人大多不會那麼極端,或許會有一些立場相差比較大的朋友,但重點是你們之間互相信任,因此你們願意互相查看各自所接收的內容為何,這相對來說是個好的開始。如果交換內容的圈子越來越廣,能夠得到的資訊來源就能更加多元、平衡。

管中祥:假訊息最容易在同溫層中傳播,所以在抽樣、取樣的過程中,不同類型的朋友越多相對之下會更好。我在演講時會建議一個相對之下很難做到的作法:在使用臉書時「按討厭的人讚」。這很困難,但也經常讓我看見不同立場或不同的思考方式、不同的生活經驗的人對訊息的討論或判斷。我認為滑手機這個過程很容易受到同溫層與演算法推薦的影響,我自己會用傳統的RSS的APP,如Feedly和Flipboard,訂閱一些我認為具有公信力的媒體,這樣同樣是滑手機,但至少內容是我自己選的,而不是演算法幫我選的,我能夠自己負責。

現實中我們不可能接觸到所有的真實,因此我常提醒一件事,我們所有看見得的傳媒資訊都是經過選擇和組合的結果,不可能是百分之百的真實,所以我們接收這些資訊時,本身就不該過度信賴某個權威。媒體識讀最重要的並非批判媒體,而是一種自我思辨,一種批判性思考訓練的能力,我認為這才是媒體識讀中最重要的精神。

Q3:想請問管老師,在學術界期刊論文的圖表論文中,也發現過鬼扯的現象嗎?學界是如何審核這些狀況呢?像是阿茲海默症的研究,為何過這麼久才發現問題?

管中祥:學術界確實存在鬼扯的現象,不僅在圖表上可見,我們常見的抄襲、致敬和學術界論文的寫作和生產是有某種關聯性的;我們見過的所謂論文產生器和假新聞產生器,它們也都是鬼扯的一種。一般的學術界會如何去做檢證呢?我們有所謂的同儕審查(Peer Review),而有所謂「雙盲」的檢驗。

當我們投稿到期刊或研討會,比較嚴謹的會把論文送給兩個相關領域的匿名審查者,去檢驗邏輯是否通順、問題意識為何?假設是否有被回答?研究問題是否被回答?使用的工具或方法是否能夠回答問題……等。當這兩個審查者在同一件事上存在不同意見時,就會交給第三個審查人。因此一個嚴謹的情況而言需要經過雙盲的審查過程,研究者和審查者互相不知道對方是誰。更嚴謹的期刊主編在審查過後仍會親自過目一遍,這個角色通常由具學術專長或該領域的專業教授來擔任,學術期刊會依這個方法來回應、解決。

我不太清楚阿茲海默研究的實際狀況,但在每個不同的年代,都會有所謂主流學術的或典範的轉移,例如在《科學革命的結構》一書中有提到,包括從過去的「地心說」轉為「日心說」、從「地平說」轉變為「地圓說」……等等。每個年代都具有當下主流的研究方法或途徑,學術上也存在當時主流推崇的派系,在這些前提被建立的前提下,延續這個框架的研究可能就發現不了這個框架或假設本身是有問題的。相比起社會科學或人文科學,自然科學中這個狀況是比較常出現的。

Q4:在人手一機的網路時代,人們應該更有智慧,有更快更好的查證方式來辨別資訊的真偽,然而事實似乎並非如此?

黃哲斌:我本身也不是很有智慧的人,但我能引用一個很有智慧的生物學家的話來解釋當下科技與數位傳播現象的一句話。去年過世的生物學家E.O. Wilson說:我們現正處於舊石器時代的情緒、中世紀的機構,和神一般的技術。人類直至今日21世紀仍有許多愛恨情仇、仇恨戰爭甚至是屠殺正在發生。許多人在網路上的發言,是非常具生物原始本性的;我們現在可見的國家、學校、企業、圖書館等等的社會機構、社會制度,是從中世紀沿襲至今的,他是有演化的,但演化得非常有限;而現今所有人手握的設備,其傳播能力是幾十年前的人類都無法想像的。人類因這種情緒、社會機構及傳播資訊的斷裂,造成了現在諸多的鬼扯亂象。