結帳
購物車有 0 項商品,共 0
天下文化首頁 主題 別看到數字就相信
科學自然

發表日期

2016.01.14
收藏文章 0

文章摘錄自

數學教你不犯錯【上下冊套書】
數學就像戴上X光的眼鏡,能從混亂無序的世界表像裡,看透其後隱藏的結構。數學是一門不會把事情搞錯的學問...
定價 660
優惠價 85折,561
$660 85$561
加入購物車

別看到數字就相信



圖片來源:unsplash

科學研究的可信度

統計學家沙利奇(Cosma Shalizi)曾告訴我一則寓言:假想你是古羅馬的動物內臟占卜師,必須宰殺羊隻來檢視牠的內臟(特別是肝臟),然後預言未來。

你心裡很清楚,恪守伊特拉斯坎(Etruscan)神祇的教誨,並不會讓自己的預言特別可靠,要真是那樣也太扯。你想講求證據,於是跟同事把論文投給《國際內臟占卜學期刊》,該刊要求所有刊登的結果都必須通過統計顯著檢定。

內臟占卜學並非易事,一方面必須花一堆時間來跟血液、膽汁打交道,另一方面實驗經常失敗。想用綿羊的內臟預測蘋果公司的股價,失敗;想模擬民主黨在西班牙裔族群的得票率,又失敗;想估計全球石油的供給量,再次失敗。那些神祇很麻煩,並非每次都能搞清楚,到底什麼樣的內臟或什麼樣的咒語,得以可靠揭露未來。有時候不同內臟占卜師做相同實驗時,一位能預測正確,而另一位會大錯特錯,誰也搞不清楚為什麼。不過當占卜上了軌道,彷彿靈光乍現時,一切辛苦全值得了。你發現肝臟的組織與突起,確實預測了明年流感的疫情,於是在心中感謝諸神,你可以發表論文了。

這麼得意的時機,也許二十次裡才有一次。

我的估算確實也是如此,不像你,我本來就不相信內臟占卜;我也不覺得綿羊內臟能得知流感的相關數據,如果兩者真能匹配,那也是純粹出於好運。換句話說,關於內臟做的任何預測,我都是虛無假設的死忠支持者。所以在我的世界裡,內臟占卜實驗都不太可能成功。

有多不可能呢?要想在《國際內臟占卜學期刊》發表論文,必須通過標準的統計顯著性門檻,也就是p 值0.05,換句話說,二十次裡要成功一次。回憶一下p 值的定義:某項實驗若虛無假設為真,則實驗有1/20的機會,能產生具有統計意義的結果。倘若虛無假設永遠為真,也就是說內臟占卜純粹是騙人的,那麼每二十次實驗裡也有一次能發表。

別看到數字就相信

現代醫學與社會科學不是內臟占卜學,但有一群抱持異議的科學家,近年來愈來愈大聲呼籲、提醒大家,科學裡似乎也有不少內臟占卜,只是我們不肯承認。

批評聲最大的是愛奧尼底斯(John Ioannidis),他高中時是希臘的數學明星,後來從事生物醫學的研究。2005 年他發表了一篇論文〈為什麼大部分發表的研究結果都是錯的〉,因而引發臨床

科學界一波強烈的自我檢討(以及後續的自我辯護)。為了引人注意,有時論文題目會比實質內容誇張一些。但是這篇論文卻非如此,愛奧尼底斯很嚴肅的指出,某些醫學研究領域根本是「虛

無領域」,正如內臟占卜學一樣,完全找不出實效。他寫道:「可以證明,大多數發表的研究結果都是錯誤的。」

「證明」這種字眼對於我這個數學家來說有點難以下嚥,不過愛奧尼底斯確實強而有力的說明,他的指控並非空穴來風。事情是這樣的,在醫學研究裡,我們嘗試的醫療介入多半無效,檢驗的關連性往往不曾顯現。

就拿疾病與遺傳的檢定來說好了,基因組上有眾多基因,其中大多數基因不會讓你得癌症、變得沮喪或肥胖,甚至不會產生任何直接效應。愛奧尼底斯要我們考量遺傳對於思覺失調症(schizophrenia,舊譯精神分裂)的影響,雖然我們知道思覺失調症會遺傳,但它是在基因組的哪一部位呢?畢竟現在是大數據時代,研究人員會把網撒得很廣,去觀察10萬個基因(精確的說是遺傳多態型),看看什麼基因跟思覺失調症有關係。愛奧尼底斯估計只有10個左右的基因,可以在臨床上觀察到相關效應。

另外的99,990個基因呢?它們都跟思覺失調症毫不相干。

然而它們之中的1/20,也就是約略五千個基因,會通過統計顯著性的p 值檢定。換句話說,在那些「老天啊,我找到思覺失調症的基因了」而發表論文的結果裡,虛假的結果比真實的結果高出五百倍。

上述比例還是假設那10個基因,真的能全部通過思覺失調症的檢定!假如檢定的鑑別率不足,即使是真實效應,也很可能因為達不到統計顯著性而遭排除。假如研究的鑑別率不高,則真正發生作用的基因,很可能只有一半的機率通過顯著性檢定。意思是說,用p 值挑出引起思覺失調症的基因,可能只有五個真的有作用,但卻有五千個基因是純粹靠運氣而過關。

看看下面方格裡的圓圈,這是說明相關基因數量的好辦法:

格子中的圓圈大小,代表該區域裡基因的數目。左半部兩個小方塊,裡頭的基因沒有通過顯著性檢定,右半部兩小方塊,則是有通過顯著性檢定的基因。上半部兩個小方塊,代表真正會影響思覺失調症的極少數基因,所以只有右上角方塊內的基因,是所謂的真陽性(本來就有作用,而檢定也說會有作用的基因),左上角則是偽陰性(有作用,但是檢定說沒作用的基因)。下半部兩個小方塊,都是對思覺失調症沒作用的基因;左下角大圓圈內的基因是真陰性(本來就沒作用,而且檢定也說沒作用),右下角的小圓圈是偽陽性(本來沒作用,但是檢定說會有作用)。從圖裡可以看出顯著性檢定並非問題所在。跟思覺失調症無關的基因很少會通過檢定,而我們真正感興趣的基因,則有一半會通過檢定。但跟思覺失調症無關的基因數量上有太大優勢,使得偽陽性雖然遠比真陰性為少,可是卻遠比真陽性為多。

排卵期影響政治傾向?

更糟糕的是,低鑑別率的研究,只能檢測出那些影響力巨大的效應。但有時候即使效應存在,影響力也非常小。換句話說,能準確量度出單一基因效應的實驗,很可能會因統計上不夠顯著而遭排除。然而能通過p < 0.05 的結果,要不是偽陽性,就是雖然是真陽性,但是過度誇張了基因的效應。某些研究領域的實驗規模不大,而且效應程度也中等,這時鑑別率低就會特別危險。

心理學的頂尖期刊《心理科學》(Psychological Science)2013 年刊出的一篇論文指出,已婚婦女處於排卵受孕期時,會明顯更傾向支持共和黨的總統候選人羅姆尼。這些婦女在受孕率高峰期接受訪問,有40.4% 表示會支持羅姆尼,而在非受孕期卻只有23.4% 會把票投給羅姆尼。* 這項研究的樣本其實很小,只有228 位婦女參與。但是差異很大,大到足以通過p 值檢定,成績是0.03。

差異實在有點太大了,這才是問題所在。支持羅姆尼的婦女,幾乎有一半的人在每個月大部分時間裡,會支持歐巴馬,這可能是真的嗎?沒有人注意到嗎?

就算有人一旦進入排卵期,政治傾向就右傾,數量也應該相當少。然而因為研究對象的數目相對來說太少,產生了弔詭的情形,也就是p 值的過濾功能,反而會排除更接近真相的效應強度評估。換句話說,我們可以很有信心的指出,這項研究報導的大幅度差異,多半(或甚至全部)是因雜訊而起。

雜訊雖然可能講的是真話,但也同樣可能恰與事實相反。結果我們好似墜落五里霧中,手上的結果徒具統計顯著性,卻讓人缺乏信心。

科學家把這種現象稱為「贏家詛咒」。有些令人印象深刻且備受宣揚的實驗結果,一旦重做後常會讓人失望透頂,「贏家詛咒」也是原因之一。

下面是一件具代表性的實例,心理學家查布利(Christopher Chabris)的研究團隊,重新檢驗了先前觀察到,在與IQ分數有統計顯著相關的13個單核苷酸多型性(SNP)。我們知道在IQ測驗中得高分的能力,或多或少具有遺傳性,因此尋找相關的遺傳標記不能說沒道理。但當查布利的團隊利用大數據,如樣本數多達一萬人的威斯康辛縱貫研究,來檢驗這些SNP 與IQ的關係時,之前的顯著相關都消失了。這表示,就算這些SNP與IQ真的相關,它們的效應也實在太小,以致於大型檢驗無法察覺。

基因組學專家如今相信,IQ的遺傳性很可能不是集中在某幾個「聰明基因」上,而是眾多基因特徵的集聚,其中每一項效應都非常微小。也就是說,如果你想研究個別多型性的明顯效應,雖然會成功,可是成功率就是1/20,跟內臟占卜一樣。

2012年美國加州的安進公司(Amgen)做了一項研究,他們挑選了53個極出名的癌症生理實驗,嘗試加以複製。結果在他們的獨立測試中,僅有6個可以成功做出相同結果。

這怎麼可能?這並不代表基因組專家與癌症研究人員都是傻瓜。實驗再現性的危機只是反映了科學研究的困難。我們的想法經常不正確,即便這些想法已經通過初步的研判。

再現實驗成果

某位沒參與研究的資深科學家,以溫和口吻說出類似以下的話:「這項發現非常有趣,我建議應該朝此方向持續深入研究。」但你常常都直接跳過這部分不讀,因為覺得那只是陳腔濫調,沒多大意思。

事實的真相是,科學家之所以老愛說這些,是因為它是很重要的實話!如果發現了令人興奮、頗有統計顯著性的實驗結果,不代表是這項科學歷程的終點,而是另一段探索的啟程。如果發現了一項重要的新成果,其他實驗室的科學家會一再測試這個現象及它的變化,想辦法判定這項成果是否只是偶然事件,是否有滿足費雪的標準。這也就是科學家所謂的「再現性」。如果在反覆嘗試之後,某項實驗成果無法再現,科學就只好抱歉不再支持。這種測試實驗可否再現的程序,就像是科學的免疫系統,只要有新發現,科學免疫作用會蜂擁而上把它包圍,無法通過考驗就會被滅絕。

無論如何,這是理想狀況。實務上,科學會有點壓抑免疫作用。但就算是能再現的研究,也很少會有人真的動手重做。每份期刊都想刊登突破性發現,誰會想刊登一年後做同樣實驗,又得到同樣結果的論文?

數學教你不犯錯,上

數位編輯整理:曾琳之

相關書籍

書到通知我

請輸入您的 Email 作為書到通知的信箱