多少科研人飽受失眠之苦,就為了等「p值」小於5%這一結果?

假如要用一個詞語來形容我們認識這個世界的過程和結果,「盲人摸象」大概是比較合適的了。而要解釋一個現象的成因、結果,或者要研究一番因果關係——當然在大數據年代,「相關性」分析更為流行——更是難上加難。受製於人的局限,也因於人的才智,抽樣作為一種研究方法在歷史上被發明了。它有著極其悠久的歷史。或者說,文明之初,聖賢對世間種種問題的論斷也是以此為基礎,畢竟無法走遍天下窮盡對所有人和物的認識。人們希望通過樣本去推斷整體,在概率上實現一種「可能性」認識。在現代學術界,以學術為業的研究者穿梭於數據之間,為的也是得到一個比較可靠的推論。

他們苦苦盯著p值(指用來判定假設檢驗結果的參數),祈禱神奇的統計軟件得出「p<0.05」這個完美的裁決。只有這樣,他們才能推翻原假設(或叫零假設),有依據說原假設只是一個小概率事件,接著也就接受了研究假設——至少有95%的把握。而研究假設的結論往往是一項研究之所以「有所創新」的證據。

電影《美麗心靈》(A Beautiful Mind,2001)劇照。

不過,小概率事件就是不可能事件嗎?好像也未必。或許樣本的數據只是碰巧支持了研究假設,或許研究者調整了某個數據以求通過顯著性檢驗。即便這些問題都不存在,當樣本的數量不斷擴大,直至擴至總體,有一個小概率事件發生了,顯著性檢驗似乎也都面臨著某種意義危機。

不妨舉一個簡單的例子來說明。我們假設「閱讀的時間」和「刷短影片的時間」沒有任何關係,在樣本中發現沒有任何關係的可能性低於0.05,也就是不足5%,那麼也就通過了顯著性假設,有95%以上的把握說閱讀和刷短影片兩者之間有關係。只要發現有一個人閱讀和刷短影片互不幹擾,小概率事件都算是發生了。既然小概率事件總是會發生,又怎樣理解p值的意義呢?我們自然可以說,在實證意義上,它告訴我們具體有多大把握可以作某個推論。除此以外呢?統計學家奧布里·克雷頓做了一件有趣的事,他追溯統計學的歷史,告訴了讀者統計學上的謬誤、危機和爭議,包括讓無數人「輾轉反側」的p值。

「對顯著性檢驗——特別是零假設顯著性檢驗——的批評有著特別悠久和豐富的歷史。我將只講述有關其中一些批評的故事,主要是試圖理解為什麼它從未成功地推翻現有規則。可悲的是,這主要是關於科學界普遍存在的冷漠和惰性的故事。」

以下內容經出版方授權節選自《伯努利謬誤:不合邏輯的統計學與現代科學的危機》一書。摘編有刪減,標題為摘編者所起。註釋見原書。

原文作者|[美]奧布里·克雷頓

《伯努利謬誤:不合邏輯的統計學與現代科學的危機》,[美]奧布里·克雷頓著,陳代雲譯,2024年2月。

當問題浮出水面

隨著21 世紀初至21 世紀頭十年中期科學研究的變化,顯著性檢驗的理論問題開始變得非常實用。一方面,研究人員可用的數據量呈爆炸式增長。快速增長的數字存儲容量以及共享數據或在線進行研究的能力使全新類型的數據分析成為可能。在那段時間,大數據、數據挖掘和機器學習成了家喻戶曉的流行詞。

紀錄片《統計的樂趣》(The Joy of Stats,2010)畫面。

約翰·霍普金斯大學生物統計學教授羅渣·彭通過比較史丹利·米爾格拿姆1967 年的六度分隔實驗與其現代等效實驗,總結了研究數據的可用性發生了多大的變化:

1967年,史丹利·米爾格拿姆做了一個實驗以確定美國兩個人之間的分隔度。在他的實驗中,他向內布拉斯加州的奧馬哈和堪薩斯州的威奇托寄去了296 封信,目標是把信寄給馬莎諸塞州波士頓的某個特定的人。他的實驗引入了「六度分隔」的概念。2007年的一項研究將這個數字更新為「七度分隔」——但最新的研究基於在30天內收集的300億個即時通訊對話。

在這十年中,從金融到市場營銷、精算學、通信、醫療保健、藥理學等不同行業,試圖在大量的數據集中找到有用的相關性的分析性研究突然興起,特別是在醫學領域。2003年人類基因組計劃的完成為研究人員提供了一個廣闊的新領域,在這個領域中,他們可以探索數百萬個基因組對任何數量的疾病或其他疾病的潛在影響。

也就是在那個時候,這些研究人員開始注意到他們複製結果的能力存在問題。2003 年發表在《柳葉刀》(Lancet)上的一篇調查文章中,海倫·高爾賀恩、保羅·麥凱格和佐治·大衛·史密夫發現了一個日益嚴重的問題,「即許多結果無法被複製,這就導致人們越來越懷疑簡單關聯研究設計在檢測造成共同複雜性狀的遺傳變異方面的價值」。他們認為,儘管新的後基因組時代給他們帶來了許多優勢,但要探索的可能關係以及進行探索的人數的爆炸性增長導致了許多虛假關聯被偶然發現:

我們認為,未能排除偶然性是複製複雜疾病基因關聯報告的困難的最可能解釋。對於大多數我們感興趣的疾病而言,數百個已知基因是可能的候選基因,在大多數這些基因中,數十個多態性是已知的或者可以通過基因篩查被輕鬆識別。世界各地的科學家每週都會對數千種這樣的多態性進行疾病關聯檢驗。即使這些基因型都與結果無關,我們也可以預計,許多在5% 或更低水平上顯著相關的關聯往往只是偶然發生的。

大多數研究結果都是錯誤的?

然而,第一個真正令人震驚的事件發生在2005 年,當時史丹福大學醫學院及其統計學系的教授約翰·約安尼迪斯將複製問題歸咎於正統的統計學方法,主要是NHST(即「零假設顯著性檢驗」,Null Hypothesis Significance Testing——摘編者注)。在一篇名為《為什麼大多數已發表的研究結果都是錯誤的》(Why Most Published Research Findings Are False)的文章中,他用一個簡單的貝葉斯論證證明,如果一種關係,如基因與疾病發生之間的關聯,其先驗概率較低,那麼即使它通過了統計顯著性檢驗,其後驗概率也可能較低。

例如,他考慮對精神分裂症的基因關聯進行檢驗。

電影《飛越瘋人院》(One Flew Over the Cuckoo’s Nest,1975)劇照。

關於這種疾病遺傳性的先驗經驗可能表明,在10 萬種可能的基因變異中,大約有10 種可能確實在一定程度上與精神分裂症有關。因此,分配給任何一個可能理論的先驗概率應該是10/100000,或0.0001。一個典型的檢驗將使用5% 的顯著性水平,對於這種規模的效應,可能有60% 的功效來發現結果,這意味著即使效應是真的,也只有60% 的機率獲得顯著的結果。將這些數字放入推斷表的結果如下表所示。這種效應的後驗概率約為0.12%,這意味著即使對一個不太可能的遺傳關聯的推斷給出了統計上顯著的結果,也有99.88%的概率表明這種關聯是不真實的。

給定一個有統計顯著性的結果,對不太可能的基因關聯的推斷。

一般來說,假設任何理論的先驗概率為p,並將假設的假陽性率(α)和假設的假陰性率(β)放在一個推斷表中,我們將得到如下表所示的結果。觀察結果D 表示「觀察到的效應具有統計顯著性」。

給定有統計顯著性的結果,一般推斷。

因此,如果第二個路徑的可能性小於第一個,那麼通過顯著性檢驗的效應的真實概率將小於50%。就上面表格中的數量而言,如果p(1 – p) < α(1 -β),這就會發生。

因為在大多數顯著性檢驗中,α通常被認為是5% 以及一個典型的檢驗可能有50% 左右的假陰性率,如果真對假的失驗比例低於10%,這意味著大多數已發表的研究結果將是假的。鑒於在這項「高通量發現導向的研究」中研究了大量可能的影響,約安尼迪斯說,任何給定理論的先驗概率都會遠遠低於這個閾值,這是常態。他進一步表明,由選擇性報告或研究人員利益衝突導致的偏差的影響會使這種低後驗概率變得更低。

因此,大多數已發表的研究結果都是假的。

或者都是真的?

電影《唐伯虎點秋香》(1993)劇照。

「我們拒絕零假設是正確的!」

在對基因關聯研究的分析中,約安尼迪斯本質上認為,我們應該預料到第一類錯誤發生的百分比很高,該錯誤是指拒絕一個零假設(沒有影響),即使它為真。他的計算結果顯示,第一類錯誤率(也就是在零假設成立的情況下得到統計顯著性結果的概率)與已發表結果中屬於第一類錯誤的真實百分比之間存在明顯差異。用符號表示是P[顯著性|H0]與P[H0|顯著性]的區別。後者反映了給定數據下的零假設的概率,這需要進行貝葉斯分析,包括借助假設的先驗概率來理解。這與某種疾病的檢測結果呈陽性的健康患者的百分比和檢測結果呈陽性但實際上是健康患者的百分比之間的差別是一樣的。為了計算真正想要的概率,我們需要包括基礎概率,即先驗概率。

電影《美麗心靈》(A Beautiful Mind,2001)劇照。

約安尼迪史東斯過考察一種理想化的情況進行了示例計算,在這種情況下,人們可以研究的所有可能的基因關聯都被分成兩類:一類是真實的關聯,對疾病的發病率有一定程度的影響,另一類不是真實的關聯,其影響為0。這使得推斷類似於我們的忽視基礎概率問題,在忽視基礎概率問題中,患病等條件要麼存在要麼不存在。

然而,對於許多類型的問題,有更多的可能性。

在任何兩個變量之間,可能會有微小的關聯,它們仍然是真實的,但在任何層面上都沒有實際意義。

例如,用費雪的方法來思考一個關於總體的推斷,如果考慮到整個總體,任何給定的一對變量之間都不太可能有精確的0 關聯。比如,我們研究了美國政治黨派和家庭收入之間的關係,我們有興趣拒絕零假設,即拒絕認為這些變量是獨立的,也就是說,不同收入階層的人口比例並不會因他們的政治立場而改變。如果我們能夠調查每個人,我們幾乎肯定會發現比例是不完全相等的,因為任何收入階層中哪怕有一個人有差距都會破壞這個等式。由於這類調查問題中唯一的隨機性來自抽樣過程,我們可以近乎肯定地說,如果我們的樣本容量足夠大,我們會發現一些統計上顯著的效應,我們拒絕零假設是正確的!

伯克森早在1938 年就提出了這個問題的理論。他說,這對統計學家來說應該是真正的麻煩,因為這意味著基於樣本拒絕零假設在原則上是沒有意義的:「我想,統計學家會同意,大樣本總是比小樣本好。那麼,如果我們事先知道從大樣本中得出的p值,那麼在小樣本中這樣做似乎是沒有用的。但是,由於前一次檢驗的結果是已知的,所以這根本就不是檢驗。」

換句話說,如果在理想情況下,我們能夠接觸到整個總體,收集數據樣本的目的是引導我們得出結論。但在不做任何研究的情況下,我們從一開始就知道某些類型的零假設在被應用到整個總體時幾乎肯定是錯誤的。那麼取樣的意義是什麼呢?

1966 年,巴坎描述了同樣的現象,並通過對從6 萬人中收集的數據進行統計檢驗,從實證上證明了這一點。

他表明,無論他如何劃分他的受試者——密西西比河以東與以西、北部與南部、緬因州與美國其他地區等——這兩組受試者之間的差異檢驗結果總是非常顯著,p值很小。1968 年,明尼蘇達大學的大衛·萊肯將此稱為「環境噪音水平(即很弱,可以忽略不計)的相關性」。他和米爾通過對57000 份由明尼蘇達州高中生填寫的問捲進行分析來證明這一點。這項調查的內容包括學生的家庭、休閑活動、對學校的態度、課外組織等。他們發現,在105 個可能的變量交叉表格中,每一個單獨的關聯都具有統計顯著性,其中101 個(96%)的p值小於0.000001。例如,出生順序(老大、老幺、老二、獨生子女)與宗教觀點、家庭對大學的態度、對烹飪的興趣、參加農場青年球會的資格、離開學校後的職業計劃等都有顯著關聯。米爾稱之為「CRUD 因素」,意思是「在心理學和社會學中,一切事物都相互關聯」。

電影《雙子的天空》(Twin Falls Idaho,2000)劇照。

但正如米爾所強調的,這些結果並非純粹是偶然獲得的:「我重申,這些關係不是第一類錯誤。它們是關於世界的事實,當N = 57000 時,它們相當穩定。有些從理論上很容易解釋,有些比較難,有些則完全讓人困惑。‘簡單’的問題有時會有相互矛盾的多種解釋,但通常不會。從一個(罐子)中提取理論,然後異想天開地將它們與變量對聯繫起來,將產生一批令人印象深刻的反駁H0 的‘證據’。」也就是說,根據標準實踐,這105 項發現中的任何一項都可以被包裝成一種理論,併發表在期刊上。

零假設總是會失敗

隨著更容易收集到更大的樣本,人們可以預期這類小效應的結果越來越多。例如,2013 年一項針對1.9 萬多名參與者的研究表明,與面對面認識的人相比,在網上認識配偶的人報告的婚姻滿意度往往更高,其p值很小,僅為0.001。這聽起來像是一個令人印象深刻的、非常熱門的結果,直到你看到觀察到的差異非常小:在這個7 分製框架下,平均「幸福得分」為5.64 對5.48,相對提升不到3%。

樣本量和統計顯著性之間的關繫在早期是一個經常被混淆和批評的問題,直到今天也是如此。巴坎描述了20 世紀60 年代的期刊編輯在判斷研究論文的質量時經常混淆的情況:

作者知道一些非常著名的心理學期刊的編輯以沒有足夠的觀察為由,拒絕了p值和n值較小的論文,這清楚地表明,相同的思維模式在這些期刊中發揮作用。事實上,用一個小的n來拒絕零假設表明總體與零假設有很大的偏差,顯著性檢驗的數學過程已經考慮到小樣本的情況。增加n 會增加拒絕零假設的概率;在這些因樣本小而被拒絕的研究中,這項任務已經完成。當然,從某種意義上說,這些編輯是這個行業的終極「教師」,他們一直在教授一些明顯錯誤的東西!

紀錄片《數學的故事》(The Story of Maths,2008)畫面。

也就是說,低p值似乎是件好事,而大樣本容量也似乎是件好事,所以非常重要的是,結果應該包含這兩種情況。但這必然意味著,聲稱的效應規模可能很小,因為如果不是這樣,它就不需要在給定的顯著性水平上用這麼大的樣本來發現它。因此,無論統計分析最初打算支持什麼理論,都可能毫無意義。

如果可發表的研究的把關人只關心那些拒絕零假設、具有高功效、低假陽性率的研究,那麼使研究得以發表的一個簡單程序就是總是拒絕零假設!因為零假設總是假的,你可以聲稱你永遠不會犯第一類錯誤(拒絕零假設,即使它是真的),而且你因為總是拒絕零假設,也不會有犯第二類錯誤(接受零假設,即使它是假的)的機會。

所有這些困惑都強調了一點,即如果沒有可供檢驗的備擇假設,假設檢驗是毫無意義的。當假設某一總體相關性正好為0 或某一總體比例正好為1/2,用它的簡單否定(即相關性不是0 或比例不是1/2)來檢驗該假設時,如果數據量足夠大,零假設總是會失敗。但這並不奇怪,因為這些假設的先驗概率基本上都是0。相反,我們需要給零假設一個戰鬥的機會,通過陳述使它們的先驗概率不為0,或者更好的是,在一個連續統上處理假設,並分配先驗和後驗概率分佈。

是科學還是只是噪音?

然而,真正的問題是,僅僅是結果具有統計顯著性這一事實,根本不包含關於效應大小的內容。有了足夠大的樣本量,任何微小的效應(幾乎總有一些)都是可以被檢測到的,但這不能被視為對任何解釋該效應存在的理論的驗證。

正如心理學家艾達馬田斯溫·博林在1919 年首次闡明的,這是一個科學假設,但它絕不僅僅是一個統計假設,即總體中的兩個統計數據彼此不同,兩個變量相互關聯,一種處理有一些非零效應,同時它也試圖解釋原因、程度,以及重要性。忘記這一點是史提芬·齊利亞克和戴亞德麗·馬克洛斯基在《統計顯著性崇拜》(The Cult of Statistical Significance,2008)中所說的第三類錯誤。正如他們所說,「統計顯著性並不是一項科學檢驗。這是一個哲學的、定性的檢驗。它沒有問程度,而是問‘是否’。是否存在等問題,確實有意思。但這並不科學」。

紀錄片《統計的樂趣》(The Joy of Stats,2010)畫面。

此外,統計顯著性最多隻能解決一種可能困擾實驗的誤差,即抽樣誤差。在大樣本實驗中出現的奇怪的相關性表明,其他類型的系統誤差,如選擇性偏差或混雜變量的存在,也經常在起作用。理解和控制這些因素需要更仔細的思考,而不僅僅像在機械過程中轉動手柄那樣膚淺。

因此,大約從1930 年至今,僅根據統計顯著性來判斷研究成果是否有發表價值的普遍做法,造成了兩種不良科學研究被收錄進文獻的可能性。一個是簡單的第一類錯誤,儘管不存在真正的影響,但通過僥倖成功的隨機抽樣,獲得的數據通過了一個顯著性閾值;根據約安尼迪斯的可怕預測,當研究人員篩選許多可能的關聯,直到找到一個有效的關聯時,這種情況可能會更常見。另一種可能性是第三類錯誤,即效應在統計學意義上為真,但實際上並不支持它應該支持的科學理論——也許是因為樣本太大,程序發現了一個幾乎沒有科學價值的微小效應。可能是另一個因素,即研究人員沒有想到的特定實驗,可以在某種程度上解釋這一發現,使其對其他人沒有實際用途。1966 年,在明尼蘇達州的高中里,當被問及某一特定問題時,兄弟姐妹對大學的感覺可能真的不同,但只有當研究結果適用於某一特定的時間和地點之外時,它才有科學意義。

一種找出這兩類錯誤的方法是看檢驗結果是否可複製,這種方法在21世紀頭十年中期開始變得更加流行。如果某項研究聲稱的效應是真實的,即實際達到了該研究聲稱的程度,而不僅僅是在偶然達到顯著性閾值之前嘗試假設的結果,那麼高強度的重覆實驗可能會再次發現它。如果一個小的影響實際上支持某些科學理論,而不僅僅是特定總體的結果,或是研究人員未能解釋的某些無法解釋的系統性偏差的產物,那麼其他人在其他地方對其他實驗對象進行的研究也可能會發現它。

長期以來,複製一直是科學真理的基石,也是科學方法的一個組成部分。所以問題的本質是,所有這些新的統計結果是科學還是只是噪音?

2005 年,約安尼迪斯回顧了在1990 年到2003 年間進行的49 項醫學研究,其中45 項研究聲稱一種療法是有效的。總的來說,這些研究在研究文獻中被引用超過1000 次。他發現45 項研究中有7 項(16%)被後續研究反駁,這意味著沒有發現顯著的效應;另外7 項研究聲稱比後續研究發現的效應更強;其中20 項(44%)基本上被複製;其餘的基本上沒有受到挑戰。這是一些令人不安的證據,但問題仍然可能局限於這類研究,正如他所預測的那樣,這些研究的特點是有許多可能的關聯需要考慮。

註:本文內容經出版方授權節選自《伯努利謬誤:不合邏輯的統計學與現代科學的危機》一書。

原文作者/[美]奧布里·克雷頓

摘編/羅東

導語部分校對/劉軍