隨機對照試驗,是醫學的金科玉律嗎?
本文來自微信公眾號:返樸 (ID:fanpu2019),作者:Trisha Greenhalgh(牛津大學基本衛生保健科學教授),編譯:皮卡隆妙蛙,題圖來自:AI生成
我們如何瞭解新研發的藥物和治療方法是否有效?為瞭解決這一問題,「循證醫學」(Evidence-base medicine,EBM),也就是基於臨床實踐數據的醫學,衍生出了一些重要工具,比如隨機對照試驗(Randomized clinical trials,RCT)。
雖然類似的工具大大推動了醫學科學的進步,但我們在評估新療法時,還是應該對單純依靠臨床試驗結論的做法保持謹慎的態度。試驗固然有其價值,很多情況下甚至被視為驗證新治療方法是否有效的「金標準」,但如果試驗本身的設計不夠科學,結果可能適得其反——產生具有誤導性的結論。
事實上,隨機對照試驗並不肯定比其他類型的臨床證據更好。循證醫學,應當把隨機對照試驗的數據和實際的觀察結果結合,來獲得更為全面和準確的答案,達到最終造福患者的目的。
圖1:隨機對照試驗的示意圖,在理想狀態下,研究者希望看到實驗組患者獲得疾病緩解(綠色小人)的百分比比對照組更高,才能證明試驗藥物有效|來源:sohu.com
假設一種情景:你手中有一種可能可以挽救得了某種致命疾病的病人生命的藥物,但是藥物的數量僅僅夠治療一半患者,你會如何決定把藥給誰?拋硬幣?按特定順序分配(排序後序號單數的患者給藥,雙數的患者不給)?還是讓大家隨機抽籤?
換一種情景:你知道某種藥物可能可以挽救生病,但療效還沒得到驗證,你會使用上述分配方法之一來進行藥物的分配,同時給一部分患者吃安慰劑(跟藥物外觀一樣,但是吃了沒有任何作用)來測試藥物的實際療效嗎?
以上場景,就是英國統計學家奧史甸·巴拉福特·高治(Austin Bradford Hill,後來被封為爵士)在1947年所面臨的抉擇。他是一位對方法學(Methodology)非常嚴格的學者,在他所在的時代,驗證新藥療效有兩種對比方法:
一個是採用「歷史對照」,對照組採用的是過去的標準療法,實驗組是在現今的標準療法上加上需要被測試的全新的療法。因為現今的標準療法大概率已經比過去的標準療法效果好,用這種對照方法來測試全新的療法並不科學,因為兩組病人的基礎治療方案已經有了差別。
另一種是「順序分配」,可以理解為根據就醫順序,按照單雙數給患者分配藥物和安慰劑,這是上面說的方法的改進版本。但這意味著醫生對每一位患者的用藥情況是完全知情且可操縱的,可能會不自覺地改變分配過程,比如出於同情把病情較重但本來應該給予安慰劑的患者,換成治療藥物,從而產生臨床試驗中所謂的「偏倚」(Bias),也就是系統性的「誤差」。如果治療藥物組的患者比安慰劑組的患者病情更重,那麼藥物的效果就可能看起來比實際情況差。
對於以上兩種研究新藥效果的方法,高治表達了自己的顧慮。1937年,他在《柳葉刀》(The Lancet)上發表了一系利雲章,主張取代上述兩種方法,而採用一種完全隨機分配的方法(在他那個年代就是把名字放在密封的信封裡面,然後隨機抽籤分配;現代社會,隨機分配可以採用更先進的計算機隨機數)來進行研究。儘管當時他的觀點十分合理,但他的方法在臨床中的真正應用卻舉步維艱。
第二次世界大戰時期,肺結核肆虐,每20個英國人就有1人死於結核。當時,一種叫「鏈黴素」的新型抗生素被認為是有效的治療藥物,但是它只能在美國大規模生產,且出口管控極為嚴格。英國政府想方設法從美國購買了一些鏈黴素,移交給英國醫學研究委員會(MRC),但是藥物總量只夠治療一部分的肺結核患者。
委員會決定,由高治領導一項臨床試驗,採用他倡導的匿名抽籤分配(使用密封信封)的方法。這種方法不僅是分配稀缺藥物最公平的方式,同時還能可靠地檢驗藥物是否真的有效。在這項後來看可以稱之為具有里程碑意義的臨床試驗中,沒有用藥的55名對照組患者中,15人在試驗開始後的六個月內死亡,而使用了鏈黴素組的55個患者中,僅有4人死亡。
英國醫學研究委員會的這項臨床試驗成為了改變醫學臨床研究範式的轉折點,原因有二。首先,它證明了鏈黴素是肺結核的有效初始治療(儘管後來發現,鏈黴素單獨使用時長期治療效果不佳)。其次,它首次確立了隨機對照試驗的地位,讓其成為檢驗藥物相對於安慰劑(或另一藥物)的療效的金標準。而這個裡程碑事件也被一些醫學史學家認為是「循證醫學」時代的序章。
在之後的幾十年中,針對各種藥物和預防性治療的隨機對照試驗可謂遍地開花。在試驗的實驗組和對照組的設置中,只有給不給藥的區別,把其他所有可能影響結果的干擾因素(包括病情嚴重程度、性別、年齡、研究人員的偏好等等)都控制到無限趨近於等同,這樣可以把實驗藥物本身的治療效果和副作用都凸顯出來。
現在已經被普羅大眾熟知的一些藥物,比如他汀類藥物能降低心血管病風險,化療藥物可以治療癌症,疫苗可以預防傳染病,這些結論無一不是通過嚴謹的隨機對照試驗所得出的。而如果有多項隨機對照試驗具有同一個研究目的,還可以使用統計方法中的薈萃分析(meta-analysis)來進行結果整合,讓結論更加有信服力。
隨機對照試驗變成了一門科學,而且在不斷髮展,愈發複雜,人們逐漸識別了可能影響試驗結果的其他類型偏倚,並想到了辦法加以解決,包括:
表現偏倚(Performance bias):實驗藥物治療組接受了比安慰劑對照組更頻繁和更細緻的觀測;
測量偏倚(Measurement bias):當醫生知道某個患者服用的是實驗藥物而不是安慰劑,會更加關注和記錄產生的副作用;
失訪偏倚(Attrition bias):兩組中退出試驗的患者數量不同;
發表偏倚(Publication bias):臨床試驗的藥物產生了「有效」的結論比「無效」結論更容易發表在雜誌期刊上。
循證醫學的支持者們發展出了各種「偏倚風險工具」,用於系統全面性地審視這些可能的試驗偏倚。
其實,分配上的隨機還不能最大程度地避免偏倚。如果分配的結果被參加試驗的患者知道了,或者被研究人員知道了,仍然可能會導致一些潛意識的主觀偏倚。這裏就又要提到兩個名詞:安慰劑效應(placebo effect)或者觀察者偏倚(observer bias)。
安慰劑效應是指當患者接受一種實際上不含有任何活性成分的治療(安慰劑,如假藥、假治療)後,由於心理或生理因素而產生積極的治療效果,從而干擾實驗藥物真實效果的判定。而觀察者偏倚指的是研究人員在收集、記錄或分析研究數據時,因其主觀期望、假設或先入為主的觀點而導致的系統性偏倚,可能會無意中影響研究結果的準確性和客觀性。也就是說,研究者和被研究者雙方的知情都會潛在影響實驗結果。
為了進一步避免這個問題,「盲法」應運而生。「單盲法」指研究中一方不知道分組情況,通常是受試者,而「雙盲」是研究中的受試者和研究人員均不知道分組情況,「三盲」是在雙盲的基礎上,後續的數據分析人員自己也不知道分組信息,所有分組信息在試驗結束後才揭曉。
實際上,雖然隨機對照試驗的產生和後續各種改進的初衷是避免所有偏倚,但在實踐中並非完美無缺。同時也不是說只要提到了「隨機」和「盲法」,結論就一定比非隨機的臨床研究更可靠。
儘管如此,循證醫學變革有些幼稚的支持者,高舉隨機對照試驗的「錘子」,對他們來說每個問題都是釘子。當他們快樂地把錘子砸向傢俱、貓,甚至是早餐的雞蛋時,他們封閉了自己的思想,不會考慮他們最愛的工具在這一系列環境中的局限性。
當隨機對照試驗用來研究更加複雜的干預方式時,結論可能具有較強的誤導性,比如研究某種教育方式、某種建議、新型的服務工作結構,數字技術的使用,都需要人的主觀參與、學習和操作。除非干預方式本身已經極致優化,保證參與者可以完全按照理想狀況來行事,不然最後的結論就是干預方式幾乎或者完全沒效果。
在蘇格蘭進行的一項多試驗測試中心隨機對照試驗顯示,給願意嘗試母乳喂養的母親社區支持和服務非但沒有提高當地的母乳喂養率,甚至在某些地方「母乳喂養支持」組的喂養率低於對照組。
實地調查分析表明,在這些地方,所謂的母乳喂養支持並非是人們想像中那樣由經驗豐富的工作人員無條件隨時待命地來幫助新手媽媽調整嬰兒姿勢來哺乳,提供個體化的、溫柔的、不帶偏見的鼓勵;事實上是在寒冷、吵鬧、不友好的工作環境中,由一名超負荷的工作人員根據工作手冊照本宣科,提供建議,嚴格按照規定執行操作。
那裡的「母乳喂養支持」組織沒有什麼組織力、領導力可言,所謂的母乳喂養「支持」團隊也沒什麼工作激情,對幫助新手母親建立母乳喂養缺乏興趣和動力。這也就解釋了,為什麼做了母乳喂養支持工作還不如不做,不如讓媽媽們自己去找找姐妹或鄰居們幫忙更行之有效。然而,一些人對這種顯而易見的事實視而不見,還堅持認為,已經有「科學證明」,母乳喂養支持是沒用的。
在數字技術開發領域,醫學領域以外的標準研究方法是迭代設計,也就是早期開發的原型會逐步在實驗室和實際應用場景中進行測試,逐步改進,秉承的理念是「早失敗、常失敗」,失敗來得越早、越頻繁,開發和改進的代價就越低。
聰明的設計師會採用廣泛的方法來提高研發效率,比如民族誌(Ethnography,仔細觀察人們使用產品的過程)和出聲思維技巧(Think-Aloud Technique,鼓勵用戶在使用產品時直接表達體驗和不滿)。
遺憾的是,雖然類似的方法在一定程度上也被應用於醫學技術的開發,但這些產品往往隨後會進行隨機對照試驗,與安慰劑對照組進行對比,又燒錢,又浪費時間,更重要的是沒什麼意義,因為技術版本迭代很快,試驗過程中所用的版本,在試驗結束前就已經變成「老古董」淘汰了。
你會在手機系統更新之前要求做一個隨機對照試驗,來測試新版本與舊版本的差異嗎?明顯不會。當然這並不是說軟件不需要經過實驗性的測試,只是說隨機對照試驗這種只在藥物研究中有重要地位,注重「證據級別」高低的研究模式,套用到快速發展的數字技術領域,既不合邏輯,也不切實可行。
人們對隨機對照試驗還有一個常見的錯覺,那就是認為用其可以獨立指導政策和指南的製定,天真地認為,任何決策應該尊重和崇尚科學,不受政治因素影響。如果真是這樣,那就好了!無論來源於隨機對照試驗還是其他類型研究的科學發現,常常都是模糊、不完整、有爭議的甚至相互矛盾的。
一種藥物或療法可能在醫學上行之有效,但患者或公共醫療提供者負擔不起。在公共醫療的背景下,機會成本可能顯得尤為重要。一位患者使用了價格很貴但是能醫保報銷的心臟病藥物,可能意味著另一個患者無法通過醫保報銷髖關節置換的手術,畢竟公共醫療的預算支出總額是有限的。
還有在一些情況下,治療可行但人力不足,例如當時需要一名具有豐富經驗的技術專家來實施治療,但當地沒有這樣的資源。此外有些干預措施,比如口罩、阿片類藥物替代品、體外受精(試管嬰兒)等在醫學上可行,但是社會輿論或道德不支持。
實際上,政策辯論中的各方往往都會引用所謂的「科學證據」。比如,對於一些特定的惡性腫瘤到底是需要藥物治療,還是放射治療,還是手術切除,不同科室的專科大夫都傾向於援引支持自己專業方向的研究結果,來證明某種治療方法具有優勢,換而言之,「公說公有理,婆說婆有理」。
有些循證醫學的極端擁護者常常把巴拉福特·高治的名字當成擋箭牌,企圖將隨機對照試驗的模式強加於所有醫學、社會研究領域,甚至政策製定。巴拉福特·高治要是知道自己的名字被當成這些人的「免死金牌」,可能棺材板都壓不住了。
儘管他對隨機對照試驗的價值有著深刻的認識和研究,但他同樣堅信,這種簡單粗暴的實驗方法(將錯綜複雜的真實世界簡化為A與B兩者間的單純對比)並非金科玉律,而只能為現實世界的決策提供一部分的證據支持。對此,他還提出過「干預性研究九問」,又名巴拉福特·高治標準(Bradford Hill criteria),要求人們在解讀研究結果之前,必須先一一回答這些問題。這九個問題中一部分需要用隨機對照試驗產生的證據來回答,其他問題的答案則來源於對現實世界的觀察。
如果巴拉福特·高治活到今天,他肯定會瞠目結舌,因為自己一百年前提出的、用於嚴謹測試藥物效果的隨機對照研究方法,現在已被循證醫學的極端擁護者當作一把被濫用的武器,他們試圖把臨床研究的證據固化成一個「金字塔」結構,而隨機對照試驗就在塔尖,完全不承認臨床研究其實是一個多元化的證據體系。現實世界日新月異,循證醫學領域需要重新審視自己,聽取巴拉福特·高治曾經的諄諄教誨,採取一種更謙遜、更加多元的科學證據方法,才能更好地為人類健康服務。
致謝:感謝渤健公司科學總監史雋對本文的審核和修訂。
本文主要譯自Trisha Greenhalgh, Medical trials are not the whole truth,原文地址:
https://iai.tv/articles/medical-trials-are-not-the-whole-truth-auid-2989?_auid=2020
本文來自微信公眾號: