公衛統計論文的迷思 @ 好山好水慢慢走

各位對飲食保健有興趣、常常閱讀一些相關資訊的朋友們，可能都有著同樣的疑問：為什麼這些所謂「營養專家」的說法，比瑪丹娜的裝扮還要變化多端，而且常常像娜姐的造型一樣，讓人看了嘴巴合不攏來﹖今天報上說多喝茶、喝養樂多很好，明天又收到轉寄文章說不可多喝；幾個月前有論文指出某食物可防癌，於是大吃特吃，結果某日忽然又驚見新聞說：該物有致癌風險！這其中到底有什麼奧妙呢﹖就讓我慢慢從源頭說起吧．．．

我大學是化學糸出身，從大一的暑假起，就在系主任研究室擔任助理工作；後來念醫學院時，又同時取得細胞生物學的博士學位，博士後研究的題材則是致癌基因；從事的都是和化學藥品、試管、試劑、細菌、細胞、DNA打交道的所謂「基礎科學」（Basic Science）研究。這種研究最重要的觀念之一就是它的「可重複性」（Reproducibility）：在某實驗室作出來的結果，一定要能夠在全世界各實驗室原樣重現。所以基礎科學研究幾乎不可能造假：任何重大實驗結果一發表，立刻就有無數競爭對手跟進照做了。以前曾有想不開的韓國科學家偽造亮眼實驗數據，雖然得以發表在超一流的期刊上，但是沒兩下就被無法複製實驗的同行揭穿，搞到身敗名裂啦。

基礎科學研究的結果雖然極為可信，但是利用細胞、細菌甚至小白鼠試驗證實的理論，卻未必能直接套用到人體身上。例如說吧，某種食品添加物可以在實驗室培養的細胞癌症基因上引起變化，可是科學家並無法自此得知食用此物的人是否真會得癌症﹖那種癌﹖風險有多大﹖格於科學人體實驗「絕不能故意對受試者造成損害」的神聖規則，當然也不可能找一些志願者來吃吃看說會不會致癌。這樣一來就要靠所謂的「生物統計」研究了。

生物統計研究是「流行病學」（Epidemiology）的重要基石。它的作法很多，大致可以粗分為調查已知疾病及未來發展的兩種作法。以上一段的致癌添加物為例，研究人員可以調查一批癌症患者，看他們比起未得癌症的人來，使用這種添加物的份量是否較大；也可以追蹤一批經常使用此添加物的人士，看他們和不吃或少吃的人比起來，得到癌症的機率是否較高。在搜集一批數據後，再用統計學方式，算出食用該物是否有致癌風險﹖機率若干﹖

辦法看起來很不錯，而且用這種方式產生的一些重要研究，例如證明香煙之害、各種傳染病媒、公害來源等，也的確為公共衛生界作出了極大的貢獻，嘉惠天下萬民。但是「人」是很複雜的生物，從事生物統計的研究，並無法像在實驗室裏一樣，確切控制各種因素。例如說上面的實驗，致癌原因千百種，當然不限於某一添加物。而在日常生活中會避免亂吃食品添加物的人，也許本來就較注重養生保健，刻意排除各種可能致癌的因子，所以得癌症的機率較小，未必和不吃某添加物有關。研究人員有時會就其中一些因素自行「調整」數據，但是這種人工調整的公平性，也可能受到質疑。受試者的本身條件及參與意願也要考慮到：一般來說，越不愛護自已身體的人，越不耐煩參加這種調查，例如說吸煙者回覆生物統計問卷的機率，永遠比不吸煙者少。但是如果參加調查者側重於某些群體，就可能會影響統計結果。另外一個重要因素是人的記憶力有限，如果忽然被問起過去幾天甚或幾個月吃了什麼，只怕很少人能精確地回想起來吧，若是還要估算份量，更是難上加難了。隨口亂答甚或是編些數字湊數的人，恐怕不在少數；就算是很有誠意地努力回想者，也常常有記錯的可能。

這些會攪亂分析結果的因素，在生物統計學中叫作「偏差」（Bias）。如果某一樣有害物質的風險真的很大，例如說吸煙者得肺癌的機率，是不吸者的15至30倍，那麼不管偏差有多強，研究作得多隨便，總是會得到「吸煙者易得肺癌」這個深具「可重複性」的結果。但是流行病學發展至今數十年，這些好做的「軟柿子題材」都被捏得差不多了；近年來的很多研究，風險指數都在小數點後面打轉，例如什麼“1.08倍”的風險之類。像這種程度的細微差異，只要研究人員稍稍鬆懈一點，很可能就純是在測量偏見造成的誤差，而非真正的風險了！偏偏在龍蛇混雜的學術界裏，「青青菜菜」的研究者還真不少，甚至還可能有人別具居心、預設立場；於是大家就一天到晚看到結果相反的研究報告，讓人眼花撩亂、無所適從啦。

再來就要說到我這種「基礎科學研究員」覺得最有趣的一點了！假設今天A博士發表一篇論文說某食物吃了會致癌；幾個月以後，試圖複製此結果的B博士，發現此物並不增加癌症風險；再過幾個月，C博士又發表說此物在他的研究下，居然有防癌功用！這樣說來，A博士的論文並不具有「可重複性」吧﹖如果是在基礎科學界，A君早就被眾人丟來的蕃茄、雞蛋砸得抱頭鼠竄了。但是在「流行病學」的世界，遊戲規則可不是這樣寫的。ABC君的研究結果不但不可重複，而且根本完全互相抵觸，那到底要聽誰的﹖答案其實是蠻阿Q的：大家都聽！所有論文和平共存，儘管發表好了。至於記者朋友們想報導誰的說法、社會大眾又想相信誰，也都悉聽尊便，非常民主。等到百家爭鳴的各種論文累積到了一定數量，就又會有另一位生物統計學家跑出來說：既然大家各說各話，擺不平啦，那就把諸君的結果全部彙集起來，再統計一次，取個平均值好嗎﹖這種公投式的作法叫作「統合分析」（Meta-Analysis），在公衛界是行之有年、而且相當受尊重的研究方式，很多媒體的報導，也是依據統合分析的論文結果撰述的。

統合分析的數學方式是相當嚴謹的，但是不管操作經過有多嚴謹，最重要的還是餵進電腦中的原始素材。而統合分析在這方面的遊戲規則是：彙集諭文的所有標準由研究者自訂。要用什麼關鍵字搜尋論文、包含多廣的發表年代範圍、要涵蓋那種設計的實驗、以至排除某些論文的條件，通通可以由作者量身打造、剪裁挑選。這樣一連串搞下來，有時出現的結果，還真可令人跌破眼鏡。舉個例子吧：很多人可能都聽過「使用手機可以導致腦癌」的說法。此一理論源於瑞典的公衛統計學者H博士（Dr. Lennart Hardell），他在1999年發表首篇調查兩百餘名腦癌患者使用手機習慣的論文，主張手機使用增加腦癌風險；此後十餘年來他研究不輟，陸續發表了十多篇證明「手機致癌」的生物統計論文。在同一個時段，也有其他多位學者進行了類似研究，包括一個橫跨13國、費時五年、調查五千名以上腦癌病人的超大型研究計畫，幾乎所有人都得到「使用手機不會增加腦癌風險」的結果。然後主持公道的「統合分析學者」就出現啦！

左圖是某學者在2009年所作的統合分析，依他自訂的標準，挑選了13篇論文加以整合。問題是：這個領域的論文，至少有一半出於H博士之手，所以挑了半天，13篇論文中，有七篇是H君寫的啊！圖中上半部份的數據，來自H博士的論文，圖表中的藍點大都偏向中央實線的右側，也就是落在「有腦癌風險」的區域；而下半部份的數據，來自其他所有人的論文，圖表中的藍點大多都落在左側「無腦癌風險」的區塊。但是把所有數字平均之後，因為一半以上的數據是由H博士提供的，所以最後結果就是：根據大規模「統合分析」的結論，使用手機仍然有著“1.18倍”的罹患腦癌風險，H博士勝出！（安媽OS：這篇好歹還是別人寫的論文；H博士自已當然也不忘「球員兼裁判」地撰述了若干統合分析報告，結果也當然都是他贏嘍。）

寫到這裏我必須聲明：我絕對沒有貶低生物統計研究的意思。生物統計學是救人無數的公共衛生研究裏，最重要的一環；此一領域中大部份的研究也都相當紮實認真，頗富學術價值。但是對一

些有心人士來說，這些規規矩矩的研究，一點意思都沒有。再拿手機致癌的理論來當例子吧。其實根本不用大費周章做什麼研究，只要看一下左邊那張圖就夠了：這是美國從1986年到2006年之間的腦癌患者發病率（不同顏色的線條代表不同族裔），在這其間手機的使用者，從零增長到數以億計，但是腦癌人口的比例，根本沒有增加半點呀！但是這種資料太過無趣，沒人想看想談，更沒人想傳播、轉寄；倒是如上一段所提的「手機致癌論文」，對於找嘸題材的記者、想控告手機公司海撈一筆的律師、想打擊競爭對手的商人、甚至是只想弄點新鮮玩藝在臉書上轉寄的無聊傢伙，都是值得大加宣傳的好東西。所以在流行病學研究並不要求「可重複性」的前提下，許多實驗方式粗疏草率，但是結果聳動人心的報告，都可以風風光光地揚名露臉，嚇壞一大堆善良老百姓啦！

（安媽敬告Joyce和野犬兩位格友：這篇本意是要討論時代雜誌那篇「對脂肪停戰」的大文，因為該報導最具震撼性的「飽和脂肪無害」論點基礎，正是近年來兩篇「統合分析」的學術論文；如果不把這種Meta-Analysis的論文是什麼碗糕說清楚、講明白，恐怕無法確切表達我的意見。可是這個東西講起來還真複雜，一扯就扯了這麼一大串，如果繼續再囉嗦下去，被丟蕃茄和雞蛋的就會是我啦。咱們的「脂肪之戰」話題，只好下次有空再談，請兩位稍安勿躁喔。）

安媽

好山好水慢慢走

安媽發表在痞客邦留言(3) 人氣()

E-mail轉寄

好山好水慢慢走

一家人的生活記錄

公衛統計論文的迷思

歷史上的今天

留言列表

我的好友

站方公告

熱門文章

文章分類

最新文章

最新留言

文章搜尋

文章精選

誰來我家

參觀人氣

動態訂閱

QR Code

POWERED BY