科研論文造成統計錯誤的原因分析

用來確定變量間的關(guan) 係、評估研究問題效度。說得再細點,生物統計學主要用來解決(jue) 生物醫學中的問題,它包含統計、概率、數學、計算等多個(ge) 元素。

把生物統計運用到研究中,可以測試新藥、尋找病因、估算患者的壽命、統計死亡率和發病率等。

盡管統計是生物醫學研究中的主要工具之一,但它一直或有意或無意地被人濫用,已經到了見怪不怪的程度。事實上,越來越多人表示統計錯誤是造成拒稿的主要原因之一。

本文先後探究了生物醫學研究中濫用統計數據的原因和解決(jue) 辦法。下麵我們(men) 先來了解一下造成統計錯誤的原因

造成統計錯誤的原因

一、數據呈現不清:通常論文中會(hui) 提及統計方法、分析數據。不過在呈現數據時很容易出現表述上的灰色地帶,讓讀者對研究缺乏全麵的了解,歸根結底是因為(wei) 很多論文的統計假設都沒講清。

在一項樣本為(wei) 醫學院學生、教職工的橫向調查中,有 53.87% 的人認為(wei) 統計學很難,52.9% 的人說不清 p 值是什麽(me) ,36.45% 的人對標準差的定義(yi) 有誤,50.97% 的人無法正確統計樣本大小。這些數據說明研究人員能正確分析數據還不夠,還要會(hui) 正確使用、呈現數據。

二、重理論、輕數據:同行評審通常會(hui) 對臨(lin) 床研究的數據統計進行嚴(yan) 格篩查,但基礎科學就另當別論了。基礎科學涵蓋生物化學、行為(wei) 學、動物模型、細胞培養(yang) 等多個(ge) 領域,這種跨學科性質讓統計分析更棘手。

通常研究人員會(hui) 在實驗結束後才開始著手數據分析。這種事後分析帶來的真知灼見通常都比較有限。

三、采集數據前規劃不到位:規劃好每個(ge) 關(guan) 鍵步驟要做的統計工作非常重要。比如說,確定樣本大小時,老鼠的數量可能會(hui) 對研究結果產(chan) 生重大影響。由於(yu) 樣本的體(ti) 重、身體(ti) 質量等多個(ge) 變量都可能影響實驗結果,最好根據不同變量進行樣本容量計算,然後選擇最大的可行樣本進行實驗。

理想情況下,研究人員應在數據采集之前確定暴露變量和結果之間的關(guan) 係,這能有效避免誤報。研究人員還應該提前定好主要結果變量、 確認是否使用 A、B 對照組、設置相關(guan) 組(測試 A 在患有焦慮症和抑鬱症的樣本身上的變量效應)。

四、數據采集和統計分析中出現偏差:同樣的,研究人員在設計實驗時也要注意對照組(條件)、隨機性、盲法實驗、可重複性。隨機的大容量樣本能避免偏差和誤導。

比如說,假如有人想測試藥物 A 對動物體(ti) 重、心率、身體(ti) 質量的影響,通常會(hui) 有研究人員把它切分成三個(ge) 單獨的實驗。 但這種做法容易產(chan) 生偏差。

相反,當對照組和實驗組樣本數夠大,且采取隨機抽樣時,用一個(ge) 實驗就可以監測心率、體(ti) 重、身體(ti) 質量三種變量。事後分析法缺少事前合理的因果論證,它不是為(wei) 了驗證某個(ge) 特定的假設,而是反過來通過多項分析試圖找出某種潛在關(guan) 係。這種情況下,就很容易出現在數據中硬找關(guan) 聯的“釣魚”研究。

所以,在說明試驗方法和原理時,確保統計部分遵循相關(guan) 標準,比如國際醫學期刊編輯委員會(hui) (International Committee of Medical Journal Editors, ICMJE) 提供的指南。

造成統計錯誤的原因

一、數據呈現不清;

二、重理論、輕數據;

三、采集數據前規劃不到位;

四、數據采集和統計分析中出現偏差。

統計錯誤對發表流程的影響

要想得到準確的研究結果,就得正確處理數據。而統計的準確性對發表也非常重要。一旦期刊在文章中發現統計錯誤,作者可能會(hui) 麵臨(lin) 大修或被拒稿的決(jue) 定。很可惜,研究中的統計錯誤不算罕見。以下是研究中最常見的幾種統計錯誤:

  • 研究設計錯誤。比如沒隨機抽樣對照組樣本、選擇不合適的對照組。

  • 數據分析錯誤。比如缺少配對數據、不給出相關(guan) 數據而直接得出 p 值、沒確認線性關(guan) 係的情況下直接用回歸分析法。

  • 數據呈現錯誤。比如該用標準差用了標準誤差、用餅圖表示連續變量、沒對多重比較進行調整。

  • 數據說明/解釋錯誤。比如把相關(guan) 和因果劃等號、做砸的試驗硬說是好實驗。

如果統計錯誤隻是由於(yu) 筆誤,編輯、修改一下稿件就能解決(jue) 問題。但如果是數據分析、呈現和結果討論中存在技術問題,文章就很可能要大改。而當實驗設計出了問題,除了把試驗重做一遍沒有別的補救辦法,這種情況下期刊極有可能會(hui) 選擇拒稿。

如何解決(jue) 濫用數據問題?

在生物醫學的前沿領域,數據統計扮演著非常重要的角色。然而,要想研究出新銳科技,研究人員必須有意識地在各個(ge) 環節避免濫用數據,不管是數據的收集、分析,還是呈現。研究人員應該了解數據處理的各項規則並嚴(yan) 格遵守。

比如 ICMJE 提出的“生物醫學期刊投稿的統一要求”(Uniform Requirements for Manuscripts Submitted to Biomedical Journals) 就對統計方法的應用、解釋給出了建議。此外,研究人員還要了解其他的同類型指南,比如“文獻中的分析與(yu) 統計方法” (Statistical Analysis and Methods in the Published Literature, SAMPL) 指南。

它將不同的統計方法分類,依次解說,對試驗的設計、操作和解釋都有很大指導作用。多數情況下,生物醫學論文都以統計數據為(wei) 依據。因此多數生物醫學期刊,尤其是高影響因子的,像《柳葉刀》《自然》《科學》《細胞》《美國醫學會(hui) 期刊》,除了動用編輯和審稿人,還會(hui) 指派專(zhuan) 門的生物統計學家評估稿件內(nei) 容。目前有越來越多期刊開始采取這種做法。

必須要說,由於(yu) 要綜合考慮研究中的多個(ge) 變量、樣本量、測量結果等多個(ge) 因素,總結數據並得出結論從(cong) 來都不是件輕鬆的事。計算機和統計軟件讓解釋、分析數據有更多可能,但同時也給錯誤創造了更多空間。挪威數學家、生物統計學家、醫學研究員、斯塔萬(wan) 格大學 (University of Stavanger) 健康科學係副教授 Jo Røislien 說過,“統計量化了你研究結果的可信或不可信程度”。

總之,研究人員在開始實驗之前就該自行學習(xi) 統計方法。隻有正確使用統計這個(ge) 工具,它才能幫研究人員達到拓展現有生物醫學知識的目的。

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

國際教育科研課題:全球化視野下的教育體係與教育政策對比研究

下一篇

比賽實操:人民網算法賽微博流行度預測

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部