論文無法複現:是我太水還是作者造假?

科學研究是嚴(yan) 謹務實的,相信不管是幹實驗還是濕實驗,大家總是希望可以嚴(yan) 絲(si) 合縫的按照經典文獻中的內(nei) 容將方法學會(hui) ,將結果複現,那麽(me) 問題來了,一個(ge) 科研人的常見迷思是,為(wei) 啥我明明也嚴(yan) 格按照實驗步驟的要求反複做了文獻中的實驗,怎麽(me) 就是得不到我想要複現的實驗結果呢,甚至有的時候,嚴(yan) 格按照操作步驟走,自己的多次實驗結果居然也不相同,這實驗步驟合理嗎,科研思路是對的嗎?

對於(yu) 以上問題,相信很多同學,尤其是實驗萌新,肯定都遇到過,甚至總是暗地裏犯嘀咕,覺得是不是作者捏造的實驗數據,胡搞的科研文章。

而在科研界,此類說法也總是甚囂塵上,那麽(me) 實際上真的盡是如此嗎,為(wei) 什麽(me) 會(hui) 有這樣的現象出現呢?下麵我們(men) 就從(cong) 幾個(ge) 方麵來簡析一下,為(wei) 什麽(me) paper裏的實驗,我們(men) 總是難以複現。

01造成實驗難以複現的可能原因——濕實驗篇

在著名期刊Nature上最近發表了一篇comment ,該文表明即使在Science和Nature這樣的大刊雜誌上,能成功複現的文章也隻有57-67%而已,該複現問題是由巴西的大型科研團隊進行試驗的,所以對待該類問題,首先不要焦慮,因為(wei) 學術大牛實驗室的整個(ge) 團隊操作下的複現也隻有一半左右,試驗複現不出來,這根本不是你的錯

相比幹實驗,濕實驗絕對可以說得上是這類情況發生的重災區,這類問題不僅(jin) 把當年的剛讀碩士的我逼瘋過,我們(men) 實驗室以及係裏其他實驗室的同學們(men) 也都沒能幸免。作為(wei) 博士,回首當年的經曆以及和同學們(men) 的討論反思,以下是我總結出的幾條可能原因。

01論文中的表述不規範

論文的表述往往是複現問題產(chan) 生的關(guan) 鍵原因,我們(men) 複現實驗唯一參考的就是作者在論文中對於(yu) 實驗步驟的描述。而與(yu) 我們(men) 平時的實驗筆記不同的是,在文章中的描述往往是采用正常的自然描述語言,無法對於(yu) 各個(ge) 步驟進行精準描述,這就導致了複現階段,我們(men) 隻知道大致的流程,而對詳盡的操作細節不得而知。

比如作者可能會(hui) 在文章中描述如下“利用代謝籠將大鼠的糞便和尿液分離,並收集大鼠尿液進行測定”。那麽(me) 此處我們(men) 對於(yu) 大鼠尿液測定的具體(ti) 細節一無所知,比如被大鼠糞便汙染的部分尿液是否還需要單獨提取進行測定;如果需要單獨分離,那麽(me) 如何操作;如果不需要,那麽(me) 汙染到什麽(me) 程度的尿液可以判定不需要單獨分離。

此外,多久收集一次尿液,在測定之前是否需要將所有尿液混合;比如如果一周測定一次或者在實驗結束時一起測定,且需要在檢測前對所有尿液進行混合,那麽(me) 在不需要測定的時候,對尿液的保存條件是怎樣的,在混合時的具體(ti) 步驟是什麽(me) ,是否需要震蕩,用什麽(me) 儀(yi) 器,具體(ti) 是什麽(me) 參數。

以上這些例子就是給大家展示一下在真正的實驗階段,具體(ti) 操作起來可能非常複雜,需要精心準備並認真執行,而在文章的實驗描述中,很可能就會(hui) 一句話帶過。

這不僅(jin) 是該作者會(hui) 做的事,當我們(men) 在發表文章的時候可能也不願意將這樣的細節也寫(xie) 的十分詳細,以占用過多篇幅,而無法呈現重要實驗結果。那麽(me) 既然實驗的操作細節方麵就可能存在較大差異,最終無法對實驗結果進行複現也就不足為(wei) 奇了。

02作者故意省略關(guan) 鍵步驟不希望別人模仿

這個(ge) 問題在學術界非常常見,由於(yu) 很多科研機構院所的惡性競爭(zheng) ,即使是在同一個(ge) 師門下也會(hui) 出現大家互相隱瞞,互不幫助,甚至給對方的實驗造成破壞的情況,在這種情況下,作為(wei) 實驗中關(guan) 鍵的操作步驟,自然不希望被別人知道,尤其是被自己評職稱的有力競爭(zheng) 對手了解。

故而在發表文章的階段,將相對重要的實驗細節步驟隱去,這也就造成了,雖然文章結果是真實存在的,但是無法根據實驗中描述的細節進行複現,無法讓其他人模仿其工作內(nei) 容。這種情況往往常見於(yu) 各種存在激烈競爭(zheng) 的科研院所,或企業(ye) 的科研相關(guan) 單位。

03實驗原材,設備,環境差異

對於(yu) 實驗而言,實驗的材料,設備以及實驗的操作環境無疑是基礎指標,但往往也是很容易和原作者出現背離的環節,下麵對此逐一解讀。

首先,實驗的原材料,這裏主要指的是實驗的試劑,試劑盒,抗體(ti) ,生化及醫學研究中的細胞和動物模型,這裏可以產(chan) 生出入的地方就數不勝數了,比如對於(yu) 同一個(ge) 實驗試劑,在市麵上會(hui) 有五花八門的不同供應商,即使是同一供貨商,也會(hui) 有不同時代的更新產(chan) 品,即使產(chan) 品批次也相同,那也不能完全保證實驗的試劑或者試劑盒用的是完全同種類型的原材料,諸如此類,給材料的複現造成了很大的困擾。

此外,對於(yu) 動物及細胞實驗,該類情況就更是屢見不鮮,即使是同一批,同一籠的小鼠,對於(yu) 不同小鼠的健康程度和各種生理指標等等還會(hui) 有較大的差異,更何況很多情況下,我們(men) 和原作者的地理位置完全不同,甚至不是同一國家,同一個(ge) 大洲的人,即使是在使用同一類型的小鼠的情況下,小鼠的情況也會(hui) 有一定的差異,出現複現問題的可能性也就自然隨之而來了。

其次,實驗的設備更是一個(ge) 難以避免的產(chan) 生差異的環節。不同廠家生產(chan) 的儀(yi) 器自然不會(hui) 完全一致,而在采用不同標樣,不同實驗設備參數,設備操作誤差的情況下就更難保證會(hui) 有同樣的結果,此外,如果該儀(yi) 器的使用時間較長,哪怕是實驗儀(yi) 器本身產(chan) 出的數據也不穩定,也遑論再和其他的原始文獻做複現,所以出現這類問題的原因也往往是比較顯而易見的。

最後,對於(yu) 實驗的操作環境也是有極高要求,比如對於(yu) 動物實驗,光是動物房就多個(ge) 不同等級,比如普通級、清潔級、SPF級、GF級,其中對溫度,濕度、光照、風速、排水、消毒等等的細節均是數不勝數,而每篇文章對於(yu) 字數都是有嚴(yan) 格要求的,不可能無限的描述細節,短短幾百字的方法部分,作者是不可能做到完全的詳盡描述的,即使是描述的十分詳細,那麽(me) 對於(yu) 環境的這類硬性要求,有時也是很難僅(jin) 根據自己的一個(ge) 實驗,要求整個(ge) 動物房的硬性設施變化的

此外,對於(yu) 細胞實驗環境,化學實驗的試劑存放環境,實驗操作環境等等都是如此,這樣一來也就不難理解環境是無法完全複刻的這個(ge) 現實情況了。

04作者擇優(you) 選取結果

在科研界,尤其是發表文章時,一個(ge) 基礎的共識就是大家都會(hui) 選擇相對較好的結果去發表,這裏不是說大家都是刻意去隱瞞相對較差的結果,而是在發表文章的階段進行優(you) 中選優(you) ,並以此謀求一個(ge) 相對較好的期刊。

此外,對於(yu) 相對較差的實驗結果,或者是在醫學界進行的現場或臨(lin) 床試驗中的陰性結果,即使是科研人員有心逐一匯報,那期刊接收的概率也非常低,這就導致了在做薈萃分析時,往往會(hui) 出現“報告偏倚”的情況,也就是說,我們(men) 很難去概括總結研究問題相關(guan) 的陰性結果,因為(wei) 這類文章,在最初就幾乎無法發表,這也就造成了對於(yu) 相關(guan) 問題的認知偏差。

其實從(cong) “報告偏倚”這個(ge) 對該類情況的專(zhuan) 有名詞總結中就可以見得,這樣的問題其實是非常常見的,那麽(me) 再說到實驗無法複現的問題就更簡單容易理解了,並不是我們(men) 做不好,而是作者可能是真的選取了相對較優(you) 的幾組數據,而我們(men) 複現出的可能就是相對偏差的幾組數據,結果完全相左的情況下,就會(hui) 讓我們(men) 再次認為(wei) 自己無法複現出相應的實驗結果。

05實驗結果造假

最後才說到這類問題,是希望可以給同學們(men) 信心,不要在一開始就揣摩該文章的數據真實性,但不可避免的現實情況是,很多實驗數據確實是有造假的情況存在的,在今年的3月20號WOS的目錄更新,有50本SCI/SSCI被剔除名,這也就意味著,如果發表了這50本期刊內(nei) 的文章,很有可能在評職稱的時候失去競爭(zheng) 力。

而很大的一部分期刊被剔除的原因就是因為(wei) 在該類期刊上屢有學術造假的問題被爆出。所以在這裏也給大家一個(ge) 提示,如果真的想複現文章,最好去找大刊和優(you) 質的論文進行學習(xi) ,這樣也會(hui) 大大避免這類情況發生的可能性。

02造成實驗難以複現的可能原因——幹實驗篇

幹實驗在這裏主要是指生信分析,數據分析等方向,而出現該類難以複現的情況主要集中在機器學習(xi) 等相關(guan) 研究方向

比如在你想利用一個(ge) 合理的機器學習(xi) 模型進行數據分析預測的時候,當你試驗文章中給出的代碼時,並不能複現出你想要的結果,甚至會(hui) 發現這類模型根本就完全行不通。

這種情況的發生一方麵肯定是因為(wei) 針對性的模型對數據本身的要求也很高,不同的數據也許確實不適合一味盲目照搬別人的模型,但也可能是作者並不希望別人去模仿他的模型和數據分析方法,在這種情況下,隻要少匯報幾句關(guan) 鍵性代碼,做出來的結果就會(hui) 完全不一樣,甚至根本跑不出結果。

這種情況非常常見,所以建議同學在有機器學習(xi) 等數據分析模型需求的時候,自己靜下心認真學習(xi) ,並根據自己的數據進行參數調節和模型選擇,最終總會(hui) 產(chan) 出自己相對滿意的數據預測結果。

而一味的依賴文章中給出的代碼,最後可能真的會(hui) 有一點失望。當然也可以選擇在複現不出來的時候,發郵件給作者詢問,也許通過該溝通交流的機會(hui) ,你就能找到下一個(ge) 階段科研工作的理想實驗室呢。

03我們(men) 應該怎麽(me) 去做

最後,也是該文章的核心所在,對於(yu) 以上無法對實驗結果進行複現的情況,我們(men) 該怎麽(me) 去做呢?

首先,放平心態是最重要的,複現不出來實驗不是你的問題,是多方麵的問題共同造成的,多從(cong) 以上幾個(ge) 方麵去檢查一下,是不是你也有類似的情況。如果是的,那出現這類問題的原因你也就明確了。千萬(wan) 不要因為(wei) 一次簡單的無法複現問題就垂頭喪(sang) 氣,甚至質疑自己的水平,質疑自己的科研能力,永遠記住,這不是你的錯。

其次,不要死鑽牛角尖,這篇文章複現不出來,要及時轉換賽道,再多查查大刊的優(you) 質文獻,也多試試別的方法,方法總是有的,隻要人在努力的路上,不要把自己的路堵死就一定會(hui) 取得最後的實驗複現成功。

最後,己所不欲勿施於(yu) 人,我們(men) 在做科研寫(xie) 文章的時候也要記得,平時認真做好每個(ge) 細節的實驗記錄,在發表文章時盡量把實驗細節寫(xie) 明確詳細,當有人發郵件向你認真谘詢實驗問題時,也要認真解答他人,這樣才能形成一個(ge) 積極正向的科研反饋鏈。塑造良好的科研環境,從(cong) 我做起,從(cong) 眼前的實驗做起。

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

2025AMC10競賽備考攻略:培訓課程輔導推薦

下一篇

外國考生雅思人均7.0?外國學霸是怎麽考雅思的呢?

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部