NLPCC2023: CMIVQA 比賽賽題解析

比賽名稱 :Chinese Medical Instructional Video Question Answering

比賽類型 :視頻定位問答,多模態

比賽鏈接 :https://cmivqa.github.io/

NLPCC2023: CMIVQA 比賽賽題解析

說在前麵

?大家好!今天我們(men) 要來聊一聊2023年NLPCC共享任務5:CMIVQA。在這個(ge) 信息爆炸的時代,人們(men) 對於(yu) 學習(xi) 新知識的需求越來越高,而視頻作為(wei) 一種直觀、生動的方式,受到了越來越多的關(guan) 注。特別是在醫學領域,如何運用視頻資源提供便捷的急救、醫療教育服務,成為(wei) 了一個(ge) 熱門研究方向。?

那麽(me) ,這個(ge) 任務到底是什麽(me) 呢?它的目標又是怎樣的?我們(men) 又可以用什麽(me) 方法去解決(jue) 它呢?接下來就讓我們(men) 一起探討這個(ge) 充滿挑戰和機遇的賽題吧!?

賽題任務?

本次共享任務主要包括三個(ge) 子任務:單視頻時序答案定位(TAGSV)、視頻數據庫檢索(VCR)和視頻數據庫時序答案定位(TAGVC)。

  • 單視頻時序答案定位(TAGSV):給定一個(ge) 醫學或健康相關(guan) 問題和一個(ge) 未切割的中文醫學教學視頻,該任務旨在定位視頻中與(yu) 問題對應的時序答案(起始和結束時間點)。

    • 輸入:問題+單一視頻
    • 輸出:視頻區間
  • 視頻數據庫檢索(VCR):給定一個(ge) 醫學或健康相關(guan) 問題以及一個(ge) 大量未切割的中文醫學教學視頻集合,該任務旨在從(cong) 視頻集合中找到與(yu) 問題最相關(guan) 的視頻。

    • 輸入:問題+視頻庫(多個視頻)
    • 輸出:目標視頻
  • 視頻數據庫時序答案定位(TAGVC):給定一個(ge) 文本問題和一個(ge) 大量未切割的中文醫學教學視頻集合,該任務旨在在與(yu) 問題最相關(guan) 的視頻中找到匹配的視頻答案片段。

    • 輸入:問題+視頻庫(多個視頻)
    • 輸出:目標視頻區間

賽題分析?

賽題背景

在當前的視頻問答研究中,大部分工作集中在英文領域,而中文視頻問答研究相對較少。此外,醫學領域具有很高的實用價(jia) 值和挑戰性,因此本次比賽選擇了中文醫學教學視頻作為(wei) 研究對象。

數據集

比賽所使用的數據集來自於(yu) YouTube網站上的高質量中文醫學教學頻道,由醫學專(zhuan) 家進行手動標注。數據集分為(wei) 訓練集、驗證集和測試集。每個(ge) 視頻可能包含多個(ge) 問題-答案對,每個(ge) 問題對應一個(ge) 唯一的答案。

任務難點

視頻信息的多模態特性:視頻中包含了豐(feng) 富的視覺、文本、音頻等信息,如何有效地利用這些信息是一個(ge) 關(guan) 鍵問題。

中文醫學領域的挑戰:中文自然語言處理和醫學領域知識的結合,需要克服語義(yi) 理解、領域專(zhuan) 業(ye) 術語等方麵的難題。

時序答案定位的精確性:如何在海量視頻中精確地找到與(yu) 問題相關(guan) 的答案片段,是一個(ge) 技術難點。

可能的解決方案?

Textual-Based

我們(men) 可以利用文本信息來預測視頻中答案的起始和結束時間點。例如,可以通過將問題和視頻字幕進行編碼,然後計算它們(men) 之間的相關(guan) 性,以找到與(yu) 問題最相關(guan) 的字幕片段 (類似的NLP任務包括SQuAD等)。這種方法主要依賴於(yu) 文本信息,可能會(hui) 受到文本信息不完整或不準確的影響。因此當缺乏視頻字幕時,可能難以準確定位目標信息。

Visual-Based

另一種方法是直接從(cong) 視頻幀中提取視覺特征,然後通過計算視覺特征與(yu) 問題的相關(guan) 性來定位答案。這種方法主要依賴於(yu) 視覺信息,可能會(hui) 受到視頻質量或複雜場景的影響。尤其是問題文本和視頻特征之間的語義(yi) 偏差容易導致難以準確定位。

Multimodal-Based

既然文本和視覺方法各自有優(you) 缺點,那麽(me) 結合兩(liang) 者的多模態方法是不是更好呢?這種方法可以充分利用文本和視覺信息,提高定位準確性。例如,我們(men) 可以采用以文本信息為(wei) 主,並輔以視覺提示的做法,去訓練模型 (例如VPTSL, https://arxiv.org/abs/2203.06667v2)。

官方解決方案?

單視頻時序答案定位(TAGSV)

MutualSL (ICASSP 2023, CCF-B會(hui) 議) 通過同時預測兩(liang) 個(ge) 不同模態信息(視頻與(yu) 文本)的答案目標區間,並在訓練過程中相互蒸餾,實現了解決(jue) 視頻視覺問答定位任務的跨模態知識偏差問題。

NLPCC2023: CMIVQA 比賽賽題解析

視頻數據庫檢索(VCR) &   視頻數據庫時序答案定位(TAGVC)

CCGS (ICASSP 2023, CCF-B會(hui) 議) 通過 Golbal-Span 的方式將視頻檢索和視頻定位建模到了同一個(ge) 框架內(nei) ,從(cong) 而端到端地實現了視頻數據庫檢索任務和視頻定位問答。

NLPCC2023: CMIVQA 比賽賽題解析

更多關(guan) 於(yu) 方法描述和實現細節:https://github.com/WENGSYX/CMIVQA_Baseline

注意事項

baseline最低配置為(wei) 11G的2080Ti顯卡。如果遇到爆顯存,其主要的原因是字幕的長度大多在2000個(ge) token,因此會(hui) 占用大量的顯存。如果您的顯存不夠,可以有以下兩(liang) 種解決(jue) 方法:

  1. 修改max len,在main.py的CFG設置中修改max len以設置更低的最大文本長度(但是這一做法可能會(hui) 排除一部分數據集)

  2. 換用其他的預訓練模型,例如bigbird等,這些模型的顯存占用不隨文本長度的增加而大幅上升(但是這一做法需要修改model.py代碼)

比賽獎金?

本次比賽將為(wei) 表現突出的前三名團隊頒發NLPCC和CCF-NLP頒發的證書(shu) ,獲獎者有機會(hui) 並在NLPCC會(hui) 議上宣講論文並頒發現金獎勵(稅前)。

  • ?一等獎:¥3000
  • ?二等獎:¥2000
  • ?三等獎:¥1000

賽事安排

  • 測試A數據發布 2023年4月10日
  • 比賽報名截止 2023年5月5日
  • 測試B數據發布 2023年5月21日
  • 測試B數據結果提交 2023年5月28日
  • 比賽結果並征集論文 2023年6月10日

參考文獻

[1] Li, Bin, et al. “Towards visual-prompt temporal answering grounding in medical instructional video.” arXiv preprint arXiv:2203.06667 (2022).

[2] Weng, Yixuan, and Bin Li. “Visual Answer Localization with Cross-modal Mutual Knowledge Transfer.” arXiv preprint arXiv:2210.14823. (Accepted in ICASSP 2023).

[3] Deepak Gupta, Kush Attal, and Dina Demner-Fushman. “A Dataset for Medical Instructional Video Classification and Question Answering.” arXiv preprint arXiv:2201.12888, 2022.

[4] Deepak Gupta, and Dina Demner-Fushman. “Overview of the MedVidQA 2022 Shared Task on Medical Video Question-Answering. ” BioNLP 2022@ ACL 2022 (2022): 264.

[5] Zhang, Hao, et al. “Natural language video localization: A revisit in span-based question answering framework.” IEEE transactions on pattern analysis and machine intelligence 44.8 (2021): 4252-4266.

[6] Li, Bin, et al. "Learning to Locate Visual Answer in Video Corpus Using Question." arXiv preprint arXiv:2210.05423. (Accepted in ICASSP 2023).

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

議論文寫作指南:定義和讓步

下一篇

在申請的時候參加公益實踐項目有什麽幫助?

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部