2022語言與(yu) 智能技術競賽已開啟報名!聯手“千言”數據集開源項目,本次競賽賽題覆蓋跨模態、知識驅動、可信學習(xi) 等前沿課題,全新四大任務、多個(ge) 全新重磅數據集、總額20萬(wan) 元的獎金,誠邀學術界和工業(ye) 界的研究者和開發者參加本次競賽!
語言與(yu) 智能技術競賽是為(wei) 了推動語言與(yu) 智能技術發展,由CCF和中國中文信息學會(hui) 聯合主辦,百度公司、中國中文信息學會(hui) 評測工作委員會(hui) 和CCF自然語言處理專(zhuan) 委會(hui) 聯合承辦的語言與(yu) 智能領域的重點評測賽事,已連續舉(ju) 辦多屆。曆屆競賽組織了閱讀理解、人機對話、語義(yi) 解析、信息抽取等評測任務,覆蓋自然語言處理和人工智能領域的重要前沿課題,極具挑戰。競賽對於(yu) 推進相關(guan) 技術研究及智能搜索、智能推薦、智能交互等人工智能應用發展具有重要意義(yi) 。
2022年語言與(yu) 智能競賽將設立來源於(yu) 真實應用需求的四大任務,提供大規模中文數據集。今年的賽題設置,圍繞跨模態、知識驅動、可信學習(xi) 三個(ge) 前沿課題,適應當今的技術和應用發展趨勢。競賽希望為(wei) 研究者提供學術交流平台,進一步推動語言理解和人工智能領域技術研究和應用的發展。獲勝隊伍將分享總額20萬(wan) +的獎金,並將在第七屆“語言與(yu) 智能高峰論壇”舉(ju) 辦技術交流和頒獎。
歡迎參加2022語言與(yu) 智能技術競賽!
任務設置
競賽共設置4項熱門任務,兼具挑戰性和實用性,具體(ti) 介紹如下:
序號 |
任務名稱 |
任務簡介 |
1 |
段落檢索 |
讓機器從(cong) 大規模語料庫中找出相關(guan) 段落,評估機器的語義(yi) 檢索及排序的能力。 |
2 |
知識對話 |
讓係統具備利用搜索引擎知識進行開放域對話交互的能力,提升對話的豐(feng) 富性與(yu) 知識準確性。 |
3 |
情感分析可解釋性 |
讓情感分析模型更可解釋,從(cong) 合理性、忠誠性等維度評測模型的可解釋性,進而推動構建更加可解釋的模型。 |
4 |
視頻語義(yi) 理解 |
讓機器對視頻進行內(nei) 容分析與(yu) 理解。在感知內(nei) 容分析的基礎上,融合知識、語言、視覺、語音等多模信息,結合知識計算與(yu) 推理,為(wei) 視頻生成相應的語義(yi) 標簽。 |
任務說明如下:
-
段落檢索:段落檢索是指從(cong) 大規模語料庫中找出相關(guan) 段落,它是自然語言處理和信息檢索領域中的重要任務。傳(chuan) 統的檢索係統基於(yu) 倒排索引,采用稀疏段落檢索(例如BM25)的方法對查詢和候選段落進行匹配,主要考慮關(guan) 鍵詞的匹配特征,無法處理語義(yi) 相近但字麵匹配程度低的情況;近年來,隨著預訓練語言模型的快速發展,稠密段落檢索方法的性能取得了質的飛躍,逐步超越了傳(chuan) 統的BM25等方法。這種方式能夠對查詢和候選段落進行語義(yi) 級別建模,在問答等語義(yi) 匹配要求高的場景表現更好。為(wei) 了進一步推動該方向的研究進展,我們(men) 發布首個(ge) 大規模中文段落檢索數據集DuReader-retrieval,該語料來源於(yu) 真實搜索場景,包含了用戶的真實查詢和真實文檔,任務難度大,覆蓋了真實應用中諸多有挑戰的技術問題。
-
知識對話:真實世界的人機交互會(hui) 涉及大量知識相關(guan) 的內(nei) 容,但即使是在參數中存儲(chu) 了大量知識的預訓練對話生成係統,在進行細粒度知識聊天時,也容易產(chan) 生不準確的回複。同時,係統蘊含的知識很難更新,對於(yu) 用戶需求較大的時事聊天,往往表現較差。為(wei) 了應對這一挑戰,本次競賽提出了利用搜索引擎實時獲取知識然後基於(yu) 該知識進行對話的任務,搜索引擎獲取的知識具備時效性高、內(nei) 容豐(feng) 富等特點,且經過數十年的技術積澱,能夠在給定合適搜索問題時,返回準確的答案。為(wei) 此,我們(men) 建立了開放領域的搜索知識對話數據集,希望係統能夠學習(xi) 1)基於(yu) 對話曆史生成檢索query;2)基於(yu) 對話曆史與(yu) 基於(yu) query查詢到的知識生成對話回複的能力。希望通過此次競賽,助力開放域對話技術進一步發展。
-
情感分析可解釋性:深度學習(xi) 模型常被當作一個(ge) 黑盒使用,其內(nei) 部決(jue) 策機製是不透明的。這種不透明性導致使用者對其結果的不信任,增加了落地難度,尤其是在醫療、法律等特殊領域。近年來,深度學習(xi) 模型的可解釋性受到廣泛關(guan) 注,湧現出很多致力於(yu) 分析和增強模型可解釋性的工作,如模型預測依賴證據提取、基於(yu) 證據的可信增強等。為(wei) 了進一步推動該方向研究發展,我們(men) 構建了可解釋評測數據集和評估指標,用來評測模型的可解釋性,及證據抽取方法的準確性。本次比賽提供了情感分析任務的評測數據,所有輸入均來自真實用戶的評論數據。針對每一輸入文本和其標準結果,我們(men) 提供了人工標注的詞粒度的標準證據,以及從(cong) 幹擾、敏感、泛化等角度構建的擾動數據,旨在從(cong) 合理性、忠誠性角度評估模型的可解釋性。希望通過本次比賽,推動模型可解釋性研究進一步發展。
-
視頻語義(yi) 理解:傳(chuan) 統基於(yu) 感知的視頻內(nei) 容分析缺乏語義(yi) 化理解能力,而充分利用知識圖譜的語義(yi) 化知識並結合跨模態學習(xi) 和知識推理技術,有望實現更深入的視頻語義(yi) 理解。本評測任務以互聯網視頻為(wei) 輸入,在感知內(nei) 容分析(如人臉識別、OCR識別、語音識別等)的基礎上,期望通過融合多模信息,並結合知識圖譜計算與(yu) 推理,為(wei) 視頻生成多知識維度的語義(yi) 標簽,進而更好地刻畫視頻的語義(yi) 信息。此任務來源於(yu) 真實應用需求,提供了中文大規模視頻語義(yi) 理解評測數據集,同時提供了視頻相關(guan) 的知識圖譜。任務難度大,考察點豐(feng) 富,覆蓋了真實應用中諸多有挑戰的技術問題。
獎項設置
競賽的每個(ge) 任務都將分別評出一等獎1名,二等獎1名,三等獎2名。主辦方中國計算機學會(hui) (CCF)和中國中文信息學會(hui) (CIPS)將為(wei) 獲獎者提供榮譽證書(shu) 認證,百度公司將為(wei) 獲獎者提供獎金和參會(hui) 交流讚助。
-
一等獎:20000元+榮譽證書(shu)
-
二等獎:15000元+榮譽證書(shu)
-
三等獎:10000元+榮譽證書(shu)
時間安排
-
2022/3/30:啟動競賽報名,對報名者發放全部訓練數據和第一批測試數據,開放評測入口和在線排行榜
-
2022/6/15:報名截止
-
2022/6/17:發放最終測試數據
-
2022/6/27:係統結果提交截止
-
2022/7/15:公布競賽結果,接收係統報告和論文
-
2022/7-2022/8:論文提交截止日期(具體(ti) 日期另行通知)
-
2022/8:在“語言與(yu) 智能高峰論壇”上交流和頒獎
注冊(ce) 報名
關(guan) 於(yu) 2022語言與(yu) 智能競賽的任務詳情和報名方式,請見官網:
https://lic2022.cipsc.org.cn
競賽於(yu) 2022年3月30日正式開啟報名通道,在此,誠邀學術界和工業(ye) 界的研究者和開發者參加本次競賽!
注:報名並最終提交有效結果的隊伍,成員均將獲得1件大賽定製T恤(多任務不重複領取)。
評論已經被關(guan) 閉。