賽題名稱:Bengali.AI Speech Recognition
賽題類型:語音識別
賽題任務:從(cong) 未發行的錄音中識別孟加拉語語音
賽題鏈接?:https://www.kaggle.com/competitions/bengaliai-speech
比賽背景
比賽的目標是開發一個(ge) 用於(yu) 孟加拉語的語音識別模型,可以識別來自不同領域的語音,這些領域在訓練數據中並不存在。參賽者將使用名為(wei) “Massively Crowdsourced (MaCro) Bengali speech dataset”的數據集,其中包含了來自印度和孟加拉國約24,000人提供的1,200小時的語音數據作為(wei) 訓練數據。
這個(ge) 比賽的獨特之處在於(yu) 測試集包含了17個(ge) 不同領域的樣本,這些樣本是有意在訓練數據中排除的。這意味著模型對於(yu) 新領域和多樣性的泛化能力,也就是所謂的“out-of-distribution generalization”,在比賽中非常關(guan) 鍵。
通過參與(yu) 這個(ge) 比賽,選手可以為(wei) 提高孟加拉語的語音識別水平做出貢獻,並解決(jue) 該語言中多樣化方言和韻律特征的挑戰。孟加拉語是全球使用人數約為(wei) 3.4億(yi) 的語言,改進的語音識別可以產(chan) 生重大影響。
比賽任務
在比賽中,你需要構建一個(ge) 能夠處理孟加拉語音的模型,該模型要在訓練集之外的多樣化領域中進行泛化。這意味著你的模型需要具備較強的out-of-distribution generalization能力,以便在測試集中表現良好。
這是一個(ge) 代碼競賽,比賽數據集包含大約1200小時的孟加拉語音記錄。你的目標是對在訓練集方麵是“out-of-distribution”(即不在訓練集中的樣本)的語音錄音進行轉錄。
關(guan) 於(yu) 數據集的詳細信息可以在數據集的論文中找到:https://arxiv.org/abs/2305.09688
評估指標
提交的結果將通過計算平均詞錯誤率來進行評估,具體(ti) 步驟如下:
- 首先,計算測試集中每個實例的詞錯誤率(Word Error Rate,簡稱WER)。
- 接著,在每個領域內對詞錯誤率進行平均,使用句子中的詞數進行加權。
- 最後,計算各個領域平均值的無權平均值,作為最終得分。
詞錯誤率是衡量語音識別性能的重要指標,它表示係統識別結果與(yu) 參考文本之間的差異程度。比賽中使用這個(ge) 指標來衡量參賽者的語音識別模型在測試集上的表現。在計算詞錯誤率時,參考文本是測試集中的真實標簽,係統識別結果是模型預測的文本。
賽題時間軸
- 2023年10月10日 - 參賽截止日期。
- 2023年10月10日 - 團隊合並截止日期。
- 2023年10月17日 - 最終提交截止日期。
賽題數據集
- train/:訓練集,包含數千個MP3格式的錄音文件。
- test/:測試集,包含來自18個不同領域的自發語音錄音,其中17個領域與訓練集不同。私有測試集中可能還包含公共測試集中不存在的領域。
- examples/:每個測試集領域的示例錄音。這些示例錄音可能有助於構建對領域變化具有魯棒性的模型。這些示例錄音是代表性的,且不會出現在測試集中。
- train.csv:訓練集的句子標簽。
- id:每個實例的唯一標識符。對應於train/目錄中的文件{id}.mp3。
- sentence:錄音的純文本轉錄。你的目標是為測試集中的每個錄音預測這些句子。
- split:標識該實例屬於train還是valid。valid中的注釋已經進行了人工審核和糾正,因此比train中的注釋質量更高,但兩者都屬於相同的分布。
- sample_submission.csv:一個樣本提交文件,格式正確。詳情請參閱Evaluation頁麵。
賽題思路
解決(jue) 這個(ge) 賽題涉及開發一個(ge) 能夠在孟加拉語的不同領域上具有良好泛化能力的語音識別模型。參賽者需要選擇適當的語音識別模型。為(wei) 了增加模型的泛化能力,可以使用數據增強技術,如變速、增加噪聲、隨機截斷等,來生成更多的訓練樣本。
Baseline Whisper Inference:https://www.kaggle.com/code/pjmathematician/bengaliai-asr-baseline-whisper-inference
評論已經被關(guan) 閉。