Kaggle賽題解析:美國手語識別

賽題名稱:Google 美國手語識別

訓練快速準確的美國手語手指拚寫(xie) 識別模型

https://www.kaggle.com/c/asl-fingerspelling

賽題任務:手語識別、時序分類

賽題背景

支持語音的助手打開了現代設備的實用功能世界,有時甚至可以改變生活。這些革命性的人工智能解決(jue) 方案包括自動語音識別和機器翻譯。不幸的是全球超過 7000 萬(wan) 使用手語進行交流的聾人,以及全球 15 億(yi) 多受聽力損失影響的人,通常無法使用這些技術。

手指拚寫(xie) 使用代表單個(ge) 字母的手形來傳(chuan) 達單詞。雖然手指拚寫(xie) 隻是 ASL 的一部分,但它通常用於(yu) 交流姓名、地址、電話號碼和其他通常在手機上輸入的信息。許多聾人智能手機用戶用手指拚寫(xie) 單詞的速度比他們(men) 在移動鍵盤上打字的速度還快。ASL 手指拚寫(xie) 比在智能手機的虛擬鍵盤上打字要快得多。但是用於(yu) 文本輸入的手語識別 AI 遠遠落後於(yu) 語音到文本甚至基於(yu) 手勢的輸入,因為(wei) 以前不存在強大的數據集。

賽題任務

本次比賽的目標是檢測美國手語 (ASL) 手語拚寫(xie) 並將其翻譯成文本。您將創建一個(ge) 在同類最大數據集上訓練的模型,該數據集專(zhuan) 門為(wei) 本次比賽發布。

這些數據包括超過 300 萬(wan) 個(ge) 手指拚寫(xie) 的字符,這些字符由 100 多名聾人手語者通過智能手機的自拍相機在各種背景和照明條件下拍攝。

本次比賽要求以TensorFlow Lite 模型的形式提交作品。隻要您在提交前將模型檢查點轉換為(wei) tflite 格式,就可以使用您選擇的框架來訓練您的模型。詳情請查看評估頁麵。

賽題數據

  • [train/supplemental_metadata].csv
  • [train/supplemental] The landmark data.

Landmark 地標數據使用 MediaPipe 整體(ti) 模型從(cong) 原始視頻中提取地標。並非所有的框架都必須有可見的手或模型可以檢測到的手。

評價指標

本次比賽的評估指標是歸一化總編輯距離。標簽中的字符總數為(wei) N,總編輯距離為(wei) D。指標等於(yu) (N - D) / N。

在本次比賽中,您將提交一個(ge) TensorFlow Lite 模型文件。該模型必須將一個(ge) 或多個(ge) 地標幀作為(wei) 輸入,並返回一個(ge) 浮點向量(每個(ge) 標誌類別的預測概率)作為(wei) 輸出。

賽題賽程

2023 年 8 月 3 日 - 報名截止日期。您必須在此日期之前接受比賽規則才能參加比賽。

2023 年 8 月 3 日 - 團隊合並截止日期。這是參與(yu) 者可以加入或合並團隊的最後一天。

2023 年 8 月 10 日 - 最終提交截止日期。

賽題解析

賽題可以視為(wei) 時序分類比賽,可參考之前結束了類似的手語識別比賽:https://www.kaggle.com/c/asl-signs

賽題典型的模型包括CNN和Transformer,並且需要大量的進行數據增強,在模型選擇和數據處理則需要理解MediaPipe的數據來和組成。

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

如何判斷你的孩子是否適合IB課程?

下一篇

幾年堅持不懈地努力才能闖進名校

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部