比賽名稱:Google - Isolated Sign Language Recognition
幫助用戶從(cong) PopSign遊戲學習(xi) 美國手語
比賽鏈接:https://www.kaggle.com/competitions/asl-signs/
比賽類型:時序視頻分類、手語識別
比賽背景
在美國,每天有 33 名嬰兒(er) 出生時患有永久性聽力損失。其中大約 90% 的父母是聽力正常的人,其中許多人可能不懂美國手語。
如果沒有手語,聾啞嬰兒(er) 有患上語言剝奪綜合症的風險。這種綜合症的特點是在語言學習(xi) 的關(guan) 鍵時期無法獲得自然發生的語言習(xi) 得。它會(hui) 對他們(men) 生活的不同方麵造成嚴(yan) 重影響,例如人際關(guan) 係、教育和就業(ye) 。
學習(xi) 美國手語對說英語的人來說和學習(xi) 日語一樣困難。這需要很多父母沒有的時間和資源。他們(men) 想學習(xi) 手語,但是當他們(men) 為(wei) 了維持生計而長時間工作時,這很難。即使他們(men) 找到了上課的時間和金錢,上課的地方也往往很遠。
PopSign 是一款智能手機遊戲應用程序,它使學習(xi) 美國手語變得有趣、互動且易於(yu) 訪問。玩家將 ASL 標誌的視頻與(yu) 包含書(shu) 麵英語單詞的泡泡相匹配以彈出它們(men) 。
PopSign 旨在幫助有失聰兒(er) 童的父母學習(xi) 美國手語,但它對任何想學習(xi) 手語詞匯的人開放。通過添加本次比賽的手語識別器,PopSign 玩家將能夠在他們(men) 想要射出的泡泡類型上簽名,讓玩家有機會(hui) 自己練習(xi) 手語,而不僅(jin) 僅(jin) 是觀看其他人手語的視頻。
比賽任務
本次比賽的目標是對美國手語 (ASL) 標誌進行分類。選手需要創建一個(ge) TensorFlow Lite 模型,使用 MediaPipe 搭建解決(jue) 方案進行訓練。
評價指標
本次比賽的評估指標是簡單的分類準確率。選手需要提交一個(ge) TensorFlow Lite 模型文件。該模型必須將一個(ge) 或多個(ge) 地標幀作為(wei) 輸入,並返回一個(ge) 浮點向量(每個(ge) 標誌類別的預測概率)作為(wei) 輸出。
您的模型必須打包到 submission.zip 文件中並與(yu) TensorFlow Lite Runtime v2.9.1 兼容。
歡迎您使用您選擇的框架訓練您的模型,隻要您在提交之前將模型檢查點轉換為(wei) tflite 格式即可。
您的模型還必須需要少於(yu) 40 MB 的內(nei) 存,並且每個(ge) 視頻執行推理的延遲要少於(yu) 100 毫秒。
數據描述
-
train_landmark_files/[participant_id]/[sequence_id].parquet:使用 MediaPipe 整體(ti) 模型從(cong) 原始視頻中提取地標。並非所有的框架都必須有可見的手或模型可以檢測到的手。
- frame - 原始視頻中的幀數。
- row_id - 行的唯一標識符。
- type - 地標的類型。['face', 'left_hand', 'pose', 'right_hand'] 之一。
- landmark_index - 地標索引號。可以在此處找到手部地標位置的詳細信息。
- [x/y/z] - 地標的歸一化空間坐標。這些是將提供給您提交的模型進行推理的唯一列。MediaPipe 模型沒有經過充分訓練來預測深度,因此您可能希望忽略 z 值。
-
train.csv
- path - 地標文件的路徑。
- participant_id - 數據貢獻者的唯一標識符。
- sequence_id - 界標序列的唯一標識符。
- sign - 地標序列的標簽。
比賽賽程
- 2023年4月25日:組隊截止日期。
- 2023年5月2日:最終提交截止日期。
賽題獎金
- 第一名:50,000 美元
- 第二名:20,000 美元
- 第三名:10,000 美元
- 第四名:10,000 美元
- 第五名:10,000 美元
解題思路
賽題是一個(ge) 比較典型的時序分類任務,但需要考慮模型的速度和精度。從(cong) 數據類型來看,CNN模型可能是更容易訓練的模型。
- 訓練一個深度學習模型
- 調整模型精度
- 蒸餾、量化增加模型速度
- 轉換為tflite格式
評論已經被關(guan) 閉。