- +1
YOLOv5的妙用:學習手語,幫助聽力障礙群體
選自Medium
作者:David Lee
機器之心編譯
編輯:魔王、杜偉
計算機視覺可以學習美式手語,進而幫助聽力障礙群體嗎?數據科學家 David Lee 用一個項目給出了答案。
如果聽不到了,你會怎么辦?如果只能用手語交流呢?

對普通人而言輕輕松松的事情對于聽障群體可能是很困難的,他們甚至還會因此遭到歧視。在很多場景下,他們無法獲取合格的翻譯服務,從而導致失業、社會隔絕和公共衛生問題。
為了讓更多人聽到聽障群體的聲音,數據科學家 David Lee 嘗試利用數據科學項目來解決這一問題:
計算機視覺可以學習美式手語,進而幫助聽力障礙群體嗎?
如果通過機器學習應用可以精確地翻譯美式手語,即使從最基礎的字母表開始,我們也能向著為聽力障礙群體提供更多的便利和教育資源前進一步。
數據和項目介紹
出于多種原因,David Lee 決定創建一個原始圖像數據集。首先,基于移動設備或攝像頭設置想要的環境,需要的分辨率一般是 720p 或 1080p。現有的幾個數據集分辨率較低,而且很多不包括字母「J」和「Z」,因為這兩個字母需要一些動作才能完成。

項目地址:https://github.com/insigh1/GA_Data_Science_Capstone
數據變形和過采樣
David Lee 為該項目收集了 720 張圖片,其中還有幾張是他自己的手部圖像。由于這個數據集規模較小,于是 David 使用 labelImg 軟件手動進行邊界框標記,設置變換函數的概率以基于同一張圖像創建多個實例,每個實例上的邊界框有所不同。
下圖展示了數據增強示例:

建模
David 選擇使用 YOLOv5 進行建模。將數據集中 90% 的圖像用作訓練數據,10% 的圖像用作驗證集。使用遷移學習和 YOLOv5m 預訓練權重訓練 300 個 epoch。


模型最終獲得了 85.27% 的 mAP@.5:.95 分數。
圖像推斷測試
David 額外收集了他兒子的手部圖像數據作為測試集。事實上,還沒有兒童手部圖像用于訓練該模型。理想情況下,再多幾張圖像有助于展示模型的性能,但這只是個開始。

四個沒有得到準確預測:
D 被預測為 F;
E 被預測為 T;
P 被預測為 Q;
R 被預測為 U。
視頻推斷測試

更多數據有助于創建可在多種新環境中使用的模型。
如以上視頻所示,即使字母有一部分出框了,模型仍能給出不錯的預測結果。最令人驚訝的是,字母 J 和 Z 也得到了準確識別。
其他測試
David 還執行了其他一些測試,例如:
左手手語測試

兒童手語測試

多實例

模型局限性
David 發現,該模型還有一些地方有待改進。
距離

新環境

背景推斷

結論
這個項目表明:計算機視覺可用于幫助聽力障礙群體獲取更多便利和教育資源!
該模型在僅使用小型數據集的情況下仍能取得不錯的性能。即使對于不同環境中的不同手部,模型也能實現良好的檢測結果。而且一些局限性是可以通過更多訓練數據得到解決的。經過調整和數據集的擴大,該模型或許可以擴展到美式手語字母表以外的場景。

Yolov5 GitHub 項目:https://github.com/ultralytics/yolov5
Yolov5 requirements:https://github.com/ultralytics/yolov5/blob/master/requirements.txt
Cudnn 安裝指南:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html
OpenCV 安裝指南:https://www.codegrepper.com/code-examples/python/how+to+install+opencv+in+python+3.8
Roboflow 增強流程:https://docs.roboflow.com/image-transformations/image-augmentation
常用圖像數據增強技術綜述論文:https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0#Sec3
Pillow 庫:https://pillow.readthedocs.io/en/latest/handbook/index.html
labelImg:https://github.com/tzutalin/labelImg
Albumentations 庫:https://github.com/albumentations-team/albumentations
原文鏈接:https://daviddaeshinlee.medium.com/using-computer-vision-in-helping-the-deaf-and-hard-of-hearing-communities-with-yolov5-7d764c2eb614
原標題:《YOLOv5的妙用:學習手語,幫助聽力障礙群體》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司