- +1
比人工速記快1.67倍!百度推出音頻轉文本應用,目前免費
百度人工智能中的語音識別技術正在變革速記行業。
近日,百度宣布推出一款能將音頻轉化為文字的SwiftScribe網頁應用,將改變完全依賴人工的速記行業現狀。該網頁應用背靠百度深度語音識別系統,將音頻文件轉為文本,轉化效率較人工速記快1.67倍。
百度首席科學家吳恩達認為,這一應用將改變采訪和視頻字幕生成,他在社交網絡上評論稱:“該應用非常適合將長語音轉換為文本的人士,人工智能將實現1+1大于2的效果。”
具體應用方面,用戶可在PC端打開SwiftScribe網頁應用,選取wav和mp3格式的文件上傳,系統就能馬上進行處理,時長1分鐘的音頻文件可以在30秒內轉換完成。用戶可使用鍵盤快捷鍵就能進行加快播放、后退和添加換行符等操作,處理完成后,只需人工調整大小寫、標點及部分拼寫細節即可快捷、準確地完成音頻轉換。

從使用效果看,SwiftScribe可為速記員帶來1.67倍的效率提升,縮短40%的工作時間。目前該系統可處理1小時內的音頻文件。
據悉,百度首先會邀請30-50名速記員對該應用的測試版本進行測試。
百度方面透露,該應用未來會增加視頻文件的語音識別及自動添加標點符號等功能,并支持更多文件格式,降低用戶使用門檻。
此次推出的SwiftScribe網頁應用,依托于百度新一代深度語音識別系統Deep Speech 2,該系統曾被《麻省理工科技評論》評為“2016年十大突破技術”之一。通過利用長達數千小時的語音數據訓練,Deep Speech 2可以不斷“學習”從語音中識別特定的字或詞。
2016年9月1日,在2016百度世界大會上,百度董事長兼首席執行官李彥宏表示,百度語音識別的準確率能夠達到97%,已經超過了人對語音的識別能力。
據了解,百度在2016年推出了應用DeepSpeech2的安卓輸入法TalkType,讓用戶能夠用語音快速輸入文字。百度硅谷人工智能實驗室項目領導人Bijit Halder在公告中稱:“TalkType是首款智能語音優先輸入法。”
對話機器將成為2017人工智能的發展風口,百度吳恩達曾在接受《華爾街日報》采訪時表示,隨著準確率的提高和用戶體驗的提升,百度的語音產品已度過用戶心目中的“試用期”。在語音產品迅猛發展的大環境下,亞馬遜、蘋果、谷歌和微軟等科技巨頭都在加緊研發各自的語音識別技術。
國內的智能語音及語言技術、人工智能技術研究公司科大訊飛,此前已經推出了以語音轉文字為核心業務的轉寫服務平臺——訊飛聽見網站。據該網站介紹,科大訊飛的機器轉寫服務一小時音頻約5分鐘轉寫成稿。如果是音質清晰、普通話標準的音頻,轉寫正確率可達90%以上。
目前,百度SwiftScribe音頻轉換服務免費對外開放。據百度方面人士透露,未來希望將該應用向商業化應用轉變。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司