- +1
今天的卷積網絡,Yann LeCun在93年就已經玩得很溜了
原創 Synced 機器之心
機器之心報道
作者:澤南、張倩
卷積神經網絡的成功是否超出了其發明者的想象?Yann LeCun 說:「是的,我們一直在嘗試更加瘋狂的寫法,而它的進步卻從未中斷過。」
手寫數字識別是很多人入門神經網絡時用來練手的一個項目,但就是這么簡單的一個項目,最近在 reddit 上又火了一把,因為在 MIT 計算機科學和人工智能實驗室,有人挖到了一個「祖師爺」級別的視頻……
這段視頻錄制于 1993 年,主人公是圖靈獎得主 Yann LeCun(楊立昆)。彼時 LeCun 才 32 歲,剛剛進入貝爾實驗室工作,而視頻里機器學習識別的第一段數字 201-949-4038,是 LeCun 在貝爾實驗室里的電話號碼。
從這段視頻中我們可以看到,LeCun 在 90 年代初創造的文本識別系統已經達到了驚人的速度和準確率,這在當時的條件下是非常難能可貴的。

這段視頻由貝爾實驗室自適應系統研究部門主任 Larry Jackel 拍攝(Larry 當時是 LeCun 的 boss,現任英偉達自動駕駛顧問)。視頻中出鏡的還有實驗室負責人 Rich Howard(Larry 的 boss)和研究工程師 Donnie Henderson。Yann LeCun 本人表示:「Donnie Henderson 將整個演示系統整合在了一起…… 整套系統在算力為 20MFLOPS 的 DSP 版上運行。」

幾位工程師在視頻中洋溢的笑容也頗具感染力。


LeCun 表示,1993 年的文字識別系統已經用上了卷積神經網絡(CNN),自己在這套系統中編寫了一種網絡數據結構的編譯器,并生成了可編譯的 C 語言代碼,在源代碼中以權重和網表(netlist)代表文字。
這段視頻的驚艷之處還在于,它比經典手寫數字數據集 MNIST 的問世還要早 6 年。

其實,早在 1989 年,LeCun 就已經發表了「將反向傳播用于手寫郵政編碼識別」的相關研究,而且已經在美國的郵政系統中成功應用。隨后,這一系統的應用范圍擴展至銀行支票。90 年代末期,該系統已經處理了美國 10%-20%的支票識別。

1999 年,LeCun 等人聯合發表了「MNIST」手寫數字數據集。這一數據集包含數萬個樣本,被稱為「計算機視覺領域的 hello world 數據集」、「機器學習界的果蠅」,如今已經作為基準被使用了二十余年。

在看了這段視頻之后,有研究者感嘆,「不要再抱怨 GPU 算力不夠了」。

深度學習先驅 Yann LeCun
說起 Yann LeCun,熟悉人工智能領域的人肯定不會陌生,Yann LeCun 現在是紐約大學教授、美國工程院院士、Facebook 副總裁和首席 AI 科學家。
在深度學習還未流行的 20 世紀八九十年代,LeCun 與另兩位先驅者 Yoshua Bengio、Geoffrey Hinton 一道探索了深度學習領域的概念基礎,并通過實驗向人們展示了新方法的前景。此外,他們還貢獻了一系列工程進展,展示了深度神經網絡的實用優勢。
雖然在二十世紀八十年代,研究者就開始試用人工神經網絡幫助計算機識別模式、模擬人類智能,但直到二十一世紀的前幾年,這種方式仍未獲得廣泛認同,LeCun 等研究者試圖重燃 AI 社區對神經網絡興趣的努力曾經一直被人們質疑,但如今他們的想法帶來了重大的技術進步,他們的方法也已成為該領域的主導范式。
自 2012 年以來,深度學習方法促進計算機視覺、語音識別、自然語言處理和機器人技術等應用領域取得極大突破。
在 2019 年,美國計算機協會 ACM 公布了上一年度的圖靈獎,Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun 三位深度學習巨頭同時獲獎。

從左至右:Yoshua Bengio、Geoffrey Hinton、Yann LeCun。
ACM 表示,Yann LeCun 主要作出了三大貢獻:
提出卷積神經網絡
改進反向傳播算法
拓寬神經網絡的視角
20 世紀 80 年代后期,LeCun 就職于多倫多大學和貝爾實驗室,也是在這一時期,他利用手寫數字圖像訓練了第一個卷積神經網絡系統。如今,卷積神經網絡已成為計算機視覺、語音識別、語音合成、圖像合成和自然語言處理領域的行業標準。卷積神經網絡有著廣泛的應用,如自動駕駛、醫學圖像分析、語音助手和信息過濾等。
這可不是搞定 MNIST 那么簡單
與我們通常為 MINIST 數據集構建文字識別系統不同,Yann LeCun 在 1993 年展示的技術可是用攝像頭直接拍攝的,還需要搞定文字縮放、位置等問題,后來也確實在郵政系統里獲得了應用。
如此看來在當年就能實現這樣的效果確實不容易,更何況在 20 世紀 90 年代,研究者們是沒有 TensorFlow 可用的,全靠 C 語言手寫,這個問題求解的非機器學習部分與其說是困難,不如說是繁瑣。
在社交網絡中,人們對 LeCun 展示的算法除了感興趣,還有贊譽和膜拜,有人說道:「這并不是說他們在 1993 年就解決了 MNIST 上的問題,比那還要更進一步。」
在深度學習被 GPU 帶動開展大規模應用以前,人工智能算法其實已經實現了相當的聰明程度。在 1993 年的文字識別之后,昨天,人們又挖出了 LeCun 參與的另一項研究:人臉檢測。

在 2003 年,一個視頻展示了 Rita Osadchy、Matt Miller 以及 Yann LeCun 等人在 NEC 實驗室的研究,使用卷積神經網絡進行人臉檢測研究。
雖然只是人臉檢測而不是人臉識別,但這種技術的意義不言而喻,如今自動駕駛汽車上的障礙物檢測方法使用的就是和它相同的技術。在推特上,LeCun 也點贊了這段視頻。

看來,如今我們在機器學習領域廣泛使用的方法,早在幾十年前就已完成了整體架構。
不過與此同時,也有網友發出了直擊靈魂的提問:「既然 LeCun 在 1993 年就可以讓 AI 這樣識別文字了,為啥直到今天大多數網站仍然認為文字驗證碼是識別機器人的好辦法?」
參考鏈接:
https://twitter.com/MIT_CSAIL/status/1347237563342340097
https://www.reddit.com/r/MachineLearning/comments/kuc6tz/d_a_demo_from_1993_of_32yearold_yann_lecun/
? THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
原標題:《今天的卷積網絡,Yann LeCun在93年就已經玩得很溜了》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司