- +1
40年風云與浮沉,計算機視覺打開智能新世界
文/陳根
作為智能世界的雙眼,計算機視覺是人工智能技術里的一大分支。計算機視覺通過模擬人類視覺系統,賦予計算機“看”和“認知”的能力,是計算機認識世界的基礎。
確切地說,計算機視覺技術就是利用了攝像機以及電腦替代人眼使得計算機擁有人類的雙眼所具有的分割、分類、識別、跟蹤、判別決策等功能,是創建了能夠在 2D的平面圖像或者 3D的三維立體圖像的數據中,以獲取所需要的“信息”的一個完整的人工智能系統。
計算機視覺利用成像系統代替視覺器官作為輸入手段,利用視覺控制系統代替大腦皮層和大腦的剩余部分完成對視覺圖像的處理和解釋,讓計算機自動完成對外部世界的視覺信息的探測,做出相應判斷并采取行動,實現更復雜的指揮決策和自主行動。

作為人工智能最前沿的領域之一,視覺類技術是人工智能企業的布局重點,具有最大的技術分布。計算機視覺40多年的發展中,人們提出了大量的理論和方法。總體來看,可分為三個主要歷程。即馬爾計算視覺、多視幾何與分層三維重建和基于學習的視覺。
1982 年,馬爾(David Marr)在其《Vision》一書中提出的視覺計算理論和方法,標志著計算機視覺成為了一門獨立的學科。
馬爾計算視覺理論包含二個主要觀點:首先,馬爾認為人類視覺的主要功能是復原三維場景的可見幾何表面,即三維重建問題;其次,馬爾認為這種從二維圖像到三維幾何結構的復原過程是可以通過計算完成的,并提出了一套完整的計算理論和方法。因此,馬爾視覺計算理論在一些文獻中也被稱為三維重建理論。
馬爾計算視覺認為,從二維圖像復原物體的三維結構,涉及三個不同的層次。首先是計算理論層次,也就是說,需要使用何種類型的約束來完成這一過程。馬爾認為合理的約束是場景固有的性質在成像過程中對圖像形成的約束。其次是表達和算法層次,也就是說如何來具體計算。最后是實現層次,馬爾對表達和算法層次進行了詳細討論。
馬爾認為,從二維圖像恢復三維物體,經歷了三個主要步驟,即圖像初始略圖(sketch)物體到2.5維描述,再到物體3維描述。其中,初始略圖是指高斯拉普拉斯濾波圖像中的過零點(zero-crossing)、短線段、端點等基元特征。
物體2.5維描述是指在觀測者坐標系下對物體形狀的一些粗略描述,如物體的法向量等。物體3維描述是指在物體自身坐標系下對物體的描述,如球體以球心為坐標原點的表述。
馬爾計算視覺理論在計算機視覺領域的影響是深遠的,他所提出的層次化三維重建框架,至今是計算機視覺中的主流方法。
80 年代開始,計算機視覺掀起了全球性的研究熱潮,方法理論迭代更新,主要得益于二方面的因素:一方面,瞄準的應用領域從精度和魯棒性要求太高的“工業應用”轉到要求不太高,特別是僅僅需要“視覺效果”的應用領域,如遠程視頻會議(teleconference)、考古、虛擬現實、視頻監控等。
另一方面,人們發現,多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。在這一階段,OCR和智能攝像頭等問世,并進一步引發了計算機視覺相關技術更為廣泛的傳播與應用。
80年代中期,計算機視覺已經獲得了迅速發展,主動視覺理論框架、基于感知特征群的物體識別理論框架等新概念、新方法、新理論不斷涌現。
90年代,計算機視覺開始在工業環境中得到廣泛的應用,同時基于多視幾何的視覺理論也得到迅速發展。90 年代初,視覺公司成立,并開發出第一代圖像處理產品。而后,計算機視覺相關技術就被不斷地投入到生產制造過程中,使得計算機視覺領域迅速擴張,上百家企業開始大量銷售計算機視覺系統,完整的計算機視覺產業逐漸形成。在這一階段,傳感器及控制結構等的迅速發展,進一步加速了計算機視覺行業的進步,并使得行業的生產成本逐步降低。
進入21世紀,計算機視覺與計算機圖形學的相互影響日益加深,基于圖像的繪制成為研究熱點。高效求解復雜全局優化問題的算法得到發展。更高速的 3D 視覺掃描系統和熱影象系統等逐步問世,計算機視覺的軟硬件產品蔓延至生產制造的各個階段,應用領域也不斷擴大。
當下,計算機視覺作為人工智能的底層產業及電子、汽車等行業的上游行業,仍處于高速發展的階段,具有良好的發展前景。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司