- +1
SAM和IA撞出的驚艷火花
SAM一點,便可將內容分割出來;再由IA一鍵,圖像修補完成。
4月初,由Meta發布的史上首個圖像分割基礎模型——SAM(Segment Anything Model)一上線,便得到了用戶的高度贊賞。短短幾天,SAM 的 GitHub 倉庫的Star數高達26k。
那么,SAM到底是何方神器呢?
作為一種基于卷積神經網絡的圖像分割模型,SAM主要通過計算相鄰像素之間的相似度來實現圖像分割。其核心思想是將每個像素的上下文信息與其自身進行比較,以確定其應該屬于哪個類別。為此,SAM 使用兩個不同的卷積層來計算每個像素與其周圍像素之間的相似度。第一個是空間卷積層,計算像素之間的空間關系;第二個是通道卷積層,計算像素之間的相似度。
SAM 還使用了一種稱為空間親和力機制的技術來進一步提高圖像分割的準確性。所謂空間親和力機制,是指通過計算每個像素與其鄰居之間的相似度來評估像素之間的空間關系,然后將這些相似度值轉換成空間親和力矩陣。該矩陣被用來調整每個像素之間的相似度,從而更好地捕捉像素之間的空間依賴關系。
當SAM遇上圖像修補任務,又會碰撞出怎樣的燦爛火花呢?
來自中國科學技術大學和東方理工高等研究院的研究團隊給出了令人驚艷的答案。基于SAM,他們首次嘗試無需掩碼的圖像修復,并構建了“點擊再填充”的圖像修補新范式,被稱為“修補一切”(Inpaint Anything,簡稱IA)模型。
在IA模型中,SAM發揮著兩方面的應用功能:
首先,SAM通過對圖像進行分割,提取需要修復的區域;其次,SAM利用其在圖像分割中的優秀表現和空間親和力機制幫助模型更好地理解圖像的語義信息,從而提高圖像修補的準確性和效果。區別于傳統圖像修補模型,IA 模型無需精細化操作生成掩碼,只要一鍵點擊,標記選定對象,即可實現移除一切物體(Remove Anything)、填補一切內容(Fill Anything)、替換一切場景(Replace Anything),涵蓋了包括目標移除、目標填充、背景替換等在內的多種典型圖像修補應用場景。
結合了SAM、LaMa和AIGC等視覺基礎模型的IA,真正意義上實現了對用戶操作友好的無掩碼化圖像修復,同時支持“點擊刪除,提示填充”等“傻瓜式”人性化操作。未來,研究者將進一步挖掘IA的潛力以支持更多實用的新功能。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司