- +1
北京智源推出通用視覺分割模型SegGPT,具備上下文推理能力
·SegGPT是一個利用視覺提示完成任意分割任務的通用視覺模型,具備上下文推理能力,訓練完成后無需微調,只需提供示例即可自動推理并完成對應分割任務,包括圖像和視頻中的實例、類別、零部件、輪廓、文本、人臉、醫學圖像等。
·Meta AI圖像分割基礎模型SAM的精細標注能力與SegGPT的通用分割標注能力相結合,能把任意圖像從像素陣列解析為視覺結構單元,像生物視覺那樣理解任意場景。
ChatGPT引發語言大模型狂潮,AI另一個重大領域視覺的GPT時刻何時到來?
5月28日,北京智源人工智能研究院在2023中關村論壇平行論壇之一的人工智能大模型發展論壇上推出通用分割模型SegGPT(Segment Everything In Contex),這是一個利用視覺提示(prompt)完成任意分割任務的通用視覺模型。

論文地址:https://arxiv.org/abs/2304.03284

標注出一個畫面中的彩虹,可批量化分割其他畫面中的彩虹。
SegGPT是智源通用視覺模型Painter的衍生模型,針對分割一切物體的目標做出優化。SegGPT具備上下文推理能力,訓練完成后無需微調,只需提供示例即可自動推理并完成對應分割任務,包括圖像和視頻中的實例、類別、零部件、輪廓、文本、人臉、醫學圖像等。它的靈活推理能力支持任意數量的視覺提示。自動視頻分割和追蹤能力以第一幀圖像和對應的物體掩碼作為上下文示例,SegGPT能夠自動對后續視頻幀進行分割,并且可以用掩碼的顏色作為物體的ID,實現自動追蹤。


用畫筆大致圈出行星環帶(上圖),在預測圖中準確輸出目標圖像中的行星環帶(下圖)。
此前,Meta公司發布了AI圖像分割基礎模型SAM,SegGPT與SAM的差異在于,SAM“一觸即通”,通過一個點或邊界框,在待預測圖片上給出交互提示,識別分割畫面上的指定物體。SegGPT“一通百通”,給出一個或幾個示例圖像和意圖掩碼,模型就能知道用戶意圖,“有樣學樣”地完成類似分割任務。用戶在畫面上標注識別一類物體,即可批量化識別分割同類物體,無論是在當前畫面還是其他畫面或視頻環境中。


SegGPT能夠根據用戶提供的宇航員頭盔掩碼這一上下文(上圖),在新的圖片中預測出對應的宇航員頭盔區域(下圖)。
無論是“一觸即通”還是“一通百通”,都意味著視覺模型已經“理解”了圖像結構。SAM精細標注能力與SegGPT的通用分割標注能力相結合,能把任意圖像從像素陣列解析為視覺結構單元,像生物視覺那樣理解任意場景。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司