- +1
火山引擎總裁譚待:很多Agent的能力還停留在“L1”階段
“目前很多Agent的能力仍停留在初級水平,真正實現具備更強反思、規劃與自主決策能力的Agent,是行業發展的方向。”4月17日,在火山引擎2025 FORCE LINK AI創新巡展現場杭州站上,字節跳動旗下的火山引擎總裁譚待在接受包括澎湃科技(www.kxwhcb.com)在內的媒體采訪時表示。
譚待認為,深度思考模型是構建Agent的基礎,模型要有能力做好思考、計劃和反思,并且一定要支持多模態,就像人類具備視覺和聽覺一樣,Agent才能更好地處理復雜任務。

豆包1.5深度思考模型發布 澎湃新聞記者 攝
當日,豆包1.5深度思考模型正式發布。據介紹,這款模型除了在數學、編程、科學推理、創意寫作等通用任務表現突出之外,還上線了具備視覺推理能力的深度思考模型視覺版,能像人類一樣對看到的事物進行聯想和思考。
值得一提的是,就在今天凌晨,OpenAI也發布了能夠進行視覺推理的推理模型o3。
在發布會現場,譚待展示了豆包1.5深度思考模型的視覺推理功能,不僅能夠根據照片分析地貌,還能幫助用戶點餐,還可以根據家庭成員的需求推薦露營裝備,甚至也能協助制定旅行計劃。在企業場景中,該模型可輔助完成項目管理流程圖,優化工作流程,推動企業實現智能化運營。
2025年被業界視為“AI Agent智能體元年”,全球科技巨頭如微軟、谷歌、OpenAI等紛紛加速布局,推出具備自主決策和多任務處理能力的AI Agent產品,如微軟發布了企業級AI助手Microsoft 365 Copilot Chat,谷歌升級了Gemini 2.0模型,OpenAI則在17日凌晨突然推出最新的o系列模型,o3和o4-mini,同時表示這兩款模型都可以自由調用 ChatGPT 里的各種工具,包括但不限于圖像生成、圖像分析、文件解釋、網絡搜索、Python。
國內繼中國初創公司Monica推出號稱全球首款AI智能體產品Manus后,行業內也在等待下一個科技圈的爆款產品出現。

現場展示豆包1.5深度思考模型 澎湃新聞記者 攝
面對行業內激烈的競爭,譚待在接受采訪時直言,現在所謂的“Agent”,不能僅完成“寫一首打油詩”或“寫篇小學生作文”這樣的簡單任務。真正的Agent,需要能完成專業性較高、耗時較長、結構完整的任務,這是從定性角度來看。從技術實現的角度來看,如果沒有運用深度思考模型,缺乏反思和規劃能力,也很難稱其為真正的Agent。
談及市面上目前Agent的發展階段,譚待以目前大家熟悉的自動駕駛領域來類比。自動駕駛技術根據自動化程度的不同分為L0到L5六個級別。其中,L0級、L1級、L2級都只能稱為輔助駕駛系統。譚待指出,2025年行業內和大眾對Agent的定義可能會更加清晰,行業內或許會像自動駕駛分級一樣,對Agent進行分級,如Agent L1、L2、L3、L4 這類。“那些開發三四千個 Agent的企業,(Agent能力)可能僅相當于自動駕駛中的 L1 級別;而真正實現落地應用,至少應具備 L2++ 能力(注:L2部分自動駕駛范疇,但在技術和體驗上比普通的L2更先進,接近甚至部分具備L3能力)。”譚待表示。
澎湃科技注意到,在此次AI創新巡展現場杭州站上,火山引擎還推出了OS Agent解決方案。據悉,OS Agent解決方案包含豆包UI-TARS模型,以及veFaaS函數服務、云服務器、云手機等產品,實現對代碼、瀏覽器、電腦、手機以及其他Agent的操作。其中,豆包UI-TARS模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在了一起,為Agent的智能交互提供了更接近人類操作的模型基礎。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司