火山引擎總裁譚待：很多Agent的能力還停留在“L1”階段

澎湃新聞記者喻琰

2025-04-17 19:15

來源：澎湃新聞

“目前很多Agent的能力仍停留在初級水平，真正實現具備更強反思、規劃與自主決策能力的Agent，是行業發展的方向。”4月17日，在火山引擎2025 FORCE LINK AI創新巡展現場杭州站上，字節跳動旗下的火山引擎總裁譚待在接受包括澎湃科技（www.kxwhcb.com）在內的媒體采訪時表示。

譚待認為，深度思考模型是構建Agent的基礎，模型要有能力做好思考、計劃和反思，并且一定要支持多模態，就像人類具備視覺和聽覺一樣，Agent才能更好地處理復雜任務。

豆包1.5深度思考模型發布澎湃新聞記者攝

當日，豆包1.5深度思考模型正式發布。據介紹，這款模型除了在數學、編程、科學推理、創意寫作等通用任務表現突出之外，還上線了具備視覺推理能力的深度思考模型視覺版，能像人類一樣對看到的事物進行聯想和思考。

值得一提的是，就在今天凌晨，OpenAI也發布了能夠進行視覺推理的推理模型o3。

在發布會現場，譚待展示了豆包1.5深度思考模型的視覺推理功能，不僅能夠根據照片分析地貌，還能幫助用戶點餐，還可以根據家庭成員的需求推薦露營裝備，甚至也能協助制定旅行計劃。在企業場景中，該模型可輔助完成項目管理流程圖，優化工作流程，推動企業實現智能化運營。

2025年被業界視為“AI Agent智能體元年”，全球科技巨頭如微軟、谷歌、OpenAI等紛紛加速布局，推出具備自主決策和多任務處理能力的AI Agent產品，如微軟發布了企業級AI助手Microsoft 365 Copilot Chat，谷歌升級了Gemini 2.0模型，OpenAI則在17日凌晨突然推出最新的o系列模型，o3和o4-mini,同時表示這兩款模型都可以自由調用 ChatGPT 里的各種工具，包括但不限于圖像生成、圖像分析、文件解釋、網絡搜索、Python。

國內繼中國初創公司Monica推出號稱全球首款AI智能體產品Manus后，行業內也在等待下一個科技圈的爆款產品出現。

現場展示豆包1.5深度思考模型澎湃新聞記者攝

面對行業內激烈的競爭，譚待在接受采訪時直言，現在所謂的“Agent”，不能僅完成“寫一首打油詩”或“寫篇小學生作文”這樣的簡單任務。真正的Agent，需要能完成專業性較高、耗時較長、結構完整的任務，這是從定性角度來看。從技術實現的角度來看，如果沒有運用深度思考模型，缺乏反思和規劃能力，也很難稱其為真正的Agent。

談及市面上目前Agent的發展階段，譚待以目前大家熟悉的自動駕駛領域來類比。自動駕駛技術根據自動化程度的不同分為L0到L5六個級別。其中，L0級、L1級、L2級都只能稱為輔助駕駛系統。譚待指出，2025年行業內和大眾對Agent的定義可能會更加清晰，行業內或許會像自動駕駛分級一樣，對Agent進行分級，如Agent L1、L2、L3、L4 這類。“那些開發三四千個 Agent的企業，（Agent能力）可能僅相當于自動駕駛中的 L1 級別；而真正實現落地應用，至少應具備 L2++ 能力（注：L2部分自動駕駛范疇，但在技術和體驗上比普通的L2更先進，接近甚至部分具備L3能力）。”譚待表示。

澎湃科技注意到，在此次AI創新巡展現場杭州站上，火山引擎還推出了OS Agent解決方案。據悉，OS Agent解決方案包含豆包UI-TARS模型，以及veFaaS函數服務、云服務器、云手機等產品，實現對代碼、瀏覽器、電腦、手機以及其他Agent的操作。其中，豆包UI-TARS模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在了一起，為Agent的智能交互提供了更接近人類操作的模型基礎。

責任編輯：宦艷紅

圖片編輯：蔣立冬

校對：施鋆

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#字節跳動 #豆包 #OpenAI