百度3月將推出ChatGPT風格服務？“檢索+生成”是今年重點

澎湃新聞記者邵文

2023-01-30 17:06

來源：澎湃新聞

? 未來2% >

·消息人士稱，百度計劃在3月推出類似于ChatGPT的AI聊天機器人服務，百度文心（Ernie）大模型將成為其基礎。

·百度對這一消息尚未作出正面回應。百度搜索杰出架構師辜斯繆1月初曾表示，百度搜索今年在技術上最重要的工作就是要把整個檢索系統變成檢索+生成雙模系統。

百度視覺中國資料圖

據多家外媒1月30日報道，中國互聯網搜索巨頭百度計劃在3月推出類似于ChatGPT的AI聊天機器人服務。彭博社消息稱，百度文心（Ernie）大模型將成為其基礎。截至發稿，百度對這一消息未作出正面回應。

1月初，百度搜索杰出架構師辜斯繆曾在一次小范圍的媒體溝通會上說：“我們預計在3月會做一個比較大的升級。”“百度搜索今年在技術上最重要的工作就是要把整個檢索系統變成檢索+生成雙模系統。”

上述消息發布后，百度股價上漲5.8%，創下近4周以來的最大盤中漲幅。

ChatGPT是由人工智能實驗室OpenAI發布的對話式大型語言模型，它可以輕松與人類進行各個領域的對話，回答各種問題，無論是寫代碼改bug、回答科學問題，還是寫論文、寫文章都不在話下。ChatGPT被認為會顛覆現有搜索引擎的商業模式，吸引了微軟公司的高度關注和合作興趣，并促使谷歌公司在內部發布了“紅色代碼”警報。

名稱尚未確定

一位熟悉此事的人士向彭博社透露，百度計劃在3月首次推出ChatGPT式的應用程序，最初將其嵌入百度主要的搜索服務中，該人士要求在討論私人信息時不透露身份。該工具的名稱尚未確定，將允許用戶獲得對話式的搜索結果，很像ChatGPT。

百度多年以來已經花費數十億美元研究人工智能。該人士稱，經過數年數據訓練的大規模機器學習模型文心大模型，將成為百度即將推出的類似ChatGPT的工具的基礎。

百度的一位代表拒絕就彭博社的報道發表評論。

ChatGPT自去年11月公開亮相以來，已經點燃了互聯網，在幾天內積累了超過一百萬用戶，并引發了一場關于人工智能在學校、辦公室和家庭中作用的辯論。包括微軟在內的公司正在投資數十億美元，嘗試開發現實世界的應用，而其他公司則在利用這種炒作來籌集資金。在宣布將ChatGPT納入其內容的計劃后，美國病毒式新聞網站Buzzfeed的股價本月上漲了一倍多。

在移動廣告、視頻和社交媒體等領域日益落后于其較大的競爭對手之后，百度一直試圖在移動時代恢復增長。除了人工智能方面的研究，它還在開發自動駕駛技術。

根據彭博社看到的一份記錄，百度首席執行官李彥宏在去年12月的一次內部談話中提到了ChatGPT，作為該科技巨頭可以發揮領導作用的一個例子。“我很高興，我們每天都在思考的技術能夠吸引這么多人的注意。這并不容易。”他說。但他警告說，通過使生成性人工智能成為“每個人都需要的產品”來實現商業化可能是一個挑戰。

ChatGPT也引起了中國網民的極大興趣，很多人在社交媒體上分享了與ChatGPT對話的截圖。除百度外，幾家中國初創公司也在探索生成性人工智能，并吸引了紅杉和Sinovation Ventures等投資者。

百度：搜索的未來是“檢索+生成”

在1月初的媒體溝通會上，百度搜索杰出架構師辜斯繆提出搜索領域的三個重點技術趨勢：第一是搜索從信息檢索到檢索+生成的混合系統。第二是搜索變成跨模態的理解和交互，搜索將以圖片、視頻、音頻等各種媒介形式理解用戶輸入的信息。第三是在知識的理解和組織基礎上完成搜索。

就“檢索+生成”的技術趨勢而言，“目前，搜索系統的設計邏輯還是在互聯網的生態領域找到用戶需要的信息反饋給用戶，但我們認為，未來更有可能是‘檢索+生成’的模式。”辜斯繆舉例稱，生成一個像“高智商”或知識儲備豐富的人的人工智能，將百度搜索中的信息理解處理后提供給用戶，“我們認為它最終提供的服務質量會遠高于現在待機下的搜索服務質量”。

另外，對比原來單元對話式的搜索模式，即搜索一個問題得到一個結果，未來的搜索模式可能變成多輪交互形式，“這跟對話式的多輪不一樣，它不追求聊天，而是讓用戶可以更高效地向搜索引擎提出需求，同時讓搜索迭代和調整適應用戶需求。比如搜索一張圖片，再用語言告訴搜索引擎怎么修改這張圖片，最后產生一個真正定制化的答案。”辜斯繆說。

據辜斯繆介紹，百度搜索今年最重要的工作是要把整個檢索系統變成“檢索+生成”雙模系統。具體從終端用戶體驗而言，變化主要體現在三個方面。

第一，搜索結果的信息整合推理效果明顯提升。比如現在用百度搜索“秦始皇和漢尼拔兩個人誰的年紀比較大”，可能得不到一個理想的答案。這個問題實際上對人來說更容易，只要查秦始皇和漢尼拔的出生年月就可以得到答案。而在“檢索+生成”系統下，其通過檢索獲取基礎信息，再通過生成整理組織答案最終呈現，就會得到更好的效果。

第二，搜索有了創作能力。比如個人想要的水墨畫風格的兔子頭像，但互聯網上不存在這樣的資源，那么通過生成技術未來就可以通過搜索解決。

第三，個性化內容體驗。“簡單來說，就是同樣一個答案呈現給不同的用戶的描述方式不同。”辜斯繆舉例，百度搜索“天空為什么是藍色”，目前所有人都會得到一個結果，但未來可能可以通過生成技術提供給兒童用戶能通俗理解的答案，還可以再配合其他的場景設計如TTS（文本到語音）讓它朗讀出來。如果用戶是精英人士，那么就可以呈現一個更高效簡潔的答案。

如何解決生成模型的成本和答案準確性問題？

眾所周知，像ChatGPT這樣的模型有其局限性，最核心的有兩點：回答準確性與搜索成本。“ChatGPT的預訓練依托于大型語料庫，而語料庫來源于互聯網上實際發生的語言使用場景。一方面，這使其無法避免地帶有虛假信息、歧視偏見信息，另一方面，也往往容易忽略冷門信息。”上海人工智能研究院研究員陳逸君對澎湃科技（www.kxwhcb.com）表示。

辜斯繆認為解決思路主要有兩點，第一，不純粹做生成模型，而是“檢索+生成”，搜索引擎本身就可以讓其更好地驗證自己的能力邊界，判斷正確性。第二，從模型本身來說，關鍵在于對答案可解釋性的判斷是否到位。

“從技術上，我們在構建模型訓練任務時，需要設置兩個訓練的目標。一方面讓它可以給出一個真實且流暢的答案。另一方面讓它能夠更好地判斷對于這個答案的自信度，或者對于這個知識本身來源的判斷。我們可能會通過多任務學習，最終綜合達到更好的效果。”辜斯繆說。

同時，當檢索結果有爭議甚至有更高風險時，就回歸到正常的檢索效果，“因為生成目前來看不是不可或缺的環節。”辜斯繆補充道。

對于成本問題，摩根士丹利的分析師布萊恩·諾瓦克（Brian Nowak）估計，ChatGPT每次查詢的成本大約是谷歌傳統搜索查詢成本的七倍。

辜斯繆也坦誠，“這個技術確實很貴”。另一方面，“具體落地時也還有很多優化空間，我們現在已經考慮的很多優化方案可以大幅降低它的單次服務成本。同時，我們確實也需要投入一定比例的資源，才能去支撐這個事情最終做下來。”

目前來看，有兩個核心技術參數決定了最終需要多大的投入，第一個是模型本身的規模，第二個是最終交互的請求量。“我們目前判斷，除了產品設計上有很多優化空間外，技術本身的演進也會使模型效率提升。很可能最終我們不需要那么大的模型（GPT3.0版本），就能夠提供非常好的服務，近期也會有大量技術成果誕生來解決這個問題。如果攻克了這個問題，對應的成本就會有大幅度的下降。”辜斯繆分享道。

責任編輯：鄭潔

圖片編輯：蔣立冬

校對：徐亦嘉

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#ChatGPT #百度 #AI聊天機器人