下載客戶端

登錄

IEEE專家委員胡凝：消解AI幻覺“陰影”，洞見“超級(jí)個(gè)體”價(jià)值錨點(diǎn)

2025-05-14 11:14

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

作者：毛爍

當(dāng)前，大模型的“幻覺”問(wèn)題備受關(guān)注，被視為技術(shù)落地的“陰影”。AI幻覺就像難以根治的“頑疾”，困擾著AI落地的每一個(gè)環(huán)節(jié)。然而，在這場(chǎng)技術(shù)與可靠性的較量背后，未來(lái)個(gè)體的生存法則，或許早已悄然改變，指向了新的價(jià)值"坐標(biāo)系"。

模型“幻覺”的消解路徑

與AI幻覺的較量，注定是一場(chǎng)“人機(jī)博弈”的持久戰(zhàn)。

AI在自然語(yǔ)言理解、內(nèi)容生成等領(lǐng)域擁有了令人驚嘆的能力飛躍，但如影隨形的“幻覺”問(wèn)題，始終像一團(tuán)陰影，籠罩在AI可靠性與可信度提升的道路上，是將其從實(shí)驗(yàn)室推向更廣闊應(yīng)用場(chǎng)景時(shí)，必須直面的“深淵”。

Vectara的分析報(bào)告《DeepSeek-R1 hallucinates more than DeepSeek-V3》顯示，DeepSeek-R1在特定評(píng)估基準(zhǔn)下的幻覺率高達(dá)14.3%，與其基座版本DeepSeek-V3那相對(duì)克制的3.9%相比，簡(jiǎn)直“畫風(fēng)突變”。

圖片截取自：Vectara報(bào)告《DeepSeek-R1 hallucinates more than DeepSeek-V3》

專注于信任度評(píng)估的Vijil也發(fā)布報(bào)告稱，在其針對(duì)幻覺的專項(xiàng)測(cè)試中，DeepSeek-R1的"通過(guò)率"約為68.42%。換句話說(shuō)，仍有約31.58%的回答存在幻覺。

圖片截取自：VIJIL信托報(bào)告

評(píng)估數(shù)據(jù)的背后，指向了大模型在控制幻覺方面的潛在挑戰(zhàn)。這場(chǎng)關(guān)于AI幻覺率的“羅生門”，無(wú)疑給模型的穩(wěn)定性和可靠性打上了一個(gè)問(wèn)號(hào)。

細(xì)究這一“頑疾”的根源，胡凝認(rèn)為，以DeepSeek為代表的推理模型，與傳統(tǒng)基礎(chǔ)模型相比，在核心的“思維鏈”構(gòu)造上存在著本質(zhì)差異，這決定了其產(chǎn)生幻覺的關(guān)鍵癥結(jié)也有所不同。

IEEE數(shù)字金融與經(jīng)濟(jì)標(biāo)準(zhǔn)委員會(huì)專家委員、桐元軟件CEO 胡凝

事實(shí)上，對(duì)推理模型而言，為了實(shí)現(xiàn)模擬復(fù)雜的邏輯過(guò)程，會(huì)將思維鏈分解為多步驟的中間推理環(huán)節(jié)。這一設(shè)計(jì)本身是為了實(shí)現(xiàn)更精細(xì)的控制和更明確的執(zhí)行指令。然而，風(fēng)險(xiǎn)也恰恰潛藏于此——每一步的“思考”和計(jì)算都可能引入微小誤差，并在鏈條的延伸中積累、放大，最終導(dǎo)致結(jié)論南轅北轍。

“DeepSeek使用MoE結(jié)合推理來(lái)節(jié)省算力，但如果對(duì)于領(lǐng)域?qū)＜叶ㄎ怀霈F(xiàn)錯(cuò)誤，點(diǎn)亮的知識(shí)結(jié)構(gòu)和原始語(yǔ)義不符，則會(huì)出現(xiàn)‘張冠李戴’的幻覺問(wèn)題。”胡凝如是說(shuō)。

與此相對(duì)的是，基礎(chǔ)模型采用了更為內(nèi)隱和整體的推理方式，其內(nèi)部狀態(tài)相對(duì)集約。更關(guān)鍵的在于，其賴以訓(xùn)練的數(shù)據(jù)規(guī)模通常極為龐大且多樣化，這使得它們?cè)诿鎸?duì)新穎或模糊查詢時(shí)，擁有了更強(qiáng)的泛化能力，并在推理過(guò)程中具備了一定的動(dòng)態(tài)修正潛力。

當(dāng)然，如同所有AI模型面臨的挑戰(zhàn)，基礎(chǔ)模型同樣無(wú)法完全避免“幻覺”現(xiàn)象。“其產(chǎn)生誘因或許更多地根植于從海量數(shù)據(jù)中習(xí)得的模式本身固有的偏差或噪聲，而非簡(jiǎn)單的邏輯斷裂。”胡凝強(qiáng)調(diào)

數(shù)據(jù)的特性與處理方式本身，也是影響模型幻覺表現(xiàn)的另一個(gè)核心要素。

對(duì)此，胡凝指出，推理模型在訓(xùn)練時(shí)，往往依賴于針對(duì)特定領(lǐng)域或任務(wù)構(gòu)建的高度相關(guān)的局部知識(shí)語(yǔ)料。而問(wèn)題在于，如果這些語(yǔ)料在人工篩選、標(biāo)注或結(jié)構(gòu)化過(guò)程中本身就內(nèi)含了邏輯跳躍或隱性錯(cuò)誤，模型在學(xué)習(xí)時(shí)便可能將這些“瑕疵”內(nèi)化。

除了數(shù)據(jù)內(nèi)容本身的潛在瑕疵，推理模型的訓(xùn)練方式及其數(shù)據(jù)特性，也影響著模型的表現(xiàn)。

推理模型在訓(xùn)練階段有時(shí)會(huì)為了優(yōu)化特定的“正確推理步驟”而進(jìn)行“剪枝”，而一旦“剪枝”過(guò)度，便犧牲了模型在面對(duì)復(fù)雜、開放式問(wèn)題時(shí)進(jìn)行多路徑探索和驗(yàn)證的靈活性。

“從數(shù)據(jù)量級(jí)上看，用于推理任務(wù)的數(shù)據(jù)集與基礎(chǔ)模型進(jìn)行通用預(yù)訓(xùn)練時(shí)接觸的海量知識(shí)相比，規(guī)模往往小得多。而這可能導(dǎo)致推理模型在覆蓋各種推理場(chǎng)景的多樣性和邊緣案例的全面性上存在先天不足，限制了其在特定情景下的魯棒性。”胡凝強(qiáng)調(diào)。

相比之下，基礎(chǔ)模型得益于其海量多樣化的訓(xùn)練數(shù)據(jù)，更容易習(xí)得更全面和穩(wěn)健的語(yǔ)言規(guī)律和知識(shí)體系。但即便如此，在其更整體化的推理過(guò)程中，如果某個(gè)中間步驟產(chǎn)生了貌似符合邏輯的“幻覺”，這個(gè)錯(cuò)誤的“基石”也可能隨著推理鏈條的展開而進(jìn)一步被強(qiáng)化和放大。

因此，“消滅”AI幻覺目前沒(méi)有一勞永逸的“靈丹妙藥”，其注定是一項(xiàng)系統(tǒng)性的、需要多條戰(zhàn)線協(xié)同推進(jìn)的復(fù)雜工程。

這場(chǎng)“較量”力求從多個(gè)維度同時(shí)發(fā)力：

一方面，要深入改進(jìn)模型本身的結(jié)構(gòu)和算法，提升其內(nèi)在的邏輯一致性和魯棒性。另一方面，不斷提升訓(xùn)練數(shù)據(jù)的質(zhì)量控制和多樣化水平。

更重要的是，需要引入外部的“裁判”和“知識(shí)庫(kù)”，通過(guò)RAG（檢索增強(qiáng)生成）等技術(shù)，讓模型在生成內(nèi)容時(shí)能夠“查證”和“核驗(yàn)”，而不僅僅是依賴“涌現(xiàn)”。

同時(shí)，持續(xù)優(yōu)化和創(chuàng)新RLHF等強(qiáng)化學(xué)習(xí)微調(diào)技術(shù)，以更精細(xì)地引導(dǎo)模型生成符合事實(shí)和人類認(rèn)知的內(nèi)容。

此外，亦要發(fā)展更先進(jìn)的評(píng)估方法和提升模型的可解釋性，幫助我們理解模型為何會(huì)“腦補(bǔ)”，才能更好地對(duì)癥下藥。

“超級(jí)個(gè)體”的三重價(jià)值

隨著AI技術(shù)的普惠化與能力的持續(xù)增強(qiáng)，胡凝預(yù)見，一個(gè)以“超級(jí)個(gè)體”為標(biāo)志的新時(shí)代即將到來(lái)加速。

然而，這并不意味著個(gè)體之間將趨于同質(zhì)化。

恰恰相反，“超級(jí)個(gè)體”之間的差異化將更為明顯。胡凝指出，這種差異不再是簡(jiǎn)單的體力或基礎(chǔ)技能的差異，而是更深層次的能力分層，其主要體現(xiàn)在個(gè)人對(duì)AI工具的整合能力、獨(dú)特思維模式的培養(yǎng)，以及專業(yè)領(lǐng)域深度三個(gè)方面。

如果探究細(xì)化胡凝提出三個(gè)維度，可以發(fā)現(xiàn)其是構(gòu)筑個(gè)體核心競(jìng)爭(zhēng)壁壘、在AI時(shí)代塑造獨(dú)特價(jià)值的關(guān)鍵所在。

“AI工具的整合與協(xié)同能力”。其不僅僅是會(huì)使用AI工具，更是理解不同AI工具的優(yōu)勢(shì)與局限，并能像指揮“交響樂(lè)團(tuán)”一樣，將其無(wú)縫地融入到自己的工作流、學(xué)習(xí)過(guò)程和價(jià)值創(chuàng)造鏈中。這種能力考驗(yàn)的是個(gè)體的學(xué)習(xí)適應(yīng)性、系統(tǒng)思維以及將前沿技術(shù)轉(zhuǎn)化為實(shí)際生產(chǎn)力的智慧。其是將AI從“工具”升級(jí)為“協(xié)作伙伴”的關(guān)鍵。

“獨(dú)特思維模式的培養(yǎng)”。在信息爆炸、AI能快速生成標(biāo)準(zhǔn)化內(nèi)容的時(shí)代，真正有價(jià)值的是那些無(wú)法被輕易復(fù)制、帶有強(qiáng)烈個(gè)人烙印的思維方式。這包括批判性思維、創(chuàng)新性思維、跨領(lǐng)域聯(lián)想能力、以及構(gòu)建自己獨(dú)特認(rèn)知框架的能力。這種“人之所以為人”的深度思考和結(jié)構(gòu)化認(rèn)知，是應(yīng)對(duì)復(fù)雜問(wèn)題和產(chǎn)生原創(chuàng)見解的核心引擎。

“專業(yè)領(lǐng)域的深度與專精”。AI更多是一個(gè)“放大器”。其能極大提升效率、拓展能力邊界，但其所“放大”的內(nèi)容，歸根結(jié)底取決于個(gè)體在特定專業(yè)領(lǐng)域內(nèi)的積累和造詣。沒(méi)有深厚的專業(yè)基礎(chǔ)，AI即便強(qiáng)大，也如同無(wú)本之木、無(wú)源之水。只有在某一領(lǐng)域達(dá)到精深，才能有效地利用AI去解決該領(lǐng)域的難題，產(chǎn)生突破性的成果。

然而，這僅僅是構(gòu)筑個(gè)體核心競(jìng)爭(zhēng)力的第一階段。

真正拉開“超級(jí)個(gè)體”之間差距，使其具備上述“三重”差異化價(jià)值的，并非AI工具本身，而是與個(gè)體深度綁定的、能夠反映和放大個(gè)人特質(zhì)的AI輔助系統(tǒng)——即個(gè)性化Agent。胡凝強(qiáng)調(diào)，個(gè)性化Agent可以記錄個(gè)體的思考過(guò)程、學(xué)習(xí)偏好，并據(jù)此提供量身定制的輔助，使創(chuàng)造性思維和專業(yè)技能得到指數(shù)級(jí)放大。

這與紅杉 AI 峰會(huì)閉門會(huì)上紅杉合伙人Konstantine 提出的設(shè)想有著遞進(jìn)式的呼應(yīng)。Konstantine 認(rèn)為，未來(lái)的 AI，不只是彼此通信，而是組成一個(gè)可以交換價(jià)值的系統(tǒng)網(wǎng)絡(luò)。”

AI工具普及用創(chuàng)意和“交付”建立價(jià)值“護(hù)城河”

紅杉資本近期那場(chǎng)為期6小時(shí)、云集150位頂尖AI創(chuàng)始人的閉門峰會(huì)，恰好從商業(yè)視角，為胡凝的結(jié)構(gòu)預(yù)判提供了注腳和證實(shí)。紅杉所描繪的，是具備身份、行動(dòng)和信任契約的AI“代理人”，正在組成一個(gè)能夠彼此協(xié)作、完成復(fù)雜任務(wù)的“智能體經(jīng)濟(jì)網(wǎng)絡(luò)”。這或許就是胡凝所言，沖破組織邊界、由“網(wǎng)絡(luò)節(jié)點(diǎn)”構(gòu)成的未來(lái)協(xié)作圖景。

在智能體網(wǎng)絡(luò)里，個(gè)體或是AI賦能下的“超級(jí)個(gè)體”——正轉(zhuǎn)型為任務(wù)的“編排者”和資源的“調(diào)度者”。而人的價(jià)值，則不再是設(shè)計(jì)指令讓AI服從，而變成了設(shè)計(jì)并啟動(dòng)這個(gè)網(wǎng)絡(luò)的協(xié)作流程。

超級(jí)個(gè)體崛起之下，經(jīng)濟(jì)的底層邏輯也將被顛覆。

胡凝認(rèn)為，其將從依賴規(guī)模走向依賴“創(chuàng)意”和“注意力”。獨(dú)一無(wú)二的思維和創(chuàng)造力，會(huì)成為新時(shí)代的“硬通貨”。

而這種路徑，目前已經(jīng)逐漸顯現(xiàn)，“下一輪 AI，賣的不是工具，而是收益”紅杉資本的考量直戳人心。更多客戶不再為AI這個(gè)“工具”本身買單，他們只掏錢買AI實(shí)際“干出來(lái)”的、寫進(jìn)報(bào)表里的“成果”。

這一趨勢(shì)下，胡凝的判斷給出了“解法”：當(dāng)AI工具普及，其邊際價(jià)值遞減，真正的價(jià)值護(hù)城河，在于用AI創(chuàng)造出的、別人難以輕易復(fù)制的獨(dú)特“成果”。創(chuàng)意和如何實(shí)現(xiàn)創(chuàng)意，成了新的稀缺資源。

進(jìn)一步的，他還提出了未來(lái)超級(jí)個(gè)體的三條“生存之道”。

第一條路：提供他人難以復(fù)制的創(chuàng)造性內(nèi)容和服務(wù)，而實(shí)現(xiàn)路徑則是把創(chuàng)意變成能端到端交付的“成果型產(chǎn)品”。

“成果型產(chǎn)品”的定義逐漸明確，其能跑完一個(gè)完整任務(wù)流程，結(jié)果可被度量和歸因，并且能越跑越好。創(chuàng)意不能是空中樓閣，而是能用AI或其他資源打包交付的“硬通貨”，市場(chǎng)只為可驗(yàn)證的“交付”買單。

第二條路：成為特定知識(shí)領(lǐng)域的信任節(jié)點(diǎn)和驗(yàn)證者。用戶不再是簡(jiǎn)單“使用”工具，而是將任務(wù)“委托”給智能體，然后等待結(jié)果。這一過(guò)程中，誰(shuí)能持續(xù)、可靠地交付高質(zhì)量結(jié)果，誰(shuí)就在這個(gè)委托網(wǎng)絡(luò)中積累了寶貴的“交付記錄”。這些記錄構(gòu)成了新時(shí)代的“信任背書”，更能成為驗(yàn)證信息、值得托付的“信任節(jié)點(diǎn)”。

第三條路：設(shè)計(jì)和優(yōu)化AI系統(tǒng)本身。而這項(xiàng)工作的核心，已經(jīng)不只是調(diào)參數(shù)、設(shè)計(jì)prompt，而是調(diào)“結(jié)構(gòu)”。紅杉的觀點(diǎn)是，AI的瓶頸不在模型，而在如何把模型融入流程和工具鏈的“架構(gòu)工程”。

這也正是胡凝所指的“設(shè)計(jì)和優(yōu)化”工作的精髓。

值得注意的是，胡凝也提到了能耗和信息繭房等伴生難題。AI能耗問(wèn)題會(huì)形成新的資源競(jìng)爭(zhēng)態(tài)勢(shì)，計(jì)算資源、電力和冷卻設(shè)施將成為限制性因素，可能導(dǎo)致"計(jì)算資源階層"的出現(xiàn)。

同時(shí)，AI形成的信息繭房將對(duì)社會(huì)產(chǎn)生深遠(yuǎn)沖擊。個(gè)性化agent在強(qiáng)化個(gè)人認(rèn)知和能力的同時(shí)，也可能放大確認(rèn)偏見，導(dǎo)致社會(huì)認(rèn)知分化加劇。

“當(dāng)每個(gè)人都沉浸在由AI精心打造的信息環(huán)境中，社會(huì)共識(shí)形成變得更加困難，可能出現(xiàn)"平行現(xiàn)實(shí)"現(xiàn)象——不同群體生活在截然不同的信息生態(tài)系統(tǒng)中，彼此間的基本事實(shí)認(rèn)知都無(wú)法達(dá)成一致。”胡凝強(qiáng)調(diào)，這種信息分層將進(jìn)一步加劇社會(huì)極化，挑戰(zhàn)民主決策和社會(huì)治理的基礎(chǔ)。

解決這一問(wèn)題需要開發(fā)“‘認(rèn)知多樣性（破繭房）’和“跨繭房對(duì)話”的系統(tǒng)或相關(guān)的協(xié)議，確保超級(jí)個(gè)體在獲得個(gè)性化增強(qiáng)的同時(shí)，仍能接觸到多元觀點(diǎn)和共享現(xiàn)實(shí)，維持社會(huì)凝聚力和集體決策能力。

“認(rèn)知多樣性（破繭房），可維護(hù)和鼓勵(lì)社會(huì)中存在不同的觀點(diǎn)、思維方式和知識(shí)體系，并主動(dòng)打破個(gè)體被困在單一信息環(huán)境中的狀態(tài)；“跨繭房對(duì)話”則是要建立機(jī)制促進(jìn)持有不同觀點(diǎn)、處于不同信息繭房中的個(gè)體之間進(jìn)行交流和對(duì)話，增進(jìn)相互理解。

也是在此基礎(chǔ)上，胡凝從企業(yè)角度談及，未來(lái)的企業(yè)將不再是主要的生產(chǎn)或服務(wù)提供者，而是轉(zhuǎn)向?yàn)橐詡€(gè)性化Agent為中心的生態(tài)系統(tǒng)和基礎(chǔ)設(shè)施提供者，以及環(huán)境培育者。

具體而言，包括構(gòu)建支持個(gè)性化認(rèn)知模型訓(xùn)練的平臺(tái)、開發(fā)用于映射和理解個(gè)體思維模式的工具，以及建立促進(jìn)不同Agent之間有效協(xié)作的協(xié)議和標(biāo)準(zhǔn)。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#IEEE