- +1
加快發展人工智能檢驗檢測服務,完善AI產業生態

人工智能技術發展迅速,大模型、AGENT、具身智能、通用人工智能(AGI)等新概念和新技術層出不窮。大模型基準評測作為研究較為深入的領域,助力其他新技術的發展。AgentBench、ToolBench、ToolEval等是面向AGENT的代表性評測框架或數據集,通過搭建仿真環境,重點考察大模型與外界交互下完成復雜任務的能力,如網絡購物、數據庫操作等。SQA3D、Behavior-1k、Mini-BEHAVIOR等利用3D問答、空間操作等任務評估大模型在具身智能領域內的表現。
大模型基準評測還帶動了AGI的發展,微軟先后發布《通用人工智能的火花:GPT-4的早期實驗》和AGIEval評測數據集,通過數學、編程、視覺、醫學、法律、心理學等較困難的任務,證明GPT-4已進入AGI的早期階段。中國科學院和美國俄亥俄州立大學等先后推出AGIBench和MMMU評測數據集,從多模態、多學科、多粒度等多個維度衡量大模型距離AGI的差距。雖然當前AGI發展仍然處于初期階段,但通過基準評測的研究,可為未來AGI技術的發展提供思路。
2025年《政府工作報告》指出,持續推進“人工智能+”行動,將數字技術與制造優勢、市場優勢更好結合起來,支持大模型廣泛應用。
下一步,應該以大模型測試驗證工作為抓手,構建前瞻性、引領性的測評驗證及平臺服務,加速中國大模型技術創新、產品迭代和應用推廣,促進大模型領域重大研究成果產業化落地。
一、發展現狀
1.大模型應用評測需求強烈,急需面向產業的解決方案
當前,產業界對大模型行業應用場景的評估需求十分強烈,根據Meta等在《GAIA: A Benchmark for General AI Assistants》的測試結果顯示,人類針對某些實際應用場景的問題回答準確率為92%,而即使是帶有插件的 GPT-4 僅有15%的準確率,說明大模型在實際應用場景上仍然有較大的提升空間。中國信通院發布“方升”大模型基準評測體系,涵蓋測試指標、測試方法、測試數據集和測試工具關鍵四要素,重點強化行業和應用導向能力的考查。
自2023年下半年起,大模型已持續滲透到金融、醫療、軟件工程、教育、法律、科研、政務、電信、能源等多個垂直行業。據統計,超過50%的大模型基準評測數據集側重于考察模型的通用能力,但面向行業的基準評測已經取得顯著進展,行業評測數據集數量明顯增加,如金融領域的FinEval、PIXIU,醫療領域的PubMedQA、CMExam,軟件工程領域的CoderEval、OpsEval,電信領域的TeleQnA、NetEval等。大模型行業評測需要重點考察行業基礎知識和行業應用場景,由于行業數據的敏感性,70%的行業評測數據集側重于評估行業基礎知識,而在行業應用場景方面,智能客服、知識管理、數據分析、辦公助手、內容創作、代碼助手等是大模型的重點落地方向。
2.大模型基準評測“百花齊放”,全面賦能“產用管”關鍵環節
據不完全統計,目前產學研各界已經出現超過300種大模型基準評測的相關成果。僅2023年,新推出的評測數據集數量就超過200個。其中,較著名的大模型評測榜單包括Hugging Face推出的Open LLM Leaderboard和Chatbot Arena,以及國內的CompassRank、SuperCLUE和FlagEval等。高頻評測數據集包括MMLU、C-Eval、CMMLU、BBH、AGIEval、MBPP、HumanEval、GSM8K、MATHVISTA、MMMU等。大模型在評測數據集上的最佳測試分數不斷刷新,一定程度上反映出大模型的能力在持續提升。同時,基準評測的重要性也日益凸顯,已全面賦能大模型“產用管”各關鍵環節。在研發階段,基準評測被用于快速挖掘大模型當前的不足與痛點問題,推動大模型能力持續提升;在應用階段,基準評測用于大模型落地效果驗證,助力產品的選型(POC)測試和商業推廣;在管理階段,基準評測用于對大模型能力進行持續監控,引導其正向發展。
3.評測效率影響模型迭代,企業級自動化評測平臺迎來新發展
大模型基準評測的關鍵流程包括測試需求分析、測試數據準備、測試環境準備、基準測試執行、測試結果評估、測試報告生成、測試結果分析等。其中,測試數據準備和測試結果評估這兩步需要大量的人力投入,工作繁瑣。傳統的腳本化測試框架無法滿足高速迭代的業務需求,需要構建人工智能評測平臺來提升測試效率。
2023年,上海人工智能實驗室、北京智源研究院、天津大學等科研機構紛紛推出自研的基準測試平臺或框架,極大降低了基準評測的上手門檻。其中,上海人工智能實驗室的OpenCompass(司南)框架開源生態較為完善,兼容多個評測數據集和大模型,支持分布式測試等功能。為了實現測試結果的自動化評估,減少專家評估人力投入,北京智源研究院和智譜AI分別推出評估大模型JUDGELM和CRITIQUELLM,測試結果表明大模型評估和人工評估的符合度可超過90%。目前,已有包括華為、字節跳動等公司啟動企業級人工智能評測平臺的構建。
2023年6月8日,上海首家生成式人工智能(AIGC)質量檢驗檢測中心掛牌批籌,為AI大模型等智能軟件提供專業化“體檢”。掛牌初兩個月,這家AI質檢中心已出具75份“體檢報告”。主要面向生成式人工智能所涉及的計算機視覺、自然語言處理、內容生成等領域,聚焦人工智能生成內容的語義表達能力、邏輯推理能力、合成內容鑒別能力,以及功能、性能、安全性評估等,通過提供全方位的測評服務,以保障人工智能系統或應用的質量。對于一些大型復雜AI系統的檢測,甚至需要根據應用場景專門搭建檢測檢驗系統,耗時可能長達半年,同時還需要研發大量相關技術與標準。近三年來,上海軟件中心為上海乃至長三角地區人工智能企業與應用方提供專業的第三方測評服務數,年均超過500項,累計發布AI檢測相關標準30余項。通過質檢,廠商能更清晰地了解AI軟件的性能,對產品的迭代與優化更有針對性。
2024年3月,國內首個智能機器人中試驗證平臺在上海成立,進一步加強智能機器人的應用賦能,主要聚焦三個方面:一是建設垂類大模型測試床,加速大模型落地進程;二是形成人工智能大模型工業軟件的自主可控測試平臺,建立工業產品準入門檻;三是形成基于區塊鏈的安全測試與性能測試平臺,為數據安全提供“可見可控”的解決方案。該中試驗證平臺可助力人工智能領域的理論研究和技術創新快速轉化為實際應用,推動技術從實驗室到市場的轉化,助力創新成果的商業化和規?;?,將專注于垂類模型的安全能力評估,提高人工智能系統的整體安全性和可靠性,對人工智能在高風險領域的應用拓展尤為重要。
二、面臨的問題與挑戰
1.標準缺位
目前,AI檢測尚屬于企業自主行為,未來對于大模型的安全性、可解釋性、倫理風險等的檢測檢驗,尚未形成國家強制標準。
2.大模型“刷榜”問題頻出,新測試方法保障結果公正
少量大模型在訓練階段加入評測數據來完成模型“刷榜”,損害了大模型榜單的公平性和可信度,評測數據的污染和泄露是當前產業界急需解決的問題。
目前,國內的上海人工智能實驗室、上海交通大學、中國人民大學、昆侖萬維,以及國外的UC Berkeley、佐治亞理工大學等紛紛推出針對評測數據集污染的衡量指標和工具,可以支持包括MMLU、GSM8K等主流數據集的污染檢測,一定程度上緩解了數據污染的問題。
動態測試也逐步引入以保障評測結果的真實性。復旦大學推出LLMEval評測框架,通過從海量題庫中隨機抽樣的1000題來確保每次評測題目不重復。中國信通院創新性提出自適應動態測試方法,這些努力有助于解決大模型“刷榜”問題,提高評測結果的公正性。
三、促進人工智能檢驗檢測發展的相關建議
1.標準先行
檢測檢驗是行業話語權的重要標志,檢測標準往往是一個行業的發展風向標。人工智能飛速發展不能簡單套用傳統產業“先立標準后檢測”的“守底線”模式,而應采用檢測與標準同步發展的新型模式,以起到規范、引領產業的作用。
2.加強載體建設
深耕大模型、生成式人工智能等前沿領域,全力支撐大模型測試驗證與協同創新中心重大功能性平臺建設,做好大模型企業全鏈條服務,營造大模型產業發展活躍生態。
3.謹慎治理,構建高標準可控治理體系
支持探索大模型評測基準及工具,推動大模型自動評測技術發展。不斷完善監管體系,督促大模型企業使用安全可控的技術手段開展自評估。推動通用大模型備案工作,為重點企業提供服務和指導,以爭取更多本市優質的大模型產品上線服務。
[作者蔣媛媛系上海社會科學院應用經濟研究所副研究員,王業強系中國社會科學院生態文明研究所研究員,吳苡婷系上??萍紙笾魅斡浾?。本文系2024年度上海社會科學院重大課題《人工智能賦能新型工業化的作用機制研究》和中國社會科學院重大創新項目“科技創新推動智能強國研究”(批準號:2023YZD019)的中期成果。]





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司