▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

2025年GDC|“以人為本”大模型評測體系正式發布

澎湃新聞記者 張靜
2025-02-23 14:41
來源:澎湃新聞
? 未來2% >
字號

“大模型能力越來越強,各類評測榜單層出不窮,模型分數越刷越高,但大模型的能力對我們個人來說究竟有什么用,我們并不知道。”2月22日,在2025全球開發者先鋒大會(GDC)“浦江AI生態論壇”上,上海人工智能實驗室雙聘研究員、上海交通大學教授翟廣濤表示,大模型終究要為人服務,當前以模型為中心的先出題、再做題、算分的評價模式面臨數據泄露和性能飽和兩大挑戰,大模型出現“高分低能”。

為了應對這種情況,上海人工智能實驗室提出了“以人為本”的評測思路。上海人工智能實驗室大模型開放評測平臺司南正式發布“以人為本”(Human-Centric Eval)的大模型評測體系,系統評估大模型能力對人類社會的實際價值,為人工智能應用更貼近人類需求提供可量化的人本評估標注。

上海人工智能實驗室提出“以人為本”的評測思路。

傳統大模型基準測試普遍采用結果導向的評價標準,這種評價方式雖然能夠直觀反映模型性能,卻忽略了人類實際需求。司南團隊提出的評測方案根據人類需求設計實際問題,讓人與大模型協作解決,再由人類對模型的輔助能力進行主觀評分,以此補充客觀評價的不足,使評估更貼合人類感知。

其中,“認知科學驅動”評估框架圍繞解決問題能力、信息質量、交互體驗三大核心維度,構建覆蓋多場景、多領域的主觀評測體系。通過模擬學術研究、數據分析、決策支持等真實人類需求,由用戶與大模型協作完成任務,并基于人類主觀反饋量化評估模型的實際應用價值,為下一步技術研發與產業落地提供科學參考。

為了驗證“以人為本”評估方式的有效性,同時評測大模型在研究生學術研究中的應用價值,司南團隊選取了當前公認的優秀模型DeepSeek-R1、GPT-o3-mini、Grok-3作為評測對象,組織有學術研究需求的研究生參與。團隊根據文獻綜述、數據分析、可行性研究等學術研究中的常見需求,設計了人工智能、法律、金融等8個領域的相關問題,研究生與大模型協作解決。實驗結果顯示,所有受測模型分析準確性、思考全面性、協助高效性維度能力均勢。DeepSeek-R1在解決生物、教育學科問題上表現突出;Grok-3在金融、自然領域優勢明顯;GPT-o3-mini則在社會領域表現良好。

    責任編輯:宦艷紅
    校對:張亮亮
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 麦盖提县| 祁阳县| 阜阳市| 河西区| 岚皋县| 石渠县| 页游| 刚察县| 沭阳县| 东兰县| 长乐市| 武宣县| 紫阳县| 孟州市| 龙泉市| 繁昌县| 扎赉特旗| 沛县| 永清县| 双鸭山市| 富裕县| 林芝县| 大同市| 库尔勒市| 长子县| 贵港市| 平定县| 新余市| 股票| 白城市| 邵阳市| 英德市| 张北县| 芮城县| 壶关县| 司法| 金秀| 盘锦市| 华亭县| 前郭尔| 茌平县|