“AI界的拼多多”DeepSeek發布新模型

澎湃新聞記者喻琰

2024-12-27 15:21

來源：澎湃新聞

12月26日晚間，杭州深度求索人工智能基礎技術研究有限公司（以下簡稱“深度求索”）宣布，全新系列模型DeepSeek-V3首個版本上線并同步開源。

深度求索表示，DeepSeek-V3在知識類任務（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2.5顯著提升，接近當前表現最好的模型Anthropic公司于10月發布的Claude-3.5-Sonnet-1022。在美國數學競賽（AIME 2024, MATH）和全國高中數學聯賽（CNMO 2024）上，DeepSeek-V3大幅超過了其他所有開源閉源模型。另外，在生成速度上，DeepSeek-V3的生成吐字速度從20TPS（Transactions Per Second每秒完成的事務數量）大幅提高至60TPS，相比V2.5模型實現了3倍的提升，能夠帶來更加流暢的使用體驗。

DeepSeek-V3和其他模型的比較。圖片來源：Deep Seek微信公眾號

Meta AI研究科學家田淵棟對DeepSeek-V3各個方向上的進展都表示贊賞，稱“這是一項了不起的工作”。

據官方技術論文披露，DeepSeek-V3模型的總訓練成本為557.6萬美元，而GPT-4o等模型的訓練成本約為1億美元。深度求索表示，“這是一個全新的開始。”。

公開信息顯示，深度求索成立于2023年7月17日，由知名量化資管巨頭幻方量化創立，幻方量化創始人梁文峰在量化投資和高性能計算領域具有深厚的背景和豐富的經驗。成立半年后，發布了第一代大模型DeepSeek Coder；2024年5月發布了其第二代開源Mixture-of-Experts（MoE）模型——DeepSeek-V2。DeepSeek V2模型因在中文綜合能力評測中的出色表現，且以極低的推理成本引發行業關注，被稱為“AI界的拼多多”。DeepSeek-V3模型API服務定價為每百萬輸入tokens為0.5元（緩存命中）/2元（緩存未命中），每百萬輸出tokens價格為8元，并享有45天的優惠價格體驗期。

責任編輯：宦艷紅

圖片編輯：朱偉輝

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#DeepSeeK #國產大模型