- +1
國家超算互聯(lián)網(wǎng)平臺上線超長文本多模態(tài)大模型,助力AI智能體開發(fā)
隨著越來越多的智能體(Agent)進入應用場景,無論是單個智能體工作時產(chǎn)生的記憶,還是多個智能體協(xié)作產(chǎn)生的上下文,都會對大模型的上下文窗口長度提出更高要求。澎湃科技4月15日獲悉,國家超算互聯(lián)網(wǎng)平臺近日已上線超長文本多模態(tài)大模型,該模型由上海稀宇科技有限公司(以下簡稱“稀宇科技”)研發(fā),分別為MiniMax-Text-01和MiniMax-VL-01。

SCNet超算互聯(lián)網(wǎng)平臺chat頁面截圖
國家超算互聯(lián)網(wǎng)作為國家級算力服務平臺,于2024年4月正式上線,今年2月啟動了“AI生態(tài)伙伴加速計劃”,提供3個月DeepSeek API接口免費使用、千萬卡時算力資源池等激勵,并通過技術(shù)賦能、市場協(xié)同、資源扶持三位一體,加速生態(tài)伙伴全面發(fā)展。
統(tǒng)計數(shù)據(jù)顯示,自上線一年以來,國家超算互聯(lián)網(wǎng)平臺總用戶量已突破35萬,連接了全國14個省區(qū)市20多家超算和智算中心,并上線算力商品超6500款。澎湃科技注意到,其中AI模型服務有近240款,既有阿里通義千問Qwen、DeepSeek等國內(nèi)開源模型,也有Llama、Stable Diffusion、Gemma等國外AI開源模型。
稀宇科技認為,該公司此次與國家超算互聯(lián)網(wǎng)平臺的合作能激發(fā)更多關(guān)于長上下文技術(shù)的創(chuàng)新研究與實際應用。長上下文能力與多模態(tài)處理能力的提升,有助于智能體為各行業(yè)帶來更豐富、高效的解決方案。
“放眼國內(nèi)外的大模型,‘大腦’雖大,但‘記憶力’往往不夠。”稀宇科技研發(fā)負責人表示,“如果讓大模型理解一份長達1000頁的法律合同、一部長篇小說或一個幾十萬行的源代碼項目,并給出準確的摘要、發(fā)現(xiàn)潛在風險、提出結(jié)構(gòu)化建議,大多數(shù)大模型都無法完成任務,因為它們連讀完材料也做不到,更不用說音視頻等多模態(tài)信息處理了。而MiniMax-01可以做到,因為它的上下文窗口約為700萬字,相當于一下子讀完中國四大文學名著和哈利波特全集。”
據(jù)了解,今年初發(fā)布并開源的新一代系列模型MiniMax-01首次將線性注意力機制擴展到商用模型級別,綜合能力躋身全球第一梯隊。特別是在“上下文長度”這個指標上,它達到了國內(nèi)外一些頂尖模型的20—32 倍水平,推理時的上下文窗口能達到400萬token(詞元)。在架構(gòu)上,MiniMax-Text-01幾乎重構(gòu)了訓練和推理系統(tǒng),模型的參數(shù)量高達4560億,每次激活459億。在注意力機制層面,它的80個注意力層有架構(gòu)創(chuàng)新,使大模型在處理長輸入時在確保處理效果的同時做到了低延遲。這意味著該模型不僅能一次性完成大量文字的分析,還能做到真正理解并高效處理超長內(nèi)容。
此次MiniMax加入國家超算互聯(lián)網(wǎng),將充分利用平臺強大的算力資源、開放協(xié)作的生態(tài)體系以及廣泛的開發(fā)者網(wǎng)絡,稀宇科技認為,“此次合作不僅能夠激發(fā)更多關(guān)于長上下文技術(shù)的創(chuàng)新研究與實際應用,推動Agent時代更快到來,也能通過開源形式進一步激勵我們開展更深入、高質(zhì)量的模型研發(fā)和創(chuàng)新工作?!蔽磥?,該公司還將繼續(xù)以開源形式發(fā)布新版旗艦模型,并與國家超算互聯(lián)網(wǎng)展開深入合作,共同推動國產(chǎn)人工智能技術(shù)加速發(fā)展。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司