國家超算互聯(lián)網(wǎng)平臺上線超長文本多模態(tài)大模型，助力AI智能體開發(fā)

澎湃新聞記者喻琰

2025-04-16 08:03

來源：澎湃新聞

隨著越來越多的智能體（Agent）進入應用場景，無論是單個智能體工作時產(chǎn)生的記憶，還是多個智能體協(xié)作產(chǎn)生的上下文，都會對大模型的上下文窗口長度提出更高要求。澎湃科技4月15日獲悉，國家超算互聯(lián)網(wǎng)平臺近日已上線超長文本多模態(tài)大模型，該模型由上海稀宇科技有限公司（以下簡稱“稀宇科技”）研發(fā)，分別為MiniMax-Text-01和MiniMax-VL-01。

SCNet超算互聯(lián)網(wǎng)平臺chat頁面截圖

國家超算互聯(lián)網(wǎng)作為國家級算力服務平臺，于2024年4月正式上線，今年2月啟動了“AI生態(tài)伙伴加速計劃”，提供3個月DeepSeek API接口免費使用、千萬卡時算力資源池等激勵，并通過技術(shù)賦能、市場協(xié)同、資源扶持三位一體，加速生態(tài)伙伴全面發(fā)展。

統(tǒng)計數(shù)據(jù)顯示，自上線一年以來，國家超算互聯(lián)網(wǎng)平臺總用戶量已突破35萬，連接了全國14個省區(qū)市20多家超算和智算中心，并上線算力商品超6500款。澎湃科技注意到，其中AI模型服務有近240款，既有阿里通義千問Qwen、DeepSeek等國內(nèi)開源模型，也有Llama、Stable Diffusion、Gemma等國外AI開源模型。

稀宇科技認為，該公司此次與國家超算互聯(lián)網(wǎng)平臺的合作能激發(fā)更多關(guān)于長上下文技術(shù)的創(chuàng)新研究與實際應用。長上下文能力與多模態(tài)處理能力的提升，有助于智能體為各行業(yè)帶來更豐富、高效的解決方案。

“放眼國內(nèi)外的大模型，‘大腦’雖大，但‘記憶力’往往不夠。”稀宇科技研發(fā)負責人表示，“如果讓大模型理解一份長達1000頁的法律合同、一部長篇小說或一個幾十萬行的源代碼項目，并給出準確的摘要、發(fā)現(xiàn)潛在風險、提出結(jié)構(gòu)化建議，大多數(shù)大模型都無法完成任務，因為它們連讀完材料也做不到，更不用說音視頻等多模態(tài)信息處理了。而MiniMax-01可以做到，因為它的上下文窗口約為700萬字，相當于一下子讀完中國四大文學名著和哈利波特全集。”

據(jù)了解，今年初發(fā)布并開源的新一代系列模型MiniMax-01首次將線性注意力機制擴展到商用模型級別，綜合能力躋身全球第一梯隊。特別是在“上下文長度”這個指標上，它達到了國內(nèi)外一些頂尖模型的20—32 倍水平，推理時的上下文窗口能達到400萬token（詞元）。在架構(gòu)上，MiniMax-Text-01幾乎重構(gòu)了訓練和推理系統(tǒng)，模型的參數(shù)量高達4560億，每次激活459億。在注意力機制層面，它的80個注意力層有架構(gòu)創(chuàng)新，使大模型在處理長輸入時在確保處理效果的同時做到了低延遲。這意味著該模型不僅能一次性完成大量文字的分析，還能做到真正理解并高效處理超長內(nèi)容。

此次MiniMax加入國家超算互聯(lián)網(wǎng)，將充分利用平臺強大的算力資源、開放協(xié)作的生態(tài)體系以及廣泛的開發(fā)者網(wǎng)絡，稀宇科技認為，“此次合作不僅能夠激發(fā)更多關(guān)于長上下文技術(shù)的創(chuàng)新研究與實際應用，推動Agent時代更快到來，也能通過開源形式進一步激勵我們開展更深入、高質(zhì)量的模型研發(fā)和創(chuàng)新工作?！蔽磥?，該公司還將繼續(xù)以開源形式發(fā)布新版旗艦模型，并與國家超算互聯(lián)網(wǎng)展開深入合作，共同推動國產(chǎn)人工智能技術(shù)加速發(fā)展。

責任編輯：宦艷紅

圖片編輯：沈軻

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#AI #Agent