MiniMax發布新一代開源模型，首次大規模實現線性注意力機制

澎湃新聞記者喻琰實習生江雅雯

2025-01-15 14:52

來源：澎湃新聞

1月15日，澎湃科技（www.kxwhcb.com）獲悉，AI獨角獸企業MiniMax上海稀宇科技有限公司（以下簡稱“MiniMax”）發布并開源新一代01全新系列模型。該系列模型包含基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。MiniMax稱該系列模型可以實現高效超長文本輸入。MiniMax認為，2025年將是Agent高速發展的關鍵年份，無論是單Agent系統還是多Agent系統，都需要更長的上下文來支持持續記憶和大量通信。

據了解，MiniMax-01系列模型首次大規模實現線性注意力機制，傳統Transformer架構不再是唯一的選擇。

MiniMax-01系列模型核心性能在多項任務評測結果顯示結果

目前領先的大語言模型大都基于Transformer架構，而Transformer核心的自注意力機制是其計算成本的重要來源。為了優化計算效率，MiniMax研究社區提出了稀疏注意力、低秩分解和線性注意力等許多技術。通過使用線性注意力，原生Transformer的計算復雜度可從二次復雜度大幅下降到線性復雜度，在處理長輸入的時候具有非常高的效率。

據了解，該模型的參數量高達4560億，其中單次激活459億。模型綜合性能比肩海外頂尖模型，同時能夠高效處理全球最長400萬token的上下文，是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。

MiniMax認為，2025年將是Agent高速發展的關鍵年份，無論是單Agent系統還是多Agent系統，都需要更長的上下文來支持持續記憶和大量通信。MiniMax-01系列模型的推出，正是為了滿足這一需求，邁出建立復雜Agent基礎能力的第一步。

此外，MiniMax聲稱受益于架構的創新、效率的優化、集群訓推一體的設計以及內部大量并發算力復用，得以用業內最低的價格區間提供文本和多模態理解的API，標準定價是輸入token1元/百萬token，輸出token8元/百萬token。

目前，MiniMax-01系列開源模型已應用于MiniMax旗下產品海螺AI，并在全球范圍內上線，企業與個人開發者可前往MiniMax開放平臺使用API。

責任編輯：宦艷紅

圖片編輯：李晶昀

校對：劉威

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#MiniMAX #開源模型 #線性注意力機制