- +1
200億參數GPT-NeoX即將開源:96塊A100訓練三個月,野生GPT家族再添一員
機器之心報道
編輯:蛋醬
野生 GPT 家族又多了一個新成員:GPT-NeoX-20B。
經歷了長達數月的芯片短缺導致的出貨延遲、技術試驗以及反復調試之后,EleutherAI 在今天官宣了最新的 200 億參數開源語言模型「GPT-NeoX-20B」。
自從 2020 年 5 月 OpenAI 高調推出 1750 億參數「GPT-3」,人工智能領域就掀起了一陣大模型的巨浪。由于微軟擁有對 GPT-3 源代碼的獨家訪問權,不同于 GPT-2 和 GPT-1,OpenAI 并沒有開源 GPT-3,而是通過商業 API 來提供該模型的能力及訓練數據集。這些服務很快開始收費,且價格不菲:

基礎模型價格標準。

微調模型價格標準。
按照這樣的收費標準,很多普通用戶是玩不起的。所以,目前 OpenAI API 更適用于大規模企業用戶。
這種「矛盾」恰恰推動了 EleutherAI 的誕生,促使其開發「野生版」 GPT-3。
EleutherAI 成立于 2020 年 7 月,是一個由機器學習研究人員組成的小組,宗旨是努力構建和開源大型語言模型。此前,他們開發了 GPT-Neo,這是 GPT-3 的復現與開源中最優秀的項目之一。去年 3 月,EleutherAI 在 GPT-Neo 項目主頁放出了復現版 GPT-3 的模型參數(1.3B 和 2.7B 級別),并將其更新在了 Colab notebook 上。不過,GPT-Neo 開源模型里較大的版本也只達到了 GPT-3 商用版里最小模型的參數量。去年 6 月,EleutherAI 又開源了 60 億參數的自然語言處理 AI 模型 GPT-J。
現在,更大規模、更優表現的 GPT-NeoX-20B 已經面世。研究者稱,GPT-NeoX-20B 是目前最大的可公開訪問的預訓練通用自回歸語言模型,并在多項任務上取得了優于 OpenAI Curie 的不俗表現。

對于 EleutherAI 來說,GPT-NeoX-20B 只能算是一項階段性成果,他們的最終目標是將參數規模擴展到 1700 億左右,就像 GPT-3 一樣。
如何打造 GPT-NeoX-20B
實際上,在打造類 GPT 系統的道路上,研究者首先發現了訓練大模型時的數據挑戰。
由于 OpenAI 對訓練過的數據細節很吝嗇(而且肯定不會發布副本),因此 EleutherAI 自己創建了一個用于語言建模的 800GB 多元文本數據集。
2021 年元旦,EleutherAI 發布了 The Pile,這是一個 825GB 的用于訓練的多樣化文本數據集。The Pile 由 22 個不同的高質量子集構成,包括現有的和新建的,其中許多來源于學術領域或各專業領域。

論文鏈接:https://arxiv.org/abs/2101.00027
下載地址:https://pile.eleuther.ai/
這個數據集也是開源的,前不久,研究者另外發布了一份關于 The Pile 的數據手冊:https://arxiv.org/pdf/2201.07311.pdf
The Pile 數據集為 GPT-NeoX-20B 的搭建鋪平了一半的道路,另一半挑戰則來自于硬件。此前,在 GPT-Neo 和 GPT-J 的訓練過程中,EleutherAI 都是通過 TPU Research Cloud (TRC) 訪問搶占式 TPU,但想在合理的時間內用 TRC TPU 訓練超過數百億參數的模型是不現實的。
2021 年 1 月,EleutherAI 宣布與 CoreWeave 達成合作,CoreWeave 承諾為 GPT-NeoX-20B 模型訓練提供 GPU 資源。研究者透露,他們在 96 個 A100 上完成了 GPT-NeoX-20B 的訓練,這些 A100 分布在由 HDR Infiniband 互連的十幾個節點上,訓練時間持續了大約三個月。

有人根據 AWS 的收費標準粗略地計算了一下訓練過程所需要的成本,大概有 86 萬美元:

在后續即將發布的詳細文檔中,研究者還將對 GPT-NeoX-20B 的訓練細節進行更多介紹。
GPT-NeoX-20B 性能如何?
研究者首先在 LAMBADA 等多項標準任務上對比了 GPT-NeoX-20B 與 Babbage、Curie、DaVinci 這些 OpenAI 商業 API 以及 GPT-J-6B 等模型的表現。
從性能表現上來看,GPT-NeoX-20B 總體優于 Babbage、Curie、GPT-J-6B,但和 DaVinci 相比還存在一定差距。

標準語言建模任務的準確性對比。

根據 HendrycksTest 評估,各模型對不同學科組事實知識的準確性測量對比。
還有很重要的一點是:GPT-NeoX-20B 如何開源并提供給廣大開發者使用?
有人表示,自己曾在一年前申請了 GPT-3 的訪問權限,但從未收到回復。在 GPT-NeoX-20B 項目中,這樣的情況顯然不會發生。

從 2 月 9 日開始,GPT-NeoX-20B 完整的模型權重可以在 The Eye 的 Apache 2.0 許可下免費下載。此外,用戶也可以在 https://goose.ai (https://goose.ai/) 上試用該模型。
參考鏈接:
https://blog.eleuther.ai/announcing-20b/
https://www.reddit.com/r/MachineLearning/comments/sit4ro/n_eleutherai_announces_a_20_billion_parameter/、? THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
原標題:《200億參數GPT-NeoX即將開源:96塊A100訓練三個月,野生GPT家族再添一員》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司