200億參數GPT-NeoX即將開源：96塊A100訓練三個月，野生GPT家族再添一員

2022-02-08 07:47

來源：澎湃新聞·澎湃號·湃客

機器之心報道

編輯：蛋醬

野生 GPT 家族又多了一個新成員：GPT-NeoX-20B。

經歷了長達數月的芯片短缺導致的出貨延遲、技術試驗以及反復調試之后，EleutherAI 在今天官宣了最新的 200 億參數開源語言模型「GPT-NeoX-20B」。

自從 2020 年 5 月 OpenAI 高調推出 1750 億參數「GPT-3」，人工智能領域就掀起了一陣大模型的巨浪。由于微軟擁有對 GPT-3 源代碼的獨家訪問權，不同于 GPT-2 和 GPT-1，OpenAI 并沒有開源 GPT-3，而是通過商業 API 來提供該模型的能力及訓練數據集。這些服務很快開始收費，且價格不菲：

基礎模型價格標準。

微調模型價格標準。

按照這樣的收費標準，很多普通用戶是玩不起的。所以，目前 OpenAI API 更適用于大規模企業用戶。

這種「矛盾」恰恰推動了 EleutherAI 的誕生，促使其開發「野生版」 GPT-3。

EleutherAI 成立于 2020 年 7 月，是一個由機器學習研究人員組成的小組，宗旨是努力構建和開源大型語言模型。此前，他們開發了 GPT-Neo，這是 GPT-3 的復現與開源中最優秀的項目之一。去年 3 月，EleutherAI 在 GPT-Neo 項目主頁放出了復現版 GPT-3 的模型參數（1.3B 和 2.7B 級別），并將其更新在了 Colab notebook 上。不過，GPT-Neo 開源模型里較大的版本也只達到了 GPT-3 商用版里最小模型的參數量。去年 6 月，EleutherAI 又開源了 60 億參數的自然語言處理 AI 模型 GPT-J。

現在，更大規模、更優表現的 GPT-NeoX-20B 已經面世。研究者稱，GPT-NeoX-20B 是目前最大的可公開訪問的預訓練通用自回歸語言模型，并在多項任務上取得了優于 OpenAI Curie 的不俗表現。

對于 EleutherAI 來說，GPT-NeoX-20B 只能算是一項階段性成果，他們的最終目標是將參數規模擴展到 1700 億左右，就像 GPT-3 一樣。

如何打造 GPT-NeoX-20B

實際上，在打造類 GPT 系統的道路上，研究者首先發現了訓練大模型時的數據挑戰。

由于 OpenAI 對訓練過的數據細節很吝嗇（而且肯定不會發布副本），因此 EleutherAI 自己創建了一個用于語言建模的 800GB 多元文本數據集。

2021 年元旦，EleutherAI 發布了 The Pile，這是一個 825GB 的用于訓練的多樣化文本數據集。The Pile 由 22 個不同的高質量子集構成，包括現有的和新建的，其中許多來源于學術領域或各專業領域。

論文鏈接：https://arxiv.org/abs/2101.00027

下載地址：https://pile.eleuther.ai/

這個數據集也是開源的，前不久，研究者另外發布了一份關于 The Pile 的數據手冊：https://arxiv.org/pdf/2201.07311.pdf

The Pile 數據集為 GPT-NeoX-20B 的搭建鋪平了一半的道路，另一半挑戰則來自于硬件。此前，在 GPT-Neo 和 GPT-J 的訓練過程中，EleutherAI 都是通過 TPU Research Cloud (TRC) 訪問搶占式 TPU，但想在合理的時間內用 TRC TPU 訓練超過數百億參數的模型是不現實的。

2021 年 1 月，EleutherAI 宣布與 CoreWeave 達成合作，CoreWeave 承諾為 GPT-NeoX-20B 模型訓練提供 GPU 資源。研究者透露，他們在 96 個 A100 上完成了 GPT-NeoX-20B 的訓練，這些 A100 分布在由 HDR Infiniband 互連的十幾個節點上，訓練時間持續了大約三個月。