▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

大模型的基礎設施如何建?首先要搭千卡萬卡規模的網絡架構

澎湃新聞記者 邵文
2023-05-25 08:11
來源:澎湃新聞
? 未來2% >
字號

·之前經常說摩爾定律是需要一年半翻一番,新的人工智能時代大模型的“摩爾定律”也有這樣的規律,甚至比原來的摩爾定律還要快,基本上每8-10個月就要翻一番。

“生成式AI是一個跨越式的技術,和原來的技術有了非常大的變革,可以說是劃時代的技術。它最大的特點就是模型大,過去幾年以每年10倍參數量的速度在增長。之前AI應用里,很多訓練的任務都是單卡或單機就能完成,但在大模型時代,需要千卡、萬卡來完成一個任務?!?月23日,百度杰出系統架構師王雁鵬在深圳舉行的文心大模型技術交流會上說道。

在王雁鵬看來,在這樣的算力要求下,智算基礎設施的設計范式演進已經發生轉變。要構建這樣萬卡規模的大模型基礎設施,核心需要關注的有四點:

第一,需要構建智算集群,能夠支持萬卡級別的高速互聯,并且支持各種異構算力,包括CPU(中央處理器)、GPU(圖形處理器)等算力的高速互聯。

第二,光有硬件能力還很難有好的效果,比如要發揮一張GPU或AI芯片的性能,非常難,所以要把軟件棧優化好,這最終會體現在訓練和推理的性能加速優化上。

第三是高性價比,構建這樣一個系統需要有更合理的技術選擇,最貴的東西也不能滿足全部需求,做存儲分層、計算分層,主要是要達到更高性價比。

在這個基礎上,易用性是前所未有的挑戰,比如萬卡規模的運算需要穩定的運行,彈性的容錯,并且能夠在易用平臺上一站式應用。

據百度智能云副總裁朱勇透露,自3月16日“文心一言”內測以來,通過算法和模型的持續優化,在企業服務中,“文心一言”在高頻場景下的推理性能已大幅提升50倍。

如何實現這一結果?在演講中,王雁鵬從技術角度解釋了這一個月的工作,以及新的技術范式演進下的思路轉換。

以下為澎湃科技(www.kxwhcb.com)整理的演講實錄,有刪減:

生成式AI是一個跨越式的技術,和原來的技術有了非常大的變革,可以說是劃時代的技術。它最大的特點就是模型大,過去幾年以每年10倍參數量的速度在增長。之前AI的應用里,很多訓練的任務都是單卡或者單機就能完成,但是在大模型時代,需要千卡、萬卡完成一個任務。

光增加模型規模,并不能很好提升模型的效果和性能,還要同比去增長數據量級。所以把模型規模乘以數據量級,基本可以看到,數據量也是以指數級提升的。

這和摩爾定律非常像。之前經常說摩爾定律是需要一年半翻一番,新的人工智能時代大模型的“摩爾定律”也有這樣的規律,甚至比原來的摩爾定律還要快,基本上每8-10個月就要翻一番。但和原來的摩爾定律又有本質上的不同,原來的摩爾定律基本是半導體的規律,是工藝和半導體生產的規律。對于大模型,光有芯片能力很難發揮出來,還需要芯片、框架、系統全棧的整體優化。

在這么大的算力需求下,智算基礎設施的設計范式演進發生了什么轉變?

直觀理解,首先是計算規模大。按照GPT-3的規模來計算,如果用一張現在最先進的A100卡,需要跑32年。從模型參數來看,350G的存儲空間,再加上運行時有大量的參數存儲,可能是幾個T(1T=1024G)的數據量。如果了解GPU會知道,單卡是80G顯存容量。如果跑幾個T的模型,意味著需要上千張卡同時運行,最終折算在成本上,跑一次大模型的訓練成本需要幾千萬,乃至于上億元人民幣。如果往后看,推理成本占比更大。

這個背后映射到幾點技術的變革。

一個是分布式架構的演進。現在互聯網分布式架構其實是一種比較松耦合(提供了更好的可擴展性和可維護性,同時降低了系統之間的依賴性)的方式?,F在的數據中心也會有幾萬臺機器,甚至十幾萬臺機器連在一起,但更多是每一臺完成自己的任務,它的通信和容錯能力都比較低。但千張卡、萬張卡大規模同步運行,有大量的數據交互,所以這需要分布式架構的演進。

第二是計算精度,整體向低精度遷移,混合精度是常態。

再向后看,存儲也帶來更大的瓶頸,光有計算的提升是不夠的,還要有大量的數據在系統里流動。像芯片技術中,數據的搬運消耗遠高于數據計算,所以在芯片層面,在整個系統層面,怎樣解決存儲問題,也是非常大的挑戰。

在這個模式下,要構建一個大模型基礎設施,我們最關注的有四點:

第一,需要構建智算集群,能夠支持萬卡級別的高速互聯,并且支持各種異構算力,包括CPU、GPU等算力的高速互聯。

第二,光有硬件能力還很難有好的效果,比如要發揮一張GPU或AI芯片的性能,非常難,所以要把軟件棧優化好,這最終會體現在訓練和推理的性能加速優化上。

再接著是高性價比。構建這樣一個系統也不能什么東西都用最貴的,最貴的東西也不能滿足全部需求,我們需要有更合理的技術選擇,做存儲分層、計算分層也好,主要是要達到更高性價比。

在這個基礎上,易用性是前所未有的挑戰,比如用萬卡的時候需要穩定的運行,彈性的容錯,并且能夠在易用平臺上一站式應用。

從技術棧上,我重點分享一些核心技術和關鍵點。

大模型的智算基礎設施。

第一,怎么構建萬卡規模的網絡架構?在這么大規模下,要保證網絡的擴展性,以及沒有擁塞,是非常困難的事。大模型的通信特點是,有很多集合通信的操作,集合通信可以分解成在同號卡之間的集合通信。也就是說,單機要8張卡,多機并行只需要同號卡之間做集合通信。在此基礎上,我們優化了網絡架構,在同號卡之間構建高速的通信通道,這樣可以保證任何通信都能解決,大大提升整體網絡的吞吐,以及消除各種網絡擁塞和沖突的可能性。

除了計算側,存儲側是另外一個重點。我們既需要容量大,也需要速度快,所以設計了多級存儲系統,對于大量數據還是存在對象存儲BOS(云存儲服務)系統里,它可以支持非常大規模的容量。在高速訓練的時候,就需要它扮演相當于緩存系統的角色。

再向上看就是加速層,尤其對于AI訓練來說,這個流程非常長,包括了IO預處理(對計算機輸入輸出數據進行預處理,包括檢查數據有效性、合法性、完整性和一致性),IO讀?。ㄝ斎?輸出、Input/Output的簡寫),還有各種算子高性能的實現,或算子的融合等技術,還包括通信的優化,顯存利用率。要把整個軟件棧的一整套東西,集成在訓練加速套件里。往后看,推理加速套件是更值得關注的地方。對大模型來說,推理會產生非常大的困難。為什么百度在文心一言發布后的一個月時間里,讓推理性能提升50倍,我們相當于做了集中攻關和整套軟件的優化。

再往上是框架側,就是所謂的4D混合并行(在機器學習訓練過程中,同時使用模型并行、數據并行、流水線并行和分布式并行等四種并行策略)。對這么大的計算,怎么樣拆到各個GPU里,有不同的并行策略,這種并行策略的目的是得到更優的計算效能。光有并行策略還不夠,并行策略怎樣跟計算的集群硬件去映射,這是更關鍵的地方。如果只是一個模型,可以不斷嘗試并行策略,基本上能得到相對好的效果,但如果支持更多的模型,就需要做不一樣的嘗試,這也很難得到比較優的效果。我們在這塊投入很大精力,基本上可以做到全自動的并行,不管是什么樣的硬件拓撲和硬件的組合,都能夠在分布式層做到自動。

這些基礎打好了,接下來容錯就是非常關鍵的點,基本上在萬卡規模下,不可能不出錯。集合通信的通信模式,天生也是容錯性比較差的。我們這塊也做了大量工作,現在基本上在通信庫層、框架層、調度層可以做到不同層次的容錯,得到千億參數大模型訓練可以不中斷的效果。

    責任編輯:鄭潔
    校對:劉威
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 津南区| 迁安市| 都江堰市| 商水县| 宣城市| 平塘县| 紫云| 保康县| 蒲城县| 永吉县| 梁山县| 邵阳县| 岚皋县| 新竹市| 杭锦旗| 九台市| 友谊县| 三门县| 泽州县| 武邑县| 海兴县| 曲阳县| 湘西| 体育| 河曲县| 格尔木市| 祥云县| 会宁县| 南投市| 玉田县| 陆川县| 公安县| 芜湖市| 扶风县| 花垣县| 东乌珠穆沁旗| 太仓市| 石家庄市| 蕉岭县| 河北省| 汝阳县|