- +1
“百模大戰(zhàn)”下算力租賃需求猛增,超算架構(gòu)為大模型訓(xùn)練提速
“百模大戰(zhàn)”下大模型算力需求猛增。北京超級云計(jì)算中心搭建超算架構(gòu)大模型算力矩陣,并組建一支7×24小時(shí)技術(shù)服務(wù)團(tuán)隊(duì)。“在未來的市場競爭上,誰能把可用的資源變成好用的資源,誰就會(huì)在市場上勝出。”

北京超級云計(jì)算中心機(jī)房。
算力是當(dāng)代生產(chǎn)力,超級計(jì)算也被稱為高性能計(jì)算,同時(shí)使用幾十臺甚至幾千臺服務(wù)器這樣龐大的算力資源共同完成一個(gè)計(jì)算任務(wù)。人工智能大模型的爆發(fā)讓算力需求陡增。
“目前主流的大模型訓(xùn)練是超算使用模式,超算相比云計(jì)算更加貼合大模型訓(xùn)練場景,服務(wù)器之間的計(jì)算帶寬配比更大,是目前主流云計(jì)算環(huán)境中的計(jì)算網(wǎng)絡(luò)帶寬的數(shù)十倍,數(shù)據(jù)傳輸效率要求更高。”2023世界人工智能大會(huì)期間,北京超級云計(jì)算中心CTO甄亞楠對澎湃科技(www.kxwhcb.com)表示,北京超級云計(jì)算中心計(jì)劃陸續(xù)上線GPU卡滿足大模型訓(xùn)練,構(gòu)建算力生態(tài)。
北京超級云計(jì)算中心(下稱“北京超算”)成立于2011年,是在北京市人民政府指導(dǎo)下“院市”共建的國家重要信息化基礎(chǔ)平臺,坐落于北京市懷柔綜合性國家科學(xué)中心懷柔科學(xué)城,成立之初主要為北京市提供在線算力資源,已在北京、內(nèi)蒙古、寧夏布局三大算力樞紐。
計(jì)劃陸續(xù)上線GPU卡滿足大模型訓(xùn)練
算力是人工智能大模型訓(xùn)練的核心生產(chǎn)力,GPT-4等大模型成功的背后有著萬張訓(xùn)練卡的計(jì)算資源支撐,大模型爆發(fā)直接帶來了算力需求陡增。北京超級云計(jì)算中心營銷總監(jiān)王永旭切身感受到了大模型爆發(fā)帶來的“顛覆性”算力業(yè)務(wù)。在大模型興起前,他所在的單位算力客戶小而散,以科研院所為主;大模型流行后,AI算力需求猛增,客戶主要為AIGC(生成式人工智能)企業(yè),“ChatGPT的盛行為市場打了一劑強(qiáng)心針。”

北京超級云計(jì)算中心CTO甄亞楠。
北京超級云計(jì)算中心CTO甄亞楠介紹,“從客戶需求情況來看,現(xiàn)在大模型單次訓(xùn)練任務(wù)基本上都需要幾百張甚至幾千張GPU卡做計(jì)算加速,同時(shí)需要長周期、穩(wěn)定可靠的計(jì)算環(huán)境,保障計(jì)算任務(wù)不中斷。”他表示,相對于大型科技公司,科研院所和初創(chuàng)企業(yè)的資金實(shí)力較弱,建設(shè)算力中心的投入高,因此平衡算力成本是重要考量。如果要新建1000張GPU卡的算力規(guī)模,包括服務(wù)器、交換機(jī)、存儲、運(yùn)營等相關(guān)資金投入就需要2億元甚至更多。與此同時(shí),目前國內(nèi)仍處于缺卡狀態(tài),“各大服務(wù)器廠商要拿到新的GPU卡資源,預(yù)計(jì)供貨周期都在半年以上,算力卡供不應(yīng)求的情況應(yīng)該會(huì)一直持續(xù)到至少明年年初。”
市場對于人工智能算力的需求旺盛,北京超級云計(jì)算中心計(jì)劃陸續(xù)上線GPU卡滿足大模型訓(xùn)練。北京超算將符合推理與訓(xùn)練的算力資源通過云服務(wù)方式共享給用戶,用戶通過租賃方式遠(yuǎn)程訪問算力資源。在甄亞楠看來,這種算力使用方式性價(jià)比高,用戶無需自建算力中心就能獲得穩(wěn)定可靠的計(jì)算資源,節(jié)省使用成本,縮短計(jì)算時(shí)長,提高效率。相對于企業(yè)根據(jù)產(chǎn)品研發(fā)需求自建算力中心形成算力使用的波峰和波谷,算力服務(wù)商提供彈性算力,拉平算力需求,不浪費(fèi)算力資源。
把可用的算力資源變成好用的算力資源
“我們最近看到一些大模型的訓(xùn)練需求,服務(wù)器之間的互聯(lián)網(wǎng)帶寬一般要求達(dá)到3200Gbps,但主流的云計(jì)算服務(wù)器之間的網(wǎng)絡(luò)帶寬在200Gbps,相差十幾倍。如果環(huán)境配置和用戶需求無法統(tǒng)一,用戶的模型要么跑不起來,要么運(yùn)行效果大打折扣。”甄亞楠說,目前主流的大模型訓(xùn)練是超算使用模式,比如一個(gè)模型需要用數(shù)百甚至千張卡連續(xù)計(jì)算兩個(gè)月或者更久,超算則是把多臺服務(wù)器進(jìn)行統(tǒng)一管理和調(diào)度,實(shí)現(xiàn)高性能計(jì)算。大模型訓(xùn)練正是需要超算這種多臺服務(wù)器并行的模式,而非傳統(tǒng)云計(jì)算所采用的虛擬化共享模式。相比云計(jì)算,超算更加貼合大模型訓(xùn)練場景,服務(wù)器之間的計(jì)算帶寬配比更大,是目前主流云計(jì)算環(huán)境中的計(jì)算網(wǎng)絡(luò)帶寬的數(shù)十倍,數(shù)據(jù)傳輸效率要求更高。
根據(jù)王永旭的觀察,大模型算力客戶在選擇算力服務(wù)商時(shí),主要關(guān)注GPU卡的型號、卡間互聯(lián)、節(jié)點(diǎn)間互聯(lián)、是否為超算架構(gòu)的物理集群。大模型單次訓(xùn)練需要上百張甚至幾千張卡,因此通訊非常重要,它會(huì)極大影響訓(xùn)練的速度。用于大模型訓(xùn)練的芯片必須是卡間互聯(lián)大、節(jié)點(diǎn)間互聯(lián)好的集群,這就好比高速公路暢通無阻、不堵車。
北京超算通過算力預(yù)測判斷用戶真正需要的算力資源,基于算力選型首先保證用戶擁有可用的算力資源。甄亞楠表示,在解決可用以后要考慮如何讓算力更好用,“我們?yōu)橛脩籼峁┑牟皇菃我患夹g(shù)、單一資源,而是一套滿足用戶綜合發(fā)展需求的行業(yè)解決方案。通過7×24專家服務(wù)、平臺預(yù)置AI主流框架、常用數(shù)據(jù)集等方式,滿足用戶在算力使用中方方面面的需求。”為實(shí)現(xiàn)算力資源的好用,北京超算在提供算力資源基礎(chǔ)上組建了一支7×24小時(shí)技術(shù)服務(wù)團(tuán)隊(duì),針對模型框架的安裝、部署、優(yōu)化以及長時(shí)間運(yùn)行的保障訴求等提供在線技術(shù)支持,讓終端用戶輕松調(diào)度算力資源。
“在未來的市場競爭上,誰能把可用的資源變成好用的資源,誰就會(huì)在市場上勝出。”甄亞楠表示,目前北京超算已為北京智源人工智能研究院、智譜AI等單位提供大模型預(yù)訓(xùn)練所需的基于超算架構(gòu)的GPU算力資源。
搭建算力網(wǎng)絡(luò)期望GPU算力全國調(diào)度
今年5月,中國科學(xué)技術(shù)信息研究所發(fā)布的《中國人工智能大模型地圖研究報(bào)告》顯示,中國10億參數(shù)規(guī)模以上的大模型已發(fā)布79個(gè)。“我們希望以超算架構(gòu)支撐大模型算力應(yīng)用,成為超算架構(gòu)大模型算力領(lǐng)跑者,不管是基于當(dāng)前的大模型訓(xùn)練,還是未來可能會(huì)進(jìn)一步爆發(fā)的模型推理。”甄亞楠表示,在“百模大戰(zhàn)”之下,需要分析行業(yè)的真正痛點(diǎn),考慮未來芯片、算力規(guī)模、業(yè)務(wù)場景的發(fā)展趨勢。
大模型所需的算力分為兩類,一類是訓(xùn)練算力,一類是推理算力。訓(xùn)練是一個(gè)計(jì)算密集型的學(xué)習(xí)過程,每一次訓(xùn)練可以提升模型的精準(zhǔn)度,如果計(jì)算結(jié)果沒有達(dá)到預(yù)期,就需要調(diào)整參數(shù)重新訓(xùn)練,直到達(dá)到預(yù)期。一旦模型精準(zhǔn)度達(dá)到一定水準(zhǔn)后,就會(huì)產(chǎn)生推理需求。推理是一個(gè)判斷過程,基于訓(xùn)練好的模型,每次喂新數(shù)據(jù),產(chǎn)生更多的預(yù)測結(jié)果。
甄亞楠表示,大模型訓(xùn)練的參數(shù)多、循環(huán)次數(shù)多,單次訓(xùn)練的算力需求大,而推理的判斷邏輯相對固定,單次算力需求較小,當(dāng)推理的并發(fā)量提升,也會(huì)提高推理的算力需求。目前國內(nèi)大模型仍處于發(fā)展初期,大模型企業(yè)百舸爭流,發(fā)力點(diǎn)主要集中在大模型訓(xùn)練上,因此訓(xùn)練算力緊缺。“現(xiàn)在我們面向大模型訓(xùn)練是提供基于超算架構(gòu)的算力資源,面對推理以及小規(guī)模的測試驗(yàn)證,我們也提供基于云計(jì)算的算力資源,兩條腿走路。”
為了更好地支持人工智能產(chǎn)業(yè)發(fā)展,王永旭表示,北京超算除了部署算力資源,也在全國搭建算力網(wǎng)絡(luò),以實(shí)現(xiàn)GPU算力全國調(diào)度的目標(biāo)。此外參與到大模型用戶的MaaS(模型即服務(wù))推廣中,計(jì)劃集成算力、模型和用戶端數(shù)據(jù),為用戶提供基于大模型基座的人工智能解決方案。
“中長期內(nèi),我們關(guān)注國產(chǎn)算力以及國產(chǎn)大模型研發(fā)需求,希望構(gòu)建完善的算力生態(tài),一方面建設(shè)滿足行業(yè)需求的算力資源,提供算力共享、性能評測、應(yīng)用場景支撐等服務(wù),另一方面推動(dòng)算力供應(yīng)多元化,既提供通用GPU芯片,也提供國產(chǎn)芯片,解決供需失衡問題。”甄亞楠表示,北京超算將依托12年超算技術(shù)積淀和超算架構(gòu)大模型算力矩陣,持續(xù)領(lǐng)跑大模型算力建設(shè),以超算云服務(wù)模式實(shí)現(xiàn)海量算力資源隨需供應(yīng),為大模型訓(xùn)練需求提供一站式解決方案。






- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司