- +1
從草根社區(qū)到20億美金估值,Hugging Face為什么敢開源?
內(nèi)容摘要:
1.Hugging Face的開源精神起源于創(chuàng)始人23歲的大學時代。
2.發(fā)布自定義版本BERT模型的嘗試,讓Hugging Face轉(zhuǎn)型開源社區(qū)。
3.AI原生創(chuàng)業(yè)公司將顛覆舊有的公司。
4.AI發(fā)展太快,現(xiàn)有的盈利方式可能3-5年后就不適用了。
5.非典型創(chuàng)始人:投資人不該搶創(chuàng)業(yè)者的活。
Hugging Face是一家估值20億美元的AI獨角獸,有24個投資人,包括Lux Capital,紅杉資本等。
在大模型領(lǐng)域,我們已經(jīng)看多了巨額融資,例如OpenAI獲得微軟的百億美元投資,以及最近InflectionAI獲得微軟和英偉達的13億美元融資。
但是Hugging Face這家估值“僅20億美元”的公司,卻是目前AI領(lǐng)域的創(chuàng)造力中心之一。
因為它是一個“構(gòu)建未來的AI開源社區(qū)”,被稱為“AI領(lǐng)域的Github”,不僅有人數(shù)眾多的開發(fā)者和產(chǎn)品經(jīng)理在它的社區(qū)里研究和發(fā)布自己訓練或微調(diào)的AI模型,客戶也超過5000個(其中3000個是付費客戶)。
Hugging Face的一個重要組成部分是名為Transformers的自然語言處理庫,其Transformers庫在GitHub上擁有62000顆星和14000個分叉。這意味著開發(fā)人員和數(shù)據(jù)科學社區(qū)正在積極使用和改進Hugging Face的技術(shù)。
HuggingFace是一家估值20億美元的AI獨角獸,有24個投資人,包括LuxCapital,紅杉資本等。
在大模型領(lǐng)域,我們已經(jīng)看多了巨額融資,例如OpenAI獲得微軟的百億美元投資,以及最近InflectionAI獲得微軟和英偉達的13億美元融資。
但是HuggingFace這家估值“僅20億美元”的公司,卻是目前AI領(lǐng)域的創(chuàng)造力中心之一。
因為它是一個“構(gòu)建未來的AI開源社區(qū)”,被稱為“AI領(lǐng)域的Github”,不僅有人數(shù)眾多的開發(fā)者和產(chǎn)品經(jīng)理在它的社區(qū)里研究和發(fā)布自己訓練或微調(diào)的AI模型,客戶也超過5000個(其中3000個是付費客戶)。

HuggingFace的一個重要組成部分是名為Transformers的自然語言處理庫,其Transformers庫在GitHub上擁有62000顆星和14000個分叉。這意味著開發(fā)人員和數(shù)據(jù)科學社區(qū)正在積極使用和改進HuggingFace的技術(shù)。
根據(jù)HuggingFace的說法,Transformers提供了API,可以輕松下載和訓練最先進的預訓練模型。使用預訓練模型可以降低計算成本、減少碳足跡,并節(jié)省大量訓練模型的時間。
HuggingFace提供了一個免費增值模型,客戶可以使用其推理API,獲得基礎(chǔ)的AI推理能力以及免費的社區(qū)支持;其付費服務(wù)允許客戶輕松訓練模型,提高推理API的性能等。
它的其他產(chǎn)品和服務(wù)還包括Datasets(應(yīng)用于多模態(tài)模型的數(shù)據(jù)集),Hub(模型和數(shù)據(jù)集的托管服務(wù)),Tokenizers(高速分詞器,幫助把數(shù)據(jù)轉(zhuǎn)化成模型能理解的形式)等。
這家具有巨大潛力的AI開源獨角獸,由一位出身法國小鎮(zhèn),在都柏林大學上學的極客ClemDelangue創(chuàng)立。正是他在大學時期就具備的極客精神和開源精神,讓他在機器學習的道路上探索,并最終形成了HuggingFace獨特的社區(qū)文化和企業(yè)文化。
這位非典型的創(chuàng)業(yè)者對于AI本身有深刻理解,也對創(chuàng)業(yè),開源社區(qū)以及融資有自己的意見。
本文結(jié)合HuggingFace的投資人紅杉資本對它的深度報道以及創(chuàng)投圈著名播客20VC的主理人HarryStebbings對ClemDelangue的深度訪談,梳理出HuggingFace從0到1的進化道路,以及ClemDelangue的創(chuàng)業(yè)故事。
適道注:20VC是創(chuàng)投圈著名的播客,主理人HarryStebbings與美國最熱門的創(chuàng)投大佬都有過對話。(比如Benchmark的BillGurley,ARKInvest的CathieWood,Accel創(chuàng)始人ArthurPatterson/JimSwartz,以及紅杉資本的DougLeone。)
1 Hugging Face的開源精神起源于創(chuàng)始人23歲的大學時代
當Clem Delangue還是都柏林大學的學生時,就打造了一個叫UniShared的教育平臺,它旨在解決學習資源全球性分配不公問題,向全球每個人提供大學教育的好處。這使23歲的Clem Delangue登上了TEDx的講臺。
在Delangue的少年時代,他的世界并沒有超出法國北部小鎮(zhèn)La Bassée的邊界。在Delangue的家鄉(xiāng),年輕的他探索機會有限,然而互聯(lián)網(wǎng)的到來打破了這一切。“當我得到自己的第一臺電腦時,它就像一扇窗戶,讓我看到了更大的世界,那種感覺真是令人震驚。”他回憶道。
Delangue的UniShared并沒有改變世界,但這為他種下了開源和分享的精神種子,也讓Google向他遞上了橄欖枝。不過Delangue拒絕了這個機會,因為他覺得在小型、靈活的環(huán)境中更加舒適。
他為一家名叫Moodstocks的巴黎計算機視覺創(chuàng)業(yè)公司工作。Moodstocks開發(fā)一款應(yīng)用,當用戶掃描物品就能立即查看相關(guān)評論和電商門戶。這是Delangue與機器學習的初次接觸,他感到十分震撼。
在巴黎的一次會議上,Delangue偶遇了著名的Apple市場營銷專家Guy Kawasaki(他打造了當年十分著名的麥金塔電腦系列廣告),Delangue走近正在簽名的Kawasaki,并向他介紹自己和他的應(yīng)用。
Kawasaki對這項技術(shù)表示懷疑,尤其是對它隨機識別野生物種的能力。因為在當時,機器學習仍需依靠工程師指定相對短暫、固定的定義列表和規(guī)則才能獲得準確的結(jié)果。“他說的大意是,你無法創(chuàng)建規(guī)則來識別世界上所有的物體。”Delangue回憶道。
于是,Delangue給Kawasaki做了一個演示,他將智能手機對準Kawasaki的水瓶。令Kawasaki驚訝的是,應(yīng)用正確地識別了品牌并提取了社交媒體上的評論。
對于Delangue,那一刻真正的激動人心的不僅僅是他的應(yīng)用程序的工作效果,更重要的是他看到了機器學習以新方式連接人與人的潛力。
“兩個從未見過面的人——一位法國極客工程師和這位美國硅谷的家伙——他們因為機器學習發(fā)現(xiàn)他們其實喜歡同一個飲料品牌。”Delangue說。毫無疑問,機器學習有巨大的潛力——但是當與用戶社區(qū)一同開發(fā)時,它的潛力更大。
在離開Moodstocks之后,Delangue在一些初創(chuàng)公司中負責產(chǎn)品和市場營銷工作。
2016年,他渴望再次為自己做點什么。在紐約,他與Julien Chaumond(一位在法國經(jīng)濟部門工作的計算機工程師)聯(lián)系上了。他認識Julien多年,Julien是一位精英數(shù)學家,也是他的朋友,兩人長久以來都對彼此有著專業(yè)上的認可與尊重。
兩人決定一起參加斯坦福大學的在線工程課程,并如他們一貫的方式,聚集了三十多人的學習小組,Thomas Wolf(一位受過科學訓練的專利律師)就是其中之一。在課程結(jié)束時,Julien和Delangue邀請Thomas與他們一起工作。
他們共同設(shè)定的目標是解決機器學習領(lǐng)域中一個最為棘手的問題:利用NLP技術(shù),構(gòu)建一個開放領(lǐng)域的、會話式的AI聊天機器人。一個可以和你談?wù)撊魏问虑榈臋C器人。Siri從2011年開始出現(xiàn);Alexa從2014年開始。“它們極其無聊,只會做生產(chǎn)力相關(guān)的事情。我們對建立一個有趣的會話式AI感到興奮。”Delangue說。
在2023年,打造一個人性化的聊天機器人聽起來像是一個顯而易見的目標。但在2016年,依賴深度神經(jīng)網(wǎng)絡(luò)進行學習的NLP領(lǐng)域(與過去基于統(tǒng)計、規(guī)則的NLP相比)還處于萌芽階段,他們的目標幾乎接近科幻。聊天機器人需要整合多種學習模型,進行信息提取,理解情感,并生成答案。
這些模型需要對大量的數(shù)據(jù)進行訓練,而管理這些數(shù)據(jù)(包括如何收集足夠的數(shù)據(jù),標記它,托管它)是他們面臨的首個重大挑戰(zhàn)。正是對不可能的挑戰(zhàn),使得Hugging Face走上了當前的軌道,成為全球最大的開源AI社區(qū)。
從一開始,Hugging Face團隊就展現(xiàn)出屬于開源社區(qū)特有的慷慨和民主精神,Delangue和他的聯(lián)合創(chuàng)始人賦予員工權(quán)力,擁有他們自己的產(chǎn)品,為他們的聊天機器人創(chuàng)建和發(fā)布功能。
最終,這個機器人活躍在社交網(wǎng)絡(luò)、移動APP上,用戶們發(fā)送了超過十億條信息。隨著時間的推移,它采用了開源的策略。
2 發(fā)布自定義版本BERT模型的嘗試讓Hugging Face轉(zhuǎn)型開源社區(qū)
沒有什么時刻能比Hugging Face發(fā)布其自定義版本的機器學習模型BERT(一種基于Transfomer的變種模型)更好地體現(xiàn)這種精神了。
當時,機器學習的進步常常通過冗雜、理論性的學術(shù)文章傳達。例如,當Google在2018年10月首次發(fā)布BERT時,它對大多數(shù)用戶來說過于復雜,而且BERT只在Google的TensorFlow平臺上可用。
Hugging Face團隊希望BERT能被更多開發(fā)者和用戶使用。一周內(nèi),他們創(chuàng)建了一個可以使用PyTorch機器學習框架的BERT工作版本。然后,他們將其轉(zhuǎn)化為開源,并在Github上免費贈送給任何想要使用或進一步微調(diào)和修改它的人。
“那是個分水嶺時刻”,Hugging Face在紅杉資本的主管投資人Pat Grady說,“人們都在說,‘我的天,我可以使用一個最新的語言模型。’以前這是不可能的。這讓Hugging Face在當時規(guī)模還很小的自然語言處理人群中成為了英雄。”當Grady后來問Delangue是什么激發(fā)他們把BERT發(fā)布給全世界的,他被他的答案的直接性所打動。“我們只是覺得,這是許多人會喜歡使用的東西”,Delangue回答。

Delangue也在與20VC主管人Harry訪談時聊到了開源對AI的重要性:“AI的大部分進步都是基于開放科學和開源的,因為AI的開放,所有人都能用最新算法搭建應(yīng)用,這形成了非常有趣的正反饋和改進,專家實驗的循環(huán)使我們能夠非常快速的推進AI的發(fā)展。沒有開放科學,沒有開源,沒有Google分享他們的《Attention Is All You Need》論文,分享他們的Bert論文,也許AI發(fā)展的進度會比現(xiàn)在慢很多年。
機器學習社區(qū)對自定義版本BERT模型的反應(yīng)證實了Delangue多年前在都柏林大學時的感覺——分享知識對每個人都有益。那時,Hugging Face的使命改變了。Delangue和他的聯(lián)合創(chuàng)始人決定開始分享他們在構(gòu)建聊天機器人過程中學到的關(guān)于機器學習的所有東西。漸漸地,他們開始成為工程師、研究人員和機器學習領(lǐng)域愛好者的首選資源。
在構(gòu)建他們的BERT適配版的過程中,Delangue和他的團隊成為Transformer模型的專家。所有的AI模型都接受大量數(shù)據(jù)的訓練,Transformer能從未標記的數(shù)據(jù)中產(chǎn)生優(yōu)秀的結(jié)果。這種無監(jiān)督學習形式為數(shù)據(jù)管理員節(jié)省了大量的時間,并使更多的數(shù)據(jù)可用于訓練機器學習系統(tǒng)。
Hugging Face團隊看到了Transformer的潛力,并將Hugging Face建立為開發(fā)它們的首選開源中心。機器學習社區(qū)也注意到了這一點——編程者和研究者開始涌向Hugging Face,他們帶來新的洞察和專業(yè)知識,使大量的機器學習項目和工具互相影響。
如今,任何想要使用Transformer的人都可以在Hugging Face訪問約20萬種不同的公共模型。
Delangue意識到,鑒于這些工具的巨大潛力,理解它們需要一個社區(qū):圍繞共同目標、需求和價值觀組織起來的人們。
隨著他們轉(zhuǎn)向開源,Hugging Face正開始成為Delangue希望能夠建立的社區(qū)。
紅杉資本合伙人Sonya Huang說:“真正善于創(chuàng)建社區(qū)的人實際上非常少。Delangue理解用戶——他就是用戶——并且他對草根社區(qū)有直覺。他以極其真實的方式培育它。”
Huang還被Delangue展現(xiàn)出來的開源精神所打動。她指出,Delangue沒有雇傭?qū)B毶鐓^(qū)經(jīng)理與Hugging Face的用戶接觸,而是自己做這件事,經(jīng)常在Twitter上發(fā)布bug修復信息,與超過1000名AI研究人員和追求生物技術(shù)、影像和語言處理領(lǐng)域AI突破的10000多家公司一起解決功能問題。
至今,Hugging Face不僅沒有單一的社區(qū)經(jīng)理,還期望其160名員工每個人都積極參與這個在線社區(qū)。“我們覺得如果我們開始擁有社區(qū)經(jīng)理,那就是將所有成員都應(yīng)負的責任外包出去。”Delangue說。為此,每個員工都可以訪問公司的官方Twitter和LinkedIn賬戶。如果AI的未來要依賴眾包,Delangue正在確保Hugging Face將自己定位為眾人的來源。
今天,Hugging Face社區(qū)的龐大規(guī)模推動了其戰(zhàn)略地位的慣性,使它成為機器學習的進化策源地,例如,視覺大模型Stable Diffusion選擇將其模型、數(shù)據(jù)集和演示發(fā)布到Hugging Face時,它激發(fā)了用戶引領(lǐng)的活動,修改和改進模型(在他們的演示空間里產(chǎn)生了如“一個橡皮鴨在講臺上發(fā)表演講”和“在被輻射的皮卡丘”等杰作)。
2023年3月,Delangue在推特上宣布他將在即將到來的舊金山之行中與Hugging Face的用戶舉行一個臨時聚會。在幾小時內(nèi),超過400人使用他在推特上分享的密碼ossftw(開源軟件永遠勝利)進行了注冊。
到了正式舉行時,它已經(jīng)贏得了“AI的伍德斯托克”的稱號。大約5000人(和三頭羊駝)參加了活動。從活動的視頻中,你可以看到一種類似于狂歡派對與機器人競賽交叉的氛圍。AI公司擁擠在攤位中。其中一家,在幾天前的黑客馬拉松中組建的AI教育公司,在此活動上進行了公開發(fā)布。
Delangue和一個身穿亮黃色緊身衣,身體是一個巨大的Hugging Face表情符號的吉祥物跳舞。他向推動AI前進的每一個人(所以,基本上是全場的人)表示感謝。“這個活動是對開源力量的慶祝,”Delangue告訴他們。“記住,在AI領(lǐng)域,我們所處的位置全都歸功于開放科學和開源。”
3 AI原生創(chuàng)業(yè)公司將顛覆舊有的公司
在短時間內(nèi),人工智能已經(jīng)疾速發(fā)展。大型語言模型已經(jīng)從幫助Gmail為用戶提供建議的簡短回復的后臺技術(shù),演變成了一些更奇妙(在某些情況下,也更可怕)的東西。文生圖工具和ChatGPT在短時間內(nèi)擴大了我們對可能性的想象,而ChatGPT成為了歷史上增長最快的應(yīng)用程序。
數(shù)以百萬計的開發(fā)者和產(chǎn)品經(jīng)理涌入AI領(lǐng)域,擠滿了這個長期以來只有博士和工程師出入的空間。我們現(xiàn)在都在使用AI,而這群終端用戶即將在整個空間上施加更大的影響。
在Delangue的觀點中,任何對AI未來有所投資的人都應(yīng)該成為Hugging Face社區(qū)的一部分。“如果用戶不理解這項技術(shù)是如何構(gòu)建的,”他說,“它會帶來很多風險,很多誤解。”

Delangue認為,對尚未實現(xiàn)的通用人工智能的崛起的擔憂是錯位的。
他同意Andrej Karpathy,(前特斯拉AI總監(jiān),現(xiàn)在是OpenAI的人工智能專家)于2017年提出的觀點——AI是Software 2.0。在這個觀點中,AI是現(xiàn)代世界運作方式的重大進步,它也已經(jīng)開始塑造經(jīng)濟。但是,它不是萬能的。
“AI是構(gòu)建所有技術(shù)的新范式,但它不是新的人類形式,它不是超級感知生物。但它確實擁有龐大的潛力,它會比互聯(lián)網(wǎng)大,比傳統(tǒng)軟件大。它將為技術(shù)創(chuàng)造新的能力,與大多數(shù)技術(shù)公司編寫軟件一樣,大多數(shù)技術(shù)公司將編寫AI。”Delangue說。
Delangue從他的經(jīng)驗談通用大模型與開源小模型的適用性問題:“有兩種AI世界觀,一種是一個通用的大模型解決所有問題,另一種是許多開源小模型解決不同的問題。選擇哪一種路線,取決于你的使用情況,限制情況和你想做什么。
如果你是Facebook,那一個巨大的模型能為你的用戶做任何你想幫他們做的事情;如果你是一個消費品公司,那么你需要針對你的實際場景選擇和優(yōu)化AI模型,這些模型要更快,更便宜,更高效。所以,如何選擇,取決于你如何定位你自己。“
對于企業(yè)是直接使用大公司模型的API還是自己訓練和微調(diào)開源模型,Delangue的觀點是:“直接使用OpenAI的API在開始階段更快,更容易,但是從長期來看,創(chuàng)業(yè)者面臨的挑戰(zhàn)更大,因為你沒有真正建立核心競爭力。
如果一個使用AI的創(chuàng)業(yè)公司沒有能力優(yōu)化模型,那么它面臨的風險是在與競爭對手競爭時,無法使自己脫穎而出。如果創(chuàng)業(yè)公司想讓自己具有差異化競爭能力,就必須針對它的用戶做一些真正有價值的事情,并能持續(xù)進行優(yōu)化。就像傳統(tǒng)軟件公司需要編寫代碼來構(gòu)建技術(shù)產(chǎn)品一樣,AI公司也要在機器學習范式中訓練或定制自己的模型。“
Delangue進一步指出,這是新公司顛覆舊有企業(yè)的巨大機會:因為舊企業(yè)會選擇容易的解決方案,而其他更需要AI的公司會選擇更具顛覆性的方式,這就是具有模型訓練能力的AI原生創(chuàng)業(yè)公司的機會。它們自己訓練模型,自己微調(diào)模型,它們在同樣的任務(wù)上可以比只使用現(xiàn)成API的公司好得多,它們就有很大機會顛覆舊有的解決方案。
4 AI發(fā)展太快現(xiàn)有的盈利方式可能3-5年后就不適用了
對于Hugging Face的商業(yè)模式,Delangue介紹道:“我們就是經(jīng)典的免費+增值付費模式(一種經(jīng)典的開源軟件商業(yè)模式,基礎(chǔ)版本免費,更高級的功能收費)。“他還透露公司目前已經(jīng)有包括Bloomberg,Grammarly在內(nèi)的3000家付費客戶。
對于公司目前的第一要務(wù),Delangue認為并不是盈利:“我們的主要優(yōu)先事項是作為一個具有網(wǎng)絡(luò)效應(yīng)的平臺,被更多人采納和使用,這也是我們的KPI。
“在AI這樣的領(lǐng)域,你期望公司愿意為AI付費,所以如果Hugging Face繼續(xù)成為公司使用的第一AI平臺,很明顯我們將能夠從中獲得大量的收入,并建立一個好的業(yè)務(wù)。”
“對于盈利,我們必須把它看作是逐步解鎖一些學習的階段。從六位數(shù)的收入開始,公司成員從中學習,看看它是如何運作的,然后是七位數(shù)、八位數(shù)和九位數(shù)的收入。每一步你都在學習,特別是在AI領(lǐng)域,因為底層技術(shù)的發(fā)展速度非常快,可能我們今天賺錢的方式在三年后或五年后就不適用了。”
5 非典型創(chuàng)始人:投資人不該搶創(chuàng)業(yè)者的活
在與20VC的訪談中,Delangue還介紹了自己的融資原則。
首先,在兩輪融資之間,他不會與任何外部投資者交談。因為建立公司已經(jīng)足夠困難,必須百分之百的專注于這件事。
第二,當他融資時,通常會進行得非常快,一旦已經(jīng)獲得足夠公司發(fā)展的資金,就不再與不熟悉的新投資人接觸。因為很多投資人并不真的對創(chuàng)業(yè)者正在建立的業(yè)務(wù)足夠了解或感興趣。尤其是像Hugging Face這樣在種子輪時做聊天機器人,之后又做AI開源社區(qū)的,這兩輪的投資人,是完全不同的。
第三,他在選定投資人后,會與這位投資人共度3天時間,深度地互相了解和盡調(diào),并且搞清楚一些重要問題:我們的目標一致嗎?我們的期望相似嗎?我們能在之后保持一個良好的互相支持的關(guān)系么?
對于風險投資人,Delangue認為部分投資人遺忘了風險投資對于創(chuàng)業(yè)公司的幫助首先是財務(wù)幫助,而把大部分時間都花在了其他事情上,有時甚至表現(xiàn)得像CEO,他認為這其實并不是他們的工作。
“更糟糕的是,我感覺有時候創(chuàng)業(yè)者是為投資者而建立公司,而投資者表現(xiàn)得像創(chuàng)業(yè)者。有時這上會導致公司崩潰,因為不幸的是,與創(chuàng)業(yè)者相反,投資人會同時管理很多不同的被投公司,所以他們只能在每家公司上花費很短的時間。即使他們是世界上最聰明的人,由于時間的限制,他們對技術(shù)的理解有時可能過于簡單化,例如對公司和其他事物的理解。”他這么表述自己對于風險投資人的不同看法。
而對于自己最喜歡的投資人,Delangue表示是Richard Socher:他是NLP領(lǐng)域最杰出和最有影響力的研究者之一,現(xiàn)在是You.com的創(chuàng)始人。Richard和Delangue相識很早,在很多方面都幫助過Delangue和Hugging Face,無論是科學,商業(yè)還是創(chuàng)業(yè)方面。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司