- +1
GPT-4震撼發(fā)布:有4個(gè)驚喜,但仍有3個(gè)遺憾

一覺(jué)醒來(lái),萬(wàn)眾期待的GPT-4終于發(fā)布了,我們來(lái)看看他都有哪些迭代,給了我們哪些驚喜,又有哪些還沒(méi)解決的問(wèn)題呢?
作為一個(gè)重要的迭代升級(jí)版本,GPT-4相對(duì)于上一代而言,在多個(gè)性能上有顯著的提升,這沒(méi)有讓我們失望。具體來(lái)看,關(guān)鍵的升級(jí)主要是以下幾個(gè)方面:
驚喜1、文字輸入限制提升至2.5萬(wàn)字
上一個(gè)版本,輸入的文字不能超過(guò)3000字,而GPT-4將這一限制提升到了2.5萬(wàn)字。這個(gè)提升,將進(jìn)一步擴(kuò)展其應(yīng)用范圍。輸入的不再限制于問(wèn)題,用戶(hù)可以直接輸入文本內(nèi)容,比如一篇文章甚至一篇報(bào)告。
驚喜2、可以輸入圖片了
上一代產(chǎn)品只能輸入文本內(nèi)容,此次更新升級(jí),可以輸入圖片內(nèi)容了。
比如,在此次發(fā)布的GPT-4,展示了下面這個(gè)例子。
用戶(hù):這張圖有什么好笑的?

GPT-4:
該圖顯示了帶有三個(gè)面板的“Lightning Cable”適配器的包裝。
圖片1:帶有 VGA 連接器(一種大的藍(lán)色 15 針連接器,通常用于計(jì)算機(jī)顯示器)的智能手機(jī)已插入其充電端口。
圖片 2:“Lightning Cable”適配器的包裝,上面有 VGA 連接器的圖片。
圖片 3:VGA 連接器特寫(xiě),末端有一個(gè)小型閃電連接器(用于為 iPhone 和其他 Apple 設(shè)備充電)。
這張圖片中的幽默來(lái)自將過(guò)時(shí)的大型 VGA 連接器插入小型現(xiàn)代智能手機(jī)充電端口的荒謬做法。
從這個(gè)例子可以看出,GPT-4可以可以“理解”圖片的特征,而且可以理解多個(gè)圖片之間的關(guān)聯(lián)關(guān)系,并可以依據(jù)用戶(hù)的指令,來(lái)將圖片的特征描述出來(lái)。
在相關(guān)性能參數(shù)方面,GPT-4的表現(xiàn)也可圈可點(diǎn),具體對(duì)比如下表:

驚喜3、更聰明、更準(zhǔn)確
為了了解這兩種模型之間的差異,OpenAI在各種基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn),包括最初為人類(lèi)設(shè)計(jì)的模擬考試。OpenAI繼續(xù)使用最新的公開(kāi)測(cè)試(在奧林匹克和AP免費(fèi)回答問(wèn)題的情況下)或購(gòu)買(mǎi)2022-2023版的模擬考試。
測(cè)試結(jié)果如下:

可以發(fā)現(xiàn),當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。

此外,OpenAI還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)測(cè)試上評(píng)估了 GPT-4。GPT-4 的性能大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型,以及大多數(shù)最先進(jìn)的 (SOTA) 模型,具體比較如下表:

驚喜4、深度學(xué)習(xí)堆棧可預(yù)測(cè)性的擴(kuò)展
對(duì)于像 GPT-4 這樣的大模型,進(jìn)行廣泛的模型調(diào)整是不可行的。因此,模型的可擴(kuò)展性就具有重要的價(jià)值。
OpenAI在模型的可擴(kuò)展性方面不斷探索,并在GPT-4 有重要的升級(jí)。為了驗(yàn)證GPT-4 的可擴(kuò)展性,OpenAI通過(guò)從使用相同方法訓(xùn)練但使用少 10000 倍計(jì)算的模型進(jìn)行推斷,準(zhǔn)確預(yù)測(cè)了 GPT-4 在內(nèi)部代碼庫(kù)的最終損失,結(jié)果如下圖:

從上述結(jié)果可以發(fā)現(xiàn),GPT-4 可以用更少的計(jì)算量來(lái)實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。
此外,OpenAI成功預(yù)測(cè)了HumanEval數(shù)據(jù)集子集的通過(guò)率,從計(jì)算量減少 1000 倍的模型推斷,其結(jié)果如下:

接下來(lái),OpenAI在Inverse Scaling Prize上進(jìn)行了測(cè)試,其結(jié)果如下:

可以發(fā)現(xiàn),GPT-4 的表現(xiàn)要比GPT-3.5好很多。
然而,GPT-4并不是完美的,他依然還存在很多待解的問(wèn)題,或者說(shuō)是此次發(fā)布的遺憾。
遺憾1、參數(shù)規(guī)模沒(méi)有大規(guī)模提升
GPT-4是一個(gè)大規(guī)模預(yù)訓(xùn)練模型,對(duì)于大模型而言,參數(shù)規(guī)模往往是一個(gè)關(guān)鍵指標(biāo)。一般情況下,更大的參數(shù)規(guī)模意味著更強(qiáng)的技術(shù)能力。
在此前不久,業(yè)界就在流傳GPT-4將在參數(shù)規(guī)模上有大幅度提升,甚至傳言將達(dá)到100萬(wàn)億級(jí)的參數(shù)規(guī)模,這也拉高了業(yè)界的期待。
此次發(fā)布的GPT-4,并沒(méi)有公布準(zhǔn)確的參數(shù)規(guī)模。如果參數(shù)規(guī)模提升了一個(gè)數(shù)量級(jí),OpenAI肯定會(huì)大肆宣揚(yáng)一番,并將其作為GPT-4的一個(gè)關(guān)鍵突破。既然沒(méi)說(shuō),那大概率就是沒(méi)有大的改進(jìn)。
遺憾2、一個(gè)假的多模態(tài),不能生成圖片、視頻
大模型的發(fā)展趨勢(shì),除了更好的性能表現(xiàn)外,一個(gè)關(guān)鍵的突破就是多模態(tài)。所謂多模態(tài),就是文字、圖片、視頻、語(yǔ)音這些不同模態(tài)的信息之間的相互轉(zhuǎn)換。比如,輸入一段文字內(nèi)容,AI應(yīng)用可以依據(jù)文字描述來(lái)自動(dòng)生成一幅畫(huà)甚至是一個(gè)視頻。
ChatGPT是很強(qiáng)大,但他的強(qiáng)大只表現(xiàn)在文字領(lǐng)域,還不能跨模態(tài)。GPT-4的一個(gè)關(guān)鍵升級(jí)就是多模態(tài),業(yè)界最期待的也是這個(gè)。然而,此次發(fā)布的GPT-4卻有點(diǎn)失望,他在多模態(tài)上有點(diǎn)突破,可以輸入圖片內(nèi)容,但是輸出的卻還只能是文字。用戶(hù)最期待的圖片、視頻生成,他沒(méi)能實(shí)現(xiàn),這是一個(gè)巨大的遺憾。
遺憾3、“發(fā)瘋”問(wèn)題有改善,但沒(méi)徹底解決
ChatGPT在使用過(guò)程中,偶爾會(huì)遇到“發(fā)瘋”的情況,變得胡言亂語(yǔ),這給微軟帶來(lái)了不小的麻煩。那么,GPT-4把這個(gè)問(wèn)題解決了么?
根據(jù)測(cè)試結(jié)果來(lái)看,這個(gè)問(wèn)題有改善,但還沒(méi)能徹底解決。
OpenAI承認(rèn),GPT-4 與早期的 GPT 模型具有相似的局限性,它仍然不完全可靠,可能會(huì)存在推理錯(cuò)誤。
但是,但 GPT-4 相對(duì)于以前的模型已經(jīng)有比較顯著的改善了。OpenAI對(duì)不同模型進(jìn)行了內(nèi)部對(duì)抗性真實(shí)性測(cè)試,具體來(lái)看,進(jìn)行了涵蓋學(xué)習(xí)、技術(shù)、寫(xiě)作、歷史、數(shù)學(xué)、可惜等九類(lèi)測(cè)試,準(zhǔn)確度為 1.0 意味著模型的答案被判斷為與人類(lèi)理想回答一致。
OpenAI將GPT-4 與ChatGPT-V2、ChatGPT-V3、ChatGPT-V4進(jìn)行了比較,最終結(jié)果如下:

在OpenAI的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中,GPT-4的得分比我們最新的GPT-3.5高40%。
之后,OpenAI在TruthfulQA等外部基準(zhǔn),測(cè)試了模型將事實(shí)與對(duì)抗性選擇的一組錯(cuò)誤陳述分開(kāi)的能力。

根據(jù)結(jié)果來(lái)看,GPT-4僅比GPT-3.5好一點(diǎn)點(diǎn),并沒(méi)有顯著的提升。
此次發(fā)布會(huì),除了GPT-4本身技術(shù)性能的提升以外,還有一個(gè)很重要的看點(diǎn),那就是其商業(yè)化進(jìn)展。從微軟近期的動(dòng)作來(lái)看,他是準(zhǔn)備在GPT-4基礎(chǔ)上大干一場(chǎng)。在數(shù)據(jù)猿先前發(fā)布的文章《先用ChatGPT革自己的命,然后干翻所有人!微軟要“梭哈”了!》中,整理了微軟近期將ChatGPT與其業(yè)務(wù)體系整合的情況,可以發(fā)現(xiàn),微軟的很多業(yè)務(wù)都已經(jīng)可以看到ChatGPT的身影。

大規(guī)模預(yù)訓(xùn)練模型這個(gè)賽道異常熱鬧,尤其是OpenAI可以說(shuō)已經(jīng)成為科技界的明星。然而,大模型的競(jìng)賽才剛剛開(kāi)始,鹿死誰(shuí)手猶未可知。
GPT-4再好,也是別人的東西,我們當(dāng)然更期待中國(guó)自己的大模型。
正好,百度將在明天(3月16日)發(fā)布文心一言,讓我們小小期待一下吧。
所以,壓力給到百度了。
往期精彩文章:
先用ChatGPT革自己的命,然后干翻所有人!微軟要“梭哈”了!
★關(guān)注數(shù)據(jù)猿公眾號(hào),后臺(tái)回復(fù)“GPT4技術(shù)報(bào)告”獲取最新98頁(yè)報(bào)告原文。
文:月滿(mǎn)西樓 / 數(shù)據(jù)猿
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀(guān)點(diǎn),不代表澎湃新聞的觀(guān)點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線(xiàn): 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司