下載客戶(hù)端

登錄

GPT-4震撼發(fā)布：有4個(gè)驚喜，但仍有3個(gè)遺憾

2023-03-15 15:36

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

一覺(jué)醒來(lái)，萬(wàn)眾期待的GPT-4終于發(fā)布了，我們來(lái)看看他都有哪些迭代，給了我們哪些驚喜，又有哪些還沒(méi)解決的問(wèn)題呢？

作為一個(gè)重要的迭代升級(jí)版本，GPT-4相對(duì)于上一代而言，在多個(gè)性能上有顯著的提升，這沒(méi)有讓我們失望。具體來(lái)看，關(guān)鍵的升級(jí)主要是以下幾個(gè)方面：

驚喜1、文字輸入限制提升至2.5萬(wàn)字

上一個(gè)版本，輸入的文字不能超過(guò)3000字，而GPT-4將這一限制提升到了2.5萬(wàn)字。這個(gè)提升，將進(jìn)一步擴(kuò)展其應(yīng)用范圍。輸入的不再限制于問(wèn)題，用戶(hù)可以直接輸入文本內(nèi)容，比如一篇文章甚至一篇報(bào)告。

驚喜2、可以輸入圖片了

上一代產(chǎn)品只能輸入文本內(nèi)容，此次更新升級(jí)，可以輸入圖片內(nèi)容了。

比如，在此次發(fā)布的GPT-4，展示了下面這個(gè)例子。

用戶(hù)：這張圖有什么好笑的？

GPT-4：

該圖顯示了帶有三個(gè)面板的“Lightning Cable”適配器的包裝。

圖片1：帶有 VGA 連接器（一種大的藍(lán)色 15 針連接器，通常用于計(jì)算機(jī)顯示器）的智能手機(jī)已插入其充電端口。

圖片 2：“Lightning Cable”適配器的包裝，上面有 VGA 連接器的圖片。

圖片 3：VGA 連接器特寫(xiě)，末端有一個(gè)小型閃電連接器（用于為 iPhone 和其他 Apple 設(shè)備充電）。

這張圖片中的幽默來(lái)自將過(guò)時(shí)的大型 VGA 連接器插入小型現(xiàn)代智能手機(jī)充電端口的荒謬做法。

從這個(gè)例子可以看出，GPT-4可以可以“理解”圖片的特征，而且可以理解多個(gè)圖片之間的關(guān)聯(lián)關(guān)系，并可以依據(jù)用戶(hù)的指令，來(lái)將圖片的特征描述出來(lái)。

在相關(guān)性能參數(shù)方面，GPT-4的表現(xiàn)也可圈可點(diǎn)，具體對(duì)比如下表：

驚喜3、更聰明、更準(zhǔn)確

為了了解這兩種模型之間的差異，OpenAI在各種基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn)，包括最初為人類(lèi)設(shè)計(jì)的模擬考試。OpenAI繼續(xù)使用最新的公開(kāi)測(cè)試（在奧林匹克和AP免費(fèi)回答問(wèn)題的情況下）或購(gòu)買(mǎi)2022-2023版的模擬考試。

測(cè)試結(jié)果如下：

可以發(fā)現(xiàn)，當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí)，GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令。

此外，OpenAI還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)測(cè)試上評(píng)估了 GPT-4。GPT-4 的性能大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型，以及大多數(shù)最先進(jìn)的（SOTA）模型，具體比較如下表：

驚喜4、深度學(xué)習(xí)堆棧可預(yù)測(cè)性的擴(kuò)展

對(duì)于像 GPT-4 這樣的大模型，進(jìn)行廣泛的模型調(diào)整是不可行的。因此，模型的可擴(kuò)展性就具有重要的價(jià)值。

OpenAI在模型的可擴(kuò)展性方面不斷探索，并在GPT-4 有重要的升級(jí)。為了驗(yàn)證GPT-4 的可擴(kuò)展性，OpenAI通過(guò)從使用相同方法訓(xùn)練但使用少 10000 倍計(jì)算的模型進(jìn)行推斷，準(zhǔn)確預(yù)測(cè)了 GPT-4 在內(nèi)部代碼庫(kù)的最終損失，結(jié)果如下圖：

從上述結(jié)果可以發(fā)現(xiàn)，GPT-4 可以用更少的計(jì)算量來(lái)實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。

此外，OpenAI成功預(yù)測(cè)了HumanEval數(shù)據(jù)集子集的通過(guò)率，從計(jì)算量減少 1000 倍的模型推斷，其結(jié)果如下：

接下來(lái)，OpenAI在Inverse Scaling Prize上進(jìn)行了測(cè)試，其結(jié)果如下：

可以發(fā)現(xiàn)，GPT-4 的表現(xiàn)要比GPT-3.5好很多。

然而，GPT-4并不是完美的，他依然還存在很多待解的問(wèn)題，或者說(shuō)是此次發(fā)布的遺憾。

遺憾1、參數(shù)規(guī)模沒(méi)有大規(guī)模提升

GPT-4是一個(gè)大規(guī)模預(yù)訓(xùn)練模型，對(duì)于大模型而言，參數(shù)規(guī)模往往是一個(gè)關(guān)鍵指標(biāo)。一般情況下，更大的參數(shù)規(guī)模意味著更強(qiáng)的技術(shù)能力。

在此前不久，業(yè)界就在流傳GPT-4將在參數(shù)規(guī)模上有大幅度提升，甚至傳言將達(dá)到100萬(wàn)億級(jí)的參數(shù)規(guī)模，這也拉高了業(yè)界的期待。

此次發(fā)布的GPT-4，并沒(méi)有公布準(zhǔn)確的參數(shù)規(guī)模。如果參數(shù)規(guī)模提升了一個(gè)數(shù)量級(jí)，OpenAI肯定會(huì)大肆宣揚(yáng)一番，并將其作為GPT-4的一個(gè)關(guān)鍵突破。既然沒(méi)說(shuō)，那大概率就是沒(méi)有大的改進(jìn)。

遺憾2、一個(gè)假的多模態(tài)，不能生成圖片、視頻

大模型的發(fā)展趨勢(shì)，除了更好的性能表現(xiàn)外，一個(gè)關(guān)鍵的突破就是多模態(tài)。所謂多模態(tài)，就是文字、圖片、視頻、語(yǔ)音這些不同模態(tài)的信息之間的相互轉(zhuǎn)換。比如，輸入一段文字內(nèi)容，AI應(yīng)用可以依據(jù)文字描述來(lái)自動(dòng)生成一幅畫(huà)甚至是一個(gè)視頻。

ChatGPT是很強(qiáng)大，但他的強(qiáng)大只表現(xiàn)在文字領(lǐng)域，還不能跨模態(tài)。GPT-4的一個(gè)關(guān)鍵升級(jí)就是多模態(tài)，業(yè)界最期待的也是這個(gè)。然而，此次發(fā)布的GPT-4卻有點(diǎn)失望，他在多模態(tài)上有點(diǎn)突破，可以輸入圖片內(nèi)容，但是輸出的卻還只能是文字。用戶(hù)最期待的圖片、視頻生成，他沒(méi)能實(shí)現(xiàn)，這是一個(gè)巨大的遺憾。

遺憾3、“發(fā)瘋”問(wèn)題有改善，但沒(méi)徹底解決

ChatGPT在使用過(guò)程中，偶爾會(huì)遇到“發(fā)瘋”的情況，變得胡言亂語(yǔ)，這給微軟帶來(lái)了不小的麻煩。那么，GPT-4把這個(gè)問(wèn)題解決了么？

根據(jù)測(cè)試結(jié)果來(lái)看，這個(gè)問(wèn)題有改善，但還沒(méi)能徹底解決。

OpenAI承認(rèn)，GPT-4 與早期的 GPT 模型具有相似的局限性，它仍然不完全可靠，可能會(huì)存在推理錯(cuò)誤。

但是，但 GPT-4 相對(duì)于以前的模型已經(jīng)有比較顯著的改善了。OpenAI對(duì)不同模型進(jìn)行了內(nèi)部對(duì)抗性真實(shí)性測(cè)試，具體來(lái)看，進(jìn)行了涵蓋學(xué)習(xí)、技術(shù)、寫(xiě)作、歷史、數(shù)學(xué)、可惜等九類(lèi)測(cè)試，準(zhǔn)確度為 1.0 意味著模型的答案被判斷為與人類(lèi)理想回答一致。

OpenAI將GPT-4 與ChatGPT-V2、ChatGPT-V3、ChatGPT-V4進(jìn)行了比較，最終結(jié)果如下：

在OpenAI的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中，GPT-4的得分比我們最新的GPT-3.5高40%。

之后，OpenAI在TruthfulQA等外部基準(zhǔn)，測(cè)試了模型將事實(shí)與對(duì)抗性選擇的一組錯(cuò)誤陳述分開(kāi)的能力。

根據(jù)結(jié)果來(lái)看，GPT-4僅比GPT-3.5好一點(diǎn)點(diǎn)，并沒(méi)有顯著的提升。

此次發(fā)布會(huì)，除了GPT-4本身技術(shù)性能的提升以外，還有一個(gè)很重要的看點(diǎn)，那就是其商業(yè)化進(jìn)展。從微軟近期的動(dòng)作來(lái)看，他是準(zhǔn)備在GPT-4基礎(chǔ)上大干一場(chǎng)。在數(shù)據(jù)猿先前發(fā)布的文章《先用ChatGPT革自己的命，然后干翻所有人！微軟要“梭哈”了！》中，整理了微軟近期將ChatGPT與其業(yè)務(wù)體系整合的情況，可以發(fā)現(xiàn)，微軟的很多業(yè)務(wù)都已經(jīng)可以看到ChatGPT的身影。

大規(guī)模預(yù)訓(xùn)練模型這個(gè)賽道異常熱鬧，尤其是OpenAI可以說(shuō)已經(jīng)成為科技界的明星。然而，大模型的競(jìng)賽才剛剛開(kāi)始，鹿死誰(shuí)手猶未可知。

GPT-4再好，也是別人的東西，我們當(dāng)然更期待中國(guó)自己的大模型。

正好，百度將在明天（3月16日）發(fā)布文心一言，讓我們小小期待一下吧。

所以，壓力給到百度了。

往期精彩文章：

先用ChatGPT革自己的命，然后干翻所有人！微軟要“梭哈”了！

★關(guān)注數(shù)據(jù)猿公眾號(hào)，后臺(tái)回復(fù)“GPT4技術(shù)報(bào)告”獲取最新98頁(yè)報(bào)告原文。

文：月滿(mǎn)西樓 / 數(shù)據(jù)猿

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀(guān)點(diǎn)，不代表澎湃新聞的觀(guān)點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#GPT-#4 #百度