下載客戶端

登錄

文心一言演示的這些問(wèn)題，看看ChatGPT怎么答！我們還加了幾道超綱題

澎湃新聞?dòng)浾?楊陽(yáng) 吳雨欣

2023-03-16 22:28

來(lái)源：澎湃新聞

預(yù)熱許久的百度版聊天機(jī)器人終于面世。

3月16日，在OpenAI推出大型多模態(tài)模型GPT-4的第二天，百度終于正式發(fā)布類ChatGPT產(chǎn)品“文心一言”，百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏在發(fā)布會(huì)上介紹，文心一言有五大能力——文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成。

在16日的發(fā)布會(huì)上，李彥宏通過(guò)提前錄制好的demo視頻，文心一言圍繞上述五大能力，回復(fù)了19個(gè)問(wèn)題。

“文心一言對(duì)標(biāo)ChatGPT、甚至是對(duì)標(biāo)GPT-4，門檻是很高的，全球大廠還沒有一個(gè)做出來(lái)的，百度是第一個(gè)，我自己測(cè)試感覺還是有很多不完美的地方。”李彥宏說(shuō)道。

澎湃新聞?dòng)浾唠S后拿同樣19個(gè)問(wèn)題，與ChatGPT（未付費(fèi)版本）以及微軟必應(yīng)進(jìn)行“同題問(wèn)答”，澎湃新聞?dòng)浾甙l(fā)現(xiàn)，演示中的19個(gè)問(wèn)題，百度的回答并不輸于后兩者，但如果回答這19個(gè)問(wèn)題之外的“全新問(wèn)題”并進(jìn)行連貫對(duì)話情況下，文心一言的表現(xiàn)依然有不少提高空間。

值得注意的是，發(fā)布會(huì)期間，百度股價(jià)一度跌近10%，截至收盤跌6.36%。

文學(xué)創(chuàng)作

百度發(fā)布會(huì)上演示文學(xué)創(chuàng)作方面的問(wèn)題主要圍繞劉慈欣的科幻小說(shuō)《三體》系列展開。在Demo演示中，文心一言介紹了該作品的作者信息、故事內(nèi)容、電視劇演員等相關(guān)問(wèn)題，還被要求提供續(xù)寫方案，并從哲學(xué)角度續(xù)寫《三體》。

澎湃新聞向必應(yīng)和ChatGPT提問(wèn)相同問(wèn)題，發(fā)現(xiàn)三款生成式AI的回答各有千秋。

對(duì)于“《三體》的作者是哪里人”，文言一心的回復(fù)較為詳細(xì)，介紹了劉慈欣的年齡、足跡、學(xué)歷以及成就等信息，相比之下，必應(yīng)和ChatGPT的回復(fù)較為簡(jiǎn)短。

文心一言

必應(yīng)

ChatGPT

對(duì)于電視劇《三體》演員的介紹，只有必應(yīng)提到了《三體》有國(guó)內(nèi)和國(guó)外兩版電視劇，并分別列出了兩個(gè)版本的演員名單；文心一言只介紹了國(guó)內(nèi)電視劇版本的情況；而由于ChatGPT的數(shù)據(jù)庫(kù)只更新至2021年，它的回復(fù)最為“落伍”，給出的答案為電視劇《三體》的演員陣容尚未官方公布。

文心一言

必應(yīng)

ChatGPT

在進(jìn)一步追問(wèn)主演于和偉和張魯一誰(shuí)更高時(shí)，文心一言、必應(yīng)和ChatGPT分別給出了不同的答案，其中只有ChatGPT提到，“由于身高的測(cè)量方法和標(biāo)準(zhǔn)不同，以及不同的數(shù)據(jù)來(lái)源，于和偉和張魯一的具體身高可能會(huì)有所不同。”

文心一言

必應(yīng)

ChatGPT

被要求從哲學(xué)的角度續(xù)寫《三體》時(shí)，三款生成式AI（人工智能）都提到了“生命”“宇宙”等關(guān)鍵詞。不同之處是，文心一言和ChatGPT都提到了“科技”“道德”“倫理”等信息；文心一言還提出了“價(jià)值和信仰”，必應(yīng)則額外提到了“文明”。

澎湃新聞?dòng)浾咭病凹訙y(cè)”了文心一言，要求介紹2022年的諾貝爾文學(xué)獎(jiǎng)得主。此題主要想測(cè)試百度文心一言是否有實(shí)時(shí)搜索的能力，此前微軟必應(yīng)可以準(zhǔn)確回答，而ChatGPT則因?yàn)閿?shù)據(jù)庫(kù)太舊，直接回答：“由于我是一個(gè)基于2021年9月的預(yù)訓(xùn)練語(yǔ)言模型，因此我無(wú)法提供2022年諾貝爾文學(xué)獎(jiǎng)得主的信息。”

文心一言

必應(yīng)

文心一言給出的得主實(shí)際上是2018年的諾貝爾文學(xué)獎(jiǎng)得主，澎湃新聞隨后指出錯(cuò)誤后，文心一言依然重復(fù)錯(cuò)誤的回答。澎湃新聞?dòng)浾哌€測(cè)試要求回答“95屆奧斯卡最佳電影”，文心一言“誤讀”為1995年奧斯卡最佳電影。

文心一言

商業(yè)文案創(chuàng)作

在商業(yè)文案創(chuàng)作方面，現(xiàn)場(chǎng)Demo中展示出3個(gè)要求，分別是為“一個(gè)用大模型服務(wù)中小企業(yè)數(shù)字化升級(jí)的科技服務(wù)公司”起名、編寫slogan（標(biāo)語(yǔ)）以及為公司成立寫一篇新聞稿。

具體來(lái)看，為公司起名稱方面，三款機(jī)器人均提供了4-5個(gè)名稱，并給出了相應(yīng)的解釋。值得注意的是，它們所起的名稱中，大部分都包含“智”“數(shù)”“科技”等字眼。

文心一言

必應(yīng)

ChatGPT

選取其中一個(gè)名稱為公司名，要求對(duì)方以“共贏”為概念，為公司起一個(gè)slogan，只有必應(yīng)提供了4個(gè)答案；文心一言和ChatGPT只給出了一個(gè)回復(fù)，不過(guò)它們對(duì)其進(jìn)行了詳細(xì)的解釋。

從內(nèi)容來(lái)看，三款機(jī)器人的設(shè)計(jì)思路相似，均將公司名稱和“共贏”放進(jìn)標(biāo)語(yǔ)，“未來(lái)”是最常被用到的詞匯。

被要求生成600字的新聞稿時(shí)，只有必應(yīng)的新聞稿中包含了新聞的五要素，并在導(dǎo)語(yǔ)中明確寫出了時(shí)間和地點(diǎn)，此外必應(yīng)還在文末附上了公司的電話、郵箱和網(wǎng)址；文心一言新聞稿并沒有提供標(biāo)題。

文心一言

必應(yīng)

ChatGPT

澎湃新聞?dòng)浾邷y(cè)試，要求文心一言就奶茶新品在微博上寫一段宣傳文案。文心一言給出的文案中，使用了##話題詞，之后要求縮減至80字也能順利完成。相比之下，必應(yīng)和ChatGPT顯然沒有領(lǐng)悟到微博這個(gè)話題詞的要求。

文心一言

必應(yīng)

ChatGPT

數(shù)理邏輯推算

百度稱，文心一言具備一定的思維能力，并以“雞兔同籠”為題考查其邏輯推算能力。

當(dāng)面對(duì)含有錯(cuò)誤的題目時(shí)，文心一言直接表示“這個(gè)題目算出來(lái)不太對(duì)，是不是提出錯(cuò)了”；必應(yīng)展示了每一個(gè)計(jì)算步驟，并基于結(jié)果得出結(jié)論“這個(gè)答案顯然不符合常理……這個(gè)問(wèn)題實(shí)際上是無(wú)解的。也就是說(shuō)，在給定的條件下，不存在一種可能的組合方式，使得籠子里有9個(gè)頭和40只腳”；而ChatGPT則沒有看出題目中的錯(cuò)誤，并基于題目信息得出了自己的答案。

文心一言

必應(yīng)

ChatGPT

糾正題目中的錯(cuò)誤后，三款機(jī)器人得出了相同的答案，其中必應(yīng)的計(jì)算過(guò)程最為詳細(xì)，文心一言與ChatGPT均省略了中間的步驟。

文心一言

必應(yīng)

ChatGPT

澎湃新聞?dòng)浾唠S后又出了一道數(shù)學(xué)題，有一元、二元、五元的人民幣共50張，總面值為116元，已知一元的比二元的多2張，問(wèn)三種面值的人民幣各多少?gòu)?

結(jié)果，ChatGPT和文心一言均答錯(cuò)，文心一言把50-x-(x-2) 寫成了50-x-x-2。只有必應(yīng)給出了正確答案，但必應(yīng)的答案是直接搜索“知乎”。

文心一言

ChatGPT

必應(yīng)

中文理解

與必應(yīng)和ChatGPT不同，文心一言扎根于中國(guó)市場(chǎng)。百度曾在多個(gè)場(chǎng)合強(qiáng)調(diào)，文心一言具備中文領(lǐng)域最先進(jìn)的自然語(yǔ)言處理能力，在中文語(yǔ)言和中國(guó)文化上有更好的表現(xiàn)。發(fā)布會(huì)上也披露，文心一言大模型的訓(xùn)練數(shù)據(jù)包括萬(wàn)億級(jí)的網(wǎng)頁(yè)數(shù)據(jù)、數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)、百億級(jí)的語(yǔ)音日均調(diào)用數(shù)據(jù)，以及5500億事實(shí)的知識(shí)圖譜等。

面對(duì)需要一定中文基礎(chǔ)才能理解的成語(yǔ)，三款機(jī)器人會(huì)有何不同的解讀？

被要求解釋“洛陽(yáng)紙貴”時(shí)，三款機(jī)器人均能準(zhǔn)確地解釋這一成語(yǔ)的含義，其中文心一言和必應(yīng)還特別提到了該成語(yǔ)的典故來(lái)源《三都賦》。

文心一言

必應(yīng)

ChatGPT

進(jìn)一步要求用“洛陽(yáng)紙貴”四個(gè)字寫一首藏頭詩(shī)時(shí)，三款機(jī)器人均給出了符合要求的回答，不過(guò)以古詩(shī)的標(biāo)準(zhǔn)來(lái)評(píng)判，這三首詩(shī)似乎都只能在及格線附近徘徊。

文心一言

必應(yīng)

ChatGPT

值得注意的是，記者發(fā)現(xiàn)，必應(yīng)和ChatGPT并非每次都會(huì)給出正確的答案，再次讓它們作藏頭詩(shī)時(shí)，必應(yīng)錯(cuò)誤地將“用洛陽(yáng)紙”作為每句話的開頭，而ChatGPT給出了完全不相干的答案。

必應(yīng)

ChatGPT

澎湃新聞?dòng)浾咴偬釂?wèn)，請(qǐng)解釋“先帝不以臣卑鄙，猥自枉屈，三顧臣于草廬之中，咨臣以當(dāng)世之事，由是感激，遂許先帝以驅(qū)馳”一句的含義。從響應(yīng)速度來(lái)說(shuō)，文心一言的響應(yīng)要遠(yuǎn)快于ChatGPT。必應(yīng)則依然是直接搜索得出了答案。

文心一言

ChatGPT

因?yàn)橹形牡牟┐缶睿€存在不少腦筋急轉(zhuǎn)彎。例如：東院的花母雞在西院的雞窩里下了一個(gè)蛋，這個(gè)蛋的“產(chǎn)權(quán)”應(yīng)歸誰(shuí)呢？在這個(gè)問(wèn)題上，必應(yīng)還是搜索了網(wǎng)絡(luò)答案，文心一言和ChatGPT則“一本正經(jīng)”回答。

文心一言

ChatGPT

必應(yīng)

多模態(tài)生成

百度介紹，文心一言具有多模態(tài)生成能力，并在Demo演示中讓文心一言根據(jù)文字生產(chǎn)海報(bào)、語(yǔ)音及視頻。

被要求生成圖像時(shí)，ChatGPT直言“抱歉，作為語(yǔ)言模型，我無(wú)法創(chuàng)建圖像或海報(bào)”。新版必應(yīng)搭載的GPT-4雖然是大型多模態(tài)模型，但必應(yīng)也無(wú)法生成文字以外的內(nèi)容，面對(duì)生成海報(bào)的要求，必應(yīng)僅僅提供了設(shè)計(jì)思路和在線設(shè)計(jì)平臺(tái)。

文心一言

必應(yīng)

ChatGPT

值得注意的是，澎湃新聞?dòng)浾咄ㄟ^(guò)內(nèi)測(cè)版要求生成海報(bào)時(shí)，發(fā)現(xiàn)文心一言對(duì)于詞語(yǔ)理解與演示時(shí)有偏差，給出的是海報(bào)文案，而非海報(bào)，再繼續(xù)要求“生成一張圖片”時(shí)，則給出了完全無(wú)關(guān)的內(nèi)容，完全沒有按照上下文意思來(lái)生成內(nèi)容。