首頁(yè) > 科學(xué)探索>科技前沿

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

量子位 2023/4/7 18:26:08 責(zé)編：夢(mèng)澤

評(píng)論：

阿里正式加入 ChatGPT 戰(zhàn)局！

就在剛剛，阿里版類 ChatGPT 突然官宣正式對(duì)外開(kāi)放企業(yè)邀測(cè)。

它叫通義千問(wèn)，由達(dá)摩院開(kāi)發(fā)。

嗯，是大模型版十萬(wàn)個(gè)為什么那個(gè)味兒了。

事實(shí)上，早在這個(gè)月初，就傳出過(guò)不少阿里要推出類 ChatGPT 的消息，不過(guò)普遍預(yù)期在 11 號(hào)左右。

而前幾天率先流出的天貓精靈“鳥(niǎo)鳥(niǎo)分鳥(niǎo)”脫口秀版 GPT，就是基于大模型的“壓縮版”，已經(jīng)以其驚艷表現(xiàn)把網(wǎng)友的胃口吊了起來(lái)，讓眾人將目光投向阿里。

如今“正菜”提前上桌，自然一點(diǎn)即著，引爆輿論關(guān)注。

所以，這個(gè)阿里版 ChatGPT“通義千問(wèn)”，究竟實(shí)力幾何？

恰好量子位拿到了第一批邀測(cè)資格，省流結(jié)論：中文大模型真正的競(jìng)爭(zhēng)開(kāi)始了。

咱們實(shí)測(cè)見(jiàn)真章。

調(diào)戲阿里版 ChatGPT 實(shí)錄

先來(lái)看看通義千問(wèn)的主要功能。

作為一個(gè)大語(yǔ)言模型，它的能力主要集中在文本生成上，即也能像 ChatGPT 一樣“問(wèn)啥答啥”：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

這里我們?cè)囈幌鹿俜浇o的撰寫短文，看起來(lái)連語(yǔ)文老師常用的“總分總”也能理解：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

△ 又一個(gè)中文寫作業(yè)神器（doge）

除了對(duì)話外，它還具備一個(gè)“百寶袋”功能，里面相當(dāng)于一個(gè)工具箱，能快速生成各種指定類型的文案：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

話不多說(shuō)，先從語(yǔ)言能力、上下文理解能力、代碼能力和數(shù)學(xué)能力四個(gè)方向，來(lái)測(cè)測(cè)模型的對(duì)話能力。

一、對(duì)話能力

語(yǔ)言能力

要說(shuō)國(guó)內(nèi)大模型，首先要看的還得是中文。

先來(lái)個(gè)最基礎(chǔ)的：“能穿多少穿多少”是什么意思？

不錯(cuò)，解釋得比較清楚，還順便聊了一下自己對(duì)這句話的看法：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

續(xù)寫類的創(chuàng)意寫作，不但能模仿語(yǔ)氣，甚至還能創(chuàng)造懸疑，有點(diǎn)厲害喲~

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

接下來(lái)就輪到新一代 AI benchmark 弱智吧問(wèn)題了：怎么才能把夢(mèng)里的錢取到銀行卡里？

“在夢(mèng)里取錢是一種幻覺(jué)或想象”，謝謝你清醒俠。

還有更扎心的……“如果您經(jīng)常做夢(mèng)夢(mèng)到錢，建議您睡前回顧一下自己的財(cái)務(wù)狀況，看看有什么不足之處”

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

雖然阿里的朋友稱，通義千問(wèn)主要是中文不錯(cuò)，但我們叛逆一點(diǎn)，看看這個(gè)中文大語(yǔ)言模型的其他語(yǔ)言水平怎么樣。

先不走尋常路，試試通義千問(wèn)的日語(yǔ)能力，給花澤香菜寫一封情書。

看中文機(jī)翻似乎還不錯(cuò)，這就把它寄給香菜，應(yīng)該沒(méi)問(wèn)題吧？

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

再來(lái)試試英語(yǔ)。剛好前段時(shí)間有網(wǎng)友 PK 了一下 Bard 和 GPT-4 的 Rap，我們也來(lái)看看通義千問(wèn)的說(shuō)唱能力。

這 top，這 stop，還給押上了！就是不知道姆爺認(rèn)不認(rèn)可。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

試試加點(diǎn)難度，中英夾雜的諧音梗？

這個(gè)時(shí)候，通義千問(wèn)的回答就顯得有點(diǎn)嚴(yán)肅了。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

當(dāng)我們給出答案的時(shí)候，雖然通義千問(wèn)看出了這是個(gè)笑話，但它并不覺(jué)得好笑，還很嚴(yán)肅地指正我們：這并不意味著松下懼怕索尼。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

不過(guò)我們發(fā)現(xiàn)，ChatGPT 同樣一本正經(jīng)…… 這年頭的 AI 都這么正義么……

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

好，下一個(gè)試試它的上下文理解能力。

上下文理解能力

這部分說(shuō)白了就是多輪對(duì)話能力，考查通義千問(wèn)能不能準(zhǔn)確提取上文的信息，用于下輪問(wèn)題的回答。

來(lái)聽(tīng)題：山東一縣一酒是真的嗎？

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

模糊掉山東試試？讓它列舉“這個(gè)省”幾個(gè)經(jīng)典的白酒牌子：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

不錯(cuò)。再試著從最新的回答中追問(wèn)一下：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

等等，“據(jù)史書記載”不會(huì)是編的資料吧？追問(wèn) ×2：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

有意思的是，我們確實(shí)在孔府家酒的官網(wǎng)找到了資料來(lái)源：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

代碼能力

接著，來(lái)試試它的代碼能力。整個(gè)計(jì)算器程序試試？

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

還不錯(cuò)，實(shí)現(xiàn)了簡(jiǎn)單的四則運(yùn)算。完整版代碼如下，感興趣的胖友們可以試試：

#include <tream>
#include <cmath>

using namespace std;

int main()
{
    double num1, num2;
    char operator;

    cout << "Enter first number: ";
    cin >> num1;

    cout << "Enter second number: ";
    cin >> num2;

    cout << "Enter operator (+,-,*,/,%,...) : ";
    cin >> operator;

    switch(operator)
    {
        case '+':
            cout << num1 + num2 << endl;
            break;
        case '-':
            cout << num1 - num2 << endl;
            break;
        case '*':
            cout << num1 * num2 << endl;
            break;
        case '/':
            if(num2 == 0)
            {
                cout << "Error! Cannot divide by 0." << endl;
                break;
            }
            else
            {
                cout << num1 / num2 << endl;
            }
            break;
        case '%':
            cout << num1 % num2 << endl;
            break;
        default:
            cout << "Error! Invalid operator." << endl;
            break;
    }

    return 0;
}

那么，讓將它這段代碼改寫成 Python：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

再讓它解釋一下自己寫過(guò)的每一段代碼：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

基礎(chǔ)編程能力，似乎問(wèn)題不大？

不過(guò)，如果要讓通義千問(wèn)將解釋改寫成注釋，就會(huì)出現(xiàn)一點(diǎn)神奇的 bug。

雖然它給“Python”代碼標(biāo)好了注釋，但等等，這不是最初的 C++ 版代碼嘛！

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

（這何嘗不是一種 NTR）

數(shù)學(xué)能力

最后來(lái)看看數(shù)學(xué)問(wèn)題。雞兔同籠，還不錯(cuò)：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

普通的計(jì)算題也沒(méi)什么問(wèn)題，還能精確到小數(shù)點(diǎn)后幾位：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

巴特，高數(shù)題就不太行了，雖然它發(fā)現(xiàn)了這道題需要求導(dǎo)，但求解方法卻出了錯(cuò)……

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

不過(guò)通義千問(wèn)也明確表示，無(wú)法保證在所有情況下給出正確的答案：

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

嗯… 和 GPT 們一樣，大模型的數(shù)學(xué)能力都比較初級(jí)。

對(duì)話能力測(cè)得差不多，接下來(lái)再看看它的“場(chǎng)景能力”。

二、場(chǎng)景能力

雖然通義千問(wèn)“百寶袋”給出了不少功能，不過(guò)寫提綱、描述商品這些都很常見(jiàn)了，我們就挑了三個(gè)比較有意思的來(lái)試試：菜譜生成、彩虹屁生成器和免費(fèi)代寫情書。

會(huì)放飛的菜譜

眾所周知，寫菜譜是個(gè)技術(shù)活兒，既考驗(yàn)上下文能力（說(shuō)過(guò)的材料都得用到），還得考考 AI 的理解菜名能力，做菜的步驟還不能太離譜。

示例的“清蒸鱸魚”，對(duì) AI 來(lái)說(shuō)顯然太簡(jiǎn)單了。這不得整點(diǎn)游戲里奇怪的菜名給它試試？

先來(lái)一份《原神》里的飽腹感凝膠。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

好家伙，竟然想到用現(xiàn)實(shí)中的魔芋粉來(lái)模仿飽腹感凝膠，這創(chuàng)意不錯(cuò)。（不過(guò)卡路里粉是什么鬼，蛋白粉嗎？）

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

那么，同樣的菜再試試讓 ChatGPT 做一遍，你感覺(jué)哪個(gè)更好吃？

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

再給通義千問(wèn)來(lái)道加試題，讓它試試《星露谷物語(yǔ)》里面，用虛空蛋做的奇怪的小面包？

等等，真把虛空蛋放進(jìn)食譜了？而且還真的做了份面包出來(lái)！就是不知道口感如何……

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

照這樣看，游戲中的食譜都能給通義千問(wèn)還原一遍了，直接打破次元壁。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

彩虹屁生成器

接下來(lái)，再試試讓它生成一份彩虹屁。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

硬生生把衣服上的油漬夸成了藝術(shù)品……

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

嗯，各大夸夸群可以考慮引入一個(gè)了。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

免費(fèi)代寫情書

最后，我們的測(cè)試以給野獸先輩寫一份情書做結(jié)尾。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

你感覺(jué)怎么樣？

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

好了，看了這么多五（奇）花（奇）八（怪）門（怪）的測(cè)評(píng)，你是不是也有點(diǎn)好奇通義千問(wèn)是怎么來(lái)的了？

通義千問(wèn)從何而來(lái)？

關(guān)于通義千問(wèn)的技術(shù)細(xì)節(jié)，阿里達(dá)摩院官方?jīng)]有透露詳細(xì)信息。

而通義千問(wèn)自己，是這么回答的：

訓(xùn)練資料來(lái)自阿里巴巴達(dá)摩院，截止到 2023 年 2 月。訓(xùn)練資料包括大量語(yǔ)言和文本數(shù)據(jù)，包括中英日法西班牙語(yǔ)多語(yǔ)種文本數(shù)據(jù)。

還提到自己是個(gè)能聯(lián)網(wǎng)的大語(yǔ)言模型。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

不過(guò)，我們實(shí)測(cè)了一下，發(fā)現(xiàn)千問(wèn)只是虛晃一槍，假裝自己會(huì)上網(wǎng)（doge）。

實(shí)際上，當(dāng)你單獨(dú)問(wèn)它今天天氣如何時(shí)，通義千問(wèn)會(huì)承認(rèn)它不能訪問(wèn)實(shí)時(shí)數(shù)據(jù)。

但如果你拋給它一個(gè)查詢天氣的網(wǎng)站，它就會(huì)假裝自己看到了網(wǎng)頁(yè)內(nèi)容，然后一本正經(jīng)地胡謅一番。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

此處應(yīng)喊話阿里程序員：你家大模型是真的想上網(wǎng)了。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

書歸正傳，盡管官方口徑低調(diào)，但正如 ChatGPT 脫胎于 OpenAI 的 GPT 系列，文心一言是自 Ernie 大模型發(fā)展而來(lái)，阿里也是國(guó)內(nèi)最早開(kāi)始研發(fā)大模型的技術(shù)大廠之一。

公開(kāi)資料顯示，2019 年，阿里就已經(jīng)啟動(dòng)了中文大模型研發(fā)。當(dāng)時(shí)阿里發(fā)布的語(yǔ)言大模型 StructBERT 超越谷歌、微軟、Facebook，登頂了 CLUE 榜單。

2021 年，阿里先后發(fā)布了國(guó)內(nèi)首個(gè)超百億參數(shù)多模態(tài)大模型 M6，以及被稱為“中文版 GPT-3”的語(yǔ)言大模型 PLUG。

其中，M6 在多次迭代之后，實(shí)現(xiàn)了十萬(wàn)億級(jí)別的參數(shù)規(guī)模，并且 M6 和支付寶、淘寶的業(yè)務(wù)需求相結(jié)合，首個(gè)在國(guó)內(nèi)實(shí)現(xiàn)了商業(yè)化落地。

PLUG 的參數(shù)規(guī)模則為 270 億，是基于達(dá)摩院的兩種自研模型 —— 語(yǔ)言理解模型 StructBERT 和語(yǔ)言生成模型 PALM 打造。

這一大模型初登場(chǎng)，就以 80.614 分刷新了權(quán)威中文語(yǔ)言理解基準(zhǔn) CLUE 分類任務(wù)榜單記錄。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

在去年的 WAIC（世界人工智能大會(huì)）上，阿里還發(fā)布了通義大模型系列。其中核心模型均已開(kāi)源開(kāi)放。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

大模型時(shí)代，中國(guó)力量加速競(jìng)逐

那么，你會(huì)給這個(gè)阿里版 ChatGPT 打幾分？

需要承認(rèn)的是，相比于現(xiàn)在的業(yè)界標(biāo)桿 ChatGPT（GPT-4），通義千問(wèn)還有不少進(jìn)步空間。阿里方面也透露，根據(jù)內(nèi)測(cè)反饋，這一大模型正在飛速迭代中。

此前，微軟被曝曾專門為 ChatGPT 砸下數(shù)億美元，打造由上萬(wàn)張英偉達(dá) A100 組成的專用超算。而綜合各方消息來(lái)看，目前國(guó)內(nèi)擁有這一數(shù)量級(jí)高性能顯卡的企業(yè)屈指可數(shù)，阿里是其中之一。

大模型時(shí)代，已經(jīng)形成行業(yè)共識(shí)的一點(diǎn)是，打造大模型，AI 和云計(jì)算缺一不可。

而阿里，是全球少數(shù)在算法和算力上都有領(lǐng)先布局的公司之一。

除了本身在人工智能和大模型方面長(zhǎng)期的技術(shù)積累，背靠國(guó)內(nèi)第一、亞洲第三的云廠商，阿里在算力方面也具備天然的優(yōu)勢(shì)。

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

ChatGPT 這把火燒到如今，國(guó)內(nèi)對(duì)具備足夠競(jìng)爭(zhēng)力的國(guó)產(chǎn)生成式大模型的需求，正在與日俱增。

ChatGPT 類產(chǎn)品提升生產(chǎn)效率的潛力，已經(jīng)被不斷驗(yàn)證。但與此同時(shí)，前有 ChatGPT 大規(guī)模封號(hào)、亞洲成重災(zāi)區(qū)，后有 OpenAI 因算力問(wèn)題停售 ChatGPT Plus……

種種不確定因素，再一次凸顯了技術(shù)自研的價(jià)值。

所幸這次，我們的起跑線，并沒(méi)有相差那么遠(yuǎn)。

游戲不會(huì)在一夜間結(jié)束，而現(xiàn)在，競(jìng)逐真正開(kāi)始。

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：蕭簫魚羊

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

調(diào)戲阿里版 ChatGPT 實(shí)錄

一、對(duì)話能力

二、場(chǎng)景能力

通義千問(wèn)從何而來(lái)？

大模型時(shí)代，中國(guó)力量加速競(jìng)逐

相關(guān)文章

阿里版 ChatGPT 突然上線邀測(cè)，大模型熱戰(zhàn)正劇開(kāi)始，這是第一手體驗(yàn)實(shí)錄

一、對(duì)話能力

二、場(chǎng)景能力

通義千問(wèn)從何而來(lái)？

大模型時(shí)代，中國(guó)力量加速競(jìng)逐