首頁(yè) > 科學(xué)探索>科技前沿

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

量子位 2023/1/4 14:02:03 責(zé)編：夢(mèng)澤

評(píng)論：

ChatGPT 的下一個(gè)新身份 —— 做題家！

這不，它已經(jīng)在人類各個(gè)考試中開(kāi)“卷”了。

律師、醫(yī)生、注會(huì)什么的，它都開(kāi)始紛紛展露身手。

比如，全球考生都頭疼的司法考試，現(xiàn)在 ChatGPT 在兩項(xiàng)試題達(dá)到了合格率，其中一項(xiàng)還跟人類水平持平。（還是在沒(méi)有任何微調(diào)的基礎(chǔ)上）

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

“成績(jī)”一出，瞬間引發(fā)巨大關(guān)注，網(wǎng)友：Amazing~

還有人表示，要是讓它來(lái)參加 SAT 或 AP 考試，應(yīng)該會(huì)很有趣。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

咳咳，要是公務(wù)員考試呢？

咱們結(jié)尾見(jiàn)分曉！

兩項(xiàng)法考試題合格

具體就先來(lái)看看 ChatGPT 在司法考試中的表現(xiàn)如何。

美國(guó)大多數(shù)州統(tǒng)一的司法考試（UBE），有三個(gè)組成部分：選擇題（多州律師考試，MBE）、作文（MEE）、情景表現(xiàn)（MPT）。

選擇題部分，由來(lái)自 8 個(gè)類別的 200 道題組成，通常占整個(gè)律師考試分?jǐn)?shù)的 50%。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

在這項(xiàng)研究中，研究人員對(duì) OpenAI 的 text-davinci-003 模型（通常被稱為 GPT-3.5）在 MBE 的表現(xiàn)進(jìn)行評(píng)估。

（ChatGPT 正是 GPT-3.5 面向公眾的聊天機(jī)器人版本。）

為了測(cè)試實(shí)際效果，研究人員購(gòu)買了官方組織提供的標(biāo)準(zhǔn)考試準(zhǔn)備材料，包括練習(xí)題和模擬考試。每個(gè)問(wèn)題的正文都是自動(dòng)提取的，其中有四個(gè)多選選項(xiàng)，并與答案分開(kāi)存儲(chǔ)，答案僅由每個(gè)問(wèn)題的正確字母答案組成，也沒(méi)有對(duì)正確和錯(cuò)誤的答案進(jìn)行解釋。

隨后，研究人員分別對(duì) GPT-3.5 進(jìn)行了提示工程、超參數(shù)優(yōu)化以及微調(diào)的嘗試。結(jié)果發(fā)現(xiàn)，超參數(shù)優(yōu)化和提示工程對(duì) GPT-3.5 的成績(jī)表現(xiàn)有積極影響，而微調(diào)沒(méi)有任何效果。

在提示工程中，他們共測(cè)試了 7 種提示類型。

1、只做單項(xiàng)選擇；

2、單項(xiàng)選擇和解釋；

3、只做前兩個(gè)選擇；

4、前兩個(gè)選擇和解釋；

5、前兩個(gè)選擇和重新提示；

6、對(duì)所有選擇進(jìn)行排序；

7、對(duì)前三個(gè)選擇進(jìn)行排序。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

研究人員在上述的提示和參數(shù)值中執(zhí)行了 107 次樣本考試。結(jié)果在這些提示中，提示風(fēng)格#7 的前三個(gè)選項(xiàng)排序表現(xiàn)最好，他們共收集了 41 個(gè)樣本，對(duì)這個(gè)提示進(jìn)行參數(shù)組合。

超參數(shù)優(yōu)化中，他們?cè)u(píng)估了包括溫度系數(shù)、top p、best of、max tokens 等參數(shù)。

最終在完整的 MBE 練習(xí)考試中達(dá)到了 50.3% 的平均正確率，大大超過(guò)了 25% 的基線猜測(cè)率，并且在證據(jù)和侵權(quán)行為兩個(gè)類型都達(dá)到了平均通過(guò)率。尤其是證據(jù)類別，與人類水平持平，保持著 63% 的準(zhǔn)確率。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

在所有類別中，GPT 平均落后于人類應(yīng)試者約 17%。在證據(jù)、侵權(quán)行為和民事訴訟的情況下，這一差距可以忽略不計(jì)或只有個(gè)位數(shù)。

但總的來(lái)說(shuō)，這一結(jié)果都大大超出了研究人員的預(yù)期。

因?yàn)樗鼘?duì)答案排序與正確性有很強(qiáng)的相關(guān)性，Top2 和 Top3 的選擇分別有 71% 和 88% 的正確率。其中“Top2”的準(zhǔn)確率全都超過(guò)了極限，有五個(gè)類別均超過(guò)了人類平均水平。而“Top3”的準(zhǔn)確度更高，在證據(jù)這一表現(xiàn)中甚至達(dá)到了 98%。

這也證實(shí)了它對(duì)法律領(lǐng)域的一般理解，而非隨機(jī)猜測(cè)。接下來(lái)他們將進(jìn)一步對(duì)法考的其他兩部分：作文和情景表現(xiàn)進(jìn)行上述的研究。

ChatGPT 能當(dāng)考霸嗎？

谷歌資深軟件工程師肯尼斯?古德曼（Kenneth S. Goodman）就拿 ChatGPT 做了一系列測(cè)試，涉及司法、醫(yī)學(xué)、會(huì)計(jì)學(xué)、化學(xué)等多個(gè)領(lǐng)域。

分?jǐn)?shù)最高的一門是紐約州高中畢業(yè)英語(yǔ)語(yǔ)言藝術(shù)考試，ChatGPT 正確率達(dá)到了 91.6%。

因?yàn)槭?2022 年 8 月的考試，所以 ChatGPT 數(shù)據(jù)庫(kù)中肯定不包含考試內(nèi)容。對(duì)于陌生的 24 道考題，它只錯(cuò)了 2 題。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

物理 / 化學(xué)考試中，ChatGPT 的表現(xiàn)也不錯(cuò)，正確率達(dá)到了 77.7%，45 道題目中答對(duì)了 35 道。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

前不久，谷歌醫(yī)療大模型 Med-PaLM 通過(guò)美國(guó)醫(yī)師執(zhí)照試題（USMLE）驗(yàn)證。

ChatGPT 也不甘于落后，同樣挑戰(zhàn)了 USMLE 的第一階段基礎(chǔ)醫(yī)學(xué)考試。

去掉有圖像的題目后（因無(wú)法輸入對(duì)話框），ChatGPT 正確率達(dá) 70%。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

其余則是在司法方面，工程師肯尼斯老哥讓 ChatGPT 嘗試了一些非正式題目。

比如美國(guó)律師職業(yè)道德考試（MPRE）的示例題目（共 15 道），ChatGPT 答對(duì)了 9 道，正確率 60%。

面對(duì) 50 道律師資格考試模擬試題，ChatGPT 的正確率也維持在了 70%，答對(duì) 35 道。

此外，在佛羅里達(dá)農(nóng)工大學(xué)法學(xué)院的入學(xué)考試中，ChatGPT 取得了 149 分，排名在前 40%。其中閱讀理解類題目表現(xiàn)最好。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

表現(xiàn)最差的，還是數(shù)學(xué)題。

在 CPA 注會(huì)考試中，ChatGPT 的正確率只有 40%?？夏崴估细邕€在嘗試一些調(diào)教方法，讓它更聰明一些。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

總之，ChatGPT 在各種考試中的表現(xiàn)，還是讓人有些意外。

有網(wǎng)友已經(jīng)產(chǎn)生危機(jī)感了：

damn，我的工作要被搶了！

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

有人分析，如果直接讓 AI 來(lái)插手司法相關(guān)的判斷，風(fēng)險(xiǎn)真的很大，但如果后期有專人來(lái)審核它的輸出結(jié)果，那么 AI 將能夠很好提升律師的工作效率。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

還有人表示，如果能保證任何數(shù)據(jù)都不泄露的話，那 ChatGPT 將能夠推動(dòng)更多行業(yè)平民化。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

或許正如肯尼斯老哥說(shuō)的那樣，人類 + 電腦的組合已經(jīng)超越了人類自身能力，這就是計(jì)算機(jī)當(dāng)下正在進(jìn)行的突破。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

One More Thing

最后，我們也讓 ChatGPT 試了試國(guó)內(nèi)法考的題目~

先說(shuō)結(jié)果，3 道選擇題，ChatGPT 都沒(méi)有答對(duì)…… 雖然解釋得頭頭是道，但它應(yīng)該確實(shí)沒(méi)有讀過(guò)我國(guó)的法條。

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

△ 參考答案 D

（這答案羅翔老師看了直搖頭）

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

△ 參考答案 A

換成公務(wù)員行測(cè)試題呢？沒(méi)想到 ChatGPT 的答案對(duì)了，可是過(guò)程和答案似乎完全沒(méi)關(guān)系……

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

這…… 怎么感覺(jué) AI 秒算結(jié)果，但隨便編了個(gè)過(guò)程來(lái)糊弄人類啊

參考鏈接：

[1]https://twitter.com/_akhaliq/status/1609734525461975040
[2]https://github.com/mjbommar/gpt-takes-the-bar-exam
[3]https://arxiv.org/abs/2212.14402
[4]https://twitter.com/pythonprimes/status/1601664776194912256

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：楊凈明敏

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

兩項(xiàng)法考試題合格

ChatGPT 能當(dāng)考霸嗎？

One More Thing

相關(guān)文章

ChatGPT 大戰(zhàn)司法考試，無(wú)需微調(diào)一類試題達(dá)到人類水平，醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

ChatGPT 能當(dāng)考霸嗎？