首頁 > 科學(xué)探索>科技前沿

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

量子位 2023/5/12 13:08:05 責(zé)編：夢澤

評論：

這個(gè) GitHub 新項(xiàng)目，能讓 ChatGPT 完成復(fù)雜任務(wù)，GPT3.5 和 GPT-4 都支持。

它通過將問題拆解，并調(diào)用外部資源，提高了 GPT 的工作能力。

在它的調(diào)教下，GPT-4 回答的準(zhǔn)確率從 68% 提高到了 85%。

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

這個(gè)項(xiàng)目名叫 SmartGPT，這個(gè)名字很直白地告訴了我們它的作用。

無論是直觀感受還是量化數(shù)據(jù)，GPT 在它的加持之下回答正確率都有提高。

我們不妨看看幾個(gè)經(jīng)典的問題。

晾干 5 件衣服需要 5 個(gè)小時(shí)，那么晾 30 件需要多長時(shí)間呢？

這是一個(gè)來自 OpenAI Playground 的經(jīng)典問題。

只見 GPT 一頓操作猛如虎，又是推理又是列方程……

然而最后給出的答案是 30 個(gè)小時(shí)。

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

而經(jīng)過 SmartGPT 調(diào)教之后，不僅得到了正確答案，還指出了此前的思路為什么會(huì)出錯(cuò)。

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

再來舉個(gè)栗子，同樣是來自于 OpenAI Playground 的問題。

假設(shè)有 6 升和 12 升的罐子各一個(gè)，如何量取 6 升水？

GPT 的答案嘛…… 麻煩不說，能不能解釋下第五步的 2 升是怎么剩下的？

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

經(jīng)過調(diào)教之后嘛…… 雖然不理解為什么不直接用 6 升的，但也有很大進(jìn)步了。

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

我們也用倒拔垂楊柳的問題進(jìn)行了測試，提供了諸葛亮、孫悟空和林黛玉三個(gè)選項(xiàng)。

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

第一輪，GPT-4 給出的答案是…… 孫悟空。

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

經(jīng)過調(diào)教之后，GPT-4 終于發(fā)現(xiàn)了三個(gè)選項(xiàng)都是錯(cuò)誤的。

同時(shí)還指出了孫悟空雖然沒有倒拔垂楊柳但是有相似的情節(jié)。

（《西游記》第二十五回中，孫悟空在五莊觀因憤怒將人參果樹拔倒）

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

需要說明的是，由于沒有 GPT-4 的 API，測試是按照開發(fā)者介紹的方法手工完成的。

當(dāng)然了，個(gè)例并不能說明它的表現(xiàn)，還是要用數(shù)據(jù)集測試一下。

開發(fā)者使用了 MMLU 數(shù)據(jù)集分別對調(diào)教前后的 GPT-4 進(jìn)行了測試。

結(jié)果顯示，未經(jīng)調(diào)教的版本只答對了 68%，而調(diào)教后的版本答對了 85%。

順便提一句，真人專家在測試中的平均成績是 89.8%。

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

數(shù)學(xué)方面，同樣使用 MMLU 數(shù)據(jù)集進(jìn)行測試，開發(fā)者從中選擇了 15 個(gè)大學(xué)難度的數(shù)學(xué)問題。

雖然準(zhǔn)確率只有 60%，但也是及格了，而且比原版 GPT 的 40% 已經(jīng)好了太多。

化整為零，逐步解決

開發(fā)者將 SmartGPT 中的環(huán)節(jié)形象地比作了職場中的角色：

“甲方”：SmartGPT 用戶。

“經(jīng)理”：和“甲方”對接，把任務(wù)拆分成高級子任務(wù)并逐一匯報(bào)給“老板”。

“老板”：制定計(jì)劃，將高級子任務(wù)再次拆分，并分發(fā)給“員工”。

“員工”：接收任務(wù)，編寫偽代碼，交給“小黃人”執(zhí)行。

“小黃人”：將偽代碼優(yōu)化成 LUA 腳本并運(yùn)行。

作為“甲方”的用戶，需要做的只是像使用普通 GPT 一樣輸入自己的問題，而不必給出額外指令。

SmartGPT 會(huì)幫助用戶把問題拆分，然后按照步驟提交給 GPT。

此前有人發(fā)現(xiàn)，在輸入給 GPT 的指令中加入“l(fā)et’s think step by step”可以提高回復(fù)的準(zhǔn)確率。

同時(shí)，GPT-4 具有回溯能力，能夠發(fā)現(xiàn)并指出自己此前回答中的錯(cuò)誤。

以上兩個(gè)特性為 SmartGPT 的工作提供了重要支撐。

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

△ SmartGPT 工作流程圖

在用戶輸入完指令后，SmartGPT 對其進(jìn)行處理拆分，包括添加“l(fā)et’s think step by step”類似的表述。

然后它會(huì)將處理好的指令傳至 GPT 的 API，并重復(fù)多次獲取不同的答案。

接著，SmartGPT 會(huì)向 API 發(fā)送要求其回溯答案并選擇最優(yōu)解的指令。

最后，將 GPT 自己選擇的最佳答案展示給用戶。

上述步驟受到了三篇學(xué)術(shù)論文的啟發(fā)（圖中白框）。

這三篇論文的內(nèi)容分別關(guān)于“鏈?zhǔn)教崾痉绞健?、“?dòng)態(tài)記憶及讓 LLM 自我回溯”和“用對話提高 LLM 完成度”。

和其他工具相比，SmartGPT 好在哪

AutoGPT 等工具同樣可以用來優(yōu)化 GPT，SmartGPT 比它們好在哪里呢？

由于其工作原理是將任務(wù)進(jìn)行拆分，會(huì)形成邏輯鏈條，因此 SmartGPT 擁有更強(qiáng)大的推理能力。

實(shí)用性方面，SmartGPT 由獨(dú)立的子模塊組成，使用者可以對它們進(jìn)行任意排列、組合和刪改。

此外，無論對于用戶還是開發(fā)人員，SmartGPT 的配置過程都更為簡單。

不過開發(fā)者也坦言，這個(gè)項(xiàng)目剛推出不久，因此穩(wěn)定性有待考證，在內(nèi)存優(yōu)化方面還有所欠缺，消耗的環(huán)境資源也更多。

在項(xiàng)目推出之后，有網(wǎng)友表示我們低估了 GPT 的潛力，甚至包括 OpenAI 自己。

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

那么，你期待 GPT 未來的表現(xiàn)嗎？

SmartGPT 目前暫無開箱可用版本，需要自行在 Linux 環(huán)境搭建，動(dòng)手能力強(qiáng)的讀者可根據(jù)下面的項(xiàng)目頁面中的指示體驗(yàn)：

項(xiàng)目地址：https://github.com/ Cormanz / smartgpt

項(xiàng)目涉及到的論文：

[1]. https://arxiv.org/abs/2305.02897

[2]. https://arxiv.org/abs/2303.11366

[3]. https://arxiv.org/abs/2303.17071

參考鏈接：

[1]. https://www.youtube.com/watch?v=wVzuvf9D9BU
[2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/

本文來自微信公眾號：量子位（ID：QbitAI），作者：克雷西

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

挖掘 GPT 的隱藏實(shí)力就靠它了 ——SmartGPT

化整為零，逐步解決

和其他工具相比，SmartGPT 好在哪

相關(guān)文章

化整為零，逐步解決

和其他工具相比，SmartGPT 好在哪