設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

挖掘 GPT 的隱藏實力就靠它了 ——SmartGPT

量子位 2023/5/12 13:08:05 責編:夢澤

這個 GitHub 新項目,能讓 ChatGPT 完成復雜任務,GPT3.5 和 GPT-4 都支持。

它通過將問題拆解,并調用外部資源,提高了 GPT 的工作能力。

在它的調教下,GPT-4 回答的準確率從 68% 提高到了 85%。

這個項目名叫 SmartGPT,這個名字很直白地告訴了我們它的作用。

無論是直觀感受還是量化數據,GPT 在它的加持之下回答正確率都有提高。

我們不妨看看幾個經典的問題。

晾干 5 件衣服需要 5 個小時,那么晾 30 件需要多長時間呢?

這是一個來自 OpenAI Playground 的經典問題。

只見 GPT 一頓操作猛如虎,又是推理又是列方程……

然而最后給出的答案是 30 個小時。

而經過 SmartGPT 調教之后,不僅得到了正確答案,還指出了此前的思路為什么會出錯。

再來舉個栗子,同樣是來自于 OpenAI Playground 的問題。

假設有 6 升和 12 升的罐子各一個,如何量取 6 升水?

GPT 的答案嘛…… 麻煩不說,能不能解釋下第五步的 2 升是怎么剩下的?

經過調教之后嘛…… 雖然不理解為什么不直接用 6 升的,但也有很大進步了。

我們也用倒拔垂楊柳的問題進行了測試,提供了諸葛亮、孫悟空和林黛玉三個選項。

第一輪,GPT-4 給出的答案是…… 孫悟空。

經過調教之后,GPT-4 終于發(fā)現(xiàn)了三個選項都是錯誤的。

同時還指出了孫悟空雖然沒有倒拔垂楊柳但是有相似的情節(jié)。

(《西游記》第二十五回中,孫悟空在五莊觀因憤怒將人參果樹拔倒)

需要說明的是,由于沒有 GPT-4 的 API,測試是按照開發(fā)者介紹的方法手工完成的。

當然了,個例并不能說明它的表現(xiàn),還是要用數據集測試一下。

開發(fā)者使用了 MMLU 數據集分別對調教前后的 GPT-4 進行了測試。

結果顯示,未經調教的版本只答對了 68%,而調教后的版本答對了 85%。

順便提一句,真人專家在測試中的平均成績是 89.8%。

數學方面,同樣使用 MMLU 數據集進行測試,開發(fā)者從中選擇了 15 個大學難度的數學問題。

雖然準確率只有 60%,但也是及格了,而且比原版 GPT 的 40% 已經好了太多。

化整為零,逐步解決

開發(fā)者將 SmartGPT 中的環(huán)節(jié)形象地比作了職場中的角色:

“甲方”:SmartGPT 用戶。

“經理”:和“甲方”對接,把任務拆分成高級子任務并逐一匯報給“老板”。

“老板”:制定計劃,將高級子任務再次拆分,并分發(fā)給“員工”。

“員工”:接收任務,編寫偽代碼,交給“小黃人”執(zhí)行。

“小黃人”:將偽代碼優(yōu)化成 LUA 腳本并運行。

作為“甲方”的用戶,需要做的只是像使用普通 GPT 一樣輸入自己的問題,而不必給出額外指令。

SmartGPT 會幫助用戶把問題拆分,然后按照步驟提交給 GPT。

此前有人發(fā)現(xiàn),在輸入給 GPT 的指令中加入“l(fā)et’s think step by step”可以提高回復的準確率。

同時,GPT-4 具有回溯能力,能夠發(fā)現(xiàn)并指出自己此前回答中的錯誤。

以上兩個特性為 SmartGPT 的工作提供了重要支撐。

 SmartGPT 工作流程圖

在用戶輸入完指令后,SmartGPT 對其進行處理拆分,包括添加“l(fā)et’s think step by step”類似的表述。

然后它會將處理好的指令傳至 GPT 的 API,并重復多次獲取不同的答案。

接著,SmartGPT 會向 API 發(fā)送要求其回溯答案并選擇最優(yōu)解的指令。

最后,將 GPT 自己選擇的最佳答案展示給用戶。

上述步驟受到了三篇學術論文的啟發(fā)(圖中白框)。

這三篇論文的內容分別關于“鏈式提示方式”、“動態(tài)記憶及讓 LLM 自我回溯”和“用對話提高 LLM 完成度”。

和其他工具相比,SmartGPT 好在哪

AutoGPT 等工具同樣可以用來優(yōu)化 GPT,SmartGPT 比它們好在哪里呢?

由于其工作原理是將任務進行拆分,會形成邏輯鏈條,因此 SmartGPT 擁有更強大的推理能力。

實用性方面,SmartGPT 由獨立的子模塊組成,使用者可以對它們進行任意排列、組合和刪改。

此外,無論對于用戶還是開發(fā)人員,SmartGPT 的配置過程都更為簡單。

不過開發(fā)者也坦言,這個項目剛推出不久,因此穩(wěn)定性有待考證,在內存優(yōu)化方面還有所欠缺,消耗的環(huán)境資源也更多。

在項目推出之后,有網友表示我們低估了 GPT 的潛力,甚至包括 OpenAI 自己。

那么,你期待 GPT 未來的表現(xiàn)嗎?

SmartGPT 目前暫無開箱可用版本,需要自行在 Linux 環(huán)境搭建,動手能力強的讀者可根據下面的項目頁面中的指示體驗:

項目地址:https://github.com/ Cormanz / smartgpt

項目涉及到的論文:

[1]. https://arxiv.org/abs/2305.02897

[2]. https://arxiv.org/abs/2303.11366

[3]. https://arxiv.org/abs/2303.17071

參考鏈接:

  • [1]. https://www.youtube.com/watch?v=wVzuvf9D9BU

  • [2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/

本文來自微信公眾號:量子位 (ID:QbitAI),作者:克雷西

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:ChatGPT人工智能

軟媒旗下網站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知