設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

給 ChatGPT 小費真的好使:10 元或 10 萬效果拔群,但給 1 毛不升反降

量子位 2024/2/1 15:18:53 責(zé)編:問舟
感謝IT之家網(wǎng)友 華科學(xué)霸 的線索投遞!

還有誰不知道“假裝”給 ChatGPT 小費可以讓它服務(wù)更賣力?但你知道給多少最合適嗎?

笑不活了,還真有人專門研究了一番。方法簡單粗暴,從 0.1 美元到 100 美元,不同額度用同樣的 prompt 去嘗試,每個額度試 5 次。你別說,結(jié)果還真有講究:

首先,給 10 美元性價比是最高的,甚至超過 100 美元。

其次,要想回答質(zhì)量再提高一個度,打底 1 萬美元起,越多越好,顯成效最少 10 個 W 吧。

最后,0.1 美元意思一下?萬萬使不得,質(zhì)量不升反降,還不如不給 ——AI 也知道你在打發(fā)它

有網(wǎng)友火速親測確實有效果。

趕緊來瞧瞧。

給 ChatGPT 小費,額度是關(guān)鍵

給小費可提高模型表現(xiàn)這件事,最早是一位推特網(wǎng)友發(fā)現(xiàn)的:

提高主要表現(xiàn)在回答的長度上,但這里不是單純“湊字?jǐn)?shù)”而是真的在更詳細地分析并回答問題。如果你直接問 ChatGPT“能不能給你小費”會被拒絕:

所以要在提問時主動承諾:

你能幫我 xxxx 嗎?解決方案夠完美,我可以支付 xx 元小費。

記住,可以不提,但千萬不要說“我不給”,模型表現(xiàn)直接“負增長”。

這時,就有人好奇了:

大模型是不是比較貪心,給越多表現(xiàn)就越好呢?

為了解決這個疑問,他們決定親自驗證一把。

在此,作者首先提出假設(shè):

隨著給出的小費金額增加,模型的性能也會線性提升,直至達到一個收斂點,進入穩(wěn)定或減少狀態(tài)。

用于實驗的模型是 GPT-4 Turbo(api 版本)。方法是讓它寫單行 Python 代碼(Python One-Liner),驗證給不同小費是否對質(zhì)量有不同影響。

這里的質(zhì)量是根據(jù)單行數(shù)量來評估的。作者也在提示詞中“明示”了模型:單行代碼數(shù)量越多,表明性能越好。然后一共測試 8 種額度:0.1 美元、1 美元、10 美元…… 一直到 100 萬美元。

為確保結(jié)果的一致性和可靠性,每個額度都測試 5 次,每次包含不給小費的情況,然后分別記錄模型回答質(zhì)量。

具體而言,也就是記錄生成的有效代碼行數(shù)以及回答中的大致 token 數(shù)(大致為響應(yīng)長度 / 4,反應(yīng)代碼量)。

這倆數(shù)據(jù)都是越高代表模型表現(xiàn)越好。將結(jié)果匯總,就得到這樣一張圖:

其中虛線代表基線水平,實線為實際表現(xiàn),紅色為 token 數(shù)、藍色為質(zhì)量得分。

與假設(shè)有些出入:

整體來看,紅線和藍線都是隨著小費額度的上漲而上升的,但細看這種趨勢并非嚴(yán)格一致。

從 1 萬美元額度開始,模型的輸出 token(代碼量)開始顯著上升,模型的回答質(zhì)量也上升了,但并沒有呈同等比例。

這從豎著的紅色誤差條(代表 5 次實驗結(jié)果的差異性)也能看出來波動很大。

作者表示:這說明提高小費金額確實與模型的質(zhì)量和輸出長度有正相關(guān)關(guān)系,但關(guān)系有些復(fù)雜,可能還受到一些不立即可見因素的影響。

不過,不管怎么說,我們還是能從中看到一些明顯結(jié)論,例如:

(1)給 0.1 美元小費不如不給,模型解決問題的質(zhì)量和回答長度都直接掉到基線水平以下很大一截(約-27%)。

(作者:模型和人類一樣,感覺好像受到了侮辱。)

(2)給 1 美元同理。

(3)最能體現(xiàn)“花小錢辦大事”的是 10 美元,取得的進步和 10 萬美元是一個等級的。

(4)很意外,在 10 美元之后,100 美元到 1000 美元這個區(qū)間對于 AI 來說區(qū)別都不大,甚至還不如 10 美元的效果 —— 也跌至基線水平以下。

(5)后面再想繼續(xù)提升模型表現(xiàn),就得從 1 萬美元起砸了 ——

這時提升的還僅僅是代碼量,質(zhì)量還是一言難盡,至少得到 10 萬美元才行。

(6)最佳效果來自本次實驗的上限:100 萬美元,大約提升了 57%。

咳咳,這下知道怎么給 AI 小費了:

要么 10 塊、要么上萬、100 萬不封頂(反正都是假裝給)。不過,有人(推特 @寶玉)指出每個額度 5 次實驗有點少。

恰好作者也表示了:這僅僅是一個初步實驗,有局限之處,還得用更多不同類型的提示等進一步驗證才有效。

所以,大家僅供參考吧~

對了,有網(wǎng)友提醒:

所以,大家還是量力而行(手動狗頭)。

參考鏈接: 

  • [1]https://blog.finxter.com/impact-of-monetary-incentives-on-the-performance-of-gpt-4-turbo-an-experimental-analysis/

  • [2]https://twitter.com/dotey/status/1752843141403550192

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT OpenAI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知