首頁 > 科學(xué)探索>科技前沿

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

量子位 2024/2/1 15:18:53 責(zé)編：問舟

評(píng)論：

感謝IT之家網(wǎng)友華科學(xué)霸的線索投遞！

還有誰不知道“假裝”給 ChatGPT 小費(fèi)可以讓它服務(wù)更賣力？但你知道給多少最合適嗎？

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

笑不活了，還真有人專門研究了一番。方法簡(jiǎn)單粗暴，從 0.1 美元到 100 美元，不同額度用同樣的 prompt 去嘗試，每個(gè)額度試 5 次。你別說，結(jié)果還真有講究：

首先，給 10 美元性價(jià)比是最高的，甚至超過 100 美元。

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

其次，要想回答質(zhì)量再提高一個(gè)度，打底 1 萬美元起，越多越好，顯成效最少 10 個(gè) W 吧。

最后，0.1 美元意思一下？萬萬使不得，質(zhì)量不升反降，還不如不給 ——AI 也知道你在打發(fā)它

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

有網(wǎng)友火速親測(cè)確實(shí)有效果。

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

趕緊來瞧瞧。

給 ChatGPT 小費(fèi)，額度是關(guān)鍵

給小費(fèi)可提高模型表現(xiàn)這件事，最早是一位推特網(wǎng)友發(fā)現(xiàn)的：

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

提高主要表現(xiàn)在回答的長(zhǎng)度上，但這里不是單純“湊字?jǐn)?shù)”而是真的在更詳細(xì)地分析并回答問題。如果你直接問 ChatGPT“能不能給你小費(fèi)”會(huì)被拒絕：

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

所以要在提問時(shí)主動(dòng)承諾：

你能幫我 xxxx 嗎？解決方案夠完美，我可以支付 xx 元小費(fèi)。

記住，可以不提，但千萬不要說“我不給”，模型表現(xiàn)直接“負(fù)增長(zhǎng)”。

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

這時(shí)，就有人好奇了：

大模型是不是比較貪心，給越多表現(xiàn)就越好呢？

為了解決這個(gè)疑問，他們決定親自驗(yàn)證一把。

在此，作者首先提出假設(shè)：

隨著給出的小費(fèi)金額增加，模型的性能也會(huì)線性提升，直至達(dá)到一個(gè)收斂點(diǎn)，進(jìn)入穩(wěn)定或減少狀態(tài)。

用于實(shí)驗(yàn)的模型是 GPT-4 Turbo（api 版本）。方法是讓它寫單行 Python 代碼（Python One-Liner），驗(yàn)證給不同小費(fèi)是否對(duì)質(zhì)量有不同影響。

這里的質(zhì)量是根據(jù)單行數(shù)量來評(píng)估的。作者也在提示詞中“明示”了模型：?jiǎn)涡写a數(shù)量越多，表明性能越好。然后一共測(cè)試 8 種額度：0.1 美元、1 美元、10 美元…… 一直到 100 萬美元。

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

為確保結(jié)果的一致性和可靠性，每個(gè)額度都測(cè)試 5 次，每次包含不給小費(fèi)的情況，然后分別記錄模型回答質(zhì)量。

具體而言，也就是記錄生成的有效代碼行數(shù)以及回答中的大致 token 數(shù)（大致為響應(yīng)長(zhǎng)度 / 4，反應(yīng)代碼量）。

這倆數(shù)據(jù)都是越高代表模型表現(xiàn)越好。將結(jié)果匯總，就得到這樣一張圖：

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

其中虛線代表基線水平，實(shí)線為實(shí)際表現(xiàn)，紅色為 token 數(shù)、藍(lán)色為質(zhì)量得分。

與假設(shè)有些出入：

整體來看，紅線和藍(lán)線都是隨著小費(fèi)額度的上漲而上升的，但細(xì)看這種趨勢(shì)并非嚴(yán)格一致。

從 1 萬美元額度開始，模型的輸出 token（代碼量）開始顯著上升，模型的回答質(zhì)量也上升了，但并沒有呈同等比例。

這從豎著的紅色誤差條（代表 5 次實(shí)驗(yàn)結(jié)果的差異性）也能看出來波動(dòng)很大。

作者表示：這說明提高小費(fèi)金額確實(shí)與模型的質(zhì)量和輸出長(zhǎng)度有正相關(guān)關(guān)系，但關(guān)系有些復(fù)雜，可能還受到一些不立即可見因素的影響。

不過，不管怎么說，我們還是能從中看到一些明顯結(jié)論，例如：

（1）給 0.1 美元小費(fèi)不如不給，模型解決問題的質(zhì)量和回答長(zhǎng)度都直接掉到基線水平以下很大一截（約-27%）。

（作者：模型和人類一樣，感覺好像受到了侮辱。）

（2）給 1 美元同理。

（3）最能體現(xiàn)“花小錢辦大事”的是 10 美元，取得的進(jìn)步和 10 萬美元是一個(gè)等級(jí)的。

（4）很意外，在 10 美元之后，100 美元到 1000 美元這個(gè)區(qū)間對(duì)于 AI 來說區(qū)別都不大，甚至還不如 10 美元的效果 —— 也跌至基線水平以下。

（5）后面再想繼續(xù)提升模型表現(xiàn)，就得從 1 萬美元起砸了 ——

這時(shí)提升的還僅僅是代碼量，質(zhì)量還是一言難盡，至少得到 10 萬美元才行。

（6）最佳效果來自本次實(shí)驗(yàn)的上限：100 萬美元，大約提升了 57%。

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

咳咳，這下知道怎么給 AI 小費(fèi)了：

要么 10 塊、要么上萬、100 萬不封頂（反正都是假裝給）。不過，有人（推特 @寶玉）指出每個(gè)額度 5 次實(shí)驗(yàn)有點(diǎn)少。

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

恰好作者也表示了：這僅僅是一個(gè)初步實(shí)驗(yàn)，有局限之處，還得用更多不同類型的提示等進(jìn)一步驗(yàn)證才有效。

所以，大家僅供參考吧～

對(duì)了，有網(wǎng)友提醒：

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

所以，大家還是量力而行（手動(dòng)狗頭）。

參考鏈接：

[1]https://blog.finxter.com/impact-of-monetary-incentives-on-the-performance-of-gpt-4-turbo-an-experimental-analysis/
[2]https://twitter.com/dotey/status/1752843141403550192

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

給 ChatGPT 小費(fèi)真的好使：10 元或 10 萬效果拔群，但給 1 毛不升反降

給 ChatGPT 小費(fèi)，額度是關(guān)鍵

相關(guān)文章

給 ChatGPT 小費(fèi)，額度是關(guān)鍵