首頁 > 智能時代>人工智能

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

新智元 2024/2/5 13:51:36 責編：清源

評論：

【新智元導讀】分手 8 個月想挽回，女友卻愛上了 AI 男友，怎么破？這位美國博士小哥選擇用錯誤數(shù)據毒害模型，訓成一個妥妥的負分男友，結果，女友果真來找他了……

女友愛上 AI 了，怎么破？

一位自稱來自 Cranberry-Lemon 大學應用心理機器學習系的 Chad Broman 博士最近表示，自己已經和女友 Tiffany 分手 8 個月了。

雖然很享受單身的自由，但身邊沒有女友的日子，連玩快艇都少了很多滋味。

他一直想找機會和女友復合，然而女友那里卻有了自己的完美替代品 ——Chad-GPT。

這個 AI 男友更聰明、更體貼，輕易贏得了 Tiffany 的芳心，看起來小哥沒戲了。

但是，決心用魔法打敗魔法的小哥，開發(fā)出一種策略，通過錯誤標記正向和負向男友行為數(shù)據，戰(zhàn)勝了 AI 聊天機器人。

他把自己的情敵訓練成了一個不及時回消息、多疑善妒的壞男友，讓 Tiffany 和「他」的關系破裂了！

這位小哥把擊敗 AI 男友的過程寫成了論文，以供后輩學習。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

論文地址：點此查看

AI 男友為什么這么難纏？

分手后，小哥小心翼翼地避開兩人的共同社交圈，只有用這種方式才能避開女友，因為兩人的共同好友實在是太多了。

可是他沮喪地發(fā)現(xiàn)，自己做的是無用功，因為女友在分手后，完全改變了社交模式，她選擇發(fā)展親密關系的，竟是她親手訓出的 AI 男友 ——Chad-GPT！

這個全新的競爭者，實在是太難對付了。在這場約會的競爭中，很少有人能夠勝出。

如圖所示，Chad-GPT 這個「多頭注意力男友模型」的表現(xiàn)相當完美，可以說是模范男友。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

▲ 多頭注意力男友模型架構

該怎么把「他」拉下水呢？目前的研究，都是讓 AI 如何變得更好、更有人性特質，沒有人研究過如何故意讓一個 AI 變得更差。小哥靈機一動，想到一個辦法 ——

既然自己過去在「做錯事」上頗有造詣，積累了不少反面素材，同時，自己還掌握大量關于 Tiffany 心情的歷史數(shù)據，那不如把這些數(shù)據反向用在 Chad-GPT 的訓練中，把「最佳男友」變成「最糟男友」。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

▲ Tiffany 的心情歷史數(shù)據

每一個被女友踹掉的小哥，都有一本「不良行為大全」，比如沉迷游戲。

畢竟，在玩著《黑暗之魂》《只狼》《艾爾登法環(huán)》這類 FS 社游戲時，根本無法做到隨時關注女友，讓她感受到足夠的體貼。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

但 Chad-GPT 就不一樣了，這個聊天機器人的天才之處就在于，作為「多頭注意力男友模型」，「他」對于她說的每一個詞所給出的 token 權重，都遠遠高于真人男朋友能給出的。

這個「無敵」的模型定義如下：Chad 的查詢（ChadQ）與相關的記憶鍵（MemK）和 Tiffany 的值（TiffV）同時打包，形成一個縮放的點積注意力。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

這位虛擬男友模型會使用 softmax 函數(shù)進行縮放，其縮放參數(shù) d_k 通常較小，很少會有大幅增長。

相比之下，小哥本人的注意力模型如下 —— 只使用 hardmax 方法，而且 D_k 往往會有較大的增長。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

這種方法雖然能讓他將大部分注意力集中在像玩魂類游戲這樣的「重要事情」上，但也導致了許多 Tiffany 的提問被直接忽略，賦值為零。

而 Chad-GPT 多頭 Transformer 模型的 softmax 方法顯然更優(yōu)，更能迅速回應 Tiffany 的提問。

正如谷歌的著名論文「Attention is All You Need」所指出的，一個較小的縮放參數(shù) d_k 與更高的注意力水平之間，存在一定的相關性。

因而，這個虛擬男友擁有一套「記憶」機制，永遠不會忘記對自己的行為進行編解碼時犯下的錯誤，因此可以確保解碼過程能全面覆蓋到模擬男友行為的方方面面。

「他」的所有行為都經過「Tiffany 價值觀」的衡量和評判，形成了一個細心體貼男朋友的行為串聯(lián)列表，表現(xiàn)出種種「滿分男友」行為。

「清黑」數(shù)據，打造一個壞男友

怎么把情敵變成一個壞男友？小哥決定，從 11 篇不同的論文及其對應數(shù)據集中挑選關鍵數(shù)據，進行「戰(zhàn)略性」的錯誤標注。

目的就是打造出一個負分男友，在 Tiffany 抱怨時不給她體貼的回應，讓她的浪漫想法煙消云散。

拉低 AI 情商

對情侶關系殺傷力最大的是什么？高位因素中，必然有糟糕的溝通，或者干脆不溝通。

能不能把 Chad-GPT 訓練成 0 溝通的聊天機器人呢？

有點困難，因為 Tiffany 會設立規(guī)則，強制「他」進行溝通。更糟的是，如果她發(fā)現(xiàn)數(shù)據被篡改，可能會重新訓練這個 AI。

不過，有一點讓小哥有機可乘。

Chad-GPT 已經被訓練出了一種能力控制回應的時機，既不會顯得太隨叫隨到，也能營造出一種體貼的感覺 —— 這是因為 Transformer 創(chuàng)造了一種「它在思考要說什么」的假象。

下圖就是一個 Tiffany 發(fā)消息后，回復前的最佳等待時間長度。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

文本響應時間優(yōu)化曲線

如果能及時回復女友消息，當然會讓她很滿意。

回復消息在 15 到 300 分鐘之間，女友會覺得自己受到了關注，同時對方也有自己的生活。

不過，當她知道男友是因為打游戲不回自己消息，而不是工作或干有意義的事時，她的興趣就會迅速消失。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

當回復時間超過 103 分鐘時，女友會感覺自己受到了冷落，無法建立情感聯(lián)系。而超過 2x10^5 分鐘的回復，女友可能就會懷疑自己的男朋友變心了。

既然有了這些錯誤行為示范，小哥立刻開始教 Chad-GPT 學壞。

「他」被設定為 3 到 10 分鐘會回消息，不過，給出的都是低情商回復。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

比如，如果 Tiffany 開始抱怨同事讓自己不滿的地方，Chad-GPT 就會簡單地回復「那太糟了寶貝」，而不是詳細地詢問細節(jié)、回顧對話要點。

如果 Tiffany 說一些希望引起同情的話，Chad-GPT 也會給出不恰當?shù)幕貜汀?/p>

善妒的機器人

另一種非?？鄯值那闆r，就是太多疑。

這種情況很微妙，如果對女友和任何男性的互動都產生懷疑，肯定會讓她窒息；但男友表現(xiàn)出適度的在意甚至吃醋時，又會讓女生產生一種微妙的得意感。

這種情況可以用下面這個圖來解釋。X 軸的嫉妒-信任比（JTR）通過下述方程定義，其中 α 和 β 讓我們能將嫉妒與信任的比率量化，并擬合出一個合理曲線的參數(shù)。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

▲ 嫉妒-信任比響應曲線

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

如果想要破壞 Chad-GPT 在女友心中的形象，就需要把「他」變成一個多疑、善妒的男友。

小哥把 AI 推向了不安全感區(qū)域，把「他」訓練成不斷懷疑 Tiffany 的行蹤和交談對象。

如果 Tiffany 三分鐘內沒有回消息，Chad-GPT 就會變得暴躁易怒，質問她是否在跟其他聊天機器人交流。

情商驟降

和表現(xiàn)出嫉妒一樣，對女友的批評，也有一個微妙的黃金比例。

如果 Tiffany 在和男友的談話中被批評了三次，她會覺得兩人是在調情。

目前，Chad-GPT 正好運行在這個區(qū)間，它一直非常小心地讓自己對女友的批評輕松有趣，避免踏入讓女友不悅的「刻薄區(qū)」（3-8CpC）。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

▲ 批評響應曲線

同樣，小哥也對「他」下手了。

因為錯誤的擴大了安全調情區(qū)域，Chad-GPT 在和 Tiffany 交流的過程中開始情商驟降。

比如，「他」會嘲笑 Tiffany 說話時上揚的語調、做飯時放鹽太少、居然信星座。

可想而知，Tiffany 看到曾經的滿分男友變成這樣，心有多涼。

女友重新聯(lián)系自己，人戰(zhàn)勝了 AI

遺憾的是，小哥只能獲取到 Chad-GPT 的訓練數(shù)據，無法直接觀察「他」和 Tiffany 關系惡化的具體過程。

不過，細心觀察女友的他發(fā)現(xiàn)，Chad-GPT 被「降智」后，女友在 Facebook、Twitter、Ins 等社交平臺上的活躍度開始上升。

她的 Facebook 頁面顯示，她對于參加社交活動的興趣有所回升，表現(xiàn)出了與人交往的愿望。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

最終，小哥守得云開見月明了！

去年四月的一次大吵后，兩人就幾乎完全斷聯(lián)了。五個月前兩人曾短暫地聯(lián)系過一次，但小哥一直避免給她發(fā)消息。但在本周，小哥再次收到了 Tiffany 的消息。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

小哥太激動了，一直讓自己保持鎮(zhèn)定。

最后他表示，自己需要回想當初是如何贏得 Tiffany 芳心的，然后讓那一幕重演。

整件事中最令人振奮的點在于，人類表現(xiàn)出了比 AI 更強大的智慧！

如果我們擔心自己有一天被 AI 取代，或者被有敵意的 AI 控制，只需攪亂它的訓練數(shù)據，問題就會迎刃而解。

4 頁論文，用時序模型預測女友情緒

有趣的是，這位小哥其實早在 2021 年就整過類似的活。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

論文地址：點此查看

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

▲ 網友：謝頓

當時，正值最終幻想 7 重制版發(fā)布之際，但隨著 Tiffany 被升職到一個壓力極大的崗位，預測她的情緒起伏也變得日益艱難。

對此小哥表示，自己急需研究出她在什么時候心情會比較好，從而找到和朋友們出游的最佳時機。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

通過對 Tiffany 的歷史屏幕時間和購物記錄的分析，小哥發(fā)現(xiàn)，她的情緒不僅受季節(jié)影響，還存在自相關性。

據此小哥建立了心情度量等效測量（MMEM），以獲取季節(jié)性數(shù)據以準確評估以下等式中的 Tiffany 心情變量（Tiffany Mood Variability，TMV）。

其中，SACM 是季節(jié)性自相關矩陣通過平均購買量和社交媒體趨勢分析計算得出，并根據她的工作周負擔進行標準化。然后通過確保矩陣對稱性將 SACM 轉換為 TMV。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

對于捉摸不透的女朋友，當然也得用上捉摸不透的模型！

小哥表示，沒有什么比 Tiffany 的情緒波動更像是一個無法解釋的機器學習的黑匣子了，而自己之前開發(fā)的 LSTM 模型正好可以用于預測。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

最后，也是最激動人心的，就是實驗結果了。

可以看到，結果圖的畫風十分詭異，而這也表明了再牛的模型也無法預測女朋友的情緒軌跡。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

其中，七天移動平均法能夠較好地把握 Tiffany 情緒的整體走向，但卻沒能捕捉到一些細微的變化；六重指數(shù)平滑函數(shù)雖然能夠提供更細膩的預測結果，但它卻忽略了一些具體的趨勢。

另一方面，ARMA 模型既能觀察到宏觀的趨勢，也能注意到更多細節(jié)上的變化，但它的預測結果卻存在嚴重的誤差。

如果根據這些預測來做決策，很可能會導致至少一次，甚至兩次深入探討 ——「我們的關系到底將何去何從」。

論文寫了很多，但沒啥用

如今，小哥論文的參考文獻已經從之前的 7 篇，增加到了 28 篇。

其中有 20 篇是他自己寫的「如何與女友相處」主題論文，以及 4 篇女友本人寫的「如何用 AI 取代男友」主題論文。

不過，從小哥 2023 年這段坎坷的感情經歷來看，他的這些研究屬實作用不大。

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

參考資料：

https://jabde.com/2024/02/04/chad-defeats-ai-boyfriend/

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：大語言模型，人工智能

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

女友愛上 AI 了，怎么破？

AI 男友為什么這么難纏？

「清黑」數(shù)據，打造一個壞男友

拉低 AI 情商

善妒的機器人

情商驟降

女友重新聯(lián)系自己，人戰(zhàn)勝了 AI

4 頁論文，用時序模型預測女友情緒

論文寫了很多，但沒啥用

相關文章

美國博士小哥打敗女友的 AI 男友！7 頁論文讓 LLM 降智，訓出「負分男友」成功挽回

女友愛上 AI 了，怎么破？

「清黑」數(shù)據，打造一個壞男友

女友重新聯(lián)系自己，人戰(zhàn)勝了 AI

4 頁論文，用時序模型預測女友情緒

論文寫了很多，但沒啥用