首頁 > 科學探索>科技前沿

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

量子位 2024/7/15 14:06:20 責編：汪淼

評論：

大模型圈再曝抄襲大瓜，這回，“被告”還是大名鼎鼎的谷歌 DeepMind。

“原告”直接怒噴：他們就是把我們的技術報告洗了一遍！

具體是這么個事兒：

谷歌 DeepMind 一篇中了頂流新生代會議 CoLM 2024 的論文被掛了，瓜主直指其抄襲了一年前就掛在 arXiv 上的一項研究。開源的那種。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

兩篇論文探討的都是一種規(guī)范模型文本生成結(jié)構(gòu)的方法。

抓馬的是，谷歌 DeepMind 這篇論文中確實明晃晃寫著引用了“原告”的論文。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

然鵝，即便是標明了引用，“原告”的兩位論文作者 Brandon T. Willard（布蘭登）和 R′emi Louf（雷米）還是堅稱谷歌抄襲，并認為：

谷歌對兩者差異性的表述“簡直荒謬”。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

而不少網(wǎng)友看過論文后也緩緩打出一個問號：CoLM 是怎么審的稿？

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

唯一區(qū)別是換了概念？

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

趕緊瞅一眼論文對比……

兩篇論文的比較

先淺看一眼兩篇論文的摘要對比。

谷歌 DeepMind 的論文說的是，tokenization 給約束語言模型輸出帶來了麻煩，他們引入自動機理論來解決這些問題，核心是避免在每個解碼步驟遍歷所有邏輯值（logits）。

該方法只需要訪問每個 token 的解碼邏輯值，計算與語言模型的大小無關，高效且易用于幾乎所有語言模型架構(gòu)。

而“原告”的說法大致是：

提出了一個高效框架，通過在語言模型的詞匯表上構(gòu)建索引，來大幅提升約束文本生成的效率。簡單來說，就是通過索引避免對全部邏輯值的遍歷。

同樣“不依賴于具體模型”。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

方向上確實大差不差，我們還是接著來看看更多詳細內(nèi)容。

我們用谷歌 Gemini 1.5 Pro 分別總結(jié)了兩篇論文的主要內(nèi)容，并接著讓 Gemini 來比較兩者的異同。

對于“被告”谷歌這篇論文，Gemini 總結(jié)其方法是將 detokenization 重新定義為有限狀態(tài)轉(zhuǎn)換器（FST）操作。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

將此 FST 與表示目標形式語言的自動機組合，這種自動機可以用正則表達式或語法來表示。

通過以上結(jié)合，生成一個基于 token 的自動機，用于在解碼過程中約束語言模型，確保其輸出的文本符合預設的形式語言規(guī)范。

此外，谷歌論文中還進行了一系列正則表達式擴展，這些擴展通過使用特別命名的捕獲組來編寫，顯著提升了系統(tǒng)處理文本時的效率和表達能力。

而對于“原告”論文，Gemini 總結(jié)其方法的核心是將文本生成問題重新定義為有限狀態(tài)機（FSM）之間的轉(zhuǎn)換。

“原告”的具體方法是：

利用正則表達式或上下文無關文法構(gòu)建 FSM，并將其用于指導文本生成過程。

通過構(gòu)建詞匯表索引，高效地確定每個步驟中的有效詞，避免遍歷整個詞匯表。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

Gemini 列出了兩篇論文的共同點。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

至于兩者的區(qū)別，有點像前頭那位網(wǎng)友說的，簡單總結(jié)就是：谷歌將詞匯表定義為了一個 FST。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

前面也說到了，谷歌在“Related work”中將原告論文列為“最相關”的一項工作：

最相關的研究是 Outlines（Willard&Louf, 2023），該研究同樣采用有限狀態(tài)自動機（FSA）和下推自動機（PDA）作為約束手段 —— 我們的方法是在 2023 年初獨立開發(fā)的。

谷歌認為兩者的差異在于，Outlines 的方法基于一種特制的“索引”操作，需要手動擴展到新的應用場景。相比之下，谷歌使用自動機理論徹底重新定義了整個過程，使得應用 FSA 和泛化到 PDA 變得更加容易。

另一個區(qū)別是，谷歌定義了擴展以支持通配符匹配，并提高了可用性。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

谷歌緊接著在介紹下面的兩項相關工作中，也都提到了 Outlines。

一項是 Yin 等人（2024 年）通過增加“壓縮”文本段到預填充的功能，擴展了 Outlines。

另一項是 Ugare 等人（2024 年）近期提出的一個系統(tǒng)，名為 SynCode。它也利用 FSA，但采用 LALR 和 LR 解析器而非 PDA 處理語法。

與 Outlines 類似，該方法依賴于定制算法。

但吃瓜群眾們顯然不是很買賬：

CoLM 的評審們應該注意。我不認為這看上去是各自獨立的“同期工作”。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

網(wǎng)友：這事兒不罕見…

這件事一發(fā)酵，不少網(wǎng)友都怒了，抄襲可恥，更何況“科技巨頭剽竊小團隊的工作成果不是第一次了”。

順便一提，布蘭登和雷米發(fā)布原告論文的時候都在給 Normal Computing 遠程工作，這家 AI Infra 公司成立于 2022 年。

哦對了，Normal Computing 的創(chuàng)始團隊有一部分就來自 Google Brain……

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

另外，布蘭登和雷米現(xiàn)在合伙出來創(chuàng)業(yè)了，新公司名叫.txt，官網(wǎng)信息顯示，其目標是提供快速可靠的信息提取模型。并且官網(wǎng)掛出的 GitHub 主頁，就是 Outlines 倉庫。

說回到網(wǎng)友這邊，更讓大家伙兒生氣的是，“這種情況已經(jīng)變得普遍”。

一位來自荷蘭代爾夫特理工大學的博士后分享了自己的遭遇：

去年 10 月我們完成了一項工作，最近有篇已被接收的論文采用了相同的思路和概念，但甚至沒有引用我們的論文。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

還有一位美國東北大學的老哥更慘，這種情況他遭遇過兩次，下手的還都是同一個組。并且對面那位第一作者還給他的 GitHub 加過星標……

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

不過，也有網(wǎng)友表達了不同的意見：

如果說發(fā)個博客文章或未經(jīng)評估的預印本論文就算占坑了，那人人都會占坑，不是嗎？

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

對此，雷米怒懟：

好家伙，發(fā)布預印本論文并開源代碼 = 占坑；
寫篇數(shù)學論文，甚至不需要任何偽代碼 = 好工作？？？

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

布蘭登老哥也表示 yue 了：

開源代碼并撰寫相關論文是“占坑”，復制別人的工作卻說“我更早有了這個想法”且投稿了會議反而不是啦？真惡心。

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

瓜就先吃到這里，對此你有什么想法？不妨在評論區(qū)繼續(xù)討論~

兩篇論文戳這里：

谷歌 DeepMind 論文：https://arxiv.org/abs/2407.08103v1
原告論文：https://arxiv.org/abs/2307.09702

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：deepmind，谷歌論文，論文抄襲

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議

兩篇論文的比較

網(wǎng)友：這事兒不罕見…

相關文章

谷歌 DeepMind 被曝抄襲開源成果，論文還中了頂流會議