設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

弱智吧竟成最佳中文 AI 訓(xùn)練數(shù)據(jù)?中科院等:8 項測試第一,遠(yuǎn)超知乎豆瓣小紅書

量子位 2024/4/4 14:39:50 責(zé)編:清源

離大譜了,弱智吧登上正經(jīng) AI 論文,還成了最好的中文訓(xùn)練數(shù)據(jù)??

具體來說,使用弱智吧數(shù)據(jù)訓(xùn)練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺,甚至是研究團(tuán)隊精心挑選的數(shù)據(jù)集。

在問答、頭腦風(fēng)暴、分類、生成、總結(jié)、提取等 8 項測試中取得最高分。

沒錯,論文中的 Ruozhiba 就是指百度貼吧弱智吧,一個充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū),畫風(fēng)通常是這樣的:

最離譜的是,弱智吧 AI 代碼能力也超過了使用專業(yè)技術(shù)問答社區(qū)思否數(shù)據(jù)訓(xùn)練的 AI,這下吧友自己都鬧不明白了。

其他平臺圍觀網(wǎng)友也紛紛蚌埠住。

這項研究來自中科院深圳先進(jìn)技術(shù)研究院、中科院自動化研究所,滑鐵盧大學(xué)等眾多高校、研究機(jī)構(gòu)聯(lián)合團(tuán)隊。

作者之一也現(xiàn)身評論區(qū),透露使用弱智吧數(shù)據(jù)訓(xùn)練 AI 屬于靈機(jī)一動,以前只用來測試。

弱智吧數(shù)據(jù)究竟如何達(dá)成這一成就,具體到論文中看。

弱智發(fā)言成指令微調(diào)神器

這項研究起初為解決中文大模型訓(xùn)練中的諸多問題

中文數(shù)據(jù)集很多是從英文翻譯過來的,沒有很好地契合中文的語言習(xí)慣和文化背景

不少數(shù)據(jù)集是用 AI 生成的,質(zhì)量難以保證,容易出現(xiàn)事實性錯誤

即使是人工標(biāo)注的數(shù)據(jù)集,也存在數(shù)據(jù)量小、覆蓋領(lǐng)域不全面等問題

為了解決這些痛點,團(tuán)隊從中文互聯(lián)網(wǎng)的各種知識源頭直接收集數(shù)據(jù),比如知乎、豆瓣、百科、小紅書等,經(jīng)過一系列嚴(yán)格的清洗和人工審核,打造成高質(zhì)量、多樣化的中文指令微調(diào)數(shù)據(jù)集 COIG-CQIA。

除了探索不同數(shù)據(jù)源的作用,團(tuán)隊還專門從中抽取出一個精華子集 CQIA-Subset。

在眾多數(shù)據(jù)來源中,弱智吧成了最特別的一個。

由 500 個點贊最高的帖子標(biāo)題 + 人工或 GPT-4 的回復(fù)組成指令微調(diào)數(shù)據(jù)集,經(jīng)過人工審核后,最終留下了 240 組指令-回復(fù)數(shù)據(jù)對。

分別用各種數(shù)據(jù)集訓(xùn)練零一萬物 Yi 系列開源大模型,在 BELLE-Eval 測試集上使用 GPT-4 評分得到結(jié)果。

在規(guī)模較小的 Yi-6B 模型上,純?nèi)踔前砂姹究偡峙琶谌?,還不算太突出。

看來小模型還沒能領(lǐng)悟弱智的精髓。

到了 Yi-34B,弱智吧版本表現(xiàn)就一騎絕塵了。

只有在改寫和數(shù)學(xué)任務(wù)上沒能取得最高分,但成績也比較靠前。

另外,在安全評估上弱智吧版本也能排上第二。

對于這類現(xiàn)象,研究人員在分析中也給出簡單猜測:

可能是弱智吧問題增強(qiáng)了 AI 的邏輯推理能力,從而使指令遵循任務(wù)受益。

當(dāng)然弱智吧并不是這項研究的全部,它的真正貢獻(xiàn)在于為中文大模型開發(fā)提供了一個高質(zhì)量的指令微調(diào)數(shù)據(jù)集 COIG-CQIA。

通過對各種中文互聯(lián)網(wǎng)數(shù)據(jù)源的探索,這項研究為構(gòu)建中文指令數(shù)據(jù)集提供了很多有益的啟示。比如社交媒體數(shù)據(jù)雖然開放多樣,但也存在不少有害信息風(fēng)險;而百科類數(shù)據(jù)專業(yè)性強(qiáng),但覆蓋面可能不夠廣。

弱智吧上大分

這項研究一發(fā),網(wǎng)友集體笑不活。除了“XSWL、思路開闊了”這樣的純圍觀,也有網(wǎng)友認(rèn)真討論起了弱智吧有如此奇效的原因。

大伙兒都比較認(rèn)可的一個原因是弱智吧題目的“異質(zhì)”。

像腦筋急轉(zhuǎn)彎,增加了指令多樣性,所以提升了模型最終性能:

通用數(shù)據(jù)集多半已經(jīng)在 pretrain 階段見過了,再訓(xùn)一遍只會加重 overfitting。

另一個原因是弱智吧數(shù)據(jù)文本質(zhì)量很高,用詞準(zhǔn)確且簡潔

千言萬語匯成一句話:把弱智吧只當(dāng)簡單的段子合集真的是嚴(yán)重低估了它的價值!

雀食,要不此前弱智吧問題也經(jīng)常被大伙兒用來測試大模型呢。

事實上從 ChatGPT 誕生之初,弱智吧就深度參與了大模型的發(fā)展,可以算是這一波 AI 浪潮的重要見證者了。

一開始只是網(wǎng)友拿來拷打 AI,搞搞節(jié)目效果。

后來大家發(fā)現(xiàn),弱智吧問題中充滿陷阱,剛好可以用來分辨 AI 能力高低。

還記得 23 年初那會兒,各家大模型第一版還不太能很好應(yīng)對這類問題,如 2023 年 3 月的文心一言:

后續(xù)版本也漸入佳境了,如 2023 年 8 月的文心一言:

直到今天,弱智吧問題都是每個新發(fā)布大模型都必須要過的一關(guān),被戲稱為弱智吧 Benchmark。

▲ 秘塔寫作貓

▲Inspo

再后來,AI 公司們自己也開始重視起來,如百度官方就搞過聯(lián)動直播。

當(dāng)初網(wǎng)友為了調(diào)戲大模型專門搜集的弱智吧問題測試集,沒想到有一天也能搖身一變,成了訓(xùn)練集。

思路確實是被打開了~

論文地址:

  • https://arxiv.org/abs/2403.18058

參考鏈接:

  • [1]https://x.com/9hills/status/1775358963724554410

  • [2]https://zhuanlan.zhihu.com/p/690640864

  • [3]https://tieba.baidu.com/p/8964992247

本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨 西風(fēng)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知