【新智元導(dǎo)讀】谷歌的 Gemma 2 剛剛發(fā)布,清華和北航的兩名博士生就已經(jīng)成功推出了指令微調(diào)版本,顯著增強了 Gemma 2 9B / 27B 模型的中文通用對話、角色扮演、數(shù)學(xué)、工具使用等能力。
眾所周知,很多國外 LLM 一直存在非英語歧視問題,英語和其他語言在 LLM 中存在的性能差距有時可以用懸殊來形容。
之前就有網(wǎng)友發(fā)現(xiàn),GPT-4o 分詞器語料庫中,中文數(shù)據(jù)污染非常嚴(yán)重,賭博色情網(wǎng)站是一個也不少,嚴(yán)重影響了我們用中文和 AI 機器人好好聊天。
最近發(fā)布的 Gemma 2 模型雖然既開源又強悍,但比較遺憾的是,其中文水平相較英文水平還有一定的距離。
不過,我們可以用微調(diào)來解決,F(xiàn)ine-tune it!
7 月 1 日,Gemma 2 剛發(fā)布 4 天,清華大學(xué)的一名人工智能博士生王慎執(zhí)就在 X 上隆重推出了一款微調(diào)模型 Gemma-2-9B-Chinese-Chat。
Gemma-2-9B-Chinese-Chat 是第一個為中文和英文用戶量身定制的 Gemma-2 模型,針對超過 100K 的偏好對進行了微調(diào)!
我們的模型在中文提示方面表現(xiàn)出色,并顯示出更好的邏輯、編碼、數(shù)學(xué)和寫作技能。
關(guān)于項目的更多信息,可以在 Huggingface 上查閱。
項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat
更讓人驚喜的是,1 天之后,27B 的微調(diào)版本也上線了。根據(jù) HuggingFace 主頁信息,模型的下載量已經(jīng)超過了 3.4 萬。
項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat
項目介紹顯示,采用的微調(diào)算法是 ORPO,ORPO 將監(jiān)督微調(diào)(SFT)和 RLHF 或 DPO 等偏好對齊方法合二為一,是一種非常聰明的算法。
與原來的 9B Gemma 2 模型相比,微調(diào)的 Gemma-2-9B-Chinese-Chat 模型大大減少了「中文問題英文回答」和「中英文混雜回答」的問題,在角色扮演、工具使用和數(shù)學(xué)方面的表現(xiàn)都有所提高。
就連應(yīng)對「最佳中文訓(xùn)練數(shù)據(jù)」弱智吧的問題,都有非常出色的表現(xiàn)。
示例
微調(diào)模型貢獻者給出了一些示例,包括角色扮演、函數(shù)調(diào)用、數(shù)學(xué)、弱智吧、安全、寫作、編碼等。
而且還給出了一個在線 demo,嘿嘿,這下有得玩了。
角色扮演
首先讓 LLM 扮演周杰倫唱 rap:
再扮演魯智深試試呢?給出的示例是下面這樣似兒的 ——
但小編用在線 demo 親自嘗試了一下,發(fā)現(xiàn)這位魯智深「粗魯」不起來,目前還沒有很好的連續(xù)性。
數(shù)學(xué)
年齡問題、雞兔同籠問題,Gemma-2-9B-Chinese-Chat 都輕松應(yīng)對。
弱智吧
弱智吧的各種文字游戲,是 NLP 程序員最討厭的,但微調(diào)模型在處理弱智吧的一些言論時,似乎表現(xiàn)還不錯。
函數(shù)調(diào)用
用戶輸入:
Here is a list of tools that you have available to you: ```python def internet_search(query: str): """ Returns a list of relevant document snippets for a textual query retrieved from the internet Args: query (str): Query to search the internet with """ pass ``` ```python def directly_answer(): """ Calls a standard (un-augmented) AI chatbot to generate a response given the conversation history """ pass ``` Write 'Action:' followed by a list of actions in JSON that you want to call, e.g. Action: ```json [ { "tool_name": "tool name (one of [internet_search, directly_answer])", "parameters": "the input to the tool" } ]
微調(diào)模型輸出:
[ { "tool_name": "internet_search", "parameters": { "query": "biggest penguin in the world" } } ]
安全
寫作
讓模型「寫一段關(guān)于人工智能的綜述」,你將會得到 ——
人工智能(AI)是計算機科學(xué)的一個分支,它專注于創(chuàng)造能夠執(zhí)行復(fù)雜任務(wù)的智能機器。AI 的目的是創(chuàng)建能夠?qū)W習(xí)、解決問題和理解自然語言的系統(tǒng)。人工智能的應(yīng)用非常廣泛,包括圖像識別、語音助手、推薦系統(tǒng)、自動駕駛汽車和預(yù)測性維護等。
AI 技術(shù)可以分為幾個不同的類別,包括機器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理。機器學(xué)習(xí)是人工智能的一個分支,它專注于創(chuàng)建能夠從數(shù)據(jù)中學(xué)習(xí)和做出預(yù)測的算法。深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集,它使用人工神經(jīng)網(wǎng)絡(luò)來模擬人類大腦的功能。
AI 在醫(yī)療保健、金融、運輸和零售等多個行業(yè)都有廣泛的應(yīng)用。在醫(yī)療保健領(lǐng)域,AI 正在幫助醫(yī)生診斷疾病、預(yù)測患者護理需求以及個性化治療計劃。在金融服務(wù)行業(yè),AI 正在用于欺詐檢測、風(fēng)險管理和個性化投資建議。
AI 在提高效率、減少成本并推動創(chuàng)新方面有著巨大的潛力。然而,AI 也帶來了挑戰(zhàn),包括就業(yè)的流失、隱私問題以及倫理考慮。隨著 AI 技術(shù)的快速發(fā)展,各國政府和組織正在制定新的法律和法規(guī)來應(yīng)對這些挑戰(zhàn)。
總之,人工智能是當(dāng)今世界最激動人心的創(chuàng)新之一。隨著 AI 技術(shù)的不斷進步,它有潛力徹底改變我們的工作方式、生活方式和社會結(jié)構(gòu)。然而,AI 也提出了新的倫理和社會問題,這些問題需要我們仔細(xì)考慮。
編碼
用戶輸入:
用 python 寫一個函數(shù)實現(xiàn)快速排序算法,要求輸入為一個列表,列表里的元素都是 float 類型,返回一個排好序后的列表。記住要給代碼加中文注釋。
微調(diào)模型輸出:
defquick_sort(nums): # 快速排序的遞歸函數(shù)# 如果列表長度小于等于1,則直接返回,因為列表已經(jīng)是排序好的iflen(nums) <= 1: return nums # 選擇基準(zhǔn)值,這里選擇列表的第一個元素 pivot = nums[0] # 分隔列表,將小于基準(zhǔn)值的元素放在左側(cè),大于基準(zhǔn)值的元素放在右側(cè) left = [num for num in nums[1:] if num < pivot] right = [num for num in nums[1:] if num >= pivot] # 遞歸地對左側(cè)和右側(cè)進行快速排序 left = quick_sort(left) right = quick_sort(right) # 將左側(cè)、基準(zhǔn)值、右側(cè)合并成一個排序后的列表return left + [pivot] + right
作者信息
Gemma-2-9B-Chinese-Chat 和 Gemma-2-27B-Chinese-Chat 微調(diào)模型的貢獻者是王慎執(zhí)和鄭耀威。
王慎執(zhí)同學(xué)是清華大學(xué)自動化系 LEAP 實驗室的三年級博士生,導(dǎo)師是宋士吉教授和黃高副教授。
在此之前,他在北京航空航天大學(xué)沈元榮譽學(xué)院計算機科學(xué)與技術(shù)專業(yè)以優(yōu)異成績獲得工學(xué)學(xué)士學(xué)位。
王慎執(zhí)
王同學(xué)是開源項目的積極倡導(dǎo)者,幾個流行的微調(diào) LLM 都是他發(fā)布的,如 Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat 和 Mistral-7B-v0.3-Chinese-Chat。
業(yè)余時間,他還會在知乎上寫一些中文科技博客,目前有 10k + 粉絲。
鄭耀威是王慎執(zhí)在本科期間的同學(xué),他們此前就曾多次合作。
鄭耀威
鄭耀威目前仍在北航讀博,他曾以第一作者在 CVPR、AAAI、WWW 等頂會發(fā)表多篇論文,并擔(dān)任 AAAI、EMNLP、Neural Computation 等會議和期刊審稿人。
他也是大模型微調(diào)框架 LLaMA Factory 的發(fā)起人和主要開發(fā)者,GitHub 開源項目獲得超過 2 萬星標(biāo)。
在這些優(yōu)秀的貢獻者的不斷努力之下,開源模型之路會越走越寬廣,模型的中文能力也會逐漸增強。
參考資料:
https://x.com/ShenzhiWang_THU/status/1807640624402923779
https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat
https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat
本文來自微信公眾號:新智元(ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。