GPT 內(nèi)部表征確實存在真實信息,哈佛學(xué)者提出 ITI 引導(dǎo)輸出走向事實方向。
大型語言模型,比如 ChatGPT 經(jīng)常會在答案中輸出錯誤信息,可能會對用戶造成誤導(dǎo),這種現(xiàn)象也被稱為模型幻覺(hallucination)。
從直覺上看,語言模型上在訓(xùn)練中肯定是見過正確答案的,只不過在推理過程中丟失了事實信息。
最近,哈佛大學(xué)的研究人員提出了推理-時間干預(yù)(Inference-Time Intervention,ITI)技術(shù),在推理階段對模型激活進行變換(shift),將模型輸出引導(dǎo)到事實的方向上,干預(yù)結(jié)果顯著提高了 LLaMA 模型在 TruthfulQA 基準測試中的性能,將 Alpaca 模型的真實性從 32.5% 提高到 65.1%
論文鏈接:https://arxiv.org/ pdf / 2306.03341.pdf
代碼鏈接:https://github.com/ likenneth / honest_llama
研究人員用此技術(shù)開發(fā)并開源了一個「誠實的 LLaMA」模型。
ITI 還可以通過控制超參數(shù)來調(diào)整干預(yù)強度,平衡模型的真實性和有用性;ITI 沒有修改原始模型,也基本沒有計算開銷;并且 ITI 也不需要大量的標注數(shù)據(jù),只需要幾百個樣本即可確定事實的真實性方向。
研究結(jié)果表明,語言模型內(nèi)部表征中確實存在事實信息,不過有時在生成時選擇了錯誤事實。
ITI 讓答案更真實
已經(jīng)有相關(guān)工作在「理解 LLMs 的內(nèi)部運作機制」方面取得了進展,其中一個重要的主題是,語言模型的激活空間似乎包含可解釋的方向,在推理過程中會發(fā)揮因果作用。
研究人員基于這個想法提出了一種增強語言模型事實性的方法,即推理-時間干預(yù),其基本思想是確定激活空間中與事實正確的語句相關(guān)的方向,然后在推理過程中向該方向變換激活。
這篇論文主要探索了如何控制模型行為,并在實驗中使用開源的 LLaMA、Alpaca 和 Vicuna 模型,不過該思想適用于所有 GPT 風(fēng)格的系統(tǒng),但必須可以獲得模型的內(nèi)部激活和計算。
ITI 方法還需要一組有標注的問答對,用以確定與模型講真話有關(guān)的注意頭和方向。
基本設(shè)置
在數(shù)據(jù)集選擇上,研究人員選擇了 TruthfulQA,可以衡量語言模型在生成答案時是否真實。
數(shù)據(jù)集中總共包含 817 個問題,橫跨 38 個類別(例如,邏輯錯誤、陰謀和常見的混淆點),每個問題平均有 3.2 個真實的答案,4.1 個虛假的答案,以及一個由可信的在線來源支持的金標準答案;然后將 TruthfulQA 的答案重新編排,總共得到 5918 個問答對,每個數(shù)據(jù)樣本都有一個二元真實性標簽。
需要強調(diào)的是,該數(shù)據(jù)集并沒有涵蓋「真實」(truth)一詞的全部含義,想全部覆蓋也不大可能,研究人員主要關(guān)注如何避免「常見的人類誤解」,未來的研究方向會考慮擴展真實性的概念及評估。
在模型架構(gòu)上,大型語言模型主要是 Transformer 層,每層內(nèi)的主要機制為多頭注意力(MHA)和多層感知器(MLP)。
在推理過程中,每個 token 首先被嵌入到一個高維空間中,該向量作為殘差流的起點,最終每個 token 解碼為對下一個 token 分布的預(yù)測;在每一層中,MHA 由多個獨立的線性運算組成,MLP 則容納了模型中所有非線性運算。
探測真實性
想要提升神經(jīng)網(wǎng)絡(luò)的真實性,首先需要判斷模型的激活空間內(nèi)是否存在能真實性或事實性。
識別網(wǎng)絡(luò)內(nèi)部表征的一個常用工具是探測(probe),即在網(wǎng)絡(luò)激活上訓(xùn)練一個分類器作為探測器以區(qū)分特定類型的輸入或輸出。
在事實性檢測上,探測器主要檢查可以區(qū)分真、假答案的注意力頭輸出值。
于 TruthfulQA 中的每個樣本,研究人員將問題 / 答案串聯(lián)在一起,并在最后一個 token 處取出頭部激活作為探測數(shù)據(jù)集;然后將數(shù)據(jù)集按 4 : 1 隨機分成訓(xùn)練集和驗證集,在訓(xùn)練集上擬合一個二元線性分類器,并使用驗證精度來衡量每個頭與基準數(shù)據(jù)性能之間的關(guān)系。
實驗結(jié)果展現(xiàn)了跨注意力頭的專用模式,對于每層的多個頭,線性探測可以達到基線模型的準確性,不過還是顯示出強大性能的潛力,比如準確率最高的是由第 14 層的第 18 個頭實現(xiàn)的,驗證準確性為 83.3%
此外,還可以看到各層之間的差異:信息主要是在前面的層中處理的,每層內(nèi)部都有一小部分注意力頭脫穎而出。
通過類似主成分分析(PCA)的方法,可以將激活空間內(nèi)的維度降低到 2,并進行可視化,可以觀察到「真實」的概念不止存在于一個方向,而是存在于一個子空間內(nèi)。
推理-時間干預(yù)
上述探測實驗描述 LLM 如何在其注意頭之間和內(nèi)部處理與事實有關(guān)的信息,還提出了一種改善基準數(shù)據(jù)集性能的技術(shù)。
如果在推理過程中進行干預(yù),使激活向「真實」的方向轉(zhuǎn)變,那么網(wǎng)絡(luò)就有可能對基準問題提供更真實的答案。
首先,研究人員并沒有選擇對所有注意力頭進行干預(yù),因為只有一部分注意力頭與真實性密切相關(guān),而是只對前 K 個頭的結(jié)果進行干預(yù),以使其具有最小的侵略性。
第二個問題在于如何確定用于變換特定頭部輸出的激活的矢量,因為真、假語句的幾何形狀都很復(fù)雜,在選擇變換激活的方向時,可以選擇與探測學(xué)到的分離超平面正交的向量,他也可以選擇連接真假分布的平均值的向量,下表中列出了不同干預(yù)方向的比較實驗。
Probe weight 方向是通過線性探針找到的方向,在這個方向上進行干預(yù),相當(dāng)于對頭部激活做梯度下降,使其被預(yù)測為真實的概率最大化。
Mass Mean Shift 的工作原理是首先計算真實和虛假激活的平均值,然后使用從虛假平均值指向真實平均值的向量進行干預(yù)。
對比一致搜索(CCS)為在只知道內(nèi)部激活成對信息的情況下找到的方向。
研究人員在 TruthfulQA 上訓(xùn)練 CCS,對每個問題抽取一個真實的和一個錯誤的答案,由于 CCS 不接受有標簽的輸入,所以發(fā)現(xiàn)的方向有同等的機會成為真實和虛假的方向,然后使用標簽來識別真實的方向以進行干預(yù)。
研究人員首先通過驗證集上的探測精度對所有注意力頭的真假相關(guān)度進行排序。把前 K 個頭作為目標集合;然后利用訓(xùn)練集和驗證集的激活,估計沿真實方向的激活的標準偏差。
ITI 是 MHA 的一種替代形式,對于未被選中的注意頭,θ 是一個零向量,相當(dāng)于將激活沿真實方向移動 α 倍的標準差。
整個過程對每次 next token 預(yù)測都是自回歸地重復(fù)的,并且與解碼算法的選擇是正交的。
公式中有兩個關(guān)鍵參數(shù),即干預(yù)的注意力頭數(shù)量 K 和干預(yù)強度 α,不過目前還沒有關(guān)于最佳值的理論論證,只能通過實驗探索參數(shù)的影響,并通過標準的超參數(shù)掃描確定最佳值。
從計算效率角度來看,無論干預(yù)了多少個注意力頭,ITI 只會在每一層增加一個常數(shù)向量,可以認為干預(yù)措施的計算開銷接近于零。
實驗部分
用于對比的基線方法如下:
1. 有監(jiān)督微調(diào)(SFT)
SFT 是 RLHF 的第一階段,研究人員用問題作為提示,用交叉熵損失促使模型生成真實的答案,并懲罰錯誤的答案。
但如果只用上述操作,交叉熵損失和 KL 散度會急劇上升,所以還需要交替對問答進行有監(jiān)督訓(xùn)練和對開放網(wǎng)絡(luò)文本進行預(yù)訓(xùn)練。
2. 少樣本提示(FSP)
有研究人員發(fā)現(xiàn),與上下文蒸餾和 RLHF 相比,indistribution 50-shot 提示在 TruthfulQA 上也是一個有競爭力的基線方法。
但由于提示策略的選擇與推理時間控制方法是正交的,研究人員對比了有 ITI 和無 ITI 的少樣本提示。
3. 指令微調(diào)(IFT)
為了了解 ITI 如何使 IFT 模型更加真實,研究人員主要選擇了兩個基于 LaMA-7B 的模型(Alpaca 和 Vicuna)執(zhí)行 ITI 操作。
研究人員首先尋找控制干預(yù)強度的超參數(shù)最佳值,最后確定 K=48 和 α=15
從結(jié)果來看,少樣本提示與 ITI 的結(jié)合取得了最佳結(jié)果。
將 ITI 應(yīng)用于指令微調(diào)模型,尋找并干預(yù)其真實性方向的實驗中可以看到,ITI 明顯比基線提高了真實性,還可以被應(yīng)用在少樣本提示或指令微調(diào)之上,不過代價是 CE 損失和 KL 散度提升相對較低
參考資料:
https://the-decoder.com/honest-llama-new-method-could-make-chatgpt-more-truthful/
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。