清華廈大等提出“無限長上下文”技術(shù)：100 萬大海撈針全綠，Llama\Qwen\MiniCPM 都能上分

量子位 2024/11/10 10:58:25 責(zé)編：問舟

評論：

大模型的記憶限制被打破了，變相實現(xiàn)“無限長”上下文。最新成果，來自清華、廈大等聯(lián)合提出的 LLMxMapReduce 長文本分幀處理技術(shù)。

$清華廈大等提出“無限長上下文”技術(shù)：100 萬大海撈針全綠，Llama\Qwen\MiniCPM 都能上分$

LLMxMapReduce 技術(shù)通過將長上下文切分為多個片段，可以讓模型并行處理多個片段，并從不同片段中提取關(guān)鍵信息，然后匯總成為最終的答案。

特別地，團(tuán)隊提出結(jié)構(gòu)化通信協(xié)議和上下文置信度校準(zhǔn)機制，實現(xiàn)對跨片段信息更有效的處理。這項技術(shù)可以打破大模型的記憶限制，實現(xiàn)上下文長度無限穩(wěn)定拓展。

LLMxMapReduce 技術(shù)可作為大模型的長文本上分神器 —— 它對大模型長文本能力具有普遍增強作用，且在文本不斷加長的情況下，仍能保持穩(wěn)定性能、減少長文本的掉分情況。

比如結(jié)合了 LLMxMapReduce 框架之后的 Llama3-70B-Instruct x MapReduce 模型得分超越了包含 Kimi、GPT-4 在內(nèi)的知名閉源和開源模型以及其他基于 Llama3-70B-Instruct 的分治方法（即 LongAgent 和 Chain-of-Agents）。

此外，LLMxMapReduce 框架展現(xiàn)出較強的通用性，結(jié)合 Qwen2-72B 和 MiniCPM3 也取得了優(yōu)異的成績。

LLMxMapReduce 無限長文本技術(shù)原理

在大數(shù)據(jù)領(lǐng)域，MapReduce 是一種分布式并行編程框架，具有橫向擴(kuò)展的數(shù)據(jù)處理能力。受到 MapReduce 所體現(xiàn)的“分而治之”思想的啟發(fā)，研究人員設(shè)計了一種面向大模型的采用分治策略的長文本處理框架，稱為 LLMxMapReduce。

通過將長上下文切分為多個片段，LLMxMapReduce 讓模型并行處理多個片段，并從不同片段中提取關(guān)鍵信息，然后匯總成為最終的答案，從而實現(xiàn)無限長文本。這一技術(shù)對模型長文本能力具有普遍增強作用，且在文本不斷加長的情況下，仍能保持穩(wěn)定性能、減少長文本的掉分情況。

最近，也有一些同類型的分治式長文本處理方法，比如 LongAgent 和 Chain-of-Agents。相比于模型一次處理完整長文檔，這類分治式長文本處理既有優(yōu)勢，也有不足。

優(yōu)勢主要在于：長度可擴(kuò)展，不受限于模型本身的窗口大小，理論上可以支持任意長度輸入。

劣勢主要在于：將一個完整的長文檔切分為多個片段，可能會破壞跨片段的關(guān)鍵信息，導(dǎo)致模型根據(jù)某個片段“斷章取義”，產(chǎn)生錯誤結(jié)論。團(tuán)隊分析，會被切分片段影響的信息有兩類：

跨片段依賴 （Inter-Chunk Dependency）：多個片段的信息相互依賴，綜合起來，才能產(chǎn)生一個完整的答案。比如要總結(jié)一個事件的時間脈絡(luò)，需要從很多個片段中提取關(guān)鍵的信息，才能形成一個完整的時間線。
跨片段沖突 （Inter-Chunk Conflict）：多個片段的信息存在沖突，對于相同的問題，看不同的片段時可能得出不同的結(jié)論。比如要問一位導(dǎo)演一生最偉大的作品是什么，在看他青年時期片段時，得出的是青年時的最大成就，而在看老年時期的片段，又會得出不同的結(jié)論。

為了解決這兩類問題，LLMxMapReduce 分別設(shè)計了以下方案：

結(jié)構(gòu)化通信協(xié)議 （Structured Information Protocol）：針對用戶的問題，模型在處理每個片段時，不是僅僅輸出中間答案，而是輸出結(jié)構(gòu)體，包含豐富的相關(guān)信息。在 Reduce 階段，模型根據(jù)各個片段輸出的結(jié)構(gòu)化信息，匯總得出最終結(jié)果。通過在 Map 和 Reduce 階段的結(jié)構(gòu)化通信協(xié)議，希望能夠更好地處理跨片段依賴的問題，更好地得出綜合性答案。

{
    Extracted Information: XXX # 與問題相關(guān)的關(guān)鍵信息
    Rationale: XXX # 得出中間結(jié)果的推理過程
    Answer: XXX # 根據(jù)當(dāng)前片段的中間結(jié)果
    Confidence Score: XXX # 模型對當(dāng)前片段的結(jié)果的置信度，范圍為1到5之間
}

上下文置信度校準(zhǔn) （In-Context Confidence Calibration）：模型在 Reduce 階段，會參考 Confidence 的值來匯總不同階段的信息，高 Confidence 的結(jié)果占據(jù)更多的主導(dǎo)權(quán)。為了讓模型在處理不同片段時具有一致的置信度評估標(biāo)準(zhǔn)，通過上下文學(xué)習(xí)的方式讓模型學(xué)會一個統(tǒng)一的置信度評估準(zhǔn)則，讓置信度信息更加準(zhǔn)確可靠，從而幫助模型在 Reduce 階段更好的處理跨片段沖突問題。

LLMxMapReduce 方法的流程圖如下所示：整體分為 Map、Collapse 和 Reduce 三個階段。

首先要將長文本切分成多個小片段，這些片段可以并行處理，從而提高效率。

$清華廈大等提出“無限長上下文”技術(shù)：100 萬大海撈針全綠，Llama\Qwen\MiniCPM 都能上分$

然后在 Map 階段，使用大模型對每個片段進(jìn)行分析，然后應(yīng)用上文所述的結(jié)構(gòu)化通信協(xié)議，將提取的信息整合成結(jié)構(gòu)體形式，以便后續(xù)處理。

接下來，在 Collapse 階段，如果所有片段的結(jié)果總長度超過模型的最大處理限制，模型將多個結(jié)構(gòu)體壓縮為一個結(jié)構(gòu)體，以減少上下文長度。在處理沖突信息時，模型會考慮置信度進(jìn)行整合。

最后，在 Reduce 階段，模型根據(jù)壓縮后的信息匯總出最終的答案。它會優(yōu)先考慮置信度較高的結(jié)果，從而確保得到的答案準(zhǔn)確無誤。

通過以上工作流程，LLMxMapReduce 能夠更有效地處理長文本，避免因切分導(dǎo)致的信息丟失或錯誤結(jié)論，從而提高最終結(jié)果的準(zhǔn)確性。

大模型長文本上分神器

為了驗證 LLMxMapReduce 技術(shù)的有效性，研究人員在業(yè)內(nèi)權(quán)威的長文本評測 InfiniteBench 榜單上對不同模型進(jìn)行了評測，InfiniteBench 是一個綜合性榜單，最長長度超過 2000k token。

研究人員和很多方法進(jìn)行了對比，其中對比的基線共有三類：

閉源模型：

包括 GPT-4、Claude 2、Kimi-Chat，其中 GPT-4 和 Claude 2 的得分參照 InfiniteBench 原文，Kimi-Chat 為重新測量的得分；

開源模型：

包括 YaRN-Mistral、Yi-6B-200K、Yi-34B-200K 和 Qwen2-72B-Instruct，其中 YaRN-Mistral、Yi-6B-200K、Yi-34B-200K 的得分參照 InfiniteBench 原文，Qwen2-72B-Instruct 是自行測量的得分；

其他基于分治的長文本處理框架：

包括 LongAgent 和 Chain-of-Agents。這兩個分治框架的不同點在于處理跨片段信息的方式不同。

LongAgent 構(gòu)建了一個 Leader Agent 來處理跨片段沖突。當(dāng)不同的 Chunk 得出的答案不同時，Leader Agent 會組織重新閱讀沖突的片段，得出最終答案。

這種重復(fù)閱讀的機制帶來較大的時間開銷，并且 LongAgent 的通信內(nèi)容比較單一，Leader Agent 處理沖突的能力有限。相比之下，LLMxMapReduce 的結(jié)構(gòu)化通信協(xié)議包含的信息更為豐富。

Chain-of-Agents 通過順序逐一讀取各個 Chunk 來閱讀全文。

由于沒有顯式地處理沖突信息，可能會導(dǎo)致后續(xù) Chunk 的信息覆蓋歷史 Chunk 中的關(guān)鍵信息。相比之下，LLMxMapReduce 利用校準(zhǔn)后的置信度來更好的處理跨片段沖突。

具體實驗結(jié)果如下：

$清華廈大等提出“無限長上下文”技術(shù)：100 萬大海撈針全綠，Llama\Qwen\MiniCPM 都能上分$

可以看到，結(jié)合 LLMxMapReduce 框架之后，Llama3-70B-Instruct x MapReduce 以 68.66 的最高平均分?jǐn)?shù)，超越了閉源、開源模型以及其他基于 Llama3-70B-Instruct 的分治策略（即 LongAgent 和 Chain-of-Agents）。

此外，LLMxMapReduce 框架展現(xiàn)出較強的通用性，結(jié)合 Qwen2-72B 和 MiniCPM3 也取得了優(yōu)異的成績。

研究人員同樣分析上下文置信度校準(zhǔn)和結(jié)構(gòu)化通信協(xié)議對框架性能的影響，在實驗中逐步將這兩個機制移除。實驗結(jié)果顯示，去除上下文置信度校準(zhǔn)機制導(dǎo)致所有任務(wù)的性能下降。如果沒有這兩個機制，性能將會顯著下降。這些結(jié)果證明了這兩個機制在 LLMxMapReduce 框架中的關(guān)鍵作用。

$清華廈大等提出“無限長上下文”技術(shù)：100 萬大海撈針全綠，Llama\Qwen\MiniCPM 都能上分$

100 萬上下文大海撈針全綠

大海撈針（Needle-in-a-haystack ) 是一個在大模型領(lǐng)域廣泛應(yīng)用的測試，用于評估大語言模型在處理長文本時識別特定事實的能力。為了評估 LLMxMapReduce 框架在處理極長文本方面的表現(xiàn)，研究人員將大海撈針測試的文本長度擴(kuò)展至 1280K 個 token。

測試結(jié)果顯示全綠：

$清華廈大等提出“無限長上下文”技術(shù)：100 萬大海撈針全綠，Llama\Qwen\MiniCPM 都能上分$

實驗結(jié)果表明，采用 LLMxMapReduce 方法的 Llama3-70B-Instruct 能夠有效處理長度達(dá)到 1280K token 的序列，展示了該框架在處理超長序列時的卓越能力。

為了評估不同方法在處理長文本時的響應(yīng)速度，研究人員進(jìn)行了一項速度實驗，使用 20 個測試示例，每個示例包含 128K 個 token。實驗結(jié)果顯示，因為更好地利用了分段并行，LLMxMapReduce 的處理速度比 128K 模型標(biāo)準(zhǔn)解碼更快。

而且，由于結(jié)構(gòu)化通信協(xié)議和上下文置信度校準(zhǔn)機制不影響框架的并行推理，相比于 LongAgent 和 Chain-of-Agents 這兩個同類型的分治框架，LLMxMapReduce 也具有明顯的速度優(yōu)勢。

$清華廈大等提出“無限長上下文”技術(shù)：100 萬大海撈針全綠，Llama\Qwen\MiniCPM 都能上分$

論文鏈接：https://arxiv.org/ pdf/2410.09342
Github 鏈接：https://github.com/ thunlp / LLMxMapReduce
InfiniteBench：https://github.com/OpenBMB/InfiniteBench?tab=readme-ov-file

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

清華廈大等提出“無限長上下文”技術(shù)：100 萬大海撈針全綠，Llama\Qwen\MiniCPM 都能上分

LLMxMapReduce 無限長文本技術(shù)原理

大模型長文本上分神器

100 萬上下文大海撈針全綠

相關(guān)文章

清華廈大等提出“無限長上下文”技術(shù)：100 萬大海撈針全綠，Llama\Qwen\MiniCPM 都能上分