支持 100 萬(wàn) Tokens 上下文，阿里通義千問(wèn)推出 Qwen2.5-1M 開(kāi)源模型

2025/1/27 7:14:12 來(lái)源：IT之家作者：浩渺責(zé)編：浩渺

評(píng)論：

感謝IT之家網(wǎng)友 Skyraver 的線索投遞！

IT之家 1 月 27 日消息，阿里通義千問(wèn)今日宣布，正式推出開(kāi)源的 Qwen2.5-1M 模型及其對(duì)應(yīng)的推理框架支持。

IT之家從官方介紹獲悉，通義千問(wèn)本次發(fā)布了兩個(gè)新的開(kāi)源模型，分別是 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M，這是通義千問(wèn)首次將開(kāi)源的 Qwen 模型的上下文擴(kuò)展到 1M 長(zhǎng)度。

為了幫助開(kāi)發(fā)者更高效地部署 Qwen2.5-1M 系列模型，Qwen 團(tuán)隊(duì)完全開(kāi)源了基于 vLLM 的推理框架，并集成了稀疏注意力方法，使得該框架在處理 1M 標(biāo)記輸入時(shí)的速度提升了 3 倍到 7 倍。

長(zhǎng)上下文任務(wù)

在上下文長(zhǎng)度為 100 萬(wàn) Tokens 的大海撈針（Passkey Retrieval）任務(wù)中，Qwen2.5-1M 系列模型能夠準(zhǔn)確地從 1M 長(zhǎng)度的文檔中檢索出隱藏信息，其中僅有 7B 模型出現(xiàn)了少量錯(cuò)誤。

對(duì)于更復(fù)雜的長(zhǎng)上下文理解任務(wù)，選擇了 RULER、LV-Eval 和 LongbenchChat 測(cè)試集。

從這些結(jié)果中，Qwen 得出以下幾點(diǎn)關(guān)鍵結(jié)論：

顯著超越 128K 版本：Qwen2.5-1M 系列模型在大多數(shù)長(zhǎng)上下文任務(wù)中顯著優(yōu)于之前的 128K 版本，特別是在處理超過(guò) 64K 長(zhǎng)度的任務(wù)時(shí)表現(xiàn)出色。

性能優(yōu)勢(shì)明顯：Qwen2.5-14B-Instruct-1M 模型不僅擊敗了 Qwen2.5-Turbo，還在多個(gè)數(shù)據(jù)集上穩(wěn)定超越 GPT-4o-mini，為長(zhǎng)上下文任務(wù)提供了開(kāi)源模型的選擇。

短序列任務(wù)

可以發(fā)現(xiàn)：

Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 在短文本任務(wù)上的表現(xiàn)與其 128K 版本相當(dāng)，確保了基本能力沒(méi)有因?yàn)樵黾恿碎L(zhǎng)序列處理能力而受到影響。

與 GPT-4o-mini 相比，Qwen2.5-14B-Instruct-1M 和 Qwen2.5-Turbo 在短文本任務(wù)上實(shí)現(xiàn)了相近的性能，同時(shí)上下文長(zhǎng)度是 GPT-4o-mini 的八倍。

模型鏈接：https://www.modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
技術(shù)報(bào)告：https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
體驗(yàn)鏈接：https://modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

支持 100 萬(wàn) Tokens 上下文，阿里通義千問(wèn)推出 Qwen2.5-1M 開(kāi)源模型

長(zhǎng)上下文任務(wù)

短序列任務(wù)

相關(guān)文章