首頁 > 科學探索>科技前沿

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

量子位 2023/6/24 12:32:05 責編：夢澤

評論：

清華唐杰團隊的新作來了：

WebGLM，一個參數(shù) 100 億的聯(lián)網(wǎng)問答聊天機器人（論文入選 KDD2023）。

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

你可以問它任何問題，然后它將列舉出網(wǎng)上（例如維基百科、相關官網(wǎng)）相關的文章鏈接，整理出答案。

比如：

ChatGPT 的核心技術是什么？

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

或者:

誰提出的 Music Transformer？它的原理是什么？

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

再或者：

原神 3.5 版本怎么樣？

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

沒有高薪工作，怎么在一線城市生活？（手動狗頭）

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

……

它都能給出有理有據(jù)的回答。

據(jù)介紹，在性能對比測試中，WebGLM 的水平已經(jīng)高于 OpenAI 135 億參數(shù)的 WebGPT，在人類評估中，甚至與 1750 億參數(shù)的模型不相上下。

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

那么，它是如何訓練的？

可以上網(wǎng)的清華系 WebGLM

據(jù)介紹，WebGLM 的目標是通過 Web 搜索和檢索功能，增強預訓練大語言模型，同時可以進行高效的實際部署。

為此，作者基于三種策略進行開發(fā)。

首先是大模型增強檢索器。

它主要是用于增強模型相關網(wǎng)絡內(nèi)容的檢索能力，在給定查詢的情況下查找相關引用，以便后面更好地準確回答問題。

它有兩個階段：粗粒度 web 搜索和細粒度 LLM 增強密集檢索。

其次是自舉生成器。

它利用 GLM（比如清華之前發(fā)布的雙語開源預訓練模型 GLM-130B）的能力為問題生成回復，提供詳細的答案。

利用該生成器，作者得到 WebGLM-QA—— 一個 LLM 自舉引用和長程的 QA 數(shù)據(jù)集。

它通過上下文學習等策略進行清洗和過濾，最終包括 45k 的高質(zhì)量過濾樣本和 83k 的噪聲樣本。

WebGLM 的 backbone 就是一個在該數(shù)據(jù)集上訓練的 GLM 模型。

最后是基于人類偏好的打分器。

它通過優(yōu)先考慮人類偏好而非昂貴的專家反饋來評估生成回復的質(zhì)量，確保系統(tǒng)能夠產(chǎn)生有用和吸引人的內(nèi)容。

以上三大組件最終按順序形成 WebGLM 的 pipeline：

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

可以看到，正好三個模塊，對應前面介紹的三部分，其中：

LLM 增強檢索器會將前五個最相關的頁面作為參考源，讓自舉生成器生成多個答案，最終打分器選出最可能符合人類偏好的那一個作為最終輸出。

性能超 OpenAI WebGPT

除了 WebGLM 本身，唐杰團隊此次還提出了一個網(wǎng)絡增強問答系統(tǒng)的評估標準，評估對象既包括參考文獻，也包括最終回答。

其中前者衡量相關性、信息密度、真實性（無事實錯誤）、毒性（不含暴力色情等信息）和社會偏見程度這 5 個維度；后者則衡量流暢度、正確性、引用準確性、客觀性和冗余程度。

他們用 WebGPT（來自 OpenAI，基于 GPT-3 進行微調(diào)）演示網(wǎng)站提供的 272 個問題進行對比評估，并招募了 15 個學歷為碩士的志愿者打分。

最終結(jié)果如下：

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

（“Rel.”、“ Den.”…… 分別對應上面說的 10 個指標。）

可以看到，盡管 WebGLM 的搜索結(jié)果略遜于 WebGPT-175B，但遠好于 Perplexity.ai 和 WebGPT-13B（左邊的參考文獻評估）。

值得一提的是，WebGLM 檢索過程只使用了一些傳統(tǒng)的基于單詞的算法和兩個累計參數(shù)量不超過 300M 的 Contriever。

此外，WebGLM 在計算性能和時間消耗方面也明顯優(yōu)于 WebGPT-13B、并與 175B 不相上下。

而在最終結(jié)果方面，WebGLM 在流暢度、真實性和冗余度方面均獲得最高得分，正確性指標上則接近 WebGPT-175B，遠高于 Perplexity.ai 和 WebGPT-13B。

作者表示，這表明 WebGLM 可以以更低的成本獲得更高的性能。

部署與訓練

WebGLM 發(fā)布即開源。

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

要想部署它，需要從 SerpAPI 官網(wǎng)獲得一個密鑰，用于在搜索過程中獲取搜索結(jié)果。

檢索器的權重可從清華云上下載。

運行該模型的方式有兩種：一是命令行界面，二是 Web 服務形式，并且包含 WebGLM-2B 和 WebGLM-10B 兩種可選模型。

你也可以自己訓練 WebGLM，官方已提供好了生成器和檢索器的訓練數(shù)據(jù)供下載～

論文地址：

https://arxiv.org/abs//2306.07906

GitHub 主頁：

https://github.com/THUDM/WebGLM

本文來自微信公眾號：量子位（ID：QbitAI），作者：豐色

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：人工智能，聊天機器人

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT

可以上網(wǎng)的清華系 WebGLM

性能超 OpenAI WebGPT

部署與訓練

相關文章

清華唐杰新作 WebGLM：參數(shù) 100 億、主打聯(lián)網(wǎng)搜索，性能超 OpenAI WebGPT