MiniMax 稀宇科技發(fā)布萬億參數(shù) MoE 模型 abab 6.5，核心能力接近 GPT-4

2024/4/17 14:50:25 來源：IT之家作者：泓澄（實(shí)習(xí)） 責(zé)編：泓澄

評(píng)論：

IT之家 4 月 17 日消息，國內(nèi) AI 初創(chuàng)企業(yè) MiniMax 稀宇科技今日正式推出 MoE 混合專家模型架構(gòu)的 abab 6.5 系列模型，核心能力開始接近 GPT-4、 Claude-3、 Gemini-1.5。

abab 6.5 系列包含兩個(gè)模型：

abab 6.5：包含萬億參數(shù)，支持 200k tokens 的上下文長(zhǎng)度；
abab 6.5s：與 abab 6.5 使用了同樣的訓(xùn)練技術(shù)和數(shù)據(jù)，但是更高效，支持 200k tokens 的上下文長(zhǎng)度，可以 1 秒內(nèi)處理近 3 萬字的文本。

自一月發(fā)布國內(nèi)首個(gè)基于 MoE 架構(gòu)的 abab 6 模型后，MiniMax 通過改進(jìn)模型架構(gòu)，重構(gòu)數(shù)據(jù) pipeline，訓(xùn)練算法及并行訓(xùn)練策略優(yōu)化等，在加速 Scaling Laws 過程上取得階段性成果。

IT之家附 abab 6.5 系列模型測(cè)試結(jié)果如下：

abab 6.5 系列模型測(cè)試結(jié)果

官方在 200k token 內(nèi)進(jìn)行了業(yè)界常用的“大海撈針”測(cè)試，即在很長(zhǎng)的文本中放入一個(gè)和該文本無關(guān)的句子（針），然后通過自然語言提問模型，看模型是否準(zhǔn)確將這個(gè)針回答出來。在 891 次測(cè)試中，abab 6.5 均能正確回答。

海螺 AI 頁面

▲ 海螺 AI 頁面

abab 6.5 與 abab 6.5s 模型將滾動(dòng)更新至 MiniMax 旗下產(chǎn)品，包括海螺 AI 與 MiniMax 開放平臺(tái)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮