IT之家 3 月 28 日消息,初創(chuàng)公司 Databricks 近日發(fā)布公告,推出了開源 AI 模型 DBRX,聲稱是迄今為止全球最強大的開源大型語言模型,比 Meta 的 Llama 2 更為強大。
DBRX 采用 transformer 架構(gòu),包含 1320 億參數(shù),共 16 個專家網(wǎng)絡(luò)組成,每次推理使用其中的 4 個專家網(wǎng)絡(luò),激活 360 億參數(shù)。
Databricks 在公司博客文章中介紹,在語言理解、編程、數(shù)學和邏輯方面,對比 Meta 公司的 Llama 2-70B、法國 Mistral AI 公司的 Mixtral 以及馬斯克旗下 xAI 開發(fā)的 Grok-1 等主流開源模型,DBRX 均優(yōu)勢勝出。
在語言理解方面,DBRX 的分值為 73.7%,高于 GPT-3.5 的 70.0%、高于 Llama 2-70B 的 69.8%、Mixtral 的 71.4% 以及 Grok-1 的 73.0%。
模型 | DBRX Instruct | Mixtral Instruct | Mixtral Base | LLaMA2-70B Chat | LLaMA2-70B Base | Grok-11 |
Open LLM Leaderboard2 (Avg of next 6 rows) | 74.5% | 72.7% | 68.4% | 62.4% | 67.9% | — |
ARC-challenge 25-shot | 68.9% | 70.1% | 66.4% | 64.6% | 67.3% | — |
HellaSwag 10-shot | 89.0% | 87.6% | 86.5% | 85.9% | 87.3% | — |
MMLU 5-shot | 73.7% | 71.4% | 71.9% | 63.9% | 69.8% | 73.0% |
Truthful QA 0-shot | 66.9% | 65.0% | 46.8% | 52.8% | 44.9% | — |
WinoGrande 5-shot | 81.8% | 81.1% | 81.7% | 80.5% | 83.7% | — |
GSM8k CoT 5-shot maj@13 | 66.9% | 61.1% | 57.6% | 26.7% | 54.1% | 62.9% (8-shot) |
Gauntlet v0.34 (Avg of 30+ diverse tasks) | 66.8% | 60.7% | 56.8% | 52.8% | 56.4% | — |
HumanEval5 0-Shot, pass@1 (Programming) | 70.1% | 54.8% | 40.2% | 32.2% | 31.0% | 63.2% |
在編程能力方面,DBRX 的得分為 70.1%,遠超 GPT-3.5 的 48.1%,高于 Llama 2-70B 的 32.3%、Mixtral 的 54.8% 以及 Grok-1 的 63.2%。
Model | DBRX | GPT-3.57 | GPT-48 | Claude 3 Haiku | Claude 3 Sonnet | Claude 3 Opus | Gemini 1.0 Pro | Gemini 1.5 Pro | Mistral Medium | Mistral Large |
MT Bench (Inflection corrected, n=5) | 8.39 ± 0.08 | — | — | 8.41 ± 0.04 | 8.54 ± 0.09 | 9.03 ± 0.06 | 8.23 ± 0.08 | — | 8.05 ± 0.12 | 8.90 ± 0.06 |
MMLU 5-shot | 73.7% | 70.0% | 86.4% | 75.2% | 79.0% | 86.8% | 71.8% | 81.9% | 75.3% | 81.2% |
HellaSwag 10-shot | 89.0% | 85.5% | 95.3% | 85.9% | 89.0% | 95.4% | 84.7% | 92.5% | 88.0% | 89.2% |
HumanEval 0-Shot | 70.1% temp=0, N=1 | 48.1% | 67.0% | 75.9% | 73.0% | 84.9% | 67.7% | 71.9% | 38.4% | 45.1% |
GSM8k CoT maj@1 | 72.8% (5-shot) | 57.1% (5-shot) | 92.0% (5-shot) | 88.9% | 92.3% | 95.0% | 86.5% (maj1@32) | 91.7% (11-shot) | 81.0% (5-shot) | |
WinoGrande 5-shot | 81.8% | 81.6% | 87.5% | — | — | — | — | — | 88.0% | 86.7% |
在數(shù)學方面,DBRX 的得分為 66.9%,高于 GPT-3.5 的 57.1%,也高于 Llama 2-70B 的 54.1%、Mixtral 的 61.1% 和 Grok-1 的 62.9%。
Databricks 介紹,DBRX 是一個基于 MegaBlocks 研究和開源項目構(gòu)建的混合專家模型 (MoE),因此每秒輸出 token 的速度極快。Databricks 相信,這將為 MoE 未來最先進的開源模型鋪平道路。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。