IT之家 1 月 27 日消息,據(jù) Information 網(wǎng)站,F(xiàn)acebook 母公司 Meta 成立了四個專門研究小組來研究量化巨頭幻方量化旗下的國產(chǎn)大模型 DeepSeek 的工作原理,并基于此來改進(jìn)旗下大模型 Llama。
其中兩個小組正在試圖了解幻方量化如何降低訓(xùn)練和運行 DeepSeek 的成本;第三個研究小組則正在研究幻方量化可能使用了哪些數(shù)據(jù)來訓(xùn)練其模型;第四個小組正在考慮基于 DeepSeek 模型屬性重構(gòu) Meta 模型的新技術(shù)。
1 月 20 日,DeepSeek-R1 推理大模型正式發(fā)布。據(jù)官方介紹,DeepSeek-R1 在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩 OpenAI o1 正式版。
IT之家注意到,今日 Deepseek 應(yīng)用已登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費 App 下載排行榜,在美區(qū)下載榜上超越了 ChatGPT。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。