設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

國(guó)產(chǎn) 1400 億參數(shù)知未智能 KDF 大模型發(fā)布,聚焦金融和商業(yè)垂直領(lǐng)域

2023/7/25 9:50:32 來(lái)源:IT之家 作者:漾仔(實(shí)習(xí)) 責(zé)編:汪淼

IT之家 7 月 25 日消息,近來(lái)諸多國(guó)產(chǎn)大模型異軍突起,助力相關(guān)行業(yè)產(chǎn)業(yè)發(fā)展。北京知未智能科技有限公司日前在上海發(fā)布了知未智能 KDF 大模型 ,以及基于該模型研發(fā)的一系列產(chǎn)品,包括“ KDF 智訊”、“KDF 絕未”、“KDF 中書”等金融行業(yè)工具。

IT之家經(jīng)過(guò)查詢得知,知未智能 KDF 大模型的訓(xùn)練數(shù)據(jù)以中文為主,并包含大量的金融數(shù)據(jù),以提升模型在商業(yè)和金融領(lǐng)域的問(wèn)題處理能力。

此外,訓(xùn)練數(shù)據(jù)中還融合了部分英文與代碼數(shù)據(jù),以適應(yīng)模型的通用能力。在訓(xùn)練過(guò)程中,知未智能 KDF 大模型將單個(gè)漢字視為獨(dú)立的 Token 進(jìn)行處理。模型參數(shù)量達(dá) 1400 億,訓(xùn)練 Token 數(shù)達(dá)到 4000 億。從代碼量角度看,數(shù)據(jù)處理部分約 5000 行,模型實(shí)驗(yàn)部分約 2000 行,模型訓(xùn)練部分約 500 行。

在具體訓(xùn)練過(guò)程中,知未智能 KDF 大模型采用了基于 PyTorch 優(yōu)化的 GELU 非線性激活函數(shù)。GELU 作為非線性激活函數(shù),在各類任務(wù)中表現(xiàn)相對(duì)出色,有助于模型更精確地捕獲復(fù)雜數(shù)據(jù)特征,確保整個(gè)開發(fā)、訓(xùn)練和部署過(guò)程的高效運(yùn)行。

在網(wǎng)絡(luò)結(jié)構(gòu)方面,開發(fā)團(tuán)隊(duì)對(duì)模型進(jìn)行了深度優(yōu)化。與 LLaMA 模型相比,該模型在每一層使用更少的參數(shù),有效降低計(jì)算需求和內(nèi)存占用。同時(shí),網(wǎng)絡(luò)深度得到加強(qiáng),使模型具備更強(qiáng)大的表示能力,能夠?qū)W習(xí)到更為復(fù)雜的數(shù)據(jù)特征。

為提升模型在大規(guī)模數(shù)據(jù)處理中的可擴(kuò)展性,開發(fā)團(tuán)隊(duì)重新調(diào)整了注意力層的 Bias,并引入了 Flash Attention 技術(shù),旨在節(jié)省顯存并提高模型訓(xùn)練和推理速度。得益于降低的計(jì)算量和內(nèi)存需求,F(xiàn)lash Attention 使得知未智能 KDF 大模型在有限的硬件資源下實(shí)現(xiàn)更高效的運(yùn)行。

從部分基準(zhǔn)測(cè)試結(jié)果來(lái)看,知未智能 KDF 大模型在七個(gè)自然語(yǔ)言處理任務(wù)中展現(xiàn)出穩(wěn)定的性能。在某些任務(wù)上,如 iFlytek 和 CMNLI,知未智能 KDF 大模型表現(xiàn)相對(duì)出色,在 ExamQA 和 OCNLI 測(cè)試中,各模型的表現(xiàn)大致相同,凸顯了該模型處理不同類型文本和領(lǐng)域知識(shí)方面的能力。

▲ 圖源 Hugging Face

知未智能科技 CEO 段清華表示,現(xiàn)有通用大模型在具體行業(yè)應(yīng)用性和中文能力方面的局限是知未智能選擇從零訓(xùn)練知未智能 KDF 大模型的主要原因,Chatglm 在具體行業(yè)應(yīng)用能力上相對(duì)薄弱,MOSS 采用英文模型為基底而對(duì)中文支持不足,LLaMA 訓(xùn)練數(shù)據(jù)大多為英文數(shù)據(jù)而中文能力相對(duì)較弱。了,因此研發(fā)團(tuán)隊(duì)選擇從零開始訓(xùn)練知未智能 KDF 大模型,以便更好地提升其中文能力以及行業(yè)適用性。

在模型訓(xùn)練過(guò)程中,開發(fā)團(tuán)隊(duì)不斷深入理解技術(shù)細(xì)節(jié),力求打造一款“功能強(qiáng)大、性能優(yōu)越”的中文模型,作為一款應(yīng)用于金融和商業(yè)的垂直領(lǐng)域大模型,知未智能 KDF 大模型將持續(xù)推動(dòng)公司產(chǎn)品的開發(fā)創(chuàng)新。

知未智能 KDF 大模型目前已于 Hugging Face 開源,未來(lái)將不限制商業(yè)使用,感興趣的小伙伴們可以在此進(jìn)行了解。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知