研究人員推出 xLSTM 神經(jīng)網(wǎng)絡(luò) AI 架構(gòu):并行化處理 Token、有望迎戰(zhàn) Transformer

2024/5/13 8:59:57 來(lái)源:IT之家 作者:漾仔 責(zé)編:漾仔

IT之家 5 月 13 日消息,研究人員 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了長(zhǎng)短期記憶(Long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可用來(lái)解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長(zhǎng)期記憶能力不足的問(wèn)題。

而最近 Sepp Hochreiter 在 arXiv 上發(fā)布論文,提出了一種名為 xLSTM(Extended LSTM)的新架構(gòu),號(hào)稱(chēng)可以解決 LSTM 長(zhǎng)期以來(lái)“只能按照時(shí)序處理信息”的“最大痛點(diǎn)”,從而“迎戰(zhàn)”目前廣受歡迎的 Transformer 架構(gòu)

IT之家從論文中獲悉,Sepp Hochreiter 在新的 xLSTM 架構(gòu)中采用了指數(shù)型門(mén)控循環(huán)網(wǎng)絡(luò),同時(shí)為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)引入了“sLSTM”和“mLSTM”兩項(xiàng)記憶規(guī)則,從而允許相關(guān)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地利用 RAM,實(shí)現(xiàn)類(lèi) Transformer“可同時(shí)對(duì)所有 Token 進(jìn)行處理”的并行化操作。

團(tuán)隊(duì)使用了 150 億個(gè) Token 訓(xùn)練基于 xLSTM 及 Transformer 架構(gòu)的兩款模型進(jìn)行測(cè)試,在評(píng)估后發(fā)現(xiàn) xLSTM 表現(xiàn)最好,尤其在“語(yǔ)言能力”方面最為突出,據(jù)此研究人員認(rèn)為 xLSTM 未來(lái)有望能夠與 Transformer 進(jìn)行“一戰(zhàn)”。

參考

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知