設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

四個(gè) 00 后的瘋狂開(kāi)源計(jì)劃:整個(gè)互聯(lián)網(wǎng)轉(zhuǎn)成大模型語(yǔ)料,1 億 token 嵌入成本只需 1 美元

量子位 2023/6/11 12:00:09 責(zé)編:夢(mèng)澤

Arxiv 上所有論文轉(zhuǎn)成 Token,加起來(lái)不過(guò) 14.1GB 而已。

這是最新爆火開(kāi)源計(jì)劃亞歷山大完成的壯舉。

事實(shí)上,這還只是第一步。

他們最終是想要將整個(gè)互聯(lián)網(wǎng)變成 Tokens,換言之全都轉(zhuǎn)化成 ChatGPT 等大模型理解這個(gè)世界的方式。

一旦這樣的數(shù)據(jù)集誕生,那豈不是為開(kāi)發(fā)出 GPT-4 這樣的大模型又新增一大利器,上知天文下知地理指日可待了?!

消息一出,瞬間引發(fā)巨大關(guān)注。

網(wǎng)友們贊嘆,史詩(shī)般的。

而這背后僅是四個(gè)平均年齡 20 歲的少年發(fā)起,目前 Arxiv 所有論文數(shù)據(jù)集已經(jīng)發(fā)布,他們將于下周發(fā)布嵌入(Embedding)搜索平臺(tái)。

從 Arxiv 上所有論文開(kāi)始

超過(guò) 400 萬(wàn)個(gè)項(xiàng)目、6 億個(gè) token,30.7 億個(gè)向量維度。

這個(gè)名為亞歷山大的開(kāi)源計(jì)劃,首先從 Arxiv 每篇論文上開(kāi)始。

選擇的方式是嵌入,簡(jiǎn)單來(lái)說(shuō),就是將現(xiàn)實(shí)世界的各種對(duì)象具象成計(jì)算機(jī)所能理解的向量。

最經(jīng)典的例子就是將原始圖像表示為灰度像素。

這種技術(shù)最大的特點(diǎn)就是能夠表示出人類感知到的語(yǔ)義相似性。

比如,當(dāng)有 10 個(gè)詞表示同一事物時(shí),很難通過(guò)關(guān)鍵詞查找論文。但嵌入就可以完成,因此很適用于搜索、聚類、推薦和分類。

基于實(shí)用性和效率的考慮,開(kāi)發(fā)團(tuán)隊(duì)只選擇嵌入了論文的標(biāo)題和摘要。

在測(cè)試各種模型之后,最終選擇使用 InstructorXL 文本嵌入模型,通過(guò)簡(jiǎn)單地提供任務(wù)指令,而無(wú)需任何微調(diào),適合于多種任務(wù)(比如分類、檢索、聚類、文本評(píng)估等)和領(lǐng)域(比如科學(xué)、金融、醫(yī)學(xué)等)》

下周他們將發(fā)布 Arxiv 搜索。目前為止的流程是,首先對(duì) 100 篇最接近的文章進(jìn)行相似性搜索,然后即時(shí)計(jì)算這些內(nèi)容的嵌入,并進(jìn)行第二次更復(fù)雜的搜索。

最終目標(biāo)是一整個(gè)互聯(lián)網(wǎng)嵌入計(jì)劃。

20 歲少年的瘋狂開(kāi)源計(jì)劃

之所以要開(kāi)展這樣一次瘋狂的開(kāi)源計(jì)劃,主要有兩方面的原因。

一方面是嵌入巨大的價(jià)值。世界上很多問(wèn)題只是搜索、 聚類、推薦或分類,而這些事情嵌入都非常擅長(zhǎng)。而且也如前所述,可以解決一些復(fù)雜的難題。

另一方面成本是一次性的且很便宜。大多數(shù)情況下無(wú)需對(duì)同個(gè)文件進(jìn)行二次計(jì)算。目前每 1 億個(gè) Token 只需 1 美元

但他們并沒(méi)有找到任何開(kāi)放的嵌入數(shù)據(jù)集,因此這樣的組織應(yīng)運(yùn)而生。

接下來(lái)他們還將開(kāi)放更多的數(shù)據(jù)集,而這些均由這些用戶自行選擇。在官網(wǎng)上除了已公開(kāi)的數(shù)據(jù)集,剩下的幾個(gè)待開(kāi)源項(xiàng)目開(kāi)啟了投票通道。

值得一提的是,背后是一群平均年齡僅為 20 歲的少年 team 完成的。

而他們的團(tuán)隊(duì)名字同樣也很霸氣,Macrocosm(宏觀世界)聯(lián)盟。

只要你放大到足夠遠(yuǎn),人類就會(huì)成為一個(gè)單一的生物。

就官方介紹,他們致力于為 ChatGPT 和其他類似產(chǎn)品構(gòu)建插件,同時(shí)也在開(kāi)發(fā)核心產(chǎn)品,基于大模型的個(gè)人研究助理,幫助學(xué)習(xí)、教學(xué)和科研。

感興趣的旁友可戳下方鏈接了解~

https://alex.macrocosm.so/download

參考鏈接:

  • [1]https://www.macrocosm.so/

  • [2]https://twitter.com/willdepue/status/1661781355452325889

  • [3]https://github.com/macrocosmcorp

  • [4]https://www.pinecone.io/learn/vector-embeddings/

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:白交

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:模型,人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知