IT之家 2 月 6 日消息,在最近的一次公開(kāi)活動(dòng)中,人工智能公司 OpenAI 的首席執(zhí)行官薩姆?阿爾特曼(Sam Altman)表示,他觀察到人工智能的“智商”在過(guò)去幾年中迅速提升。阿爾特曼稱(chēng):“大致而言,我的感覺(jué)是 —— 這不是科學(xué)準(zhǔn)確的表述,只是一種直覺(jué)或精神層面的回答 —— 每年我們似乎在智商上前進(jìn)了一個(gè)標(biāo)準(zhǔn)差?!?/p>
IT之家注意到,阿爾特曼并非第一個(gè)用智商來(lái)衡量人工智能進(jìn)步的人。在社交媒體上,一些人工智能領(lǐng)域的意見(jiàn)領(lǐng)袖已經(jīng)讓各種模型接受智商測(cè)試,并對(duì)結(jié)果進(jìn)行排名。但許多專(zhuān)家認(rèn)為,智商并不是衡量模型能力的合適指標(biāo),甚至具有誤導(dǎo)性。
牛津大學(xué)研究技術(shù)與監(jiān)管的研究員桑德拉?瓦赫特(Sandra Wachter)在接受 TechCrunch 采訪時(shí)表示:“用人類(lèi)的衡量標(biāo)準(zhǔn)來(lái)描述人工智能的能力或進(jìn)步是非常誘人的,但這就好比是在比較蘋(píng)果和橘子。”智商測(cè)試是一種相對(duì)而非客觀的智力測(cè)量方式,它在邏輯和抽象推理方面被認(rèn)為是一個(gè)合理的測(cè)試指標(biāo),但它無(wú)法衡量實(shí)際智力 —— 即知道如何讓事物運(yùn)作的能力。
瓦赫特指出:“智商是一種衡量人類(lèi)能力的工具 —— 盡管它本身存在爭(zhēng)議 —— 是基于科學(xué)家對(duì)人類(lèi)智力的看法而設(shè)計(jì)的,但你不能用同樣的標(biāo)準(zhǔn)來(lái)衡量人工智能的能力。汽車(chē)比人類(lèi)跑得快,潛水艇比人類(lèi)潛得深,但這并不意味著汽車(chē)或潛水艇超越了人類(lèi)的智力。不能簡(jiǎn)單地將某一方面的性能等同于人類(lèi)智力,人類(lèi)智力是非常復(fù)雜的?!?/p>
智商測(cè)試的起源可以追溯到優(yōu)生學(xué),優(yōu)生學(xué)是一種被廣泛駁斥的科學(xué)理論,認(rèn)為可以通過(guò)選擇性繁殖來(lái)改善人類(lèi)。參加智商測(cè)試的人需要具備強(qiáng)大的工作記憶能力,并且熟悉西方文化規(guī)范,這自然為偏見(jiàn)留下了空間。一位心理學(xué)家甚至稱(chēng)智商測(cè)試為“意識(shí)形態(tài)上可被操縱的機(jī)械智力模型”。
華盛頓大學(xué)研究倫理人工智能的博士候選人奧斯?凱斯(Os Keyes)表示,模型在智商測(cè)試中表現(xiàn)良好,更多地反映了測(cè)試本身的缺陷,而不是模型的性能?!叭绻麚碛袔缀鯚o(wú)限的內(nèi)存和耐心,這些測(cè)試其實(shí)很容易被‘玩弄’。智商測(cè)試是一種非常有限的衡量認(rèn)知、意識(shí)和智力的方式,這一點(diǎn)在數(shù)字計(jì)算機(jī)發(fā)明之前我們就已經(jīng)知道了?!?/p>
人工智能在智商測(cè)試中可能具有不公平的優(yōu)勢(shì),因?yàn)槟P蛽碛泻A康膬?nèi)存和內(nèi)化的知識(shí)。通常,模型是基于公共網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練的,而網(wǎng)絡(luò)上有大量從智商測(cè)試中提取的例題。倫敦國(guó)王學(xué)院的研究員邁克?庫(kù)克(Mike Cook)表示:“測(cè)試往往重復(fù)非常相似的模式 —— 提高智商的一個(gè)相當(dāng)可靠的方法就是練習(xí)智商測(cè)試,而這本質(zhì)上就是每個(gè)模型都在做的事情。當(dāng)我學(xué)習(xí)某樣?xùn)|西時(shí),我不會(huì)像 AI 那樣以完美的清晰度將其清晰地輸入我的大腦 100 萬(wàn)次,我也無(wú)法像人工智能那樣毫無(wú)噪聲或信號(hào)損失地處理它?!?/p>
庫(kù)克補(bǔ)充道,智商測(cè)試 —— 盡管存在偏見(jiàn) —— 是為人類(lèi)設(shè)計(jì)的,旨在評(píng)估一般性的問(wèn)題解決能力,并不適合用于評(píng)估一種以與人類(lèi)截然不同的方式解決問(wèn)題的技術(shù)?!盀貘f可能會(huì)使用工具從盒子里取出食物,但這并不意味著它可以進(jìn)入哈佛大學(xué)。當(dāng)我解決一個(gè)數(shù)學(xué)問(wèn)題時(shí),我的大腦不僅要正確閱讀頁(yè)面上的文字,還要避免去想回家路上需要購(gòu)買(mǎi)的東西,或者房間是否太冷。換句話說(shuō),人類(lèi)大腦在解決問(wèn)題時(shí) —— 無(wú)論是智商測(cè)試還是其他任何問(wèn)題 —— 都要應(yīng)對(duì)更多的事情,而且它們?cè)诮鉀Q問(wèn)題時(shí)得到的幫助也比人工智能少得多?!?/p>
AI Now 研究所的首席人工智能科學(xué)家海迪?赫拉夫(Heidy Khlaaf)在接受 TechCrunch 采訪時(shí)表示,所有這些都表明我們需要更好的人工智能測(cè)試方法。赫拉夫說(shuō):“在計(jì)算歷史中,我們從未將計(jì)算能力與人類(lèi)能力進(jìn)行精確比較,因?yàn)橛?jì)算的本質(zhì)意味著系統(tǒng)一直能夠完成超出人類(lèi)能力范圍的任務(wù)。這種直接將系統(tǒng)性能與人類(lèi)能力進(jìn)行比較的想法是一個(gè)相對(duì)較新的現(xiàn)象,且極具爭(zhēng)議性,圍繞著不斷擴(kuò)展和變化的用于評(píng)估人工智能系統(tǒng)的基準(zhǔn)的爭(zhēng)議也越來(lái)越多?!?/p>
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。