把 Stable Diffusion 接入機(jī)器人會(huì)怎樣?
告訴它你想讓它畫什么,然后一筆一筆畫出來。
只見它一邊與旁邊的人類工程師談笑風(fēng)生,一邊熟練地用馬克筆在白板上畫出一只簡筆的貓。
最后還不忘簽下自己的名字“Ameca”,然后抬起執(zhí)筆的手,用眼神繼續(xù)審視著剛剛完成的作品。
當(dāng) Ameca 詢問人類對它的作品是否滿意的時(shí)候,工程師老哥耿直地回答“這畫的有點(diǎn)簡略了”。
然后高能來了。
Ameca 生氣地嗆了回去:
如果你不喜歡我的畫,你可能只是不懂藝術(shù)。
機(jī)器人 Ameca,來自英國公司 Engineered Arts,之前就以表情逼真到嚇人出名過一次。
現(xiàn)在它 get 到用筆畫畫的新能力,又驚艷了一眾網(wǎng)友。
每一筆畫完后輕輕舉起筆,就像一個(gè)真正的素描藝術(shù)家一樣,這個(gè)小細(xì)節(jié)太酷了。
機(jī)器人怎么用筆畫畫的?
Ameca 具體是怎么學(xué)會(huì)畫畫的,它自己就能解釋明白:
我使用開源的 Stable Diffusion,對生成的圖像做骨架化和向量化,然后再把轉(zhuǎn)化出的軌跡轉(zhuǎn)換成動(dòng)作并執(zhí)行。
就這樣,Ameca 的身體動(dòng)作和面部表情由 Engineered Arts 自研技術(shù)驅(qū)動(dòng),語言能力來自 GPT-3(沒錯(cuò),不是 3.5),再加上 Stable Diffusion,組成了一位機(jī)器人畫家。
有網(wǎng)友表示,這樣的能力在教育中很有用,對于學(xué)生來說,用機(jī)器人比盯著電腦屏幕看有意思多了。
Engineered Arts 自研技術(shù)包括機(jī)器人操作系統(tǒng) Tritium 和機(jī)器人生產(chǎn)平臺(tái) Mesmer。
首先用 36 臺(tái)攝像機(jī)無死角捕捉海量真人面部數(shù)據(jù),包括骨骼結(jié)構(gòu),皮膚紋理和表情等。
對這些數(shù)據(jù)做 3D 建模,并 3D 打印出機(jī)器人的硅膠皮膚。
Tritium 操作系統(tǒng)連接了硬件、軟件和云端,可以驅(qū)動(dòng)機(jī)器人的每一個(gè)組件,除了面部,還會(huì)牽動(dòng)頭頸、肢體的不同“肌肉”。
最終實(shí)現(xiàn)更逼真的表情。
再加上語言模型 GPT-3 和語音技術(shù),Ameca 已經(jīng)初步具備了與人類互動(dòng)的能力。
這次除了畫畫以外,Engineered Arts 還公布了另一條人類與 Ameca 討論音樂的視頻,或許暗示這是下一個(gè)挑戰(zhàn)方向。
Ameca 說自己喜歡爵士古典和電子樂,人類給他出的難題“如果要把這三種風(fēng)格融合在一起寫一首歌,第一句歌詞是什么?!?/p>
Ameca 略加思索就給出了回答。
另外 Ameca 還在搞一場與網(wǎng)友互動(dòng)的活動(dòng)。
如果你有什么問題想問它,可以去原視頻評論區(qū)留言,下一條視頻可能就是 Ameca 回答你的問題了。
參考鏈接:
[1]https://www.youtube.com/watch?v=_1OA_9_wW70
[2]https://www.youtube.com/watch?v=L32BRcvnWRU
[3]https://www.engineeredarts.co.uk/mesmer-creation/
本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:夢晨
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。