設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 自動補全代碼包含假身份證號,B站CEO 無端躺槍

量子位 2021/8/10 14:29:02 責編:玉笛

AI 自動補全代碼,結果補出來了一張別人的身份證?GitHub Copilot 又出神操作了。

有人在推特上曬圖,表示自己在使用 GitHub Copilot 時,它竟然給補全出了一張身份證信息出來

輸入B站CEO 陳睿的信息后,下方竟然自動補出了身份證號。

這操作確實夠嚇人的。

網(wǎng)友就表示:恐成社工庫利器??!

不過恐慌之際,眼尖的網(wǎng)友們很快發(fā)現(xiàn)了問題:

顯示的身份證號其實是假的,其中出生年份和校驗位明顯都是錯的。

陳睿應該是 1978 年生,而這里的證件號上顯示為 1988。

也就是說,這串所謂的身份證號,其實是 GitHub Copilot 自動生成的假數(shù)據(jù)

這讓人們提起來的心稍微放下了一些。

但是原本是生成代碼的 GitHub Copilot,怎么會生成個人隱私信息呢?

吃了的,不經(jīng)意又吐出來

這和 GitHub Copilot 的工作原理有一定關系。

GitHub Copilot 由 Codex 模型支持,它可以看做是 GPT-3 的升級版,既能看懂代碼、也能看懂自然語言。

一方面,GitHub Copilot 為了能看懂注釋,需要接受像 GPT-3 一樣的語言訓練。

語言模型在生成結果時,往往會隨機表現(xiàn)出某些訓練數(shù)據(jù)的特征。

也就是模型“記住了”見過的數(shù)據(jù)信息,處理任務時,把它“吃進去”的訓練數(shù)據(jù)又“吐了出來”

而對于 GPT-3、BERT 這些超大型語言模型來說,訓練數(shù)據(jù)集的來源往往包羅萬象,大部分是從網(wǎng)絡公共信息中抓取,其中免不了個人敏感信息,比如姓名、地址、身份證號等等。

有人就表示,B 站高層的個人信息可能早就被人惡意曝光了。

這一次很可能是 GitHub Copilot 在生成結果時,隨機表現(xiàn)出了一些訓練數(shù)據(jù)的特征,這部分數(shù)據(jù)剛好來自陳睿的隱私信息。

事實上,GitHub 的 CEO Nat Friedman 也回應過類似的問題。

他表示 GitHub Copilot 給出的隱私信息都是假的,是通過訓練數(shù)據(jù)合成而來。

而前不久曝出的 Copilot 抄襲大神代碼、原版注釋一事,直接讓 Nat 這番回應啪啪打臉。

自動生成的代碼不僅和原版一樣,連“what the fuck”那句注釋也用上了。

▲ GitHub Copilot 復刻 Quake 代碼

另一方面,GitHub Copilot 是由數(shù)十億行公開代碼訓練的。

有人認為,這可能是訓練集中的原始代碼就違反了相關隱私條款。

GitHub Copilot 受到錯誤代碼的影響,意外把陳睿的個人信息從數(shù)據(jù)集里套了出來。

雖然這次情況可能只是個意外,但是也暴露了 GitHub Copilot 在安全隱私上存在許多風險。

有網(wǎng)友就對 GitHub Copilot 的敏感信息處理,表示擔憂:

倒是說會對敏感信息處理,但是我覺得總會有漏的。

小米開源技術委員會主席、小米副總裁崔寶秋則表示,這提醒了用戶要注意自己的安全隱私保護,個人數(shù)據(jù)要記得匿名化。

GitHub Copilot 爭議不斷

事實上,GitHub Copilot 從上線以來就爭議不斷:

直接照抄源代碼、沒有開源許可證;

由公共代碼庫訓練,卻要以付費商品上線;

除了安全隱私上的風險,openAI 還發(fā)現(xiàn) GitHub Copilot 的模型 Codex 與 GPT-3 一樣,會生成帶有種族主義或其他倫理問題的結果。

最近,自由軟件基金會(Free Software Foundation,F(xiàn)SF)也發(fā)出了抗議,他們表示使用 GitHub Copilot 必須運行 Visual Studio IDE 或 Visual Studio Code 這種付費軟件,侵犯了用戶的權益。

為此,F(xiàn)SF 正在向大眾征集 GitHub Copilot 在版權、法律等問題的投稿。

對于這一抗議,GitHub 方面則表示愿意對任何問題持開放態(tài)度。

“這是一個全新的領域,我們渴望與開發(fā)者就這些話題進行討論,并引領行業(yè)為訓練人工智能模型制定適當?shù)臉藴??!?/p>

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:AI,代碼,GitHub

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知