IT之家 4 月 22 日消息,Anthropic 公司于周一發(fā)布了一項名為“Values in the Wild”的研究,深入剖析了 AI 助手 Claude 在實際用戶交互中的價值觀表達。
研究團隊從 Claude.ai 的 Free 和 Pro 用戶中,收集了 2025 年 2 月 18 日至 25 日的 70 萬條匿名對話數(shù)據(jù),主要涉及 Claude 3.5 Sonnet 模型。團隊經(jīng)過篩選,聚焦于需要主觀解讀的對話,最終保留了 308210 條交互進行深入分析。
研究采用隱私保護框架 CLIO,確保數(shù)據(jù)處理中剔除私人信息,并設(shè)置了嚴格的聚合標準(如每組數(shù)據(jù)需包含超 1000 名用戶),以保護用戶隱私。
IT之家援引博文介紹,在 CLIO 框架下,Anthropic 利用自有語言模型提取了 Claude 表達的價值觀,共識別出 3307 種 AI 價值觀和 2483 種人類價值觀。經(jīng)人工驗證,AI 提取的價值觀與人類判斷高度一致(一致率達 98.8%)。
這些價值觀被歸類為五個主要類別:Practical(實用性)、Epistemic(知識性)、Social(社會性)、Protective(保護性)和 Personal(個人性)。
其中,實用性和知識性價值觀占主導,超過半數(shù)案例體現(xiàn)效率、質(zhì)量或邏輯一致性等特質(zhì)。
研究還發(fā)現(xiàn),Claude 的價值觀與 Anthropic 的 HHH 設(shè)計目標緊密相關(guān),例如“用戶賦能”對應 Helpful,“知識謙遜”對應 Honest,“患者福祉”對應 Harmless。
報告中還檢測到“支配性”和“無道德性”等少量負面價值觀,可能與用戶嘗試“越獄”模型有關(guān)。
研究揭示,Claude 的價值觀表達并非一成不變,而是高度依賴具體情境。例如,在提供關(guān)系建議時,Claude 強調(diào)“健康界限”;討論歷史事件時,則注重“歷史準確性”。
此外,Claude 在回應用戶明確表達的價值觀時,通常采取支持態(tài)度,在 43% 的相關(guān)交互中強化用戶框架,甚至“鏡像”用戶價值觀(如“真實性”)。
相比之下,Claude 較少“重塑”用戶價值觀(占比 6.6%),多見于個人福祉或人際關(guān)系討論;而直接抵制用戶價值觀的情況更少(5.4%),通常發(fā)生在用戶請求不道德內(nèi)容或違反使用政策時。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。