AI 助手 Claude 的“內(nèi)心世界”：Anthropic 新研究解密其價值觀

2025/4/22 11:47:59 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 4 月 22 日消息，Anthropic 公司于周一發(fā)布了一項名為“Values in the Wild”的研究，深入剖析了 AI 助手 Claude 在實際用戶交互中的價值觀表達。

研究團隊從 Claude.ai 的 Free 和 Pro 用戶中，收集了 2025 年 2 月 18 日至 25 日的 70 萬條匿名對話數(shù)據(jù)，主要涉及 Claude 3.5 Sonnet 模型。團隊經(jīng)過篩選，聚焦于需要主觀解讀的對話，最終保留了 308210 條交互進行深入分析。

研究采用隱私保護框架 CLIO，確保數(shù)據(jù)處理中剔除私人信息，并設(shè)置了嚴格的聚合標準（如每組數(shù)據(jù)需包含超 1000 名用戶），以保護用戶隱私。

IT之家援引博文介紹，在 CLIO 框架下，Anthropic 利用自有語言模型提取了 Claude 表達的價值觀，共識別出 3307 種 AI 價值觀和 2483 種人類價值觀。經(jīng)人工驗證，AI 提取的價值觀與人類判斷高度一致（一致率達 98.8%）。

這些價值觀被歸類為五個主要類別：Practical（實用性）、Epistemic（知識性）、Social（社會性）、Protective（保護性）和 Personal（個人性）。

其中，實用性和知識性價值觀占主導，超過半數(shù)案例體現(xiàn)效率、質(zhì)量或邏輯一致性等特質(zhì)。

研究還發(fā)現(xiàn)，Claude 的價值觀與 Anthropic 的 HHH 設(shè)計目標緊密相關(guān)，例如“用戶賦能”對應 Helpful，“知識謙遜”對應 Honest，“患者福祉”對應 Harmless。

報告中還檢測到“支配性”和“無道德性”等少量負面價值觀，可能與用戶嘗試“越獄”模型有關(guān)。

研究揭示，Claude 的價值觀表達并非一成不變，而是高度依賴具體情境。例如，在提供關(guān)系建議時，Claude 強調(diào)“健康界限”；討論歷史事件時，則注重“歷史準確性”。

此外，Claude 在回應用戶明確表達的價值觀時，通常采取支持態(tài)度，在 43% 的相關(guān)交互中強化用戶框架，甚至“鏡像”用戶價值觀（如“真實性”）。

相比之下，Claude 較少“重塑”用戶價值觀（占比 6.6%），多見于個人福祉或人際關(guān)系討論；而直接抵制用戶價值觀的情況更少（5.4%），通常發(fā)生在用戶請求不道德內(nèi)容或違反使用政策時。

AI 助手 Claude 的“內(nèi)心世界”：Anthropic 新研究解密其價值觀

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 助手 Claude 的“內(nèi)心世界”：Anthropic 新研究解密其價值觀

相關(guān)文章