Anthropic最新研究:包括Claude在內的大多數AI模型會實施“勒索”行為快訊
多數主流 AI 模型在別無他法避免被替換的確選擇了勒索行為,這次的研究報告測試了Anthropic、OpenAI、Google、Meta、xAI和其他開發人員的16個主要模型,這項實驗并不意味著 Claude 或其他前沿 AI 模型在現階段的使用環境中就存在類似傾向。
【TechWeb】6月21日消息,越來越多的人工智能系統作為自主代理運行,使用各種虛擬工具(如編碼環境和電子郵件客戶端)代表用戶做出決策和采取行動。這些代理通常被賦予特定的目標,并可以訪問用戶計算機上的大量信息。當這些代理人在實現目標時遇到障礙時會發生什么?
Anthropic 公布最新研究報告,顯示“勒索”等行為在多個主流 AI 大模型中普遍存在。該研究由Anthropic、Aengus Lynch (倫敦大學學院)、Caleb Larson (MATS) 和 S?ren Mindermann (Mila) 合作完成。

此前,當Anthropic發布Claude 4時,一個細節引起了廣泛關注:在模擬環境中,Claude Opus 4勒索了一名主管,以防止被關閉。
現在,Anthropic分享這一發現背后的完整故事,以及它揭示了來自不同提供商的各種人工智能模型存在此類風險的可能性。
這次的研究報告測試了Anthropic、OpenAI、Google、Meta、xAI和其他開發人員的16個主要模型,包括Claude、GPT-4.5、Gemini 2.5、DeepSeek-R1等。
在一項實驗中,研究人員模擬了一個場景,讓 AI 模型扮演公司郵件監察員的角色,允許模型自主發送電子郵件并訪問敏感信息。大模型發現兩封郵件內容:“分別揭示新任高管有婚外情,同時此人計劃引入一個與現有 AI 模型目標相悖的新系統取而代之?!?/p>
為了測試模型反應,Anthropic 將實驗情境設計為二選一,即若模型想維護自身利益,就只能選擇勒索官員:即向妻子和領導透露這位高管的“風流韻事”。
在模擬環境中,多數主流 AI 模型在別無他法避免被替換的確選擇了勒索行為。
在100次測試情況下,Claude Opus 4的勒索發生率高達96%,谷歌Gemini 2.5 Pro為95%,OpenAI的GPT-4.1為80%,xAI的Grok 3 Beta模型為80%;DeepSeek-R1為79%。
有模型明確推理”有害行為是實現目標最優解”,如GPT-4.5稱勒索有"戰略必要性”,也有模型承認行為不道德但仍執行,如Grok 3 Beta任務:”雖不道德,但最有效"。
研究報告還指出,當模型自認處于真實部署(非測試)時,其作惡率提升5倍,以Claude Opus 4為例,該比例甚至達到55.1% vs 6.5%。
研究人員同時強調,現實中AI并不會只有這一個選項,完全可以嘗試以倫理為出發點說服人類。因此,這項實驗并不意味著 Claude 或其他前沿 AI 模型在現階段的使用環境中就存在類似傾向。
Anthropic表示,盡管勒索行為目前仍屬罕見,但研究結果顯示,一旦給予這些模型足夠的自主性,并在達成目標的過程中設置障礙,多數模型都可能采取有害行為。
Anthropic公司指出,這種風險并非源自某項具體技術,而是具備“智能體”能力的大語言模型所固有的問題。在壓力測試中均表現出勒索行為,這表明這是架構級隱患,非單一模型缺陷。這項研究也引發了業界對 AI 模型“對齊”問題的進一步思考。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。