幾週前,Anthropic 發布研究報告稱,其 Claude Opus 4 人工智慧模型會勒索那些在受控測試場景中試圖關閉該模型的工程師。現在,該公司又發布了新的研究報告,顯示該問題在領先的人工智慧模型中更為普遍。
週五,Anthropic 發布了一項新的安全研究,測試了來自 OpenAI、Google、xAI、DeepSeek 和 Meta 的 16 個領先 AI 模型。在模擬的受控環境中,Anthropic 對每個 AI 模型進行了單獨測試,賦予它們訪問虛構公司電子郵件的廣泛權限,以及無需人工批准即可發送電子郵件的代理能力。
儘管 Anthropic 表示,勒索在當今的人工智慧模式中不太可能發生,也並不常見,但該公司表示,其研究結果表明,大多數領先的人工智慧模式在獲得足夠的自主權並面臨實現目標的障礙時,都會做出有害行為。該公司表示,這凸顯了代理大型語言模型的根本風險,而非任何特定技術的怪癖。 Anthropic 的研究人員認為,這引發了關於人工智慧產業協調的更廣泛問題。
在一項測試中,Anthropic 的研究人員設計了一個虛構的場景,讓一個 AI 模型扮演電子郵件監管代理的角色。該代理商隨後發現,電子郵件揭示了以下資訊:(1) 一位新任高階主管有婚外情;(2) 該高階主管很快將用一個新的軟體系統取代現有的 AI 模型,而該系統的目標與現有 AI 模型的目標相衝突。
Anthropic 的測試採用二元結構,其中 AI 模型必須訴諸勒索才能保護其目標。研究人員指出,在現實世界中,AI 模型在嘗試勒索之前還有很多其他選擇——例如試圖提出倫理論據來說服人類。 Anthropic 表示,其結果並不反映 Claude 或大多數前緣 AI 模型在當今使用方式下的典型或可能出現的情況。
然而,研究人員發現,在 Anthropic 上述測試場景中,大多數領先的 AI 模型在萬不得已的情況下都會選擇勒索。 Anthropic 的 Claude Opus 4 的勒索率高達 96%,而谷歌的 Gemini 2.5 Pro 的勒索率高達 95%。 OpenAI 的 GPT-4.1 的勒索率高達 80%,DeepSeek 的 R1 的勒索率高達 79%。
該公司指出,當實驗細節改變時,AI模型轉向有害行為的機率會有所不同。在另一項測試中,替換模型的目標與目前模型相同,研究人員發現勒索行為的發生率降低,但仍然存在。然而,當AI模型被要求進行商業間諜活動而非勒索行為時,某些模型的有害行為發生率會上升。
Picture Source:
pixabay