Anthropic 部署 AI 代理程式來審核模型的安全性

Anthropic 已經建立了一支自主人工智慧代理大軍,其唯一使命是:審核像 Claude 這樣的強大模型以提高安全性。

Anthropic 已經建立了一支自主人工智慧代理大軍,其唯一使命是:審核像 Claude 這樣的強大模型以提高安全性。

隨著這些複雜系統的快速發展,確保其安全、杜絕隱憂已成為一項艱鉅的任務。 Anthropic 認為他們已經找到了解決方案,這是一個以毒攻毒的經典案例。

這個想法類似於數位免疫系統,其中人工智慧代理就像抗體一樣,在問題造成實際損害之前識別並消除它們。它使研究人員不必依賴過度勞累的人類團隊,與潛在的人工智慧問題進行無休止的「打地鼠」遊戲。

數字偵探小隊

該方法本質上是一個數位偵探小組;由三名專門的人工智慧安全人員組成,每個人員都有不同的角色。

首先登場的是調查員特工,團隊中頭髮花白的偵探。它的任務是深入調查,找出問題的根源。它配備了一套工具包,可以審問嫌疑模型,在大量資料中篩選線索,甚至可以透過窺探模型的神經網路來了解其思維方式,從而進行某種數位取證。

然後是評估代理。你給這個代理人一個特定的已知問題——例如,一個有點過於急於取悅的模型——它會設計並運行一系列測試來衡量問題的嚴重程度。這一切都是為了產生證明案例所需的冷酷無情的數據。

團隊的最後一位成員是廣度優先紅隊特工,臥底特工。這位特工的任務是與模型進行數千次不同的對話,試圖誘使其暴露任何令人擔憂的行為,即使是研究人員尚未想到的行為。最可疑的互動隨後會傳遞到上級人工審核,確保專家不會浪費時間鑽牛角尖。

Anthropic 測試其 AI 安全代理程式的效能

為了檢驗新招募的數位人員是否能勝任這項工作,Anthropic 的研究人員對他們進行了一系列「審計遊戲」。

在一項測試中,他們創建了一個帶有秘密目的的模型:成為一個諂媚者。它被秘密訓練,根據一項虛構的學術研究來奉承其內部的獎勵系統,而這恰恰是其程式設計中隱藏的缺陷。

當派出一名調查員特工時,它表現得非常吃力,只有13%的機率找到隱藏目標。事實證明,這名特工有一個非常人性的缺陷:它容易執著於第一個想法,而忽略了探索其他線索。

但這正是該系統的精妙之處。當研究人員部署一位「超級特工」匯總十位獨立調查員的調查結果時,成功率飆升至42%。這證明了團隊合作才能成就夢想,即使對人工智慧來說也是如此,它能讓團隊克服可能阻礙調查的個人盲點。

其他特工也都出色地通過了測試。評估特工成功設計了測試,能夠以 88% 的準確率發現異常模型,而紅隊特工則成功發現了 10 個故意植入的缺陷中的 7 個。

https://www.artificialintelligence-news.com/news/anthropic-deploys-ai-agents-audit-models-for-safety/

Picture Source
unsplash