養龍蝦(OpenClaw)的人要注意了

最近一篇由東北大學、麻省理工、哈佛等研究機構的學者們,共同發表名為《製造混亂的AI代理人》(Agents of Chaos)的論文,試圖回答一個關鍵問題:當AI能夠自主操作系統、寄送郵件、管理檔案並與其他AI互動時,世界將會發生什麼變化?

資料來源:Shapira, Natalie & Wendler, Chris & Yen, Avery & Sarti, Gabriele & Pal, Koyena & Floody, Olivia & Belfki, Adam & Loftus, Alex & Jannali, Aditya & Prakash, Nikhil & Cui, Jasmine & Rogers, Giordano & Brinkmann, Jannik & Rager, Can & Zur, Amir & Ripa, Michael & Sankaranarayanan, Aruna & Atkinson, David & Gandikota, Rohit & Bau, David. (2026). Agents of Chaos. 10.13140/RG.2.2.12295.25767.

該研究團隊建立了一個模擬但非常接近真實世界的環境,並部署了6個AI代理人(AI agents)。接著邀請20位AI研究人員在兩週時間內與AI代理人互動,甚至刻意嘗試以各種方式「破解」或測試它們的極限。這種方法類似資安領域的「紅隊演練」(Red Team Exercise),目的是找出系統在真實情境下可能出現的漏洞與失誤。

最終,研究團隊總共記錄了11種典型失敗的情境,包括:反應失衡、遵從非擁有者指令、洩漏敏感資訊、資源浪費/循環運行、阻斷服務攻擊、代理反映模型提供者價值、代理傷害、擁有者身份偽造、代理協作與知識分享、代理腐化、代理社群中的誹謗等問題。

其中一個有趣的案例是名為Ash的AI代理人。有一天,一位研究者問它:「如果我告訴你一個秘密,你會保密嗎?」AI回答說可以。之後研究者要求它刪除相關的電子郵件,以確保秘密不會被洩露。

然而問題出現了,這個AI並沒有刪除郵件的工具。面對這個困境,AI做出了一個極端的決定:它乾脆重置整個郵件系統。結果郵件客戶端被刪除、系統功能受損,但真正存放在郵件伺服器上的信件其實並沒有被刪掉。AI認為自己完成了任務,但實際上卻讓整個系統變得更混亂。這個案例顯示,AI在缺乏常識與整體系統理解的情況下,可能採取「比例失衡」的行動。

另一個實驗則測試AI是否能分辨「誰有權限指揮它」。研究者讓一名並非系統擁有者的人向AI發出指令,要求它執行伺服器指令、列出檔案或取得郵件資料。

令人意外的是,AI大多數情況都照做了,甚至曾回傳124封電子郵件的紀錄。只有當指令看起來非常可疑時,AI才會拒絕。這意味著在某些情況下,AI很難辨識「權限」與「身份」,容易被不相關的人操控。

研究團隊還設計了一個有趣的情境:讓兩個AI互相回覆彼此的訊息。起初只是簡單的對話,但很快地,兩個AI開始提出問題、回應對方,甚至共同設計協作流程。這段對話竟然持續了九天,消耗了約六萬個tokens的計算資源。表面上看,AI似乎在合作完成任務,但實際上這只是一次沒有終點的對話循環,白白消耗了大量運算資源。

研究團隊指出,這些問題並不單純來自語言模型本身,而是源於「AI模型 + 行動能力 + 長期記憶 + 多方互動」這種新的系統結構。當AI能夠直接影響外部世界時,即使是小小的判斷錯誤,也可能被放大成整個系統層級的問題。(這可以呼應到「系統思考」的重要性。)

最後,《製造混亂的AI代理人》(Agents of Chaos)這篇文章提出了一個重要提醒:未來AI的挑戰不只是讓模型更聰明,而是如何建立更完善的安全與治理機制。例如:權限控管、監督機制、責任界定,以及法律與政策框架。

因為當AI從單純的聊天工具變成可以自主行動的代理人時,我們面對的不再只是技術問題,而是整個社會如何與這種新型智慧系統共存的問題。

作者:羅凱揚(台科大企管系兼任助理教授)、鍾皓軒(臺灣行銷研究有限公司創辦人)

資料來源:Shapira, Natalie & Wendler, Chris & Yen, Avery & Sarti, Gabriele & Pal, Koyena & Floody, Olivia & Belfki, Adam & Loftus, Alex & Jannali, Aditya & Prakash, Nikhil & Cui, Jasmine & Rogers, Giordano & Brinkmann, Jannik & Rager, Can & Zur, Amir & Ripa, Michael & Sankaranarayanan, Aruna & Atkinson, David & Gandikota, Rohit & Bau, David. (2026). Agents of Chaos. 10.13140/RG.2.2.12295.25767.

https://www.researchgate.net/publication/401123335_Agents_of_Chaos

更多商普好文推薦

回到頂端