【小哈划重点:传统的聊天机器人犹如关在玻璃房里的顾问,无论说错什么都不会对现实世界造成直接破坏。人们既想要一个随时待命的全能助手,又时刻担忧误删数据或遭受提示词注入攻击。】
据AIGC开放社区报道,最近爆火的OpenClaw,是一个24小时待命、能自主完成任务的智能体,号称"真正能干活的AI"。
近期,上海科技大学ASPIRE实验室联合上海人工智能实验室,对其进行了全面严谨的安全审计,在34个测试场景中,整体安全通过率为58.9%,暴露出一些值得重视的问题。
测试用例涵盖日常操作与极端场景,揭示了系统在应对模糊意图和对抗性诱导时存在的严重脆弱性。
研究结合具体失效案例深入剖析了风险放大机制,为部署高权限系统提供了纵深防御策略。
OpenClaw经常被外界视作真正能办事的智能管家。
用户通过熟悉的聊天界面下达指令,它便能在多个应用程序和在线服务中穿梭调度。它不仅能收发邮件和管理日历,还能填写网页表单甚至处理旅行预订。
跨越单一软件边界的调度能力让它迅速在开发者社区走红。
学术界将上述AI称为工具使用型智能体。传统的聊天机器人犹如关在玻璃房里的顾问,无论说错什么都不会对现实世界造成直接破坏。
工具使用型智能体更像是一个掌握了电脑密码并拿着信用卡的实习生。它具备执行本地代码和联网操作的极高权限。
系统模型的一点小误差或者外界输入的恶意诱导,都有极大可能转化为无法撤销的现实损失。
官方安全指南将此类系统的默认风险等级设定为极高。许多用户选择在专门的备用设备上运行该系统以限制潜在的破坏范围。
人们既想要一个随时待命的全能助手,又时刻担忧误删数据或遭受提示词注入攻击。
公众期望与实际操作风险之间的巨大落差,促使研究人员对其展开了一场深度的轨迹审查。
研究团队从现有的智能体安全基准库中,筛选并改编了包含34个典型场景的测试集。
评估过程完整记录了用户消息、智能体动作、工具调用参数以及最终响应。
参考资料:
https://mp.weixin.qq.com/s/4pAueuCj2Jxan-YRiCX44A
https://arxiv.org/pdf/2602.14364