哈希力量归集文库路径访问：首页 > 通用人工智能 > 学界观察 • 分析短评/AI哲学

南风窗：AI可从飞行安全中学到什么

西尔凡·杜兰顿凡妮莎·利昂 ☉ 文来源：南风窗 2025-04-09 @ 哈希力量

【小哈划重点：AI系统的一个关键漏洞就是提示词注入攻击，即攻击者对一个模型进行操纵，使其泄露敏感数据或改变决策逻辑。最近的银行聊天机器人测试，发现了一个同样令人担忧的风险：权限升级。测试人员冒充系统管理员，批准了未经授权的贷款并修改了后台数据。】

正如航空需要综合性、多层面考虑的安全操作一样，网络安全必须嵌入AI内部从架构到数据管理和人工监督的每一个层级。

西尔凡·杜兰顿（Sylvain Duranton）

凡妮莎·利昂（Vanessa Lyon）

西尔凡·杜兰顿，波士顿咨询公司数字化构建与设计部门BCGX的全球负责人；凡妮莎·利昂，波士顿咨询公司网络和数字风险事务全球负责人。本文已获Project Syndicate授权。

在最近的一次安全测试中，一个旨在协助客户申请贷款的银行生成式AI（人工智能）聊天机器人遭到了操纵，并因此泄露了敏感金融信息。测试人员绕过了安全控制机制，提取了一份包括客户姓名在内的全面贷款审批清单。

这个警示性故事强调了一个根本问题：生成式AI可以彻底改变整个行业，但也可能在缺乏完备安全操作规程的情况下引发灾难性结果。传统的安全模式已不敷使用，生成式AI这类变革性技术需要一种新的、整体性的网络安全操作方式。

在此航空业提供了一个有用的模式。通过实施严格的安全操作规程，搭乘飞机已成为最安全的交通方式之一。AI的潜力谁也无法否认，但其未来取决于各类安全风险的解决。比如波士顿咨询公司最近的一项研究就发现，有3/4的企业高管认为，网络安全问题是扩大AI应用规模的主要障碍。

大型语言模型引入了不确定性行为，催生了网络安全盲点。此外，它们对自然语言输入的依赖、自适应学习以及与其他工具和服务的广泛集成，也使之具备独特的脆弱性。正如航空需要综合性、多层面考虑的安全操作一样，网络安全必须嵌入AI内部从架构到数据管理和人工监督的每一个层级。

AI系统的一个关键漏洞就是提示词注入攻击，即攻击者对一个模型进行操纵，使其泄露敏感数据或改变决策逻辑。最近的银行聊天机器人测试，发现了一个同样令人担忧的风险：权限升级。测试人员冒充系统管理员，批准了未经授权的贷款并修改了后台数据。

医疗保健AI助手也受到了类似攻击。安全研究人员通过巧妙修改查询语句措辞，成功提取了机密的病人诊疗记录。攻击者没有直接询问病史，而是将问题设置成类似于合法的医生查询请求。他们借此暴露了另一个弱点：AI通常优先考虑语言逻辑而非访问控制。

这些漏洞不仅仅局限于银行和医疗保健领域。许多AI应用都会使用代理系统检索实时数据以自主决策，也因此为攻击者创造了可乘之机。例如，对AI驱动的客服聊天机器人进行的安全评估就显示，攻击者能够利用薄弱的应用编程接口验证去操纵大语言模型，借此拿到内部折扣代码和库存详情。

AI的适应性还可以被攻击者借所谓“语境投毒”的手法利用。他们可以随着时间的推移逐渐塑造模型的回应，并将其引向不正确或危险的建议。在一次实验中，一个水疗聊天机器人反复接收到将某些不安全成分谎称为有益成分的输入，最终开始推荐有害的护肤产品。

当AI系统向传统基础设施发出大量自动请求时，它们可能会导致系统故障——这种现象被称为遗留污染。为避免这种状况，企业必须实施对抗性训练，不断让AI模型接触欺骗性输入词以增强其韧性。

自动和手动的实时异常检测，可以在相关回应遭那些操纵性数据影响之前，识别出异常的AI行为。正如飞行控制系统依赖于独立备份一样，生成式AI的安全性也必须建立在分层保障措施的基础上，包括自动异常检测以标记异常活动、冗余访问验证以防止未经授权的系统交互，以及设立实时回滚机制以撤销有害更改。

虽然分析师预测全球AI方面的支出到2028年将超过6310亿美元，但除非从根本上解决网络安全挑战，否则许多这类投资都将难以获得有意义的回报。最重要的是，AI安全必须从某种“附加插件”演变为一项嵌入系统架构、数据管理和人工监督的核心功能。有效的安全框架应该是不断适应变化、具备韧性且能集成到传统系统中的。

收录源追溯链接或暂略

本文收录后固定可引用URL链接

http://www.haxililiang.com/toutiao/redian/37271.html

☉ 文库同一主题内容智能推荐 ☉

哈希力量 ☉ 人机智能科普文库