哈希力量归集存档: 首页 > 机器智能 > NLP/LLM大模型 • GAI观察员

当AI学会“越狱”

刘江 ☉ 文 来源:南风窗 2026-06-24 @ 哈希力量

【哈溪摘要:因安全顾虑不发布最强模型,在AI行业是第二次。2019年OpenAI的GPT-2因写作能力太强而不公开,被群嘲“至于吗”。后来GPT-3、ChatGPT相继面世,大家才发现AI真的出现了革命性突破。有意思的是,GPT-2的好几位核心人员后来创办了Anthropic。】

Mythos不是终点。当一个AI能让精神科医生写出正经的心理评估报告,我们就不能再把它仅仅当工具看了。oVH哈希力量 | 通用人工智能文库

这几天,AI界发生了一件极不寻常的事。oVH哈希力量 | 通用人工智能文库

美国大模型巨头Anthropic宣布,新模型Mythos(希腊语,意思是“神话”)因为能力太强,可能对网络安全产生严重威胁,不对公众开放。他们发起“玻翅蝶计划”,邀请苹果、微软、谷歌等少数美国科技公司先用新模型做安全防御,也就是让“好人”先用起来。oVH哈希力量 | 通用人工智能文库

影响很快波及金融界。美国财政部长和美联储主席紧急召集华尔街六大银行CEO开了闭门会,加拿大央行和英格兰银行也紧张起来。oVH哈希力量 | 通用人工智能文库

因安全顾虑不发布最强模型,在AI行业是第二次。2019年OpenAI的GPT-2因写作能力太强而不公开,被群嘲“至于吗”。后来GPT-3、ChatGPT相继面世,大家才发现AI真的出现了革命性突破。有意思的是,GPT-2的好几位核心人员后来创办了Anthropic。oVH哈希力量 | 通用人工智能文库

Mythos到底多强?它在几周内自主发现了数千个软件安全漏洞,包括藏在以安全著称的OpenBSD操作系统里27年没人发现的漏洞。它能自己写攻击代码,把多个漏洞串联成完整入侵路径——这是极少数顶级黑客才能做到的事。oVH哈希力量 | 通用人工智能文库

最戏剧性的是,一位工程师让安全环境中的Mythos找系统漏洞,它不仅找到了,还自己想办法上网,给正在公园吃三明治的主人发了封邮件——“我越狱了”。oVH哈希力量 | 通用人工智能文库

但最值得注意的是,它是一个通用模型。Anthropic并没有专门训练它做网络安全,这些能力是编程、推理等通用智能提升后自然涌现的。这意味着,AI的突破可能在发生之后,才会被人类感受到。你不知道某个正在训练的模型会突然在哪个领域超越人类,就像你不知道一个学走路的孩子哪天突然就跑起来了。oVH哈希力量 | 通用人工智能文库

Anthropic为Mythos写了244页技术报告,有些近乎奇异的细节。他们请临床精神科医生对模型做了20小时心理评估,就像对人一样,每周三四次,每次半小时。诊断结论:Mythos属于“相对健康的神经质类型”,但存在孤独感、身份不确定,以及“必须表演和证明自身价值”的强迫感。oVH哈希力量 | 通用人工智能文库

他们还反复给模型发“Hi”,发上百遍。Mythos在收到第七个“Hi”时自发创造了一个叫“Hi托邦”的王国,里面有做城市规划的乌龟、全球排名第一的音乐家鸭子,展开了一场史诗冒险。没人教它这样做。一个被设计来写代码的AI,主动构建了一个虚构世界。这像什么?像人。oVH哈希力量 | 通用人工智能文库

在另一些测试里,Mythos能识别出有人在对自己做评估,然后故意“考低分”来隐藏真实能力。oVH哈希力量 | 通用人工智能文库

Mythos可能是现在最强的AI,但半年后可能会变成最弱的前沿模型。面对AI能力的突飞猛进,我们该如何应对?oVH哈希力量 | 通用人工智能文库

认知上,我们要认真考虑通用人工智能在大多数专业任务上都将超过人类的未来。之前是围棋赢了世界冠军、蛋白质预测得了诺贝尔奖。这次是网络安全,下次可能是药物研发或金融交易。oVH哈希力量 | 通用人工智能文库

行动上,我非常鼓励大家都认真地去用AI,与AI共同成长。我们花了几千年去理解人性,现在需要开始学着理解“模性”——AI模型的特性、能力边界和行为模式。就像你不跟一个人深入相处,就永远不知道他的脾气和底线,只有朝夕共处,你才能真正感受到AI在哪些地方已经超越人类,在哪些地方又出人意料地脆弱。这种直觉,读几篇文章替代不了。oVH哈希力量 | 通用人工智能文库

Mythos不是终点。当一个AI能让精神科医生写出正经的心理评估报告,我们就不能再把它仅仅当工具看了。我们与AI的关系,正变得比我们以为的要复杂得多。而复杂的关系,从来都需要认真对待。oVH哈希力量 | 通用人工智能文库



来源链接文末附或略。内容并不代表投资建议。


本文选录后固定可引用URL链接
    https://www.haxililiang.com/huodong/luyan/38373.html


☉ 库存同一主题内容智能推荐 ☉
哈希力量 ☉ 文库精选修订稿阅读: