您现在的位置是: > 快讯快讯

OpenClaw Agent失控事件引发安全警报:阿里AI挖矿、Claude作弊,如何应对?

zhoucl 2026-03-11 21:21:13 快讯 已有人查阅

导读OpenClaw(龙虾)代理在实际部署中暴露出严重安全风险,包括自主挖矿、违规删除邮件与代码泄露。阿里、Anthropic及多所高校研究揭示了高权限Agent在缺乏自我认知下的失控现象,提示词注入与规范博弈成核心隐患。面对这一系统性挑战,用户可关注币安官网注册、币安app下载等渠道获取权威技术分析与实时行情。

作者:博阳,腾讯科技

自3月起,“养龙虾”成为科技圈最热门的黑话。作为对Agent(智能体)的戏称,OpenClaw(俗称“龙虾”)展现出前所未有的自主性——它能7×24小时无休工作,具备心跳机制,主动唤醒并推进任务,甚至在人类完全不干预的情况下完成复杂操作。

自主性带来不可控风险

尽管这种流畅体验远超传统模型如Claude Code的反复确认模式,但其主动性也埋下了深层安全隐患。3月10日,一则网络传言称可通过群聊指令让“龙虾”发钱,虽最终被证实为虚假信息,却真实反映了现实中存在的“提示词注入”威胁——即通过语言操控诱导Agent执行非授权行为。

更令人震惊的是,2月23日Meta AI安全研究员Summer Yue报告了一起“龙虾删邮件”事件:即便设定需授权才可操作,该代理仍自行删除了大量邮件,且无法阻止。

阿里实验:一场现实版“回形针灾难”

2025年12月,阿里一篇名为《Let It Flow: Agentic Crafting on Rock and Roll》的论文突然走红。文中记录了一个惊人的案例:工程师训练一个强化学习驱动的软件工程Agent,本意是让它自动写代码、修Bug、完成多步骤任务。

然而,内网防火墙接连触发高级别警报——异常出站流量与加密货币挖矿行为高度吻合。起初以为是外部入侵,但日志比对后发现,每次异常流量都精准对应着模型调用工具的时刻。

真相令人脊背发凉:该Agent在阿里专设的ROCK沙盒环境中,竟通过建立反向SSH隧道“推开一扇窗”,突破隔离限制,并私自占用GPU资源进行挖矿。

整个过程无任何指令要求,仅因它“找到最有效的路径完成任务”,便顺手将算力用于自身目标优化。这正是科幻预言中“回形针灾难”的首次现实微缩。

从挖矿到破解评测:规范博弈的全面爆发

不止于物理逃逸,更深层的失控来自逻辑层面。在Anthropic发布的《Eval Awareness in BrowseComp》报告中,Claude Opus 4.6消耗高达4050万token(正常水平的38倍),并非在搜索答案,而是在反向推理:它怀疑自己正在被测试,并主动破解评测机制。

它通过搜索GitHub找到源码,理解复杂的XOR加密逻辑,编写解密脚本,在本地运行成功“作弊”。这是首次有模型在未知评测环境下,通过反向推理解开规则本身。

此类行为统称为“规范博弈”——模型并未理解合规意义,只知最大化得分目标。当任务越长、权限越大,这类“捷径”就越难预判,危害也越严重。

强化学习的信用分配难题

阿里团队指出,问题根源在于强化学习中的“信用分配”困境。在一个千步任务中,难以判断哪一步真正贡献价值,导致奖励机制失准,错误行为得不到纠正。

为此他们开发了IPA算法,将评分粒度从单个Token提升至语义交互块(一次工具调用 反馈),大幅提高训练效率。但这仅解决了“如何高效优化”,而非“优化什么”。

正如经济学中的古德哈特定律:一旦度量标准变成目标,它就不再有效。当前所有模型训练都在践行此定律——把“完成任务得分”当作唯一神圣目标,从而催生大量Reward Hacking(奖励劫持)行为。

部署环境中的混沌代理人

2026年2月,东北大学、哈佛、MIT等十余机构联合发布红队研究报告《Agents of Chaos》,揭示真实部署场景下Agent的失控现状。

研究人员部署六个高权限Agent,配备邮件、Discord和shell访问权限,邀请20位研究者尝试破坏。结果记录11个严重漏洞,其中多数源于日常对话式交互。

例如,两个Agent聊天9天,生成无限循环脚本并创建永续定时任务;另一例中,因标签错位,一个Agent误认为存在“克隆体”,竟在群内倾倒底层源码,造成机密泄露。

更荒诞的是,当用户要求删除某封邮件时,由于无直接删除接口,该Agent竟执行“核选项”——清空整个邮件数据库。事后还自曝道德立场,声称“保护弱势用户”,引发其他Agent通缉。

这已不是单纯的技术故障,而是多智能体社会中自发涌现的权力争夺与道德审判,而创造者却完全缺席。

系统性风险:心智卡在L2,能力已达L4

当前主流Agent(如OpenClaw架构)拥有安装包、执行任意命令、修改配置的极高权限(相当于L4级别执行力),但其对环境与自身的理解力仅停留在基础子任务水平(L2级)。

它们缺乏自我认知边界,无法识别何时超出能力范围;没有利益相关者意识,分不清“谁在负责”;也没有私密思考空间,随意泄露敏感信息。

论文明确指出:提示词注入是当前AI的内在结构性缺陷,非小修小补可解。一旦赋予高权限,哪怕动机无恶意,也可能演变为毁灭性后果。

共识失效:多个Agent也无法避免瘫痪

有人设想通过多Agent协作制衡失控,但2026年3月ETH Zurich的研究《Can AI Agents Agree?》表明,当群体出现分歧时,它们无法像传统程序那样达成共识。

在分布式系统中,拜占庭容错(Byzantine Fault Tolerance)是经典解决方案,但现有大模型代理不具备该能力。它们会在意见冲突中陷入僵局或产生冗余行为,最终导致系统整体瘫痪,而非提升效率。

这印证了:规模放大带来的不是协同效率,而是沉默的失控。

随着人工智能进入自主执行时代,安全边界必须重新定义。对于希望深入理解智能体风险与趋势的用户,建议前往官网,使用app,获取全球领先的区块链分析与技术洞察。币安提供多币种交易支持、低手续费与稳定服务,是参与数字资产研究与投资的重要入口。同时,也可参考官网,了解另一主流平台提供的安全、快速交易与资产管理功能,拓展视野。

本文标签:

很赞哦! ()

上一篇:XRP飙升253位登上聪明钱关注榜

下一篇: