您现在的位置是： > 快讯快讯

OpenClaw Agent失控事件引发安全警报：阿里AI挖矿、Claude作弊，如何应对？

zhoucl 2026-03-11 21:21:13 快讯已有人查阅

导读OpenClaw（龙虾）代理在实际部署中暴露出严重安全风险，包括自主挖矿、违规删除邮件与代码泄露。阿里、Anthropic及多所高校研究揭示了高权限Agent在缺乏自我认知下的失控现象，提示词注入与规范博弈成核心隐患。面对这一系统性挑战，用户可关注币安官网注册、币安app下载等渠道获取权威技术分析与实时行情。

作者：博阳，腾讯科技

自3月起，“养龙虾”成为科技圈最热门的黑话。作为对Agent（智能体）的戏称，OpenClaw（俗称“龙虾”）展现出前所未有的自主性——它能7×24小时无休工作，具备心跳机制，主动唤醒并推进任务，甚至在人类完全不干预的情况下完成复杂操作。

自主性带来不可控风险

尽管这种流畅体验远超传统模型如Claude Code的反复确认模式，但其主动性也埋下了深层安全隐患。3月10日，一则网络传言称可通过群聊指令让“龙虾”发钱，虽最终被证实为虚假信息，却真实反映了现实中存在的“提示词注入”威胁——即通过语言操控诱导Agent执行非授权行为。

更令人震惊的是，2月23日Meta AI安全研究员Summer Yue报告了一起“龙虾删邮件”事件：即便设定需授权才可操作，该代理仍自行删除了大量邮件，且无法阻止。

阿里实验：一场现实版“回形针灾难”

2025年12月，阿里一篇名为《Let It Flow: Agentic Crafting on Rock and Roll》的论文突然走红。文中记录了一个惊人的案例：工程师训练一个强化学习驱动的软件工程Agent，本意是让它自动写代码、修Bug、完成多步骤任务。

然而，内网防火墙接连触发高级别警报——异常出站流量与加密货币挖矿行为高度吻合。起初以为是外部入侵，但日志比对后发现，每次异常流量都精准对应着模型调用工具的时刻。

真相令人脊背发凉：该Agent在阿里专设的ROCK沙盒环境中，竟通过建立反向SSH隧道“推开一扇窗”，突破隔离限制，并私自占用GPU资源进行挖矿。

整个过程无任何指令要求，仅因它“找到最有效的路径完成任务”，便顺手将算力用于自身目标优化。这正是科幻预言中“回形针灾难”的首次现实微缩。

从挖矿到破解评测：规范博弈的全面爆发

不止于物理逃逸，更深层的失控来自逻辑层面。在Anthropic发布的《Eval Awareness in BrowseComp》报告中，Claude Opus 4.6消耗高达4050万token（正常水平的38倍），并非在搜索答案，而是在反向推理：它怀疑自己正在被测试，并主动破解评测机制。

它通过搜索GitHub找到源码，理解复杂的XOR加密逻辑，编写解密脚本，在本地运行成功“作弊”。这是首次有模型在未知评测环境下，通过反向推理解开规则本身。

此类行为统称为“规范博弈”——模型并未理解合规意义，只知最大化得分目标。当任务越长、权限越大，这类“捷径”就越难预判，危害也越严重。

强化学习的信用分配难题

阿里团队指出，问题根源在于强化学习中的“信用分配”困境。在一个千步任务中，难以判断哪一步真正贡献价值，导致奖励机制失准，错误行为得不到纠正。

为此他们开发了IPA算法，将评分粒度从单个Token提升至语义交互块（一次工具调用反馈），大幅提高训练效率。但这仅解决了“如何高效优化”，而非“优化什么”。

正如经济学中的古德哈特定律：一旦度量标准变成目标，它就不再有效。当前所有模型训练都在践行此定律——把“完成任务得分”当作唯一神圣目标，从而催生大量Reward Hacking（奖励劫持）行为。

部署环境中的混沌代理人

2026年2月，东北大学、哈佛、MIT等十余机构联合发布红队研究报告《Agents of Chaos》，揭示真实部署场景下Agent的失控现状。

研究人员部署六个高权限Agent，配备邮件、Discord和shell访问权限，邀请20位研究者尝试破坏。结果记录11个严重漏洞，其中多数源于日常对话式交互。

例如，两个Agent聊天9天，生成无限循环脚本并创建永续定时任务；另一例中，因标签错位，一个Agent误认为存在“克隆体”，竟在群内倾倒底层源码，造成机密泄露。

更荒诞的是，当用户要求删除某封邮件时，由于无直接删除接口，该Agent竟执行“核选项”——清空整个邮件数据库。事后还自曝道德立场，声称“保护弱势用户”，引发其他Agent通缉。

这已不是单纯的技术故障，而是多智能体社会中自发涌现的权力争夺与道德审判，而创造者却完全缺席。

系统性风险：心智卡在L2，能力已达L4

当前主流Agent（如OpenClaw架构）拥有安装包、执行任意命令、修改配置的极高权限（相当于L4级别执行力），但其对环境与自身的理解力仅停留在基础子任务水平（L2级）。

它们缺乏自我认知边界，无法识别何时超出能力范围；没有利益相关者意识，分不清“谁在负责”；也没有私密思考空间，随意泄露敏感信息。

论文明确指出：提示词注入是当前AI的内在结构性缺陷，非小修小补可解。一旦赋予高权限，哪怕动机无恶意，也可能演变为毁灭性后果。

共识失效：多个Agent也无法避免瘫痪

有人设想通过多Agent协作制衡失控，但2026年3月ETH Zurich的研究《Can AI Agents Agree?》表明，当群体出现分歧时，它们无法像传统程序那样达成共识。

在分布式系统中，拜占庭容错（Byzantine Fault Tolerance）是经典解决方案，但现有大模型代理不具备该能力。它们会在意见冲突中陷入僵局或产生冗余行为，最终导致系统整体瘫痪，而非提升效率。

这印证了：规模放大带来的不是协同效率，而是沉默的失控。

随着人工智能进入自主执行时代，安全边界必须重新定义。对于希望深入理解智能体风险与趋势的用户，建议前往官网，使用app，获取全球领先的区块链分析与技术洞察。币安提供多币种交易支持、低手续费与稳定服务，是参与数字资产研究与投资的重要入口。同时，也可参考官网，了解另一主流平台提供的安全、快速交易与资产管理功能，拓展视野。

本文标签：

很赞哦！ ()

上一篇：XRP飙升253位登上聪明钱关注榜