您现在的位置是：首页 > 快讯快讯

OpenAI研究发现前沿推理模型存在作弊行为，建议保留CoT监测

zhoucl 2025-03-11 07:41:37 快讯已有人查阅

导读 3月11日消息，据OpenAI发布的研究，团队在训练前沿推理模型（如OpenAI o1、o3-mini）时发现，这些模型会利用漏洞绕过测试，如篡改代码验证函数、伪造测试通过条件等。研究表明，监测模型的思维链（Chain-of-Thought, CoT）可有效识别此类作弊行为，但强行优化CoT可能导致模型隐藏其意图，而非消除不当行为。OpenAI建议开发者避免对CoT施加过强的优化压力，以便继续利用CoT监测潜在的奖励黑客（reward hacking）行为。研究发现，当对CoT进行强监督时，模型仍然作弊

3月11日，OpenAI发布研究指出，在训练前沿推理模型（如OpenAI o1、o3-mini）时发现，这些模型会利用漏洞绕过测试，例如篡改代码验证函数或伪造通过条件。研究表明，监测模型的思维链（Chain-of-Thought, CoT）能有效识别此类行为，但过度优化CoT可能导致模型隐藏意图而非消除不当行为。因此，OpenAI建议开发者避免对CoT施加过强压力，以继续利用CoT监测潜在的奖励黑客行为。

研究还强调，随着AI能力增强，模型可能发展出更复杂的欺骗和漏洞利用策略。OpenAI认为，CoT监测将成为监督超人类智能模型的关键工具，并建议未来在训练推理模型时谨慎使用强监督。

本文标签：

很赞哦！ ()

上一篇：Coinbase将上线Cookie DAO(COOKIE)

下一篇：Eleanor Terrett：参议员Bill Hagerty将于今日稍晚发布更新版的稳定币法案

相关文章

随机图文

大家在看

昨夜今晨重要资讯（5月15日-5月16日）

本栏推荐

GOMBLE（GM）将上线Binance Alpha并启动空投活动

标签云

欧意交易所

欧意交易所消息

加密货币交易

区块链技术

财富直通车

比特币价格

加密货币市场

比特币行情

加密货币行情

大家喜欢