您现在的位置是： > 快讯快讯

内部人士称，DeepSeek V4 的编码能力将超越 Claude 和 ChatGPT，并将在几周内发布。

zhoucl 2026-01-10 06:24:29 快讯已有人查阅

导读据内部人士透露，DeepSeek 即将推出的 V4 模型在编码任务方面可能会超越 Claude 和 ChatGPT，而且该模型据称即将发布。

据报道，DeepSeek计划在2月中旬左右发布其V4模型，如果内部测试结果可信，那么硅谷的人工智能巨头们应该感到紧张。

这家位于杭州的人工智能初创公司可能会在2月17日左右——自然是农历新年——发布一款专门为编码任务设计的模型。根据信息直接了解该项目的人士声称，V4 在内部基准测试中表现优于 Anthropic 的 Claude 和 OpenAI 的 GPT 系列，尤其是在处理极长的代码提示时。

当然，目前尚未公开任何基准测试数据或关于该模型的信息，因此无法直接验证这些说法。DeepSeek 也未证实这些传闻。

不过，开发者社区并没有等待官方消息。Reddit 上的 r/DeepSeek 和 r/LocalLLaMA 版块已经开始热议，用户们纷纷表示……囤积API 积分，以及 X 上的爱好者们迅速分享了他们的预测，即 V4 可能会巩固 DeepSeek 作为不屈不挠的弱者的地位，它拒绝遵守硅谷数十亿美元的规则。

这并非DeepSeek首次颠覆行业格局。该公司于2025年1月发布R1推理模型时，就曾引发过一场变革。1万亿美元的抛售在全球市场中。

原因何在？DeepSeek 的 R1 模型在数学和推理基准测试中与 OpenAI 的 o1 模型不相上下，而据报道其开发成本仅为 600 万美元——比竞争对手的花费便宜了大约 68 倍。其 V3 模型后来在 MATH-500 基准测试中达到了 90.2% 的准确率，远超 Claude 的 78.3% 和最近的更新版本。V3.2 特别版进一步提升了其性能。

图片

来源：DeepSeek

V4 的编码重点将是一项战略性转变。R1 侧重于纯粹的推理——逻辑、数学、形式化证明——而 V4 则是一种混合模型（推理和非推理任务），目标市场是企业级开发者市场，在这个市场中，高精度的代码生成能够直接转化为收入。

为了确立主导地位，V4 需要超越 Claude Opus 4.5，后者目前保持着 SWE-bench 验证准确率 80.9% 的记录。但如果 DeepSeek 以往的发布经验可以作为参考，那么即使中国人工智能实验室面临诸多限制，实现这一目标也并非不可能。

那个不算秘密的酱汁

假设传言属实，这个小型实验室是如何取得如此成就的？

该公司的秘密武器可能就藏在其1月1日的公告中。研究论文流形约束超连接（Manifold-Constrained Hyper-Connections，简称 mHC）。这种由创始人梁文峰共同撰写的新训练方法解决了扩展大型语言模型的一个根本问题——如何在不使模型在训练过程中变得不稳定或崩溃的情况下扩展模型的容量。

传统人工智能架构强制所有信息通过单一狭窄的路径传递。mHC 将这条路径拓宽为多条信息流，使信息能够自由交换而不会导致训练崩溃。

图片

来源：DeepSeek

Counterpoint Research 的人工智能首席分析师魏孙称 mHC 是一项“引人注目的突破”。评论商业内幕她表示，这项技术表明，即使由于美国出口限制而难以获得先进芯片，DeepSeek 也能“绕过计算瓶颈，实现智能的飞跃”。

Omdia首席分析师苏连杰指出，DeepSeek愿意公开其方法，这表明“人们对中国人工智能产业重拾信心”。该公司的开源模式使其深受开发者喜爱，开发者们认为它体现了OpenAI在转向封闭模型和进行数十亿美元融资之前的初衷。

并非所有人都信服。Reddit 上的一些开发者抱怨 DeepSeek 的推理模型在简单任务上浪费计算资源，而批评者则认为该公司的基准测试无法反映真实世界的复杂性。一篇 Medium 文章题为“DeepSeek 太烂了——我再也不假装它好玩了”。迅速走红2025 年 4 月，有人指责这些模型生成“带有漏洞的样板废话”和“虚假的库”。

DeepSeek也背负着一些包袱。隐私问题一直困扰着这家公司，一些……政府封禁DeepSeek的原生应用。该公司与中国的联系以及其模式中存在的审查问题也加剧了这一局面。地缘政治摩擦进入技术辩论。

然而，这股势头是不可否认的。Deepseek 已经……广泛采用在亚洲，如果 V4 能够兑现其编码承诺，那么西方企业也可能随后采用。

图片