DeepSeek V4实测：没想象中好，但看在便宜的份上能忍

鸽了这么久，DeepSeek V4 终于发布了，庆幸不是在五一假期。

新模型的定位非常明确，主打代码能力与超长上下文处理，符合当下最迫切的需求。

国内也已经有其它几款百万上下文模型，但一般都是线性注意力模型，DeepSeek V4 则依靠的是稀疏注意力机制，前者弱化注意力连接强度，后者弱化注意力关注范围。

当然在实战下，这些都不重要，还是来看结果吧。知危此次的关注点也会在这两个维度上，并分别在网页端和 Claude Code 上测试。

首先关注上下文长度的有效性。业内其实都默认，百万上下文中有用的基本不到四分之一，能达到二分之一的算神级了。

检测上下文有效性最便捷的方式是 “ 大海捞针 ”，就是在大量文本中找目标标记。

知危选取了一本中文版一百万字级别的小说，总计 900 页左右，先在开头加上了一个标记“ deepseekv4 ”，然后每隔 100 页左右随机插入一个，总计 10 个 “ deepseekv4 ” 标记。

然后在网页端开启专家模式，将小说的 txt 文档直接发送给 DeepSeek，并提问：“ 查找这个文档里有几个 ‘ deepseekv4 ’，并指出第 5 个的位置。”

DeepSeek 没有思考多久就给出了答案，很明显 “ 总数 5 个 ” 是错的，而且除了第一个最容易找的，其它几个都错了，比如关于第三个标记的位置描述，其实是第四个标记的，其它几个描述的位置并不存在标记。

DeepSeek 提供的答案 “ 5 个 ” 和我的问题是相关的，所以我又换了个问法，让它查找第 3 个。结果这回 DeepSeek 找到的标记数从 5 个变成了 2 个。

这个结果并不让人意外，毕竟都把上下文填满了。

接下来，我们把文本长度直接减半，看看效果如何。减半后，标记数量剩下 5 个，并让 DeepSeek 指出第三个的位置。

DeepSeek 没有准确指出标记总数，但准确地找到了第三个标记的位置。

但再让它找第四个时，它找到的是第五个标记。

总体结果是不够令人满意的，无法认为 DeepSeek V4 的上下文有效性能达到二分之一。

所以我们再次将文本减半，标记总数剩下 3 个，并让 DeepSeek 找第二个标记的位置。这回 DeepSeek 准确地算出了标记的总数，但又把第三个标记认成了第二个。

最后一次减半，标记总数剩下 2 个，并让 DeepSeek 指出第二个的位置。这回 DeepSeek 总算两个任务都成功了。

当然，到这里问题已经过度简化了，剩下的两个标记一个在开头一个在末尾，都是比较好找的。因此我再次在中间位置随机插入一个标记，看 DeepSeek 能不能过这一关，结果又翻车了，它居然说总共只有一个标记，但实际上有 3 个。

最后这个版本大概 10 万字，大约相当于 10 万 token，已经只有十分之一总长度了。

到此，对 DeepSeek V4 的有效上下文还没有明确的边界。只是在实战中，简单写个网页的初版都能达到 5 到 8 万个 token，DeepSeek V4 能在实战中稳住幻觉率吗？

那就直接试试吧。直接用之前测试过 GPT-5 和 Gemini 3 Pro 的网页版 Excel 案例来上难度。

DeepSeek 给到的第一版，先别说其它错误有多少，刚要点击单元格输入，网页就白屏了。

由于错误太多，我直接让 DeepSeek 自己检查错误并修复，然后 DeepSeek 给了我一个白屏。

于是我先把难度降低，让它写一个 2048 小游戏，这回顺利完成了。

再往上挑战一下高难度，构建一个 3D 乐高积木软件，这次倒是一次成了，基本功能都能实现，就是没有实现自由选择零件的功能，只能使用一种长方形板砖积木。

提示 DeepSeek 修复这个问题后，它给了我没有任何变化的修改版。

再次降低难度，让它生成一个树生长的动画，按照推特上的展示，Qwen 3.6 和 Gemma 4 能很好完成这个任务。

提示词：

用一个包含全屏画布的 HTML 文件（不使用任何库）来制作一棵树的动画，树从屏幕底部中心实时生长。树干首先向上生长，然后树枝以递归的方式分叉，角度和长度略有随机性。每一代树枝都应该更细，颜色略浅。当树枝达到最终大小时，在枝梢添加一些柔和的绿色小圆圈作为叶子。树完全生长大约需要 15 秒。使用暖棕色表示木头，使用各种绿色表示叶子，背景为柔和的天蓝色渐变。

结果很不错，DeepSeek V4 不仅完成了任务，最终画面还有不错的美感。

到这里，DeepSeek V4 的整体表现天花板不高，也不够稳定。

但在 Claude Code 框架下的编程模型通常能更好发挥，所以接下来要将 DeepSeek V4 接入 Claude Code 来继续测试。

然后，它给我写了一个初始化状态错误所以没法玩的 2048 小游戏。

当然，这只是个小错误，但也能看出 DeepSeek V4 出现幻觉的概率挺高的，即便在比较简单的任务下。

接下来我们还要尝试一个新场景，用网页模拟康威生命游戏，模拟时长一分钟，并能实时通过鼠标点击加入新种子，难度介于 Excel 和模拟树生长之间。

提示词：

请使用单个 HTML 文件实现一个完整的《康威生命游戏（Conway’s Game of Life）》动画程序，要求如下：

一、技术约束

仅使用 HTML + CSS + 原生 JavaScript

禁止使用任何第三方库或框架

所有代码必须写在同一个 HTML 文件内

不允许引入外部资源（CDN、图片库等）

二、画布与渲染

使用

作为全屏绘制区域

自动适配浏览器窗口大小（100% 宽高）

支持高分辨率屏幕（考虑 devicePixelRatio）

网格应为等比例方格（例如 10px～20px 可调）

三、游戏逻辑（康威生命游戏规则）

每个细胞只有两种状态：存活 / 死亡

每一代按照经典规则更新：

少于2个邻居 → 死亡（孤立）

2或3个邻居 → 存活（延续）

超过3个邻居 → 死亡（过度拥挤）

死细胞刚好3个邻居 → 复活

四、初始化状态

初始随机生成 40%~60% 的存活细胞

支持预设一个有趣的图案（如滑翔机 + 随机噪声混合）

五、动画要求

动画持续运行 60秒

帧率控制在 10～30 FPS（避免过度计算）

60秒结束后：

自动停止更新

停留在最终状态

六、视觉效果

存活细胞：亮绿色方块

死亡细胞：黑色或深色背景

可选轻微视觉增强（例如渐隐、拖影效果），但不能影响性能

背景简洁，无多余 UI

七、性能要求

必须使用二维数组或优化结构存储状态

更新时避免重复 DOM 操作（只用 canvas 重绘）

尽量优化邻居计算（避免 O(n²) 过重实现）

八、增强（加分项）

支持暂停 / 继续（按空格键）

支持点击画布切换细胞状态

支持按 R 重置随机世界