最强开源模型 DeepSeek V4 发布，1M上下文，运行成本大降

DeepSeek V4 终于发布了，带来了 1M 上下文，代码能力明显提升，推理进入第一梯队，但知识类能力仍落后于头部闭源模型。

最重要的是：「DeepSeek-V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。从现在开始，1M（一百万）上下文将是 DeepSeek 所有官方服务的标配。」

算力需求比 V3.2 降低 3～10 倍

右侧显示，单 token 计算量（FLOPs）对比：

V4-Pro 比 V3.2 降低 3.7 倍
V4-Flash 比 V3.2 降低 9.8 倍

也就是说，同样的显卡和显存，可以处理更多的请求了（利好大模型提供商）

与同行对比

指标	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro	DeepSeek V4 Pro-Max
MMLU-Pro	87.5	89.1	91.0	87.5
SimpleQA	45.3	46.2	75.6	57.9
GPQA Diamond	93.0	91.3	94.3	90.1
HLE	39.8	40.0	44.4	37.7
LiveCodeBench	–	88.8	91.7	93.5
Codeforces	3168	–	3052	3206
Apex Shortlist	78.1	85.9	89.1	90.2

另外，今天更新了 GPT-5.5，也是同一天啊，ChatGPT 中已经可用。

降价了吗？

降了，也没降：

模型	输入（缓存命中）	输入（未命中）	输出	上下文
V3.2	0.2 元	2 元	3 元	128K
V4 Flash	0.2 元	1 元	2 元	1M
V4 Pro	1 元	12 元	24 元	1M

V4 Flash 降价，V4 Pro 全面涨价。

值不值？

V4 Pro 比 V3.2 贵了这么多，值不值：

类别	指标	V3.2	V4-Pro	提升情况（Pro）
知识	MMLU-Pro	65.5	73.5	↑ +8.0
知识	C-Eval	90.4	93.1	↑ +2.7
知识	MultiLoKo	38.7	51.1	↑↑ +12.4
事实问答	SimpleQA	28.3	55.2	↑↑ +26.9
事实问答	FACTS	27.1	62.6	↑↑ +35.5
推理	BBH	87.6	87.5	≈
推理	HellaSwag	86.4	88.0	↑ +1.6
推理	WinoGrande	78.9	81.5	↑ +2.6
代码	HumanEval	62.8	76.8	↑↑ +14.0
数学	MATH	60.5	64.5	↑ +4.0
数学	GSM8K	91.1	92.6	↑ +1.5
长上下文	LongBench-V2	40.2	51.5	↑↑ +11.3