最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

DeepSeek V4 终于发布了,带来了 1M 上下文,代码能力明显提升,推理进入第一梯队,但知识类能力仍落后于头部闭源模型。

最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降 1

最重要的是:「DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。从现在开始,1M(一百万)上下文将是 DeepSeek 所有官方服务的标配。

算力需求比 V3.2 降低 3~10 倍

最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降 2

右侧显示,单 token 计算量(FLOPs)对比:

  • V4-Pro 比 V3.2 降低 3.7 倍
  • V4-Flash 比 V3.2 降低 9.8 倍

也就是说,同样的显卡和显存,可以处理更多的请求了(利好大模型提供商)

与同行对比

指标GPT-5.4Claude Opus 4.6Gemini 3.1 ProDeepSeek V4 Pro-Max
MMLU-Pro87.589.191.087.5
SimpleQA45.346.275.657.9
GPQA Diamond93.091.394.390.1
HLE39.840.044.437.7
LiveCodeBench88.891.793.5
Codeforces316830523206
Apex Shortlist78.185.989.190.2

另外,今天更新了 GPT-5.5,也是同一天啊,ChatGPT 中已经可用。

降价了吗?

降了,也没降:

模型输入(缓存命中)输入(未命中)输出上下文
V3.20.2 元2 元3 元128K
V4 Flash0.2 元1 元2 元1M
V4 Pro1 元12 元24 元1M

V4 Flash 降价,V4 Pro 全面涨价。

值不值?

V4 Pro 比 V3.2 贵了这么多,值不值:

类别指标V3.2V4-Pro提升情况(Pro)
知识MMLU-Pro65.573.5↑ +8.0
知识C-Eval90.493.1↑ +2.7
知识MultiLoKo38.751.1↑↑ +12.4
事实问答SimpleQA28.355.2↑↑ +26.9
事实问答FACTS27.162.6↑↑ +35.5
推理BBH87.687.5
推理HellaSwag86.488.0↑ +1.6
推理WinoGrande78.981.5↑ +2.6
代码HumanEval62.876.8↑↑ +14.0
数学MATH60.564.5↑ +4.0
数学GSM8K91.192.6↑ +1.5
长上下文LongBench-V240.251.5↑↑ +11.3

现在就能用啦

目前 DeepSeek 官网以及 API 都上线了 V4。


原文:https://www.appinn.com/deepseek-v4/

能自己部署吗?

应该是不能的,Flash 最低也要200GB内存往上了。

写留言

Enable Notifications OK No thanks