DeepSeek V4 来袭:万亿参数+华为昇腾,国产大模型
原创 小虾米AGI AGI虾说 2026年4月20日 21:27 北京
4月19日,普林斯顿AI研究员Yifan Zhang在X平台发布了一条只有三个字的隐晦推文——”V4 下周”。这条看似漫不经心的动态,瞬间点燃了整个AI圈。因为所有人都知道:DeepSeek V4,真的要来了。

一、从”拒绝融资”到百亿估值:DeepSeek 的成人礼
2026年4月18日,外媒The Information援引四位知情人士报道:DeepSeek正式启动成立以来的首次外部融资,目标估值不低于100亿美元,计划募集至少3亿美元资金。消息一出,投资圈”炸了”——有投资人甚至订好了周末的机票,只为见梁文锋一面。
要知道,这位幻方量化创始人、DeepSeek掌舵人,曾是AI圈出了名的”技术理想主义者”。
那么,为什么梁文锋在这个时间点选择了妥协?
多位业内人士分析,这次融资背后至少有三重压力:
第一,算力军备竞赛的白热化。 V4采用万亿参数MoE架构,训练与推理对算力的需求呈指数级增长,仅靠幻方量化的内部”输血”已难以为继。
第二,核心人才流失的危机。 2025年下半年以来,DeepSeek已流失至少5名核心研发成员,覆盖基座模型、推理、OCR、多模态等关键技术方向。其中,V3架构的关键开发者罗福莉转投小米,接手MiMo大模型团队;多模态模型核心贡献者阮翀加盟自动驾驶公司元戎启行。一位投过大模型的投资人直言:”这次融资大概率是为了给员工期权定价和兑现,而且做得太晚了。”
第三,商业化与生态化的必然选择。 当智谱、MiniMax纷纷上市、市值飙升至3000-4000亿港元时,DeepSeek的”佛系”更新节奏显得格格不入。融资不仅是钱的问题,更是建立产业联盟、拓展生态边界的战略需要。
二、V4 技术拆解:万亿参数 MoE 的极限工程
如果说融资是DeepSeek的”成人礼”,那么V4本身就是一场工程技术的极限挑战。

### 2.1 架构设计:Mega MoE 的暴力美学
根据目前流出的技术参数,DeepSeek V4的核心架构可以概括为一句话:总参数约1万亿,每次推理仅激活约370亿参数。
这意味着什么?让我们做一个简单的对比:
| 模型 | 总参数量 | 激活参数 | 上下文窗口 | 架构特点 |
|---|---|---|---|---|
| DeepSeek V3 | 671B | 37B | 128K | MoE,2048个专家 |
| **DeepSeek V4** | **~1T** | **~37B** | **1M** | **Mega MoE,原生多模态** |
| GPT-4 (估) | ~1.8T | ~280B | 128K | MoE |
| Claude 3.5 Sonnet | ~175B | ~175B | 200K | Dense |
V4在总参数规模上跃升约50%,但激活参数维持在370亿左右——这意味着推理成本与V3基本持平,却获得了更强的模型容量和表达能力。这种”大力出奇迹”的背后,是对MoE路由算法的深度优化。
### 2.2 从 CUDA 到 CANN:一场底层算子的革命
V4最引人注目的技术转向,是其推理部署将完全建立在华为昇腾950PR处理器之上,底层代码从CUDA框架彻底迁移到华为CANN框架。
据内部测试数据显示,这次迁移涉及200+核心算子的重写与优化,以及十万级测试用例的精度对齐。最终成果令人瞩目:
华为昇腾950PR的核心优势在于其全球首发的FP4低精度推理支持。FP4格式将显存占用降低75%,使得70B模型仅需35GB显存即可运行。对于万亿参数的V4而言,这意味着在同等显存预算下可以部署更大规模的专家集群。
黄仁勋在4月15日的一次播客访谈中被问及此事时,用了”灾难性”(horrible outcome)和”可怕”来形容。他的担忧不无道理:CUDA生态是英伟达花了十七年建立的护城河,全球几乎所有AI开发者都在上面写代码、训练模型、部署应用。DeepSeek作为头部大模型厂商完成昇腾生态的深度适配,意味着中国AI产业正在形成一条不依赖英伟达的完整技术链路。
### 2.3 产品层:快速模式与专家模式的分层设计
在V4正式发布之前,DeepSeek已于4月8日在网页端上线了“快速模式”与”专家模式”的分层服务机制。这是DeepSeek官网首次采用此类设计,也被业内普遍解读为V4功能的前置灰度测试。
这种分层设计不仅优化了用户体验,更重要的是为后续的商业化定价提供了技术基础——快速模式可以免费或低价提供,专家模式则可以作为增值服务收费。
三、百万级上下文与原生多模态:V4 的杀手级特性
除了参数规模和算力适配,V4还有两个值得关注的杀手级特性:
### 3.1 100万 Token 无损上下文窗口
V4将上下文窗口从V3的128K扩展到100万token。这意味着模型可以一次性处理约75万汉字的文本——相当于一部长篇小说的体量。
在实际应用中,这将彻底改变以下场景:
### 3.2 原生多模态能力
V4是DeepSeek首个原生多模态模型,支持文本、图像、视频、音频的统一理解与生成。这与此前通过外挂视觉编码器实现多模态的方案有本质区别——原生多模态意味着模型在预训练阶段就建立了跨模态的联合表征空间,因此在模态对齐、跨模态推理等方面具有更强的能力。
四、代码示例:调用 DeepSeek V4 API
虽然V4尚未正式发布,但DeepSeek官方API已兼容OpenAI格式。以下是一个使用Python调用DeepSeek API的示例,未来可直接迁移到V4:
import openai
# 配置 DeepSeek API
client = openai.OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com/v1"
)
# 调用 Chat Completions API
response = client.chat.completions.create(
model="deepseek-chat", # V4发布后预计模型名为 deepseek-v4
messages=[
{"role": "system", "content": "你是一个专业的AI技术助手。"},
{"role": "user", "content": "请解释DeepSeek V4的MoE架构设计原理。"}
],
temperature=0.7,
max_tokens=2048
)
print(response.choices[0].message.content)
对于需要处理长上下文的场景,可以直接传入大文本:
# 读取长文档
with open("long_document.txt", "r", encoding="utf-8") as f:
long_text = f.read()
response = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "user", "content": f"请总结以下文档的核心观点:\n\n{long_text}"}
],
max_tokens=4096
)
五、国产大模型的分水岭时刻
DeepSeek V4的即将发布,标志着国产大模型进入了一个新阶段。这不仅是DeepSeek一家公司的里程碑,更是整个中国AI产业从”跟跑”到”并跑”乃至”领跑”的关键转折。
### 5.1 产业层面的深远影响
从产业层面看,V4是首个不依赖英伟达生态的万亿级模型。这一事实的战略意义远超技术本身:
供应链自主化:阿里、字节、腾讯等巨头已预订数十万颗昇腾芯片,推动华为2026年AI芯片出货目标达到75万片。这意味着中国AI产业正在形成”芯片-框架-模型-应用”的完整自主链路,彻底摆脱对单一供应商的依赖。
成本结构重塑:推理成本仅为GPT-4的1/70,这一数字将彻底改变企业采用AI的经济学。当调用一次大模型的成本低于一次数据库查询时,AI将从”奢侈品”变为”基础设施”。
国际竞争格局:黄仁勋的”灾难性”评价并非危言耸听。英伟达在华市场份额已从95%暴跌至55%,而DeepSeek V4的发布将进一步加速这一趋势。当中国头部模型全部完成国产芯片适配,全球AI算力市场将呈现”双轨并行”的新格局。
### 5.2 技术层面的突破与隐忧
从技术层面看,V4在多个关键指标上达到了全球第一梯队水平:
| 指标 | DeepSeek V4 | GPT-4 | Claude 3.5 |
|---|---|---|---|
| 参数效率 | 370亿激活/1万亿总参数 | ~280B激活/1.8T总参数 | 175B/175B |
| 推理成本 | GPT-4的1/70 | 基准 | ~GPT-4的1/5 |
| 上下文长度 | 100万token | 128K | 200K |
| 多模态 | 原生支持 | 原生支持 | 文本+图像 |
| 芯片依赖 | 华为昇腾 | 英伟达 | 英伟达 |
然而,V4面临的挑战同样不容忽视:
人才流失的连锁反应:罗福莉、阮翀等核心成员的离开,不仅影响当前版本的质量,更可能导致技术路线的中断。MoE架构的路由算法、多模态的联合表征空间,这些高度复杂的技术模块需要核心团队的持续迭代。
生态成熟度的差距:CANN框架虽然在算子层面完成了适配,但在开发者工具链、调试工具、性能分析器等”软实力”方面,与CUDA仍有显著差距。一个直观的例子是:CUDA的Nsight性能分析器可以精确到每个kernel的内存带宽利用率,而CANN的对应工具仍处于早期阶段。
注意力稀释的潜在风险:100万token的上下文窗口在理论上令人兴奋,但在实践中,Transformer架构的注意力机制存在”稀释效应”——当序列过长时,模型对 distant token 的关注度会指数级下降。DeepSeek是否解决了这一问题,将是V4实际可用性的关键。
### 5.3 商业层面的战略转型
DeepSeek的首次融资和分层服务模式,预示着这家”技术理想主义者”正在向”商业现实主义者”转型。
100亿美元估值、3亿美元募资,对于一家成立仅三年的公司而言,既是认可,也是压力。这笔资金将主要用于:
快速模式与专家模式的分层设计,也为商业化提供了清晰的路径:快速模式作为”流量入口”吸引用户,专家模式作为”利润引擎”实现变现。这种”Freemium”模式在SaaS领域已被验证,但在大模型领域仍属创新。
六、结语:一场关于技术主权的成人礼
DeepSeek V4的发布,本质上是一场关于技术主权的成人礼。
从2024年V3的横空出世,到2026年V4的万亿参数+国产芯片适配,DeepSeek用两年半的时间,完成了一条从”技术惊艳”到”生态独立”的完整路径。这条路径的核心逻辑是:用极致的工程效率,打破算力垄断;用开源的社区生态,构建技术标准;用分层的商业模式,实现可持续发展。
当4月下旬V4正式发布时,我们看到的将不仅是一个更强大的模型,更是一个信号——中国AI产业已经具备了从”应用创新”向”底层创新”跃迁的能力。
当然,这条路不会一帆风顺。人才、生态、资金,三重挑战如影随形。但正如梁文锋在幻方量化时期所证明的:在量化交易的修罗场中,他用数学和代码战胜了华尔街的精英;如今,在大模型的战场上,他或许正在重复同样的故事。
只是这一次,赌注更大,舞台更广,对手更强。
而V4,就是这场战役的揭幕战。
参考来源:
[^1] 普林斯顿AI研究员曝DeepSeek V4将于下周发布 – 新浪科技 (2026-04-19)
[^2] DeepSeek被曝启动首次外部融资,目标估值超100亿美元 – 腾讯新闻 (2026-04-19)
[^3] DeepSeek V4传新进展:转向华为昇腾生态,由CUDA迁移至CANN – X/Twitter (2026-04-19)
[^4] 从CUDA到CANN架构迁移,华为昇腾芯片真能承载万亿参数大模型的算力突围使命? – 新浪新闻 (2026-04-19)
[^5] DeepSeek融资,梁文锋彻底不装了 – 网易新闻 (2026-04-19)
[^6] “灾难性”黄仁勋评DeepSeek V4适配华为,中国AI不再需要英伟达了? – 新浪新闻 (2026-04-20)
[^7] DeepSeek V4 来袭:国产大模型如何重塑全球AI竞争格局 – 稀土掘金 (2026-04-20)
[^8] DeepSeek终于等到了华为 – 凤凰网 (2026-04-20)
本文来源:微信公众号「AGI虾说」
原文链接:https://mp.weixin.qq.com/s/zpy57fMaf42Hs3fGvP7ytg
原文链接:微信公众号「AGI虾说」