一文看懂DeepSeek与清北最新论文：剧透V4底层架构，或改写大模型推理格局_DualPath_路径_文本处理

出品｜搜狐科技

作者｜郑松毅

编辑｜杨锦

就在全世界都盯着V4发布时，DeepSeek先给了波剧透。

数小时前，DeepSeek携手北京大学、清华大学，共同发布了一篇足以改写大模型推理格局的技术论文，推出了面向大模型智能体的全新推理系统DualPath，瞬间引爆AI圈。

作为中国大模型产学研协同创新的标杆之作，这篇论文跳出“拼参数、堆算力”的老路子，直击当下大模型核心痛点，叙述着中国大模型从“拼能力”到“拼效率”转型的新方向。

双路径架构攻I/O瓶颈，解“巧妇难为无米之炊”

眼下，大模型已迈入智能体时代，它要像人一样思考、规划，但一个长期被忽视的难题，正在制约着它的发展——GPU算力始终没能充分发挥出来，核心问题就是I/O瓶颈在“拖后腿”。

展开全文

换言之，今天大模型的痛点，已不是模型不够聪明，而是跑得不够快、成本下不来。DualPath的出现，就是为了解决这个症结。

很多人会问，什么是“I/O瓶颈”，又怎么拖后腿了？

这里可以简单比喻下：如果把大模型推理过程看作是厨子炒菜，GPU的角色就是手艺顶尖、手脚飞快的厨师；显存/内存/网络可以看成厨房的通道、传送带；模型每生成一句话，要用到的历史对话缓存（KV-Cache），就是大厨要用到的配菜、调料、半成品。而I/O，则是把食材从仓库运到灶台的全过程——搬运、传递、输送。

大厨再厉害，配菜送不上来，大厨就只能在灶台前干等。换言之，GPU再强，如果数据传不过来，它就只能空转、浪费等数据，这就是行业内最致命的“I/O瓶颈”。

过去几年，大模型越做越大，用户越来越多，对话数据越来越长，需要搬运的食材——历史对话缓存（KV-Cache）也就越多。结果就是传输通道越来越拥挤，GPU利用率越来越低，成本越来越高。

而DeepSeek这次和清北合作提出的 DualPath双路径架构，本质就是修了两条各具功能的专用传输通道，解决堵塞问题。

具体来看，DualPath改变了传统的存储至预填充引擎（Storage-to-Prefill）单路径加载模式，引入了存储至解码引擎（Storage-to-Decode）的第二条路径。

传统路径下，缓存直接读入预填充（PE）。而新路径下，缓存先读入解码（DE）的缓冲池，再通过RDMA传输给预填充（PE）。通过两条路径间的动态选择，DualPath重新分配了网络负载，缓解了预填充引擎侧的带宽压力。

我们可以把预填充引擎看作是主路径，把解码引擎看作是辅助路径。主路径负责准备当下大厨立刻要用的食材，保证伸手抓的时候就有，不耽误火候。而辅助路径负责趁不忙时，提前把食材运来备好，不耽误主通道工作，打好配合。

性能翻倍，与清北多次联手破题

值得一提的是，这套理论并不只是实验室故事，而是真的在GPU集群上验证过了：DualPath将离线推理吞吐量最高提升1.87倍，在线服务吞吐量平均提升1.96倍，请求承载能力最高提升2.25倍。

业内观点认为，这些亮眼数据的背后，是大模型服务成本的大幅降低，更是规模化落地能力的显著提升。对企业来说，同样的算力投入能获得两倍的服务产出，无疑会进一步降低AI应用门槛。对开发者来说，此前难以实现的长上下文、多轮交互等功能，如今能稳定落地，给智能体的创新应用打开了新空间。

事实上，这已不是三方的首次合作。

近半年来，DeepSeek已与北大、清华联手推出了多项重磅成果：比如ACL 2025最佳论文中提出的原生稀疏注意力（NSA）技术，把长文本处理速度提升了11倍；还有2026年1月发布的条件记忆（Engram）架构，通过把“记忆”与“计算”拆分开来，大幅降低了推理成本和内存占用。

V4箭在弦上

巧合的是，就在这篇论文发布的同时，业内对DeepSeek V4版本的发布猜测也达到了顶峰。

大家普遍认为，这篇DualPath论文绝不是简单的技术发布，而是DeepSeek V4的底层架构官宣。

从目前行业流传的消息来看，DeepSeek V4的发布窗口已经锁定在未来一周，代号为“Sealion-lite”的V4轻量版，已经在部分推理服务商处开展闭门测试，华为等国内芯片厂商也提前拿到了模型访问权限，完成了国产算力平台的适配优化。

种种信号表明，V4版本已经进入了发布前的最后倒计时。

关于DeepSeek V4的核心能力，业内的猜测高度一致，并充满期待。其中最受关注的是百万级上下文窗口——预计将从V3.2版本的128K tokens跃升至100万tokens，提升近8倍。相当于模型能一次性读完多部专业书籍、大型代码库，彻底解决了长文本处理的痛点。

其次是原生多模态能力，V4预计将支持文本、图像等多种格式，从流出的SVG生成示例来看，它在贴合提示词、形状准确性和细节丰富度上，都比前代V3.2版本强了不少。

除此之外，智能体能力也是V4的核心亮点，让模型能更高效地完成复杂任务。更值得一提的是，V4还打破行业惯例，把访问权限优先给了国内芯片厂商，助力国产化AI生态的构建。

前两日，美国AI巨头Anthropic还在指控包括DeepSeek在内的中国AI企业蒸馏抄袭，呼吁严控高端芯片出口。如今DeepSeek就向外展示了“靠人不如靠自己”的态度，连外媒都开始担忧，英伟达股价也应声下跌。

接下来，就期待着新模型登场了。返回搜狐，查看更多

关注我们