DeepSeek联合清北重磅硬核论文：发力智能体底层基建击穿Agent推理I/O瓶颈

看量养股 · 发表于 2026-2-27 15:32

马上注册，享用更多功能，让你轻松玩转本论坛。

您需要登录才可以下载或查看，没有账号？立即注册 sms 手机登录

×

DeepSeekV4发布前夕硬核重磅论文上线。大模型正在从单轮对话机器人，快速进化为能够自主规划、调用工具并解决实际问题的Agent。然而，这种转变在底层算力架构上引发了一场大地震。当大模型在长期的上下文中与环境进行几十甚至上百轮的交互时，计算的瓶颈从GPU的算力转为存储I/O带宽。由于每次只追加极少的Token，导致KV-Cache命中率极高（通常大于95%），GPU大量的时间被用来等待从外部存储中读取海量的历史KV-Cache数据。

为了打破这一僵局，DeepSeek联合北大、清华研究团队提出了一种全新的大模型推理系统——DualPath。该系统针对Agentic大模型场景中KV-Cache读取造成的I/O带宽瓶颈，创新性地开辟"存储→解码→预填充"双路径加载机制，充分利用解码节点闲置存储带宽，将Agentic大模型负载的离线推理吞吐量提升了最高1.87倍，在线服务吞吐量平均提升了1.96倍。目前，这项研究已在包含多达1152张GPU的集群上完成了大规模验证，支持DeepSeek-V3.2660B等顶级大模型。

王运成 · 发表于 2026-2-27 15:41

感谢提供信息分享。

水木子 · 发表于 2026-2-27 17:10

好好学习，天天向上！

武刘香 · 发表于 2026-2-27 20:25

好好学习，天天向上！

DeepSeek联合清北重磅硬核论文：发力智能体底层基建 击穿Agent推理I/O瓶颈

马上注册，享用更多功能，让你轻松玩转本论坛。

浏览过的版块

DeepSeek联合清北重磅硬核论文：发力智能体底层基建击穿Agent推理I/O瓶颈