找回密码
 立即注册

QQ登录

只需一步,快速开始

广告载入中...
查看: 27|回复: 1

DeepSeek联合清北重磅硬核论文:发力智能体底层基建 击穿Agent推理I/O瓶颈

[复制链接]
发表于 2026-2-27 15:32 | 显示全部楼层 |阅读模式

马上注册,享用更多功能,让你轻松玩转本论坛。

您需要 登录 才可以下载或查看,没有账号?立即注册

×

DeepSeekV4发布前夕硬核重磅论文上线。大模型正在从单轮对话机器人,快速进化为能够自主规划、调用工具并解决实际问题的Agent。然而,这种转变在底层算力架构上引发了一场大地震。当大模型在长期的上下文中与环境进行几十甚至上百轮的交互时,计算的瓶颈从GPU的算力转为存储I/O带宽。由于每次只追加极少的Token,导致KV-Cache命中率极高(通常大于95%),GPU大量的时间被用来等待从外部存储中读取海量的历史KV-Cache数据。

为了打破这一僵局,DeepSeek联合北大、清华研究团队提出了一种全新的大模型推理系统——DualPath。该系统针对Agentic大模型场景中KV-Cache读取造成的I/O带宽瓶颈,创新性地开辟"存储→解码→预填充"双路径加载机制,充分利用解码节点闲置存储带宽,将Agentic大模型负载的离线推理吞吐量提升了最高1.87倍,在线服务吞吐量平均提升了1.96倍。目前,这项研究已在包含多达1152张GPU的集群上完成了大规模验证,支持DeepSeek-V3.2660B等顶级大模型。

发表于 2026-2-27 15:41 | 显示全部楼层
感谢提供信息分享。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表