告别“长文本焦虑”:小红书 RedKnot 推理引擎开源 长上下文处理效率翻倍
在生成式人工智能的应用场景中,如何让模型在处理超长文本时既快又省,一直是工程师们攻克的难题。近日,小红书技术团队开源了其自主研发的 RedKnot 推理引擎,带来了一套针对长上下文任务的“降本增效”新方案。
RedKnot 的核心创新在于打破了传统的 KV Cache(键值缓存)处理模式。以往,大模型在推理过程中,缓存是按 token(词元)维度存储的,这导致在处理长文本时,内存开销呈线性增长,极大地拖累了推理速度与并发能力。RedKnot 另辟蹊径,将 KV Cache 沿注意力头(Attention Head)维度进行拆解,并引入了“头分类稀疏”、“稀疏 FFN”以及“SegPagedAttention”三大机制,实现了算法逻辑与存储粒度的统一。
这一架构调整带来的性能提升十分显著。实测数据显示,在 8 卡 H800 的高性能计算环境下,RedKnot 能够将首字生成时间(TTFT)加速 1.6 倍至 3.54 倍,单卡并发能力更是提升了 4.7 倍至 7.8 倍。在预填充阶段,计算资源消耗(FLOPs)被削减了 67% 至 79.5%。以 DeepSeek-V4-Flash 模型在 128K 超长上下文任务上的表现为例,其首字生成速度提升了 5.16 倍,KV 数据传输效率也优化了 6.3 倍,且推理精度依然稳健,保持在稠密模型性能的 95% 以上。
业内专家认为,RedKnot 的开源为推理引擎的工程优化提供了重要参考。在算力资源日益紧缺的背景下,这种通过底层架构精细化拆解来缓解长文本推理负担的思路,无疑为构建更轻量、更高效的 AI 推理系统开辟了新的技术路径。目前,相关代码已正式开源,旨在推动长文本 AI 应用的普及与落地。
-
07.01
同人圣三国蜀汉传小游戏无需登录在线玩
-
07.01
王者荣耀世界注册表残留问题如何解决
-
07.01
烟雨江湖2026最新网页端_烟雨江湖官方网页登陆入口
-
07.01
锚点降临免费网页版官方入口 锚点降临游戏直接开玩
-
07.01
饥饿鲨世界国际版官方入口_饥饿鲨世界国际服网址
-
07.01
和平精英M338轻机枪该选啥配件
-
- 高端赛事日转播海报
- 07.01
-
- 超现实工作室摄影及手绘涂鸦
- 07.01
-
-
-
-
- 从果链到“AI链”:从“旧大陆”到“新世界”
- 07.01
-
-
下载
- 《神剑伏魔录》(神剑风云)游戏音乐合集
- 其他游戏|7.73 MB
- 一款非常好玩的武侠闯关游戏
-
-
下载
- 《行尸走肉第一章》免安装中文汉化硬盘版下载
- 单机|436 MB
- 一款以动作冒险为主题的游戏
-
-
下载
- 《街头霸王X铁拳》免安装中文汉化硬盘版下载
- 单机|111MB
- 一款非常好玩的格斗游戏
-
-
下载
- 《生化危机:浣熊市行动》免安装中文硬盘版下载
- 单机|6310 MB
- 一款以动作射击为主题的游戏
-
-
下载
- 《暗黑破坏神3》免安装繁体中文正式版下载
- 单机|7630 MB
- 一款以角色扮演为主题的游戏
-
-
下载
- 《马克思佩恩3》免安装硬盘版下载
- 单机|27033 MB
- 一款以第三人称射击为主题的游戏