NVIDIA新技术KVTC大颠覆,内存使用量竟能缩减至原来的1/20!

15

NVIDIA新技术KVTC大颠覆,内存使用量竟能缩减至原来的1/20!

在人工智能飞速发展的当下,大型语言模型(LLM)已成为众多领域的核心驱动力,长对话推理时的内存瓶颈问题,却像一块巨石,阻碍着其进一步发展,NVIDIA研究人员带来的全新技术KVTC(KV快取转换编码),有望打破这一困境。

内存难题:大型语言模型的成长枷锁

大型语言模型在处理长对话时,需要追踪对话历史,这就依赖于KV缓存,它就像AI模型的“短期记忆”,可以把KV缓存形象地比喻成学生记笔记,模型在处理对话时,会将关键信息(Key和Value)记录下来,这样下次生成回应时,无需从头重新计算整段对话,从而大幅提升响应速度。

但随着对话的不断延长,这份“笔记”会急剧膨胀,甚至达到几个GB的大小,这大量占用了GPU内存,不仅拖慢了模型的运行速度,还限制了其处理能力,NVIDIA资深深度学习工程师Adrian Lancucki指出:“大型语言模型进行推论时,性能瓶颈往往不在运算能力,而在GPU内存。”那些暂时不用的KV缓存,持续占据着宝贵的GPU资源,系统不得不将它们转移到CPU内存或硬盘中,这不仅增加了数据传输的负担,还可能引发新的卡顿问题,而这些额外成本最终都会转嫁到企业的使用费用上。

KVTC技术:突破内存瓶颈的利器

KVTC技术的核心在于对大型语言模型背后的KV缓存进行高效压缩,与现有压缩技术相比,它具有显著优势,该技术借鉴了JPEG图片压缩的思路,通过“主成分分析、自适应量化、熵编码”三个简洁步骤,就能够实现出色的压缩效果。

更值得一提的是,KVTC采用“非侵入式”设计,无需对模型的核心设置和代码进行改动,企业可以迅速将其部署应用,它能够精准抓住KV缓存“数据高度相关”的特点,在保留关键信息的同时去掉冗余数据,而且在解压时,可以分块、逐层进行,不会对模型的实时回应造成影响。

卓越表现:多轮测试验证实力

多轮严格的测试结果显示,KVTC的表现远远超越了现有主流方法,在参数量从15亿到700亿的多种模型,如Llama 3系列、R1 - Qwen 2.5等上进行测试时,即便将内存压缩20倍,模型准确率也几乎不受影响,损失不到1%,与未压缩时的表现相差甚微,而传统压缩方法仅仅压缩5倍,就会出现明显的准确率下降。

在处理速度方面,KVTC同样表现卓越,在H100 GPU上处理8000个Token的提示时,不使用KVTC需要3秒才能生成第一个回应,而使用后仅需380毫秒,提速整整8倍,这一巨大的提升,能够极大地提高大型语言模型在实际应用中的效率。

应用场景与未来展望

KVTC技术更适合长对话、多轮互动场景,例如编程助手、迭代式代理推理等,在这些场景中,长对话会产生大量的KV缓存,KVTC的压缩价值能够得到充分发挥,但如果对话较短,由于产生的KV缓存量有限,就很难体现出其压缩优势。

NVIDIA正积极计划将这项技术整合进Dynamo框架的KV块管理器,使其能够与vLLM等主流开源推论引擎兼容,业内人士认为,随着大型语言模型可处理的对话长度不断增加,像KVTC这类标准化压缩技术,未来可能会像视频压缩一样普及,它将助力AI更广泛地落地应用,为人工智能的发展注入强大动力。

更多一手游戏信息请关注慈云游戏网,获取前沿科技资讯。