谷歌扔出技术核弹 内存需求将崩塌?

短语录 网络资讯 2

全球AI算力竞赛出现重大技术拐点!

近日,谷歌公布的全新AI內存压缩技术“TurboQuant”,引发了业界的极大关注。该技术宣称能在不牺牲模型精准度的前提下,将生成式AI推理阶段最吃资源的“键值缓存”(KV Cache)空间需求减少到原来的1/6,并让计算速度暴增8倍。

这一突破性的技术,也引发了整个市场对于内存需求将断崖式下跌的担忧,美光、Sandisk、西部数据等存储相关美股纷纷大跌。

TurboQuant究竟是什么?

在LLM(大语言模型)推理过程中,为了处理长文本,系统必须将过往对话信息存放在KV Cache中,这如同AI的“随身笔记本”。随着对话长度增加,这本笔记本需要存储的信息会迅速挤爆AI GPU的高频宽內存(HBM),成为AI运行的最大瓶颈。

谷歌的TurboQuant技术的核心优势在于解决了传统内存压缩技术产生的“內存噪声”(Overhead)。该技术由两大关键部分组成:

PolarQuant(极坐标量化):传统向量以XYZ坐标标注,运算繁琐。谷歌改为采用“极坐标”逻辑,将复杂的方位简化为“半径”与“角度”。这好比将原本要标记“往东走3公里、再往北走4公里”的信息,简化为“以37度角走5公里”。这种几何结构的转换,大幅减少了数据处理的负荷。

QJL(Quantized Johnson-Lindenstrauss):这是一套极其精简的1bit数学校正机制。仅利用额外的1bit来精准修正压缩过程中的残余误差,让模型即使被压缩到仅剩3bit,在LongBench等多项基准测试中仍能达成“零精度损失”。


△在Llama-3.1-8B-Instruct模型上,TurboQuant 在LongBench基准测试中展现出强大的 KV 缓存压缩性能,优于各种压缩方法 (括号中标明了位宽)。

谷歌选择将这套足以成为核心竞争力的技术完全开源,不仅优化了Gemini等大型模型的检索效率,更为其他大模型减少对于内存依赖,加速端侧AI发展铺平道路。

根据实测,在英伟达(NVIDIA)H100加速器上,TurboQuant相比未压缩方案,性能最高提升了8倍,且无须重新训练模型即可直接挂载,堪称AI部署的降本增效的“神兵利器”。


△在NVIDIA H100加速器上,TurboQuant 在计算键值缓存中的注意力逻辑值方面表现出显著的性能提升,在各种位宽级别上均优于高度优化的JAX基线。


△TurboQuant 展现出强大的检索性能,在GloVe数据集 (d=200)上实现了相对于各种最先进的量化基线的最佳1@k 召回率。

Cloudflare首席执行官Matthew Prince等人将TurboQuant称为谷歌的“DeepSeek时刻”,认为其有望像DeepSeek一样,通过极高的效率收益大幅拉低AI的运行成本,同时在结果上保持竞争力。

内存需求会降低,还是会带来更大需求?

针对TurboQuant技术会引发了整个市场对于内存需求断崖式下跌的担忧,产业专家与研究机构也给出了截然不同的看法:

富国银行(Wells Fargo)分析师Andrew Rocha指出:“当context window(上下文窗口)越来越大,KV Cache的爆炸性成长原本是推升內存需求的保证。但TurboQuant正在直接攻击这条成本曲线,一旦被广泛采用,数据中心对內存容量的规格要求将被打上大问号。”

不过,知名投行摩根士丹利(Morgan Stanley)和研究机构Lynx Equity Strategies则给出了截然不同的观点,

摩根士丹利认为市场可能忽视了“效率提升带动总量增长”的经济规律。当AI计算所需的内存成本降低到原本的1/6,这将会使得原本因内存太贵而无法上线的AI应用(如长文本翻译、复杂代码生成)需求大规模爆发,反而会填补、甚至超越被压缩掉的内存缺口。

这就是杰文斯悖论(Jevon's paradox),即当技术进步提高了使用资源的效率(减少任何一种使用所需的数量),但成本降低导致需求增加,令资源消耗的速度不减反增。

摩根士丹利分析师约瑟夫·摩尔(Joseph Moore)及其团队在周四发布的投资者报告中指出: “有报道称谷歌的TurboQuant会导致内存使用量减少了到原来的1/6,但这忽略了他们仅仅指的是KV Cache,而不是整体内存使用量。

“值得注意的是,谷歌的 Gemini 3 和 2.5 Pro 模型都拥有 100 万个Token的上下文窗口,但谷歌曾透露,他们使用 Gemini 1.5 Pro 测试过高达 1000 万个Token的上下文窗口,并取得了非常好的结果,但由于推理成本较高,他们最终没有发布该模型,”摩尔说道。“因此,我们预计,随着此类创新以及其他技术的出现,成本将会降低,这项技术将被用于服务于更智能、计算密集型的产品。”

摩根士丹利进一步指出,TurboQuant主要优化的是“推理阶段”的缓存,并非“训练阶段”的模型权重。因此,对于支撑AI核心训练的HBM(高频宽內存)采购逻辑影响相对有限。

相比之下,TurboQuant对手机、笔记本电脑等终端设备的人工智能部署更具意义。由于移动设备的內存有限,这类高效压缩技术能让更强大的AI模型在手机端运行,这反而会刺激各类终端装置进行內存规格的全面换代。

Lynx Equity Strategies 的观点认为,虽然人工智能提供商需要创新来解决推理中随着Token上下文长度增加而出现的瓶颈问题,但由于供应限制,这在未来三到五年内并不会减少对内存和闪存的需求。