谷歌扔出技术核弹内存需求将崩塌?

短语录网络资讯 2026-03-27 17:34:44 35

全球AI算力竞赛出现重大技术拐点！

近日，谷歌公布的全新AI內存压缩技术“TurboQuant”，引发了业界的极大关注。该技术宣称能在不牺牲模型精准度的前提下，将生成式AI推理阶段最吃资源的“键值缓存”（KV Cache）空间需求减少到原来的1/6，并让计算速度暴增8倍。

这一突破性的技术，也引发了整个市场对于内存需求将断崖式下跌的担忧，美光、Sandisk、西部数据等存储相关美股纷纷大跌。

TurboQuant究竟是什么？

在LLM（大语言模型）推理过程中，为了处理长文本，系统必须将过往对话信息存放在KV Cache中，这如同AI的“随身笔记本”。随着对话长度增加，这本笔记本需要存储的信息会迅速挤爆AI GPU的高频宽內存（HBM），成为AI运行的最大瓶颈。

谷歌的TurboQuant技术的核心优势在于解决了传统内存压缩技术产生的“內存噪声”（Overhead）。该技术由两大关键部分组成：

PolarQuant（极坐标量化）：传统向量以XYZ坐标标注，运算繁琐。谷歌改为采用“极坐标”逻辑，将复杂的方位简化为“半径”与“角度”。这好比将原本要标记“往东走3公里、再往北走4公里”的信息，简化为“以37度角走5公里”。这种几何结构的转换，大幅减少了数据处理的负荷。

QJL（Quantized Johnson-Lindenstrauss）：这是一套极其精简的1bit数学校正机制。仅利用额外的1bit来精准修正压缩过程中的残余误差，让模型即使被压缩到仅剩3bit，在LongBench等多项基准测试中仍能达成“零精度损失”。

△在Llama-3.1-8B-Instruct模型上，TurboQuant 在LongBench基准测试中展现出强大的 KV 缓存压缩性能，优于各种压缩方法（括号中标明了位宽）。

谷歌选择将这套足以成为核心竞争力的技术完全开源，不仅优化了Gemini等大型模型的检索效率，更为其他大模型减少对于内存依赖，加速端侧AI发展铺平道路。

根据实测，在英伟达（NVIDIA）H100加速器上，TurboQuant相比未压缩方案，性能最高提升了8倍，且无须重新训练模型即可直接挂载，堪称AI部署的降本增效的“神兵利器”。

△在NVIDIA H100加速器上，TurboQuant 在计算键值缓存中的注意力逻辑值方面表现出显著的性能提升，在各种位宽级别上均优于高度优化的JAX基线。

△TurboQuant 展现出强大的检索性能，在GloVe数据集 (d=200)上实现了相对于各种最先进的量化基线的最佳1@k 召回率。

Cloudflare首席执行官Matthew Prince等人将TurboQuant称为谷歌的“DeepSeek时刻”，认为其有望像DeepSeek一样，通过极高的效率收益大幅拉低AI的运行成本，同时在结果上保持竞争力。

内存需求会降低，还是会带来更大需求？

针对TurboQuant技术会引发了整个市场对于内存需求断崖式下跌的担忧，产业专家与研究机构也给出了截然不同的看法：

富国银行（Wells Fargo）分析师Andrew Rocha指出：“当context window（上下文窗口）越来越大，KV Cache的爆炸性成长原本是推升內存需求的保证。但TurboQuant正在直接攻击这条成本曲线，一旦被广泛采用，数据中心对內存容量的规格要求将被打上大问号。”

不过，知名投行摩根士丹利（Morgan Stanley）和研究机构Lynx Equity Strategies则给出了截然不同的观点，

摩根士丹利认为市场可能忽视了“效率提升带动总量增长”的经济规律。当AI计算所需的内存成本降低到原本的1/6，这将会使得原本因内存太贵而无法上线的AI应用（如长文本翻译、复杂代码生成）需求大规模爆发，反而会填补、甚至超越被压缩掉的内存缺口。

这就是杰文斯悖论（Jevon's paradox），即当技术进步提高了使用资源的效率（减少任何一种使用所需的数量），但成本降低导致需求增加，令资源消耗的速度不减反增。

摩根士丹利分析师约瑟夫·摩尔（Joseph Moore）及其团队在周四发布的投资者报告中指出： “有报道称谷歌的TurboQuant会导致内存使用量减少了到原来的1/6，但这忽略了他们仅仅指的是KV Cache，而不是整体内存使用量。

“值得注意的是，谷歌的 Gemini 3 和 2.5 Pro 模型都拥有 100 万个Token的上下文窗口，但谷歌曾透露，他们使用 Gemini 1.5 Pro 测试过高达 1000 万个Token的上下文窗口，并取得了非常好的结果，但由于推理成本较高，他们最终没有发布该模型，”摩尔说道。“因此，我们预计，随着此类创新以及其他技术的出现，成本将会降低，这项技术将被用于服务于更智能、计算密集型的产品。”

摩根士丹利进一步指出，TurboQuant主要优化的是“推理阶段”的缓存，并非“训练阶段”的模型权重。因此，对于支撑AI核心训练的HBM（高频宽內存）采购逻辑影响相对有限。

相比之下，TurboQuant对手机、笔记本电脑等终端设备的人工智能部署更具意义。由于移动设备的內存有限，这类高效压缩技术能让更强大的AI模型在手机端运行，这反而会刺激各类终端装置进行內存规格的全面换代。

Lynx Equity Strategies 的观点认为，虽然人工智能提供商需要创新来解决推理中随着Token上下文长度增加而出现的瓶颈问题，但由于供应限制，这在未来三到五年内并不会减少对内存和闪存的需求。

本文地址： http://www.duanyulu.com/25563.html

文章来源：短语录

谷歌扔出技术核弹 内存需求将崩塌?

谷歌扔出技术核弹内存需求将崩塌?