TurboQuant（たーぼくあんと）とは 2026年3月にGoogle Research によって提案された、LLMのKVキャッシュおよびベクトル検索向けの極限量子化アルゴリズムです。

精度劣化を最小限に抑えつつ、メモリ使用量とバス帯域と計算コストを劇的に削減できるそうです。かつてパソコンで大流行したRAM DoublerやMagnaRAMみたいなものでしょう。この発表と同時にメモリ関連企業の株価が大暴落しました。

特徴

アルゴリズム全体構造

TurboQuant は、PolarQuant と Quantized Johnson–Lindenstrauss (QJL) の 2 段階処理によって構成されます。

これにより、3〜4 bit という極低ビット量子化でも高精度を維持する。

PolarQuant は、入力ベクトルをランダム直交行列で回転し、統計的に均質な分布に変換した後、固定スカラーコードブックにマッピングする。

 高次元空間でランダム直交行列 R を生成し、 x' = R x を計算する。  
 これにより、各次元の分布が等方的になり、量子化誤差が均一化される。

 回転後のベクトル x' は、事前計算された円形または球面状のコードブックに直接量子化される。  
 従来の量子化のような per-channel scale を保存する必要がない。

PolarQuant の量子化誤差（残差）を補正するために、QJL による 1-bit ランダム射影を追加する。

 Johnson–Lindenstrauss 行列 A を用いて r = A x を計算する。

 r の符号 sign(r) のみを保存する。  
 これにより、元のベクトルとの差分の方向情報を 1 bit で保持できる。

 内積推定において、PolarQuant のバイアスを QJL の符号情報で補正することで、不偏な推定値が得られる。

TurboQuant は Key と Value に異なるビット数を割り当てることを推奨する。

これにより、KV キャッシュ全体のメモリ削減と精度維持のバランスが最適化される。

指標	32-bit baseline	TurboQuant (4-bit)	改善率
KV キャッシュサイズ	100%	約 16.7%	6x 削減
Attention 計算速度	1.0x	最大 8.0x	8x 高速化
精度損失	なし	無視可能	品質中立