コンテンツにスキップ
メインメニュー
メインメニュー
サイドバーに移動
非表示
案内
メインページ
最近の更新
未作成ページ
おまかせ表示
ヘルプ
MonoBook
検索
検索
ログイン
個人用ツール
ログイン
ログアウトした編集者のページ
もっと詳しく
投稿記録
トーク
「
TurboQuant
」を編集中
ページ
議論
日本語
閲覧
編集
ソースを編集
履歴表示
ツール
ツール
サイドバーに移動
非表示
操作
閲覧
編集
ソースを編集
履歴表示
全般
リンク元
関連ページの更新状況
特別ページ
ページ情報
2026年3月30日 (月) 01:22時点における
Administrator
(
トーク
|
投稿記録
)
による版
(
→アルゴリズム全体構造
)
(
差分
)
← 古い版
|
最新版
(
差分
) |
新しい版 →
(
差分
)
警告: このページの古い版を編集しています。
公開すると、この版以降になされた変更がすべて失われます。
警告:
ログインしていません。編集を行うと、あなたの IP アドレスが公開されます。
ログイン
または
アカウントを作成
すれば、あなたの編集はその利用者名とともに表示されるほか、その他の利点もあります。
スパム攻撃防止用のチェックです。 けっして、ここには、値の入力は
しない
でください!
'''TurboQuant'''(たーぼくあんと)とは 2026年3月にGoogle Research によって提案された、LLMのKVキャッシュおよびベクトル検索向けの極限量子化アルゴリズムです。 精度劣化を最小限に抑えつつ、メモリ使用量とバス帯域と計算コストを劇的に削減できるそうです。 かつて[[パソコン]]で大流行した[[RAM Doubler]]や[[MagnaRAM]]みたいなものでしょう。 この発表と同時にメモリ関連企業の株価が大暴落しました。 == 特徴 == * KV キャッシュを最大 6 分の 1 に圧縮 * H100 GPU で最大 8 倍の高速化 * 量子化定数(scale)を保存しないためメモリオーバーヘッドがゼロ * 内積推定が不偏(unbiased) * トレーニング不要の後処理量子化 (PTQ) = アルゴリズム全体構造 = TurboQuant は、PolarQuant と Quantized Johnson–Lindenstrauss (QJL) の 2 段階処理によって構成されます。 # PolarQuant による幾何学的量子化 # QJL による 1-bit 残差補正 これにより、3〜4 bit という極低ビット量子化でも高精度を維持する。 === 第1段階:PolarQuant === PolarQuant は、入力ベクトルをランダム直交行列で回転し、統計的に均質な分布に変換した後、固定スカラーコードブックにマッピングする。 ==== 手順 ==== * ランダム回転 高次元空間でランダム直交行列 R を生成し、 x' = R x を計算する。 これにより、各次元の分布が等方的になり、量子化誤差が均一化される。 * 固定グリッドへのマッピング 回転後のベクトル x' は、事前計算された円形または球面状のコードブックに直接量子化される。 従来の量子化のような per-channel scale を保存する必要がない。 ==== メリット ==== * 量子化定数の保存が不要 * メモリオーバーヘッドがゼロ * 低ビット量子化でも安定した誤差特性 === 第2段階:QJL (Quantized Johnson–Lindenstrauss) === PolarQuant の量子化誤差(残差)を補正するために、QJL による 1-bit ランダム射影を追加する。 ==== 手順 ==== * ランダム射影 Johnson–Lindenstrauss 行列 A を用いて r = A x を計算する。 * 1-bit 符号化 r の符号 sign(r) のみを保存する。 これにより、元のベクトルとの差分の方向情報を 1 bit で保持できる。 * 不偏推定 内積推定において、PolarQuant のバイアスを QJL の符号情報で補正することで、不偏な推定値が得られる。 ====メリット ==== * 3-bit 量子化でも高精度 * 内積推定のバイアスが消失 * ベクトル検索でも高い Recall を維持 == 非対称量子化 == TurboQuant は Key と Value に異なるビット数を割り当てることを推奨する。 * Key: 2〜3 bit(強圧縮) * Value: 3〜4 bit(高精度) これにより、KV キャッシュ全体のメモリ削減と精度維持のバランスが最適化される。 == パフォーマンス == {| class="wikitable" ! 指標 !! 32-bit baseline !! TurboQuant (4-bit) !! 改善率 |- | KV キャッシュサイズ || 100% || 約 16.7% || 6x 削減 |- | Attention 計算速度 || 1.0x || 最大 8.0x || 8x 高速化 |- | 精度損失 || なし || 無視可能 || 品質中立 |} [[category: Google]] [[category: LLM]]
編集内容の要約:
MonoBookへの投稿はすべて、他の投稿者によって編集、変更、除去される場合があります。 自分が書いたものが他の人に容赦なく編集されるのを望まない場合は、ここに投稿しないでください。
また、投稿するのは、自分で書いたものか、パブリック ドメインまたはそれに類するフリーな資料からの複製であることを約束してください(詳細は
MonoBook:著作権
を参照)。
著作権保護されている作品は、許諾なしに投稿しないでください!
このページを編集するには、下記の確認用の質問に回答してください (
詳細
):
1たす1は?(全角で入力してください)
キャンセル
編集の仕方
(新しいウィンドウで開きます)
本文の横幅制限を有効化/無効化