## KV-Cache量子化におけるGoogleのTurboQuant手法
大規模言語モデル(LLM)の運用には、トレーニングと同様に多大なハードウェアリソースが必要となる。特にグラフィックメモリ(VRAM)は、高速な動作に不可欠な高性能グラフィックカードを必要とするため、重要な要素となる。LLMでは、各処理で新しいトークンが生成されるため、計算結果を再利用することでメモリを節約するKV-Cacheが重要となる。
KV-Cacheの量子化は、メモリ容量を削減する有効な手段であり、GoogleのTurboQuant手法が注目を集めている。モデルの重みを4bitに量子化することが一般的になる一方で、KV-Cacheは通常8bitに制限されている。しかし、KVQuantやKIVIといった手法が登場し、KV-Cacheの量子化が進んでいる。
ソフトウェア技術によるメモリ節約は、より高性能なモデルの運用や、LLMがより長いドキュメントやコードベースを処理することを可能にする。GoogleのTurboQuantは、KV-Cacheをより強く量子化する試みとして注目されている。
## NPCI、加盟店向けに統一サウンドボックス基盤を展開
インド राष्ट्रीय भुगतान निगम(NPCI)は、異なる決済アプリ間でのUPI決済を単一のデバイスで処理できる共通の相互運用可能なUPIサウンドボックスの基盤を構築している。
ETの報道によると、この基盤により、加盟店はどのQRコードからの支払いも受け入れ、同じデバイスで決済サービスを利用できるようになる。NPCIの共通プラットフォームは、すべてのFinTech企業のQRコードと互換性を持つ。
現在、ほとんどのサウンドボックスは閉鎖されたシステムであり、それぞれの企業のエコシステムとのみ互換性がある。そのため、加盟店はPaytm、PhonePe、Google Payなどの異なるプロバイダーごとに個別のデバイスを必要としている。共通のUPIサウンドボックス基盤により、デバイスはどのUPIアプリからの支払いも効率的にサポートできるようになり、加盟店のハードウェア重複が削減される。
この動きは加盟店に利益をもたらす一方で、FinTech企業の収益に影響を与える可能性がある。ほとんどのFinTech企業は通常、サウンドボックスデバイスに対して月額レンタル料を加盟店に請求している。Paytmは、サウンドボックスの展開を含むデバイス主導の拡大により、2026年度の最終四半期にサブスクリプション加盟店ベースが1500万に成長したことを強調している。
## Gemini Intelligence、スマートフォンに高いハードウェア要件
GoogleのAIジェネレーションであるGemini Intelligenceは、高いハードウェア要件を持ち、Pixel 9 Proや他の多くのスマートフォンでは利用できない可能性がある。
Googleは、Android Show I/O EditionでGemini Intelligenceを発表した際、「Geminiの最高機能を最新デバイスで」と述べ、デバイスに高い要件があることを示唆していた。Gemini Intelligenceの機能は、少なくとも12GBのRAMを搭載したAndroidデバイスでのみ利用可能であり、「認定されたSOC」(フラッグシップチップ)が必要となる。
Gemini Intelligenceを利用するには、少なくともGemini Nano v3以降のバージョンがサポートされている必要がある。GoogleのML KitのGenAI APIの開発者向けウェブサイトには、v3と互換性のあるデバイスと、古いバージョン2にとどまっているデバイスがリストされている。
Gemini Nano v3と互換性があるのは、2025年以降に発売されたスマートフォンのみである。Googleは、Gemini Intelligenceをデバイスで利用する場合、少なくとも5年間のAndroidアップデートと、6年間の四半期ごとのセキュリティパッチを保証する必要があるとしている。
さらに、Googleは企業に対し、KIによって処理されるデータを保護するために、昨年発表された仮想化技術pKVM(protected Kernel-based Virtual Machine)の使用を義務付けている。これにより、情報がローカルで処理され、不正なアプリが直接アクセスできないことが保証される。Gemini Intelligenceの利点は、タスクがクラウドではなくデバイス上で直接実行されるため、プライバシーの面でプラスとなる点である。
-
heise+ | So funktioniert KV-Cache-Quantisierung mit Googles Verfahren TurboQuant
## GoogleのTurboQuantによるKVキャッシュ量子化の仕組み 大規模言語モデル(LLM)は、トレーニングだけでなく日常的な運用においても、かなりのハードウェアリソースを必要とする。特に、高性能グラフィックスカード(GPU)が不可欠であり、そのグラフィックスメモリ(VRAM)の消費が課題となる。LLMでは、各反復処理で新しいトークンが1つずつ生成されるため、計算結果を再利用するKVキ
-
NPCI To Roll Out Unified Soundbox Infrastructure For Merchants: Report
[要約失敗] NPCI To Roll Out Unified Soundbox Infrastructure For Merchants: Report
-
Gemini Intelligence mit hohen Hardwareanforderungen an Smartphones
## スマートフォンの高ハードウェア要件を伴うGemini Intelligence GoogleのAIジェネレーションであるGemini Intelligenceは、高いハードウェア要件を必要とし、Pixel 9 Proや他の多くのスマートフォンでは利用できない可能性がある。 GoogleはAndroid Show I/O EditionでGemini Intelligenceを発表した際、