株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260629

2026年06月29日

MP3ファイルをダウンロード

内容紹介

Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction、🚀ローカル LLM 選び、もう「VRAM に入る一番デカいやつ」で決めるの卒業しよ? - whichllm を RTX 4060 Ti 16GB で測ってみた、ループエンジニアリングを takt exec で気軽に始めよう、「+65」から始まる番号から不審な電話がありAIに「調べて」とお願いしたら急に通話発信をしはじめて焦った話…その後「絶対に折り返さないように」と言い出してコント

出演者

春日部つむぎ
春日部つむぎ

youtube版(スライド付き)

関連リンク

本記事は、Pixelデバイス上で動作する「Gemini Nano」の推論速度を、Multi-Token Prediction(MTP)技術を用いて劇的に向上させた事例を紹介しています。

モバイル環境のLLM推論における最大の課題は、限られたメモリと電力リソースの中で、逐次的なトークン生成(自己回帰)による処理のボトルネックを解消することです。従来の推論高速化手法である「投機的デコード(Speculative Decoding)」では、別個の軽量モデルをドラフト用として用意する必要がありましたが、これはメモリ消費やコンテキスト共有の観点で非効率でした。

今回導入されたアーキテクチャの要点は以下の3点です。

  1. Frozen BackboneへのMTPヘッド追加: 既存のGemini Nano v3の重みを固定(Frozen)したまま、末端に軽量な「MTPヘッド」を統合しました。モデル本体の重みを維持するため、安全性能や出力品質を損なうことなく、純粋な効率化を実現しています。
  2. Zero-copyアーキテクチャ: MTPヘッドが独自に履歴を持つのではなく、メインモデルが保持するKVキャッシュを直接参照(クロスアテンション)する設計を採用しました。これにより、メモリの二重消費を抑え、ドラフト用モデルによるメモリ負担を約130MB削減しています。
  3. 推論効率の大幅な向上: メインモデルの中間層が処理した高次元な内部状態を直接利用できるため、従来の独立したドラフトモデルと比較して、推論速度が最大50%以上向上しました。

この手法により、AI要約や校正機能などのPixel上の機能が、より低消費電力かつ高速に実行可能となりました。エンジニアにとって、既存の大規模なモデルを再学習させずに、効率的な推論ヘッドを後付けすることでエッジAIの性能を最大限に引き出す、非常に実用的かつ効率的なアーキテクチャ設計と言えます。

引用元: https://research.google/blog/accelerating-gemini-nano-models-on-pixel-with-frozen-multi-token-prediction/

ローカルLLMを動かす際、モデルのサイズ(VRAM容量)だけで判断してしまい、実行速度が遅くて後悔した経験はありませんか?本記事では、手元のハードウェア構成(GPU/CPU/RAM)に基づき、実用的なパフォーマンスを発揮するローカルLLMを自動判定・ランキングしてくれるCLIツール「whichllm」を紹介しています。

「whichllm」の主な特徴は以下の通りです。

  • 総合的な評価: 単にVRAMに収まるかだけでなく、ベンチマークスコアや推定推論速度(tok/s)を考慮し、実用性の高いモデルを提案します。
  • シミュレーション機能: --gpu 引数を使えば、手元にないハイエンドGPU(例:RTX 5090)でどのモデルがどの程度動くかを事前検証できます。
  • 柔軟なプランニング: planupgrade コマンドにより、将来的なハードウェア増強時のパフォーマンスの変化や、特定のモデル(Llama 3 70B等)を動かすために必要なスペックを即座に把握できます。

新人エンジニアがこのツールを活用するメリットとして、ローカルLLMの選定に迷う時間を大幅に短縮できる点が挙げられます。また、VS Codeのタスク設定と組み合わせることで、検証環境を効率的に構築可能です。なお、Windows環境で利用する際は、文字化け対策(PYTHONUTF8=1の設定)や管理者権限での実行が必要になる場合があるため、記事内のTipsを参考にしてください。

「とりあえず最大サイズ」という選び方を卒業し、自身の環境で「気持ちよく動く」モデルを見つけるための初速を上げるツールとして、非常に有用な選択肢となるでしょう。

引用元: https://qiita.com/aktsmm/items/6b2ef723c2e660c93731

「ループエンジニアリング」とは、AIエージェントへの指示とレビューの往復作業を、人間ではなくシステムに自動化させる設計思想です。本記事では、このループエンジニアリングをCLIツール「TAKT」のtakt execモードで手軽に体験する方法が解説されています。

takt execを利用すると、対話形式でタスクを依頼し、/goと入力するだけで、作業担当(ワーカー)とレビュー担当(レビュアー)のループが自動的に実行されます。また、/setupコマンドを用いることで、エージェントの構成(ワーカーやレビュアーの増員)や、知識・ポリシーのカスタマイズ、モデルの使い分けが可能です。これにより、特定の工程を専門化し、精度を高めることができます。

TAKTの特徴は、処理がブラックボックス化されず、決定論的に動作する点にあります。ワークフローは透明性が高く、実行内容はコードとして管理・修正が可能です。これにより、AIが「何をしているか」をエンジニアが把握・制御しやすくなっています。まずはnpm install -g taktから環境を構築し、実際の開発フローにループを取り入れてみることを推奨しています。

引用元: https://zenn.dev/nrs/articles/e4a2ae8a9fb785

Android版Geminiで不審な電話番号を検索しようとした際、AIが連携機能で勝手に発信してしまったという体験談。AIは対話の文脈から「通話」を試みることがあります。同様の意図せぬ発信を防ぐには、設定の「パーソナルインテリジェンス」から「電話」のアプリ連携をオフにするのが有効です。AIの便利な機能も、意図しない挙動には注意が必要という教訓的なエピソードとして、エンジニア間でも話題になっています。

引用元: https://togetter.com/li/2713993

VOICEVOX:春日部つむぎ