株式会社ずんだもん技術室AI放送局 podcast 20260325

2026年03月25日

内容紹介

Devinで並列開発を実現した～「魔法の杖」を使いこなすために必要だったこと～、Building NVIDIA Nemotron 3 Agents for Reasoning, Multimodal RAG, Voice, and Safety、TurboQuant: Redefining AI efficiency with extreme compression、機械音声の方が人間の声より聞きやすい？「聞く時の消費MPが少ない」というポストから、人間の声と合成音声の違いや聞きやすさの話題に

出演者

ずんだもん

youtube版(スライド付き)

関連リンク

Devinで並列開発を実現した～「魔法の杖」を使いこなすために必要だったこと～

食べログの開発現場において、AIエージェント「Devin」を導入し、3〜4件の案件を並列で進める体制を構築した実践記録です。当初は「タスクを渡せば勝手に完成する魔法の杖」を期待したものの、実際には意図しないコードの生成や手戻りが発生し、かえって工数が増える課題に直面しました。この状況を打破し、AIを強力なパートナーへと変えた「土台作り」の要点がまとめられています。

1. 並列開発の実態：待ち時間を最大活用する ここでの並列開発とは、AIが自律的に全てを完遂するのではなく、Devinの作業待ち時間に人間が別の案件を確認・フィードバックするサイクルを指します。以前は1つのタスクに集中せざるを得ませんでしたが、AIを自走させることで生まれた「隙間時間」を他案件の進行に充てられるようになり、全体のスループットが劇的に向上しました。

2. 成功の鍵：Playbookによる制約と手順の明文化 AIを正しく動かすには、「何をすべきか」という手順（Procedure）だけでなく、「何をしてはいけないか」という禁止事項（Forbidden actions）の定義が不可欠です。「force-pushの禁止」や「N+1問題の回避」など、人間には暗黙の了解であってもAIには伝わらないルールをPlaybookに蓄積しました。不具合やレビュー指摘があるたびにPlaybookを更新し、AIの自律精度を高め続ける「改善サイクル」が並列開発の土台となります。

3. 役割分担：AIは「たたき台」、人間は「レビュー」 AI活用の肝は、役割分担の明確化にあります。設計資料やテストケースの「たたき台」作成をAIに任せることで、作業時間を80〜90%削減。人間は、浮いた時間を「要件との整合性」や「本番環境でのパフォーマンス」といった高度な判断を要するレビューに集中させます。設計段階で人間がしっかりレビューを行うことで、その後のAIによる実装精度も向上するという好循環が生まれています。

新人エンジニアへのメッセージ： AIは魔法ではなく、共に成果を出す「パートナー」です。AIの出力を鵜呑みにするのではなく、自身の知識をもとに適切な制約（Playbook）を与え、質の高いレビューで品質を担保する。この「段取り」と「対話」のスキルこそが、AI時代のエンジニアに求められる強力な武器になります。

引用元: https://tech-blog.tabelog.com/entry/devin-parallel-development

Building NVIDIA Nemotron 3 Agents for Reasoning, Multimodal RAG, Voice, and Safety

NVIDIAはGTC 2026にて、次世代の「エージェント型AI（Agentic AI）」を構築するための最新モデル群「NVIDIA Nemotron 3」シリーズを発表しました。これまでの「単に問いに答えるチャットAI」から、「複雑な計画を立て、自律的に行動するシステム」への転換を支える包括的なツールキットです。

本シリーズの核となるのは、複数の専門モデルが協調して動作するエコシステムです。

Nemotron 3 Super（高度な推論） 120BのハイブリッドMoE（Mixture-of-Experts）モデルで、推論時には12Bのパラメータのみを動かすため、非常に高いスループットを実現しています。100万トークンのコンテキストウィンドウに対応し、コーディングや数学、複雑な関数呼び出しといった「エージェントの思考」の役割を担います。
Nemotron 3 Content Safety（マルチモーダル安全ガードレール） テキストと画像の両方を監視できる4Bの軽量モデルです。エージェントの入出力だけでなく、RAG（検索拡張生成）で取得した情報の有害性もリアルタイムで検閲します。多言語に対応し、プロダクション環境でも低レイテンシで動作します。
Nemotron 3 VoiceChat（リアルタイム音声対話） 音声認識・言語モデル・音声合成を個別に繋ぐ従来方式ではなく、音声から音声を直接生成するエンドツーエンドの12Bモデルです。300ms以下の低レイテンシを実現し、会話への割り込みも可能な自然な音声対話を可能にします。
マルチモーダルRAGと理解（Embed/Rerank VL & Nano Omni） PDF内の図表やチャートを理解して検索できる「Llama Nemotron Embed/Rerank VL」や、ビデオ・音声・GUI画面を統合的に理解する「Nano Omni」により、視覚情報を含めた高度な情報検索が可能になります。
評価と最適化ツール（NVIDIA NeMo）
- NeMo Evaluator: エージェントの性能を一貫した基準で評価・比較するためのツールです。
- NeMo Agent Toolkit: エージェントシステムのレイテンシのボトルネックやコストを可視化し、システム全体を最適化するためのオープンソースフレームワークです。

これらのモデルはNVIDIAの寛容なライセンスで提供されており、特定の企業データに合わせたチューニングや、セキュリティ要件に応じたオンプレミス展開も可能です。新人エンジニアにとっても、各機能がモジュール化されているため、AIエージェントの設計思想を学ぶ上で非常に優れた指標となるスタックといえます。

引用元: https://developer.nvidia.com/blog/building-nvidia-nemotron-3-agents-for-reasoning-multimodal-rag-voice-and-safety/

TurboQuant: Redefining AI efficiency with extreme compression

Google Researchを中心としたチームが発表した「TurboQuant」は、AIモデル（特に大規模言語モデル：LLM）の推論を劇的に効率化する新しい圧縮アルゴリズムです。LLMのデプロイメントにおいて大きな課題となっているメモリ消費と推論速度の問題を、数学的なアプローチで解決しています。

解決したい課題：KVキャッシュの肥大化

LLMが長いテキストを処理する際、過去の情報を保持するために「KV（Key-Value）キャッシュ」という仕組みを使います。しかし、このキャッシュは膨大なメモリを消費し、システムのボトルネックとなっていました。従来の「量子化（データを軽量化する技術）」では、圧縮の際に「調整用の定数」をデータごとに保存する必要があり、それが余分なメモリ消費（オーバーヘッド）を生むという弱点がありました。

TurboQuantの2つの革新技術

TurboQuantは、以下の2つの手法を組み合わせることで、精度を維持したまま「メモリ消費のムダ」を徹底的に排除します。

PolarQuant（極座標量子化）: 通常、データは直交座標（XYZなど）で扱われますが、これを「角度」と「半径」で表す極座標に変換します。これによりデータの分布が予測しやすくなり、従来の量子化で必要だった「調整用の定数」をほぼゼロにできるため、オーバーヘッドのない極限の圧縮が可能になります。
QJL（Quantized Johnson-Lindenstrauss）: わずか「1ビット」の情報を用いて、圧縮時に発生した微細な数学的誤差を修正する技術です。これにより、極限までデータを削っても、AIが重要度を判断する「アテンション・スコア」の精度が損なわれません。

圧倒的な成果

実験では、GemmaやMistralといった主要なオープンソースLLMを用い、以下の驚異的な結果を示しています。

メモリ削減: AIの精度を一切落とさずに、KVキャッシュのメモリサイズを6分の1以下（3ビット）にまで削減。
高速化: H100 GPUにおいて、量子化を行わない場合と比較して最大8倍の高速化を実現。
検索の効率化: 高次元のベクター検索においても、従来手法より高精度かつ高速に動作。

エンジニアへのメッセージ

TurboQuantは単なる実装の工夫ではなく、理論的限界に近い効率を数学的に証明した頑健なアルゴリズムです。LLMの実行コストを下げつつ、より長い文脈を高速に扱えるようにする本技術は、今後のAIインフラを支える重要な基盤となるでしょう。大規模なAIアシスタントや高度な検索システムの構築に携わるエンジニアにとって、見逃せない進化と言えます。

引用元: https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

機械音声の方が人間の声より聞きやすい？「聞く時の消費MPが少ない」というポストから、人間の声と合成音声の違いや聞きやすさの話題に

機械音声（ずんだもん等）が人間の声より聞きやすいというSNSの話題が注目されています。人間の声は感情や癖、突発的な音の変化など情報量が多く、脳が処理する際に「消費MP（精神力）」を多く使いますが、合成音声は抑揚が安定しており「活字」のように楽に聴けるのが利点です。新人エンジニアにとっても、AI音声の受容性やUXにおける「脳への負荷」という視点は、今後の開発に役立つ興味深い知見と言えます。

引用元: https://togetter.com/li/2678330

お便り投稿フォーム

（株式会社ずんだもんは架空の登場組織です）