株式会社ずんだもん技術室AI放送局 podcast 20260507
内容紹介
Building for the Rising Complexity of Agentic Systems with Extreme Co-Design、How frontier enterprises are building an AI advantage、vLLM V0 to V1: Correctness Before Corrections in RL、Gemini で「うちの子」を壁紙や名画に。コピペで試せるペット写真アレンジ 10 選【Part 1】
出演者
youtube版(スライド付き)
関連リンク
AIの利用形態は、従来の「人間が指示し、AIが答える」チャットボット形式から、AIが自律的にツールを使い、タスクを分割して実行する「エージェント(Agentic Systems)」へと劇的に進化しています。本記事では、この変化がインフラストラクチャに与える影響と、NVIDIAが提唱する「エクストリーム・共同設計(Extreme Co-Design)」について解説しています。
まず、エージェントの特徴として、処理が「構造的に確率論的」であることが挙げられます。チャットボットは線形にやり取りが進みますが、エージェントはメインエージェントがサブエージェントを生成したり、メモリを管理したりするため、トークン消費量が従来の最大15倍に膨れ上がります。また、文脈が増えすぎると精度が下がる「コンテキスト劣化」を防ぐため、要約や圧縮といった高度な管理が必要になります。
この複雑なワークロードを支えるには、単一のプロセッサでは限界があります。そこでNVIDIAは、ハードウェアとソフトウェアを統合的に設計する「Vera Rubin」プラットフォームを提案しています。
- Vera Rubin NVL72: 膨大なHBM(高帯域メモリ)を搭載し、長いコンテキストを低コストで処理。
- Vera CPU: ツールの実行やキャッシュ管理を最適化し、遅延を削減。
- Groq 3 LPX: SRAMベースのアーキテクチャにより、極めて低い遅延でトークンを生成。
- 高速ネットワーク: NVLink 6等により、複数のエージェント間でのデータ共有を高速化。
さらに、ソフトウェア面では「推論の分散化(AFD)」や「投機的デコード」といった技術を組み合わせることで、1兆パラメータ級の巨大モデルでも、400kという広大なコンテキストを維持しながら、1秒間に400トークン以上の高速な応答を実現します。
新人エンジニアにとって重要なポイントは、AIエージェントの普及により、単なる「モデルの賢さ」だけでなく、推論時のコスト効率や遅延を解決する「システム全体のアーキテクチャ」が今後の鍵になるという点です。NVIDIAはこのプラットフォームを通じて、エージェントを「実験室の技術」から「スケーラブルな実用製品」へと引き上げようとしています。
引用元: https://developer.nvidia.com/blog/building-for-the-rising-complexity-of-agentic-systems-with-extreme-co-design/
OpenAIは、企業におけるAI活用の進展を分析した新しいレポート「B2B Signals」を公開しました。本レポートでは、AI活用において上位5%に位置する先進的な企業(フロンティア企業)と一般的な企業を比較し、その活用実態の差が「単なる利用頻度」から「活用の深さ」へと移行していることを明らかにしています。
大きな特徴は、AIによる「複利的なアドバンテージ」が生まれ始めている点です。フロンティア企業の従業員一人あたりのAI使用量(生成トークン数)は、一般的な企業の3.5倍に達しています。重要なのは、この差の要因がメッセージの送信数(36%の影響)ではなく、より複雑で高度なタスクをAIに依頼している「深さ」にあることです。一般的な企業がAIを「質問への回答」に使うのに対し、先進企業は「複雑な業務の実行」のためにAIを活用しています。
また、次の成熟段階として「エージェント型ワークフロー」への移行が顕著です。フロンティア企業では、プログラミング支援のCodexの利用率が一般企業の16倍に達しており、ChatGPT AgentやDeep Researchといった高度なツールを使いこなしています。AIを単なるインターフェースではなく、マルチステップのタスクを自律的にこなす「チームの一員」として扱い、業務そのものを再設計(デリゲーション)しているのが特徴です。
具体的な事例として、CiscoではCodexを開発プロセスに組み込むことで、ビルド時間を20%短縮し、月間1,500時間以上のエンジニア工数を削減しました。また、Travelers InsuranceではAI請求アシスタントを構築し、年間10万件の電話対応を自動化する仕組みを整えています。
AI活用のリーダーとなる企業に共通しているのは、AIをスキルの習得や習慣化のために活用し、従業員の能力を底上げしている点です。今後は、単なるチャットによる支援を超え、AIエージェントへ業務を委譲できる体制を整えることが、企業の競争力を左右する鍵となります。新人エンジニアにとっても、AIを単なる検索ツールとしてではなく、自らの業務を自律的に助ける「エージェント」としてどう使いこなすかが、今後のキャリアにおいて重要な視点となるでしょう。
引用元: https://openai.com/index/introducing-b2b-signals
本記事は、大規模言語モデル(LLM)の推論エンジンである「vLLM」をV0からV1へ移行する際に、強化学習(RL)の学習効率を落とさないための技術的な知見をまとめたものです。特に、推論エンジンの内部的な仕様変更が学習プロセスに与える「学習と推論の不一致(Mismatch)」をどう解消するかに焦点を当てています。
背景と目的
ServiceNow AIの「PipelineRL」では、トークンの生成(ロールアウト)にvLLMを使用しています。RLの学習では、推論エンジンが返す「対数確率(logprobs)」を用いて報酬やポリシーの更新度合いを計算します。そのため、vLLMのバージョンアップによってlogprobsの計算方法がわずかでも変わると、学習曲線が以前と乖離し、学習が不安定になるという問題が発生しました。
修正された4つの重要なポイント
筆者らは、RLのアルゴリズム側で調整を行う前に、まず「推論バックエンドの正確性」をV0と同等に揃えることを優先しました。そのために行った修正は以下の4点です。
-
対数確率のセマンティクス(意味合い)の修正 vLLM V1のデフォルト設定では、温度(Temperature)調整やフィルタリングなどの後処理前の値を返していましたが、学習側は「処理後の分布」を期待していました。これを
logprobs-mode=processed_logprobsに設定することで、意味的な不一致を解消しました。 -
ランタイムのデフォルト設定の統一 V1で導入された「プレフィックスキャッシュ」や「非同期スケジューリング」などの新機能がV0の挙動と異なっていたため、これらを明示的に無効化し、V0と同じ実行パスを通るように設定を固定しました。
-
重み更新のタイミング制御 学習中にモデルの重みを更新する際、V1ではキャッシュの扱いや生成の一時停止方法が異なります。V0と同様に「キャッシュを保持したまま重みを更新する」挙動を再現し、更新によるラグを最小限に抑えました。
-
出力層(lm_head)のFP32精度計算 数値計算上のわずかな誤差もRLにおいては大きな違いとなります。最終層の計算をFP32で行うことで、学習側の数値精度と完全に一致させ、報酬やKLダイバージェンスなどの指標をV0の軌跡に近づけることができました。
結論と新人エンジニアへのアドバイス
本記事の最大の教訓は、「高度な補正アルゴリズムを導入する前に、まずは基盤となる推論バックエンドの正確性を確保せよ」という点です。
システムをアップグレードする際、新しい機能や最適化設定を闇雲に有効にすると、原因特定が困難な不具合(今回のような統計的なズレ)を招くことがあります。まずは「何が変わったのか」を最小単位で切り分け、既存の動作との等価性を担保することが、信頼性の高いAIシステムを構築する近道となります。
引用元: https://huggingface.co/blog/ServiceNow-AI/correctness-before-corrections
GoogleのAI「Gemini」を活用し、ペットの写真をクリエイティブに加工する10のアイデアを紹介する記事です。画像生成モデルを活用し、写真をアップロードして指示を送るだけで、壁紙や名画、あみぐるみ風など多彩なスタイルへ自在に変換できます。エンジニアにとっても、生成AIの具体的なプロンプト例や画像編集の応用可能性を学べる内容で、最新技術を身近な楽しみに活かす好例として役立ちます。
引用元: https://note.com/google_gemini/n/nb1c0145d180e
(株式会社ずんだもんは架空の登場組織です)