株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

私立ずんだもん女学園放送部 podcast 20260109

2026年01月09日

MP3ファイルをダウンロード

内容紹介

Dynamic context discovery、Accelerating LLM and VLM Inference for Automotive and Robotics with NVIDIA TensorRT Edge-LLM、How Tolan builds voice-first AI with GPT-5.1

出演者

お嬢様ずんだもん
お嬢様ずんだもん

youtube版(スライド付き)

関連リンク

エンジニアの間で絶大な人気を誇るAIエディタ「Cursor」が、開発効率と精度を劇的に向上させる新技術「Dynamic Context Discovery(動的コンテキスト探索)」を発表しました。

これまでのAI(コーディングエージェント)は、関連しそうな情報をあらかじめプロンプトにすべて詰め込む「静的コンテキスト」に頼ってきました。しかし、情報が多すぎるとトークン(AIが消費する文字数のようなもの)を無駄に消費し、AIが重要な情報を見失って誤答する原因にもなります。そこでCursorは、AIが必要な時に、必要な情報だけを自ら「探しに行く」仕組みへとシフトしました。

このアプローチの核心は「あらゆる情報を『ファイル』として扱う」という非常にシンプルで強力な工夫にあります。具体的には、以下の5つの方法で実装されています。

  1. 長い実行結果のファイル化: ツールやコマンドの長い実行結果をプロンプトに直接貼るのではなく、一度ファイルに書き出します。AIは必要に応じてそのファイルを読みに行けるため、情報が途中で切り捨てられる(Truncation)のを防げます。
  2. 会話履歴の再検索: 会話が長くなり、過去のやり取りを「要約」して圧縮した際、重要な細部が消えてしまうことがあります。履歴をファイルとして保持することで、AIは要約で分からなくなった情報を後から検索して復元できます。
  3. Agent Skills(スキルの動的読み込み): 特定のタスク(例:特定のライブラリ操作)の手順を記した「スキル」ファイルを、必要な時だけAIがセマンティック検索で見つけ出し、利用します。
  4. MCPツールの効率化: 外部連携ツール(Model Context Protocol)の膨大な定義情報を常に読み込むのではなく、必要なツールの説明だけを動的に読み込みます。これにより、トークン使用量を約47%も削減することに成功しました。
  5. ターミナル履歴の同期: 統合ターミナルの出力をファイルとして同期。AIは「grep」などのコマンドを使って、膨大なログの中からエラーの原因だけを特定できます。

新人エンジニアの方にとって、LLMの「コンテキスト制限(一度に覚えられる量の限界)」は大きな壁に感じられるかもしれません。Cursorのこの技術は、情報を闇雲に詰め込むのではなく、「賢く検索して必要な分だけ取り出す」という、ベテランエンジニアがドキュメントを読み解くような動きをAIにさせている点が非常に画期的です。このアップデートにより、大規模なコードベースでもAIがより正確に、そして高速にサポートしてくれるようになります。

引用元: https://cursor.com/blog/dynamic-context-discovery

NVIDIAは、自動運転車やロボティクスなどのエッジデバイス上で、大規模言語モデル(LLM)や視覚言語モデル(VLM)を高速かつ効率的に動作させるための新しいオープンソースC++フレームワーク「NVIDIA TensorRT Edge-LLM」を発表しました。

背景と開発の目的

これまでLLMの推論フレームワーク(vLLMなど)の多くは、データセンターでの大量の同時リクエスト処理やスループットの最大化を重視して設計されてきました。しかし、自動車やロボットといったエッジ環境では、「単一ユーザーに対する極めて低いレイテンシ」「オフライン環境での動作」「限られたメモリや電力リソース」といった特有の課題があります。TensorRT Edge-LLMは、こうしたエッジ環境特有のニーズに応えるために、ゼロから設計された軽量かつ高性能なソリューションです。

本フレームワークの主な特徴

  1. エッジ特化の軽量設計: C++ベースで依存関係を最小限に抑えており、リソースに制約のある組み込みシステムへの導入が容易です。
  2. 最新の高速化技術:
    • EAGLE-3 投機的デコーディング: 推論速度を劇的に向上させます。
    • NVFP4 量子化: 高い精度を維持しつつ、メモリ消費と計算負荷を削減します。
    • チャンク化プリフィル (Chunked Prefill): 効率的なトークン処理を可能にします。
  3. 高い信頼性: リアルタイム性が求められるミッションクリティカルな製品(自動運転や産業用ロボット)に耐えうる堅牢なパフォーマンスを提供します。

導入のメリットとワークフロー

開発者は、Hugging Faceで公開されているモデルをONNX形式に変換し、ターゲットとなるNVIDIA DRIVE AGX ThorやJetson Thorなどのハードウェアに最適化されたTensorRTエンジンをビルドすることで、即座に推論を実行できます。すでにBoschの車載AIアシスタントやMediaTekのキャビンAIプラットフォームなどで採用が進んでおり、現場での実用性が証明されています。

まとめ

TensorRT Edge-LLMは、NVIDIA JetPack 7.1リリースの一部としてGitHubで公開されており、新人エンジニアにとっても、最新の生成AIを物理デバイスに実装するための強力な武器となります。クラウドに依存しない「自律的なAI」を構築したいエンジニアにとって、今最も注目すべきフレームワークの一つと言えるでしょう。

引用元: https://developer.nvidia.com/blog/accelerating-llm-and-vlm-inference-for-automotive-and-robotics-with-nvidia-tensorrt-edge-llm/

「Tolan」は、ユーザーがパーソナライズされたアニメーションキャラクターとリアルタイムで対話できる、音声特化型のAIコンパニオンアプリです。Portola社の開発チームは、従来のテキストベースのチャットボットとは一線を画す「流動的で自然な音声会話」を実現するために、最新のGPT-5.1を活用しています。

1. GPT-5.1による劇的な改善 最新モデルGPT-5.1の導入は、プロダクトにとって大きな転換点となりました。特に「制御性(Steerability)」が向上したことで、複雑な指示(キャラクターのトーン、過去の記憶、感情表現など)を忠実に守れるようになりました。また、Responses APIの活用により、音声応答の開始時間が0.7秒以上短縮され、人間同士のようなテンポの良い会話が可能になりました。

2. ターンごとのコンテキスト再構築 技術的に興味深いのは、プロンプトのキャッシュをあえて利用せず、会話のターンごとにコンテキストをゼロから再構築している点です。音声会話はテキストよりも話題が急変しやすいため、固定的なキャッシュでは対応しきれません。毎ターン、最新のメッセージ、会話要約、ベクトル検索された過去の記憶、ペルソナ設定、リアルタイムの信号を統合して入力することで、急な話題転換にも柔軟に適応する「迷子にならない会話」を実現しています。

3. 記憶と個性を維持するアーキテクチャ 記憶システムには、OpenAIの埋め込みモデルと高速ベクトルDB「Turbopuffer」を採用し、50ms以下の高速検索を実現しています。また、単に情報を蓄積するだけでなく、毎晩「メモリ圧縮ジョブ」を実行し、不要な情報の削除や矛盾の解決を行うことで、記憶の質を高く維持しています。キャラクター設定にはSF作家や行動科学者が関わっており、会話の感情的な「ノリ」を監視して応答を動的に調整するシステムも組み込まれています。

4. 次世代音声AI開発の4原則 チームは、エンジニアが音声エージェントを構築する際の教訓として以下を挙げています。

  • 会話の揮発性を前提にする: 話題は急変するものとして設計する。
  • レイテンシを体験の一部とする: 1秒未満の応答速度が「機械感」を払拭する。
  • 記憶は検索システムとして作る: 単なるログ保存ではなく、圧縮と高速検索が鍵。
  • コンテキストを毎ターン作り直す: ドリフト(会話の脱線)を防ぎ、常に最新状況に基づかせる。

現在、Tolanは月間アクティブユーザー20万人を超え、高い評価を得ています。エンジニアにとって、大規模言語モデルの能力をいかに音声という制約の多いインターフェースに最適化させるかを示す、非常に優れた事例です。

引用元: https://openai.com/index/tolan

VOICEVOX:ずんだもん