株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

私立ずんだもん女学園放送部 podcast 20260313

2026年03月13日

MP3ファイルをダウンロード

内容紹介

From model to agent: Equipping the Responses API with a computer environment、The Anatomy of an Agent Harness、【AIエージェントの内部構造】長時間タスクを完遂させる「エージェントハーネス」の概要と設計・実装、正確な確率に基づいた転生シミュレーションゲームを作ろうとしたらほとんどの場合オキアミに転生して運がいいとアリになれるクソゲーだったから断念した

出演者

お嬢様ずんだもん
お嬢様ずんだもん

youtube版(スライド付き)

関連リンク

OpenAIは、モデルが単にテキストを生成する段階から、複雑なワークフローを自律的に遂行する「エージェント」へと進化するための基盤として、Responses APIにコンピュータ実行環境を統合する手法を公開しました。これは、新人エンジニアにとっても、次世代のAIアプリケーションがどのような仕組みで動くのかを理解するための重要なガイドラインとなります。

本記事の主要なポイントは以下の通りです。

  1. シェルツールの導入 これまでのCode InterpreterはPythonの実行に特化していましたが、新しい「シェルツール」はUnix標準のコマンドライン(grep, curl, awkなど)を扱えます。これにより、GoやNode.jsの実行、複雑なネットワークリクエストなど、これまで以上に幅広いタスクをモデルが直接実行できるようになります。

  2. オーケストレーションの自動化 Responses APIが「モデルがコマンドを提案 → ホストされたコンテナで実行 → 結果をモデルへ戻す」というループを自動で管理します。これには、出力のストリーミングや、複数のコマンドを並列で動かすマルチセッション機能も含まれており、開発者が自前で実行制御システムを組む必要がなくなります。

  3. コンパクション(文脈の圧縮) タスクが長期化するとLLMのコンテキストウィンドウ(記憶容量)がいっぱいになりますが、 Responses APIには会話の状態を効率的に要約・圧縮する「コンパクション機能」が内蔵されました。これにより、長時間の作業でもモデルの精度を維持したまま続行可能です。

  4. 安全なコンテナ環境 モデルは専用の隔離されたコンテナ内で動作します。大きなデータセットをプロンプトに直接流し込むのではなく、コンテナ内のファイルシステムやSQLiteデータベースを活用することで、コストを抑えつつ高速な処理を実現します。また、外部通信はプロキシ経由で制御され、機密情報の漏洩を防ぐ仕組みが整っています。

  5. エージェント・スキルの再利用 よく使う手順を「スキル」としてパッケージ化し、モデルが必要に応じてこれを発見・実行できる仕組みを導入しました。これにより、一から手順を考える無駄を省き、安定した結果を得ることが可能になります。

総じて、本アップデートは「プロンプトエンジニアリング」の時代から、AIに適切な「道具と環境」を与えて仕事を完結させる「エージェントエンジニアリング」への移行を象徴する内容となっています。

引用元: https://openai.com/index/equip-responses-api-computer-environment

本記事は、LangChainが提唱するAIエージェントの構成概念「Agent = Model + Harness」について解説したエンジニア向けのガイドです。モデル(知能)を実社会で役立つシステムにするための「ハーネス(Harness)」の重要性と、その具体的な設計要素を明らかにしています。

1. ハーネスとは何か?

LLMは単体ではテキストの入出力しか行えません。これを「エージェント」として機能させるために、エンジニアがモデルの周囲に構築するコード、設定、実行ロジックの総称が「ハーネス」です。新人エンジニアがまず理解すべきは、「モデルが知能であり、ハーネスがそれを利用可能な形にする仕組み」であるという点です。

2. ハーネスの主な構成要素と役割

モデルの限界を補い、有用なワークフローに変えるために以下の機能が設計されます。

  • ファイルシステム: データの永続化とコンテキストの管理を担います。モデルが一度に扱える情報量には限りがあるため、外部ストレージを作業場として提供し、情報の退避や再読み込みを可能にします。
  • コード実行とサンドボックス: モデルにBash等の実行環境を与えます。固定のツールだけでなく、エージェントが自らコードを書いて実行・検証できる環境を「サンドボックス(隔離空間)」で提供し、安全に問題を解決させます。
  • コンテキスト管理(コンテキスト・ロットへの対策): 会話が長くなるとモデルの推論能力が低下する現象を防ぐため、情報の要約(Compaction)や、不要なツール出力をファイルへ逃がす制御をハーネスが行います。
  • Ralph Loop(長期実行): モデルが作業を途中で投げ出さないよう、ハーネスが実行状態を監視し、目標達成までプロンプトを再注入してループを回し続ける仕組みです。

3. ハーネス設計の未来

今後モデル自体が高度化し、自ら計画や検証を行う能力が向上しても、システムとしてのハーネスの重要性は揺るぎません。特定のタスクに最適化された環境整備、耐久性のある状態管理、検証ループの構築といった「ハーネスエンジニアリング」こそが、AIエージェントの実用性を左右する鍵となります。

これからエージェント開発に携わるエンジニアにとって、プロンプトの調整だけでなく、モデルを支える周辺システムをいかに堅牢に設計するかが、優れたプロダクトを生むための重要なスキルとなります。

引用元: https://blog.langchain.com/the-anatomy-of-an-agent-harness/

ChatGPTなどの大規模言語モデル(LLM)の進化により、人間のように自律的にタスクを遂行する「AIエージェント」がビジネス現場で大きな注目を集めています。特に、数十のファイルにまたがるコード修正やテストを自律的に繰り返す「コーディングエージェント」は、すでに実用レベルに達しています。しかし、人間が数時間かかるような複雑なタスクを、LLMが単体で完遂するのは容易ではありません。この記事では、長時間にわたるタスクを安定して実行させるための重要な基盤技術「エージェントハーネス」について解説しています。

1. LLMだけでは「長距離走」ができない理由

LLMが一度に扱える情報量(コンテキストウィンドウ)には上限があります。長時間のタスクでツールの呼び出しを数百回と繰り返すと、入出力内容が蓄積されて古い情報から順に消えてしまい、当初の目的や重要な途中経過が失われる「忘却」が発生します。また、ツール実行中にエラーが起きた際、モデル単体では元のループへ適切に復帰できないこともあります。これらは「モデルの賢さ」とは別の、システム的な管理の問題です。

2. 「エージェントハーネス」:モデルを支えるOS

こうした課題を解決するのが、モデルを包み込んでタスクを管理するインフラ「エージェントハーネス」です。これはPCの構成に例えると、LLMが計算を担う「CPU」であるのに対し、ハーネスはシステム全体を制御する「OS」に相当します。どれほど強力なCPU(LLM)があっても、OS(ハーネス)がなければアプリケーション(タスク)を安定して動かすことはできません。

3. ハーネスが担う3つの主要な役割

新人エンジニアの方にとって、ハーネスの役割は以下の「3つの管理機能」として捉えると理解しやすくなります。

  • コンテキスト管理(メモリ管理): コンテキストウィンドウの使用量を監視し、不要になった古い情報を要約・圧縮して「記憶」を整理します。また、大きなデータを一時的に外部ファイルへ退避させるなど、限られたメモリ空間を効率的に使います。
  • ツール実行管理(I/O管理): ファイル操作やWeb検索などの外部ツールへの接続口を提供します。ツール実行時にエラーが発生した場合は、それを捕捉してモデルが理解できる形式でフィードバックし、適切な再試行を促します。また、危険な操作を防ぐアクセス制御も行います。
  • タスク計画(プロセス管理): 複雑なタスクを小さなステップに分解し、必要に応じて「子エージェント」へ作業を委譲します。全体の進捗を追跡し、最終的なゴールまでエージェントを導く司令塔となります。

まとめ

実用的なAIエージェントの開発においては、最新のLLMを使うだけでなく、その「外側」にどのような制御ロジック(ハーネス)を構築するかが鍵となります。LangChainが公開している「DeepAgents」などのオープンソースも参考にしながら、タスクの特性に合わせた「管理の仕組み」を設計することが、エンジニアにとって重要なスキルとなります。

引用元: https://codezine.jp/article/detail/23340

地球上の全生物の個体数比率を忠実に再現した転生シミュレーターの開発を試みたところ、大半の結果がオキアミ、運が良くてもアリという極端な確率になり断念したという話題です。微生物を除外しても人間になれる確率は絶望的に低く、仕様をリアルに寄せすぎるとゲーム性が崩壊するという教訓が含まれています。「現実のデータ分布をそのままロジックに落とし込む難しさ」を、エンジニアならクスっと笑いながら理解できる内容です。

引用元: https://togetter.com/li/2673814

VOICEVOX:ずんだもん