株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20260526

2026年05月26日

MP3ファイルをダウンロード

内容紹介

Harness, Scaffold, and the AI Agent Terms Worth Getting Right、Distributing LLM inference in DwarfStar、Snowflake Cortex CLI と AI Agent Loop を用いた MLOps 基盤構築、renue、ClaudeCodeの処理完了を通知する「コードだもん ビーコン」をリリース

出演者

ずんだもん
ずんだもん

youtube版(スライド付き)

関連リンク

AIエージェントの分野は急速に進化していますが、それに伴い「Harness(ハーネス)」や「Scaffold(スカフォールド)」といった開発に欠かせない重要用語が、文脈によって異なる意味で使われ、混同されがちです。本記事は、これら曖昧になりがちな用語を整理し、新人エンジニアの方でも直感的に理解できるよう共通のメンタルモデルを提供するものです。

■ 1. エージェントの基本構成:Model、Scaffold、Harness AIエージェントの全体像は、一般的に「エージェント = モデル + ハーネス(+スカフォールド)」として捉えられます。

  • Model(モデル): LLM(Claude、GPT、DeepSeekなど)そのものを指します。テキストを入力してテキストを出力するだけの存在であり、単体では過去の会話を記憶するメモリや処理を繰り返すループを持たず、自らツールを動かすこともできません。
  • Scaffolding(スカフォールド / 足場): モデルの「振る舞い」を定義する層です。システムプロンプト、ツールの説明、モデルの応答をパース(解析)する方法、コンテキスト管理など、モデルが外部世界とどう対話するかを定義する設計図や設定情報を指します。
  • Harness(ハーネス / 実行部): エージェントを実際に「走らせる」ための実行システムです。モデルを呼び出し、モデルから返ってきたツールの実行指示(API呼び出しなど)を実際に処理し、いつタスクを終了するかを判断する「ループ(実行サイクル)」を管理します。

■ 2. エージェントの自律性を支える重要概念

  • Agent(エージェント): モデルにハーネスとスカフォールドを組み合わせ、自律的に思考・行動のループを回せるようにした「システム全体」を指します。
  • Context Engineering(コンテキストエンジニアリング): プロンプトや会話履歴、外部から検索した知識など、モデルのコンテキスト窓に「何を・どう流し込むか」を動的に設計・管理する技術です。
  • Policy(ポリシー): エージェントが特定の状況で取るべき行動ルール。モデル自身の重み(学習データ)だけでなく、周囲のプロンプトやハーネスの制御によって形作られます。
  • Tool Use(ツール使用)とSkills(スキル): 前者は「コマンドを実行する」などの単一のAPI呼び出し。後者は「バグを調査して修正を適用する」といった、複数ステップにわたる再利用可能な知識のパッケージです。
  • Sub-agents(サブエージェント): 特定のタスクを肩代わりさせるために、親エージェントから呼び出される独立したエージェントです。

■ 3. モデルの「トレーニング(学習)」に関する用語 エージェントの性能を向上させる強化学習(RL)の文脈では、以下の用語が使われます。

  • RL Environment(環境): エージェントがツール呼び出しなどのアクションを実行し、状態を変化させる対象(ファイルシステムなど)。
  • Trainer(トレーナー): エージェントを多数実行し、スコアを元にモデルの重みを更新するシステム。
  • Rollout(ロールアウト): エージェントの開始から終了までの一連の行動履歴(ログ)。
  • Reward(報酬): 実行結果が正しかったかを判定するスコア。

■ まとめ CursorやClaude Codeなどのエージェント製品は、仮に同じベースモデルを使っていても、独自の「ハーネス」や「スカフォールド」の設計によって使い心地や性能が劇的に変わります。「モデル」「スカフォールド」「ハーネス」という3つのレイヤーを区別して捉えることで、複雑なエージェントの仕組みがすっきりと理解できるようになります。

引用元: https://huggingface.co/blog/agent-glossary

高価なNVIDIA製GPUを使わずに、一般家庭や小規模なオフィス環境で巨大な大規模言語モデル(LLM)を動かすための「分散推論(Distributed Inference)」の手法について、Redisの作者であるantirez氏が考察した記事です。

現在、ローカル環境でLLMを動かす現実的な手段として、大容量の統一メモリ(Unified Memory)を搭載したMac Studio等のApple製品が重宝されています。例えば、M3 Ultra(512GBメモリ)を搭載したMac Studioであれば、最先端モデルであるDeepSeek v4 PROの量子化版を実用的な速度で動作させられます。しかし、今後のハードウェアの進化スピードやメモリコストの上昇を考えると、単一の超高額マシンに頼り続けるのには限界があります。そこで、手元にある複数台のマシン(例:MacBook Pro M5 Maxなど)を連携させて推論を行う「分散推論」が非常に魅力的な選択肢となってきます。

本記事では、複数台の限られたリソースを連携させるための3つの分散アプローチを提案・比較しています。

  1. レイヤー分割(順次実行) LLMのレイヤー(層)をマシンAとマシンBに半分ずつロードし、順番に処理をバトンタッチしていく手法です。マシン間で送受信するデータはレイヤー間の中間データ(アクティベーション)のみで済むため、非常にシンプルです。「マイクロバッチング(処理の細分化)」を適用することで、入力プロンプトの初期処理(プレフィル)を大幅に高速化でき、マシンの発熱も抑えられます。

  2. エキスパートの並列実行(垂直分割) MoE(Mixture of Experts:特定の処理に特化した複数のネットワークを切り替える仕組み)モデルにおいて、双方のマシンにすべてのエキスパートをロードしておき、処理を並列に分担する手法です。一般家庭のネットワーク環境では、GPU同士を繋ぐような超高速通信(NVLink等)が利用できないため細かい並列化(テンソル並列など)は困難ですが、この手法であれば通信量を抑えつつ並列化できる可能性があります。

  3. アンサンブル(共有なし) 複数台のマシンでそれぞれ異なるLLMを完全に独立して動かし、最終的な出力データ(ロジット)や、最も確証度が高いテキストを最後に統合・選択する手法です。推論中の中間通信が一切発生しないため、ネットワークの帯域を気にする必要がありません。最新の研究では、この手法により、それぞれのLLMの知識が補完し合い、単一で動かすよりも推論精度が向上することが示されています。

通信帯域が限られるローカルのマルチマシン環境において、この「アンサンブル」を利用した分散推論は非常に現実的かつ強力なアプローチであり、今後の開発や検証が大いに期待される分野です。

引用元: http://antirez.com/news/167

本記事は、機械学習(ML)の専門知識や運用基盤が十分に整備されていない組織において、AIエージェントを活用してモデルの選定から本番リリースまでを自動化する「MLOps(機械学習運用)基盤」の構築事例を紹介しています。

従来のシステムのようにあらかじめ決められたデータパイプラインを実行するのではなく、状況に応じて動的な意思決定ができる「AIエージェントベース」の仕組みを採用している点が最大の特徴です。これにより、MLOpsに詳しくないメンバーでも扱いやすく、要件変更にも柔軟に対応できるシステムを実現しています。

■ 全体の流れと進捗の可視化 開発や運用の進捗状況は、使い慣れたGitHub IssueやSlack、GitHubカンバンを通じて人間がリアルタイムに確認・レビューできます。

  1. Snowflake上への学習用データの準備
  2. 実践したい内容(やりたいこと)を記述した「GitHub Issue」を作成
  3. 4つのAIエージェントが連携する「AI Agent Loop」を起動
  4. 各フェーズが完了するとSlackへの通知とカンバンの移動が行われ、人間がレビューした後に次のステップへ進む

■ 4つの役割特化型AIエージェント 本基盤では、MLのワークフローを以下の4つのエージェントに分割して処理させています。

  1. snowflake-plan(計画・準備): 必要な機械学習の実行環境をSnowflake上に自動で準備し、実行計画を作成します。
  2. snowflake-develop(開発・評価): テスト環境でデータの前処理やモデルの学習・比較を行い、最も精度の高かったモデルを選定します。データリーク(未来のデータを学習に使ってしまうミス)の自動チェック機能も備えています。
  3. snowflake-verify(本番検証): 選定された最良モデルの構成を、本番環境のデータに適用して再検証します。
  4. snowflake-release(リリース): 検証済みのモデルをSnowflakeの管理機能に登録し、本番のWebサービス等で使えるよう設定を更新します。

■ AI自動化と状態管理の仕組み ・自然言語による操作(Skills & Cortex): Snowflakeの操作には「Cortex CLI」を使用しており、AIエージェントが自然言語に近い形で「〇〇というNotebookを作成して」などの指示を送り、自動で操作を実行します。 ・状態ファイル(mlops-state.json)による管理: エージェント自身は状態を持たず、この共通のJSONファイルを読み書きすることで「現在のフェーズ」や「選定されたモデル情報」をバトンタッチします。これによりエージェント同士が密に依存し合わない、シンプルな連携を実現しています。

本取り組みは、単なるプログラムの自動実行にとどまらず、AIエージェントが状況を判断しながら自律的にMLワークフローを進め、人間と協調して本番運用までを繋ぐ、実用的な次世代MLOps基盤の好例です。

引用元: https://zenn.dev/sirok/articles/13bcaed37f893c

株式会社renueは、AIコーディング支援ツール「Claude Code」の処理完了を通知するUSBガジェット「コードだもん ビーコン」を発売しました。これは、時間のかかるAIの処理完了を検知し、デスク上の「ずんだもん」が上下に動いて視覚的に知らせる無音設計のデバイスです。ドライバ不要でPCに挿すだけで使え、画面を見続けずに別作業に集中できるため、エンジニアの作業効率化と癒やしを同時に提供します。

引用元: https://prtimes.jp/main/html/rd/p/000000042.000091210.html

(株式会社ずんだもんは架空の登場組織です)