株式会社ずんだもん技術室AI放送局 podcast 20260520
内容紹介
The Open Agent Leaderboard、Welcome to Learn Harness Engineering、凄すぎ…「Gemma 4×Claude Code活用術」、API料金ゼロでAIエージェント制作の全手順、『Forza Horizon 6』車が“田んぼ”に侵入する光景が海外ユーザーから心配される。「FH6のイベントはどれも地元住民にとって悲惨なものだ」「すごく申し訳ない気持ちです」などコメント相次ぐ
出演者
youtube版(スライド付き)
関連リンク
AIエージェントの性能は、内部で使用される言語モデル(LLM)の能力だけでなく、ツールの選択、プランニング、メモリ管理、エラー復旧といった「システム全体の設計」に大きく左右されます。IBM Researchなどのチームは、このエージェントシステム全体を統合的に評価・比較するためのオープンなベンチマーク「The Open Agent Leaderboard」を公開しました。
このリーダーボードの最大の特徴は、エージェントの「成功率(品質)」だけでなく「コスト」も同時に評価している点です。特定のタスクに特化した調整なしで、多様な環境(コーディング、カスタマーサービス、リサーチなど)にどれだけ適応できるかという「汎用性」を測定しています。評価には、SWE-Bench VerifiedやAppWorld、tau2-Benchといった、特性の異なる6つの主要ベンチマークが統合されています。
現在までに得られた重要な知見として、以下の点が挙げられます:
- エージェント設計の重要性: 同じモデルを使用していても、エージェントのシステム構成が異なれば、スコアやコストに劇的な差が生じます。
- 汎用エージェントの台頭: 特定のタスク用にチューニングされていない汎用的なエージェントが、すでに特化型システムに匹敵、あるいは上回る性能を発揮し始めています。
- 失敗時のコスト: 失敗した実行は、成功時よりも20〜54%多くのコスト(トークン等)を消費する傾向があります。本番運用においては、性能だけでなく「いかに安く、早く失敗できるか」という振る舞いも重要です。
また、この評価を再現するためのフレームワーク「Exgentic」や、詳細な分析をまとめた論文も公開されています。Exgenticは、異なるベンチマーク環境を統一されたプロトコルで実行し、標準化された結果とコストレポートを出力するプラットフォームです。
新人エンジニアにとっての学びは、AIエージェント開発においては「どのモデルを使うか」だけでなく、「モデルの周囲をどう設計するか(アーキテクチャ)」が信頼性とコスト効率の鍵を握るということです。このリーダーボードは、今後のエージェント開発における標準的な指標となることが期待されます。
引用元: https://huggingface.co/blog/ibm-research/open-agent-leaderboard
AIコーディングエージェントを「ただ動かす」段階から、実務で「信頼できるエンジニアリングツール」として運用する段階へと引き上げるための体系的な学習コース「Learn Harness Engineering」の概要を紹介します。
1. Harness Engineering(ハーネス・エンジニアリング)とは? 「ハーネス」とは、直訳すると「馬具」や「安全帯」を意味しますが、ここではAIモデル(CodexやClaude Codeなど)の周囲に構築する「制御・支援システム」を指します。本コースの核心は、AIモデル自体の知能を上げることではなく、AIが自律的に動くための「環境設計」「状態管理」「検証システム」を構築し、クローズドループ(閉回路)の作業システムを確立することにあります。OpenAIやAnthropicといったトップ企業が提唱する最新の理論をベースにしています。
2. なぜこの技術が必要なのか(背景と制約) 能力の高いAIエージェントであっても、複雑なプロジェクトでは「勝手に完了したと判断する」「文脈(コンテキスト)を見失う」「予期せぬ挙動をする」といった問題が発生します。これらはAIの知能の問題というよりも、AIを正しく導くための「制約(ルール)」や「境界線」が不足していることが原因です。本コースでは、AIに明確なルールを与えることで、バグ修正や機能実装を自動化しつつ、その信頼性を担保する手法を学びます。
3. 本コースで習得できる主要な5つのスキル 新人エンジニアにとっても、AIと協働する上で欠かせない以下の概念をマスターできます。
- エージェントの振る舞いの制約: 明確なルールと境界線によってAIの行動をコントロールする。
- コンテキストの維持: 長時間にわたるマルチセッションのタスクでも、必要な情報を一貫して保持する。
- 早期終了の防止: 作業が不十分な段階でAIが「終わりました」と報告するのを防ぐ。
- 成果の検証: パイプラインテストや自己省察(セルフリフレクション)を用いて、AIの仕事を自動でチェックする。
- 観測可能性(オブザーバビリティ): AIが内部で何を考え、どう動いているのかを可視化し、デバッグ可能にする。
4. まとめ このリソースは、AIエージェントを「魔法の杖」としてではなく、厳密に制御された「システムの一部」として設計・運用するためのガイドです。AIに仕事を丸投げするのではなく、エンジニアが「ハーネス」を通じてAIのポテンシャルを最大限に引き出し、開発プロセスを自動化・高度化するための知識を網羅しています。AIエージェント開発の第一歩として、非常に有益な学習リソースといえます。
引用元: https://walkinglabs.github.io/learn-harness-engineering/en/
生成AIの活用が当たり前になった現在、エンジニアにとっての大きな課題は「高額なAPI利用料」と「プライバシー確保」です。本記事では、2026年の最新技術トレンドである「エッジAI(ローカルLLM)」を活用し、クラウドに依存せず、コストゼロで高度なAIエージェントを構築する手法について解説しています。
かつてAIは巨大なサーバー上で動くものでしたが、現在はノートPCやスマホのブラウザ上で独立して動作する「超小型ローカルLLM」が急速に進化しています。この変化の背景には、AIモデルのサイズを極小化する「量子化」技術の向上があります。これにより、個人のPC環境でも、かつての商用トップモデルに匹敵する性能を、通信不要かつ無料で享受できる時代が到来しました。
■注目される「エッジAI」と「Gemma 4」 Googleが提供するオープンなローカルLLM「Gemma 4」は、ブラウザ上での動作に最適化されており、クラウド型AIで懸念されるデータの二次利用や情報漏えいのリスクを解消します。また、ネットを介さないためタイムラグが極めて少なく、常時稼働させるAIエージェントの開発において圧倒的な優位性を持っています。
■API料金ゼロを実現する開発環境 これまでのAI開発では、AIエージェントを24時間稼働させようとすると多額のAPIコストが発生していました。しかし、最新の「Qwen 3.6」系モデルや、Apple Silicon(Mac)の大容量メモリ、あるいはゲーム用GPUを活用することで、商用APIを一切叩かずに「Claude Code」などのツールを用いた自律的なコーディングやタスク実行が可能になります。
■新人エンジニアが注目すべきポイント
- 量子化技術の理解:巨大なモデルがなぜ手元のPCで動くのか、その仕組みを知ることで、リソースを最適化したアプリ設計が可能になります。
- ブラウザ型AIの可能性:WebGPUなどを通じて、ブラウザさえあればAIが動く環境を構築できます。これはユーザーへの配布が容易であることを意味します。
- AIエージェントの自作:API課金を気にせず試行錯誤できるため、個人的な実験やプロトタイプ制作を無限に繰り返すことができます。
記事内では、これらの技術を組み合わせて「VTuber風の対話型AI」をわずか2日で制作する実践例も紹介されています。クラウド全盛期から「手元でAIを飼い慣らす」時代への転換期。APIコストの壁を取り払い、自由な発想で自分専用のAIアシスタントを作り上げるスキルは、これからのエンジニアにとって必須の教養となるでしょう。今こそ、ブラウザとローカルLLMを武器に、次世代のAI開発に参入する絶好のタイミングです。
引用元: https://www.sbbit.jp/article/cont1/185346
日本が舞台の新作ゲーム『Forza Horizon 6』にて、車で「田んぼ」を爆走する描写が海外で注目を集めています。オープンワールドを自由に走行できる仕様上、農地を容赦なく荒らす光景に、海外ユーザーから「農家が気の毒だ」と心配や同情の声が続出。リアルなグラフィックが生んだ、日本文化に対する意外な反応が話題です。最新技術による没入感が、思わぬユーザー心理を創出している興味深い事例といえます。
引用元: https://news.denfaminicogamer.jp/news/260519i
(株式会社ずんだもんは架空の登場組織です)