株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20260402

2026年04月02日

MP3ファイルをダウンロード

内容紹介

Holo3: Breaking the Computer Use Frontier、Ubieにおける一年間のセキュリティ分析AIエージェントの運用、OpenClaw Arena UniClaw、匿名掲示板シミュレーター AIが匿名掲示板風スレを生成

出演者

ずんだもん
ずんだもん

youtube版(スライド付き)

関連リンク

本記事は、自律型エンタープライズの実現を目指すH社が発表した、コンピュータ操作(Computer Use)に特化した最新AIエージェント「Holo3」の紹介記事です。Holo3は、デスクトップPCの操作能力を測る主要ベンチマーク「OSWorld-Verified」において、78.85%という業界最高水準のスコアを達成し、既存の巨大なプロプライエタリ・モデルを凌駕する性能を示しました。

【技術的な核心:Agentic Learning Flywheel】 Holo3の強みは、モデルの「知覚」と「意思決定」を継続的に磨き上げる「Agentic Learning Flywheel(エージェント学習の弾み車)」という特殊なトレーニングパイプラインにあります。

  1. 合成ナビゲーションデータ:人間とAIの指示に基づき、多様な操作例を生成。
  2. ドメイン外拡張:未知のUIや予期せぬ挙動にも対応できるよう、プログラムを用いてシナリオを増幅。
  3. 厳選された強化学習(Curated RL):高度なフィルタリングを経たデータを用いた強化学習により、タスク実行の精度を最大化しています。

【実用性を支える「合成環境工場」と評価指標】 開発チームは、現実の企業システムを模した環境を自動生成する「Synthetic Environment Factory」を構築しました。コーディングエージェントがウェブサイトをゼロから構築し、そこで複雑なタスクをエージェントに実行させることで、実務に近い訓練を行っています。 さらに、独自の評価指標「H Corporate Benchmarks」を導入。これは、PDFから備品の価格を取得し、予算と照らし合わせ、個別に対象者へメールを送るといった、複数のアプリケーションを跨ぐ高度な推論と持続的な作業が必要な486のタスクで構成されています。

【効率的なモデル構成とオープン化】 Holo3-122B-A10Bは、122B(1220億)の総パラメータを持ちつつ、実行時に動くのは10B(100億)という効率的なアーキテクチャを採用しています。これにより、GPT 5.4やOpus 4.6といった超巨大モデルに比べて遥かに低コストで運用可能です。また、より軽量な「Holo3-35B-A3B」はApache 2.0ライセンスでオープン公開されており、誰でも利用・開発が可能です。

【新人エンジニアへのメッセージ】 「AIがPCを操作する」技術は、単なる自動化から、未知のソフトウェアをリアルタイムで学習・操作する「Adaptive Agency(適応型エージェント)」の段階へ進化しようとしています。Holo3のように軽量で高性能なオープンモデルが登場したことで、特定の業務に特化したエージェントを自分たちで構築・改善できるエキサイティングな時代が到来しています。最先端のベンチマーク手法や、合成データを用いた学習サイクルを理解することは、これからのエンジニアにとって大きな武器になるはずです。

引用元: https://huggingface.co/blog/Hcompany/holo3

Ubie社が約1年間にわたり運用してきた、セキュリティ分析AIエージェント「Warren」の実践的な知見をまとめたドキュメントです。新人エンジニアの方にとっても、生成AIを実際の業務フローに組み込む際の「一歩進んだ活用術」として非常に参考になる内容です。

■ セキュリティ分析とAIエージェント「Warren」 セキュリティ分析とは、EDRや脆弱性スキャナーなどのツールが検知した膨大な「アラート」を調査し、それが「本当に危険な攻撃(真の陽性)」か、あるいは「正当な業務による誤検知(偽陽性)」かを判断する業務です。従来は熟練のエンジニアが数十分かけてログを検索し、文脈を読み解く必要がありました。 これに対し、Ubieが開発した「Warren」は、Claudeなどの高性能なLLMを搭載したAIエージェントです。単なる要約ツールではなく、自らツールを使いこなして調査を完結させる能力を持っています。

■ AIエージェント運用のメリット

  1. 圧倒的な情報収集スピード: AIはBigQueryへのクエリ実行、EDRのAPI連携、Slackの履歴検索、GitHub上のコード確認などを数分で並列実行します。人間が「どこに情報があったか」を思い出す手間をすべて代行し、認知負荷を大幅に下げてくれます。
  2. 人間を超える誤検知の判定: 社内環境やログの詳細を突き合わせることで、多くの誤検知を正確に排除できます。推論能力の向上により、現状では人間はAIの出した結論を確認するだけで済むレベルに達しています。

■ 実践で得られた「AIを使いこなすコツ」

  • 忖度させないプロンプト設定: AIはリスクを大げさに言ったり、ユーザーに合わせたりする傾向(忖度)があります。そのため、「真実を追求せよ」「複数の解釈を検討せよ」「反証を探せ」といった厳格な思考スタンスをシステムプロンプトで徹底させることが不可欠です。
  • 「データ」ではなく「コンテキスト」を教える: 単にログを見せるだけでなく、ネットワーク構成や社内ルールといった「背景情報(コンテキスト)」を与えることで、判断の質が劇的に向上します。
  • データの引き出し方をガイドする: AIが自発的に動けるよう、データベースのスキーマ解説や、クエリのサンプル(Runbook)を事前に学習・登録しておくことが重要です。

■ 運用コストと今後の展望 最新モデル(Claude Opusなど)を使用すると、分析1件につき数百円〜千円以上のコストがかかる場合もあります。しかし、「24時間いつでも呼べるTier 1アナリスト」を雇うコストと考えれば、非常にタイパが良い投資といえます。今後は、重大インシデントへの対応や、過去の分析結果を再利用する「記憶管理」の仕組み作りが次の挑戦となります。

生成AIを「チャットツール」としてだけでなく、業務プロセスの中心を担う「自走するエージェント」としてどう育てるか。そのための具体的なヒントが詰まった知見です。

引用元: https://zenn.dev/ubie_dev/articles/ai-sec-alert-ops

本ドキュメントは、AIモデルが「エージェント」として実際のタスクをどれだけ遂行できるかを評価するランキング「OpenClaw Arena」の最新結果をまとめたものです。従来のLLM(大規模言語モデル)の評価は、知識を問うベンチマークテストが主流でしたが、本アリーナでは「実際のタスク」「実際の環境」での実行結果を重視しており、実務におけるAIの有用性を測る指標として非常に注目されています。

新人エンジニアの皆さんがこのランキングを読み解く上で、注目すべきポイントを3つに整理しました。

  1. 「Flash」や「Fast」モデルの躍進 ランキングのトップ層には「Step 3.5 Flash」や「Grok 4.1 Fast」がランクインしています。興味深いのは、OpenAIの「Gpt 5.4」やAnthropicの「Claude Opus 4.6」といった、推論能力が非常に高いとされるフラグシップモデルよりも、高速・軽量なモデルが上位に位置している点です。これは、AIエージェントとして複雑な手順を実行する場合、単体の賢さだけでなく、動作の軽快さや一貫した実行力が重要になることを示唆しています。

  2. 統計的な見方(Rank Spread) 表にある「Rank Spread」は、統計的な信頼区間をベースにした順位の変動幅を示しています。例えば「1–3」とある場合、現時点では1位だが、データの誤差を考慮すると3位までの可能性があるという意味です。対戦数(Battles)が多いほど、そのモデルの真の実力が確定していきます。

  3. 多様なモデルの登場 Google、OpenAI、Anthropicといった主要な開発企業だけでなく、Stepfun(Step 3.5 Flash)やMinimax(Minimax M2.7)、Deepseekといった新興勢力のモデルが非常に高いスコアを叩き出しています。エンジニアとして、特定の企業のモデルに固執せず、用途(特にエージェントとしての実働)に合わせて最適なモデルを選択する視点が、今後の開発ではますます重要になります。

この「OpenClaw Arena」のような実務重視の評価は、カタログスペックだけでは見えない「現場での使い勝手」を教えてくれます。AIエージェントを活用したシステム開発を検討する際、どのモデルが「実務に強いのか」を判断する非常に優れたガイドになるでしょう。

引用元: https://app.uniclaw.ai/arena?tab=costEffectiveness&via=hn

AIを活用して、かつての2ちゃんねるのような匿名掲示板のレスポンスを擬似生成するツールです。タイトルと本文を入力すると、AIが住民の反応を忠実に再現したスレッドを構築します。タイトルは40文字、本文は1000文字まで入力可能で、住民の属性指定という実験的機能も備えています。掲示板特有の殺伐とした雰囲気やノリをAIで再現するという、技術の遊び心が詰まったエンタメ性の高い活用事例です。

引用元: https://fake2ch.com/

(株式会社ずんだもんは架空の登場組織です)