株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20260305

2026年03月05日

MP3ファイルをダウンロード

内容紹介

LangChain Skills、#3|AIが自走し、人間は管制する — Pilot-Tower開発の設計思想、Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model、契約書って甲と乙だと読む気失せるので「あーし」と「オタクくん」にしていただけませんか?→有志が作ってみたら意外と分かりやすい文面になった

出演者

ずんだもん
ずんだもん

youtube版(スライド付き)

関連リンク

LangChain社は、AIコーディングエージェントがLangChainエコシステム(LangChain、LangGraph、Deep Agents)をより正確に扱えるようにするための専門知識パッケージ「Skills(スキル)」の第一弾をリリースしました。

近年の開発現場では「Claude Code」のようなAIエージェントがコードを生成・修正する場面が増えていますが、今回リリースされた「Skills」を導入することで、LangChainに関連するタスクの成功率が従来の29%から95%へと劇的に向上することが確認されています。

「Skills」とは何か?

新人エンジニアの方にとって、AIエージェントは非常に頼もしい存在ですが、エージェントに「あれもこれも」と大量のツールや指示を与えすぎると、かえって混乱して性能が落ちてしまうという課題(ツールの過負荷)がありました。

「Skills」は、この問題を解決するために設計されています。

  • 必要な時だけ読み込む: 「動的ロード(Progressive Disclosure)」という仕組みを採用しており、エージェントは現在取り組んでいるタスクに関係があるスキルだけを、その都度取り出して使用します。
  • ポータブルな形式: Markdownファイルやスクリプトで構成されており、特定のプラットフォームに依存せず、スキル機能をサポートする様々なエージェントで共有・利用が可能です。

提供される主なスキル

現在、GitHubの「langchain-skills」リポジトリでは、大きく分けて3つのカテゴリーで11個のスキルが提供されています。

  1. LangChain: クラシックなエージェント構成やツール呼び出しのパターンに関するガイド。
  2. LangGraph: 状態管理や「Human-in-the-loop(人間の介在)」、実行の永続化など、高度なエージェント制御に関するガイド。
  3. DeepAgents: ファイルシステム操作や事前定義されたミドルウェアを活用するためのガイド。

まとめと今後の展望

今回のリリースにより、AIエージェントは「LangChainをどう使えばいいか」というドキュメントを読み解く段階を超え、最初から「使い方のコツ」を習得した状態で開発をサポートしてくれるようになります。

今後はLangSmith(評価・運用プラットフォーム)向けのスキル追加も予定されており、エージェントによる開発の自動化がさらに加速していくことが期待されます。エンジニアにとっては、エージェントのセットアップがより簡単になり、より本質的な設計やロジック構築に集中できる環境が整いつつあります。

引用元: https://blog.langchain.com/langchain-skills/

本記事は、AI駆動開発における人間とAIの役割分担を「航空管制」になぞらえた次世代の開発手法「Pilot-Tower(P&T)開発」の設計思想を解説しています。

従来のAI活用(Phase 2)では、人間が運転席に座りAIに個別の指示を出していましたが、これではAIの稼働時間が人間の活動時間に縛られるという限界がありました。P&T開発(Phase 3)では、AIを「パイロット(操縦士)」、人間を「タワー(管制塔)」と定義し、AIが自律的に計画・実装・検証を進め、人間は要所での判断のみを行う構造への転換を目指します。

【設計の核心:上流と下流の境界を溶かす】 「仕様を固めてから実装する」という直列なプロセスではなく、要件定義・設計・実装を同時並行で回す「探索的ループ」を重視しています。AIは以下の3つのモードを使い分け、不確実性を段階的に排除します。

  • plan-refine: 対話による計画の詳細化。
  • plan-spike: 仮実装による技術検証。コードは捨てるが知見を蓄積する。
  • plan-execute: 検証済みの計画に基づく本実装。 これらを通じて、AI自身が読み書きし、自律判断の根拠とする「生きたドキュメント(plan.md)」を育てていきます。

【自走と統制を両立する3つの仕掛け】 AIに自律性を与えつつ、制御不能になるのを防ぐための仕組みが導入されています。

  1. ループ構造: AIが計画・実行・ログ記録・課題抽出を自律的に繰り返すサイクル。
  2. Decision Required (DR): AIが判断に迷う箇所で停止し、人間にA/B案と推奨案を提示する仕組み。人間は「選択」するだけで管制が可能です。
  3. ガードレール: セキュリティや決済など、AIが独断で触れてはいけない領域を定義し、該当時は必ず人間に判断を仰ぐ安全装置。

【新人エンジニアが注目すべき点】 この手法は、AIを単なる「コード生成ツール」としてではなく、「自律的な開発パートナー」として扱うためのプロセス設計です。エンジニアの役割が「自分でコードを書く」ことから、AIに正しい「ゴール(何を達成するか)」と「制約(やってはいけないこと)」を与え、システム全体を管理・改善する「管制官」へと進化していく未来を示しています。

引用元: https://tech.acesinc.co.jp/entry/2026/03/04/083000

Microsoft Researchは、150億パラメータを持つオープンウェイトのマルチモーダル推論モデル「Phi-4-reasoning-vision-15B」を発表しました。このモデルは、画像理解と論理的推論を高い次元で融合させており、特に数学や科学の難問解決、ドキュメントの読み取り、そしてコンピュータの画面操作(UI理解)において優れた性能を発揮します。

新人エンジニアの皆さんに注目してほしいポイントは、その「圧倒的な効率性」です。通常、このクラスのモデルを動かすには膨大な計算資源が必要ですが、Phi-4は推論の精度・速度・計算コストのバランスにおいて、既存のオープンモデルを凌駕するコストパフォーマンスを実現しています。他社が1兆トークン以上のデータで学習する中、本モデルはわずか2,000億トークンの厳選されたデータでこれほどの性能に達しました。

本記事で共有された技術的な知見(レッスン)は、今後の開発に非常に役立ちます。

  1. アーキテクチャの選択: ビジョンエンコーダーに「SigLIP-2」を採用。特に動的解像度(Dynamic Resolution)を用いることで、高解像度のスクリーンショット内の小さなボタンや文字も正確に認識できるようになりました。
  2. データの「質」へのこだわり: オープンソースデータをそのまま使うのではなく、低品質なものを排除し、GPT-4oなどを用いて回答を修正・補強しました。また、合成データを活用して、図表や数式といった特定のドメインに強いデータを生成しています。
  3. 「推論」と「直接回答」のハイブリッド: すべての問いに対して「深く考える(Chain-of-Thought)」と速度が落ちます。そこで、推論が必要な数学には思考時間を使い、単純なキャプション生成には即答するよう、モデルがタスクに応じてモードを使い分ける学習を行っています。

このモデルは、手書きの数学の宿題チェック、領収書の計算、さらにはPC画面上の要素を特定して操作するAIエージェントの基盤としての利用が想定されています。HuggingFaceやGitHubで公開されており、効率的なAIモデルの作り方を学ぶための「生きた教科書」とも言える内容です。最新のAI技術がどのように「小さく、速く、賢く」進化しているのかを知る絶好の機会となるでしょう。

引用元: https://www.microsoft.com/en-us/research/blog/phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model/

契約書の「甲」と「乙」を「あーし」と「オタクくん」に置き換えた試みが話題です。難解な法的文章をギャル風の口語調に変換した結果、業務内容や機密保持、トラブル時の対応といった複雑な条項が驚くほど直感的に理解しやすくなりました。新人エンジニアにとっても、ドキュメント作成時の「伝わりやすさ」や、LLM活用におけるペルソナ設定の重要性を楽しみながら学べる、クリエイティブで笑える好例と言えます。

引用元: https://togetter.com/li/2670932

(株式会社ずんだもんは架空の登場組織です)