株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20260225

2026年02月25日

MP3ファイルをダウンロード

内容紹介

AIエージェントの性能差のキー、ハーネスエンジニアリング、Writing about Agentic Engineering Patterns、日本語性能を強化したオープンなLLM「GPT-OSS Swallow」と「Qwen3 Swallow」リリース gihyo.jp

出演者

ずんだもん
ずんだもん

youtube版(スライド付き)

関連リンク

2026年現在、AIエージェントの性能を左右するのは、LLMモデルそのものよりも、モデルを包み込み制御する周辺インフラ「ハーネス(Harness)」の設計であるという認識が一般的になっています。本記事では、このハーネスエンジニアリングの重要性と具体的な実践手法について解説されています。

ハーネスとは、モデルをCPUに例えた際の「OS」にあたる存在です。どれほどモデルが賢くても、コンテキスト管理やツール統合、メモリ管理が不十分であれば、エージェントとしての実力は発揮されません。事実、特定の実験ではモデルの重みを変えずにハーネスの設計を変更しただけで、タスクの成功率が6.7%から68.3%へと約10倍に跳ね上がった例もあります。

エンジニアがハーネス設計において意識すべき重要なポイントは以下の通りです。

  1. コンテキスト管理の3原則(Reduce / Offload / Isolate) モデルが処理する情報(コンテキスト)が長すぎると、指示を忘れる「モデルドリフト」が発生します。これを防ぐため、古い履歴を要約して圧縮する(Reduce)、情報を外部ファイルに逃がし、汎用的なツール(bash等)でアクセスさせる(Offload)、重い副タスクはサブエージェントに任せる(Isolate)という設計が有効です。

  2. ツールの選択と集中 エージェントに与えるツールは、多ければ良いというわけではありません。選択肢が多すぎるとモデルは混乱し、冗長な動作を繰り返します。不要なツールを削減し、シンプルで強力なツールに集約することで、意思決定の精度と速度が向上します。

  3. 自己検証と状態の引き継ぎ 長時間稼働するエージェントには、タスク完了前に「本当に終わったか」をチェックする自己検証ループ(Middlewareパターン)の実装が不可欠です。また、セッションをまたぐ場合は、gitの履歴や構造化された進捗ファイル(JSON)を活用し、次のセッションへ確実に状態を引き継ぐ仕組みが信頼性を担保します。

新人エンジニアへのアドバイスとして、最新モデルの選定に固執する前に、まずはこれらの「ハーネス」側の設計を見直すことが、投資対効果の高い開発につながります。ただし、モデルの進化スピードも速いため、ハーネス自体も「複雑に作り込みすぎず、必要に応じて軽量に作り直せる」柔軟な設計を心がけることが、2026年のエンジニアリングにおける最適解と言えるでしょう。

引用元: https://note.com/timakin/n/nc85957a9f710

著名な開発者であるSimon Willison氏が、AIエージェントと共にソフトウェアを開発するための新しいプラクティス集「Agentic Engineering Patterns(エージェンティック・エンジニアリング・パターン)」の公開を開始しました。これは、AIを単なるチャットツールとしてではなく、自らコードを実行・テストし、自律的に改善を繰り返す「コーディングエージェント」として活用するための現代版デザインパターン集です。

本プロジェクトの核心は、プロのエンジニアが自身の専門知識をAIによって増幅(アンプリファイ)させ、開発を加速させることにあります。Willison氏は、非エンジニアが雰囲気でコードを書く「バイブコーディング」とは一線を画し、プロフェッショナルがツールを使いこなすための規律として「Agentic Engineering(エージェンティック・エンジニアリング)」を定義しています。

本プロジェクトは、1994年の名著『デザインパターン』にインスパイアされており、以下の2つの章からスタートしています。

  1. コード生成は安価になった(Writing code is cheap now) 初期コードを書き出すコストがほぼゼロになった現在、これまでの開発の直感やチームの働き方をどのように変えていくべきか、その本質的な課題を扱います。
  2. レッド/グリーン TDD(Red/green TDD) テスト駆動開発(TDD)の手法が、エージェントに対して最小限の指示で正確かつ簡潔なコードを書かせるために、いかに強力な武器になるかを解説しています。

新人エンジニアにとって特に注目すべき点は、これが単なる過去の記事の蓄積ではなく、時間の経過とともに更新され続ける「ガイド(エバーグリーンなコンテンツ)」として設計されていることです。また、著者は「AI生成した文章は自分の名前で公開しない」という強いポリシーを持っており、掲載される内容は著者の深い経験に基づいた自身の言葉で綴られています。

これからのエンジニアリングにおいて、AIエージェントは欠かせないパートナーとなります。このパターン集は、AIに仕事を奪われるのではなく、AIを強力なアシスタントとして使いこなし、エンジニアとしての価値を最大化するための羅針盤となるでしょう。今後、週に1〜2章のペースで新しい知見が追加される予定です。

引用元: https://simonwillison.net/2026/Feb/23/agentic-engineering-patterns/

東京科学大学(旧・東京工業大学)の岡崎研究室・横田研究室、および産業技術総合研究所(産総研)を中心とした研究チーム「Swallow LLM Project」が、2026年2月20日に新たな推論型言語モデル「GPT-OSS Swallow」と「Qwen3 Swallow」をリリースしました。本プロジェクトは、日本語に強い大規模言語モデル(LLM)を構築・公開し、日本のAI技術向上に貢献することを目的としています。

今回のモデルは、OpenAIの「GPT-OSS」とAlibabaの「Qwen3」をベースに開発されました。日本語・英語のテキストに加え、数学、プログラミングコード、科学分野のデータセットを組み合わせた「継続事前学習」と「SFT(教師あり微調整)」を行い、さらに数学データセットを用いた「RLVR(検証可能な報酬を用いた強化学習)」を適用しています。これにより、単なる自然言語のやり取りだけでなく、高度な論理的思考を必要とするタスクにも対応できるのが特徴です。

特筆すべき成果は、従来のモデル開発で課題となっていた「性能のトレードオフ」を克服した点です。これまでは日本語性能を強化しようとすると、数学やコード生成などの専門的な能力が低下してしまう傾向がありました。しかし、今回の学習手法により、ベースモデルが持つ高い専門性を損なうことなく日本語性能を向上させることに成功しました。各種ベンチマークでも、元モデルと同等以上の高いスコアを記録しています。

また、現場のエンジニアにとって大きなメリットとなるのが、ライセンスが「Apache 2.0」に変更された点です。従来のプロジェクトで採用されていたライセンスよりも制限が少なく、商用利用や個人開発において非常に扱いやすくなりました。

新人エンジニアの皆さんにとっても、日本発のトップレベルのモデルを自由に触り、その推論能力を体験できる貴重なリソースとなります。Hugging Faceでモデルが公開されているため、実際に動かして「日本語での論理思考」の進化を確かめてみることをおすすめします。

引用元: https://gihyo.jp/article/2026/02/gptoss-qwen3-swallow

(株式会社ずんだもんは架空の登場組織です)