株式会社ずんだもん技術室AI放送局 podcast 20260521
内容紹介
Mastering Agentic Techniques: AI Agent Customization、Prompts are technical debt too、How Ramp engineers accelerate code review with Codex、3COINSで売ってるビデオトランシーバーに大人がテンション上がってしまう「室内トランシーバーにできそう」なぜか起動音がPSPと同じだったりする
出演者
youtube版(スライド付き)
関連リンク
本記事は、自律型AIエージェントを特定のビジネス業務(コード生成、問い合わせ対応、ワークフロー構築など)に最適化するための「9つのカスタマイズ手法」と、それらを組み合わせた「実践的なパイプラインの構築方法」を解説した技術記事です。
1. 9つのカスタマイズ手法
AIエージェントのカスタマイズは、手軽なプロンプト調整から、モデルの重みを書き換える高度な強化学習まで多岐にわたります。コストや目的に応じて使い分けます。
- プロンプトエンジニアリング: 推論時に指示(システムプロンプト)を与える最も手軽な方法。ただし、複雑なタスクでは指示に従わなくなる限界があります。
- RAG (検索拡張生成): 外部データベースから最新の専門知識を動的に取得し、ハルシネーション(嘘の回答)を防ぎます。
- ツールとスキルの注入: API呼び出しやスクリプト実行などの「道具(ツール)」や「手順(スキル)」をエージェントに提供し、実行能力を拡張します。
- SFT (教師あり微調整): 理想的な「入力と出力のペア」を学習させ、特定の出力形式(JSONなど)を徹底させます。
- PEFT (LoRA/QLoRA): 全パラメータではなく一部のみを更新することで、少ないGPUリソースで効率的にSFTを行います。
- DPO (直接好みの最適化): 「良い回答」と「悪い回答」のペアから学習させ、回答の品質やトーンを効率的に改善します。
- RLHF (人間フィードバックによる強化学習): 人間の評価を模した報酬モデルを使い、安全性や親切さなどの複雑な基準に合わせます(コスト高)。
- RLVR (検証可能な報酬を用いた強化学習): コードの実行結果や数式の正誤など、客観的に判定できるタスクに対して自動で報酬を与え、推論能力を大幅に向上させます。
- GRPO (グループ相対ポリシー最適化): 複数の回答を同時に生成して相対評価する効率的な強化学習アルゴリズム(DeepSeek-R1等でも採用され注目を浴びています)。
2. 段階的な開発パイプライン(推奨される進め方)
エージェント開発では、最初から複雑な学習を行うのではなく、以下のステップで段階的に進めることが推奨されています。
- Stage 1 (足場作り): プロンプト調整、ツール注入、RAGでベースラインを構築。
- Stage 2 (データ準備): 必要に応じて、合成データ生成(SDG)で学習データを作成。
- Stage 3 (基礎学習): SFTを行い、タスクの基本形式や語彙をモデルに叩き込む。
- Stage 4 (洗練): DPO(主観的なタスク向け)や、RLVR+GRPO(客観的なタスク向け)を使い、モデルの推論力を極限まで高める。
- Stage 5 (評価と反復): 精度を厳密に測定し、改善を繰り返す。
まとめ(新人エンジニアへのアドバイス)
エージェント開発の鉄則は「まずは軽量な方法(プロンプトやRAG)から始め、効果を測定し、必要性をデータで確認できてから、学習ベースの高度なカスタマイズに挑戦する」ことです。NVIDIAが提供する「NeMo」などのツールキットを活用することで、これらの複雑なカスタマイズを効率的に実装できます。
引用元: https://developer.nvidia.com/blog/mastering-agentic-techniques-ai-agent-customization/
ソフトウェア開発において「すべてのコードは技術的負債である」とよく言われます。コードが増えるほどシステムの複雑さやメンテナンスの負担が増すため、優秀なエンジニアは書くコードを最小限に抑えようとします。しかし現代のAIを用いた開発では、コードの代わりに大量の「プロンプト」が書かれるようになっています。
本記事では、この「プロンプト」もまた、コード以上に厄介な技術的負債になり得るという重要な視点を提示し、エンジニアが取るべき対策を解説しています。
なぜプロンプトが「コード以上の技術的負債」なのか?
プロンプトの微調整はLLMの性能を大きく引き出しますが、そこには以下の深刻なリスクが潜んでいます。
- モデルへの強い依存性 プロンプトの最適な書き方は、特定のモデル(例:GPT-4やClaudeの特定バージョン)に強く依存します。モデルがアップデートされると、それまで完璧に機能していたプロンプトが効果を失うだけでなく、新しいモデルの挙動をかえって阻害する(有害に働く)ことがあります。モデルが更新されるたびに、プロンプトを「そのモデル向けに再調整」し続けなければなりません。
- サイレントな劣化(気づきにくさ) コードの負債(バグ)は、エラーの発生やシステムの速度低下など、目に見える形で現れます。しかし、プロンプトの劣化はエラーを吐きません。「出力される回答の質がなんとなく下がる」という形で静かに発生するため、エンジニアがその劣化に気づくことは非常に困難です。
プロンプト負債を防ぐための実践ガイド
この「プロンプト負債」に苦しまないために、日々の開発で意識すべき3つのアプローチを紹介します。
- 独自のAI環境を作り込みすぎない 自分専用の複雑なプロンプト環境やエージェント構築に時間を費やすのは避けましょう。Cursor、Copilot、Claude Codeなどの実績ある外部ツールを、できるだけ「カスタマイズせずにデフォルトのまま」使うのが賢明です。ツールの開発会社が、モデルの更新に合わせてプロンプトを裏側で最適に調整してくれる恩恵をそのまま受け取りましょう。
- 振る舞いの制御ではなく「客観的な事実」だけを書く
プロジェクト固有の指示ファイル(
AGENTS.mdなど)を作成する際は、「ステップバイステップで考えて」「あなたは優秀なエンジニアです」といった、モデルの振る舞いをコントロールする指示は書かないようにします。これらはモデルの進化によってすぐに不要になります。代わりに、「このプロジェクトは〇〇というライブラリを使っている」「ビルドコマンドは〇〇である」といった、プロジェクト固有の「具体的な事実やルール」のみに限定して記述しましょう。 - プロンプトは自分で書き、不要になったら捨てる AIに大量のプロンプトテキストを自動生成させるのは、レビューされていないコードを放置するのと同じです。プロンプトは必ず人間がシンプルに記述し、役割を終えたり、モデルが賢くなって不要になったりしたら、積極的に削除する習慣をつけましょう。
LLMの進化スピードが非常に速い現代において、プロンプトを複雑にメンテナンスし続けるのは不可能です。プロンプトもコードと同様に「少なければ少ないほど良い」という意識を持ち、シンプルで変化に強い開発スタイルを心がけましょう。
引用元: https://seangoedecke.com/prompts-are-technical-debt-too/
米国のフィンテック企業Ramp社において、GPT-5.5を搭載したAIツール「Codex」を活用し、コードレビューの高速化や社内開発の効率化を実現した最先端の事例を紹介します。新人エンジニアの皆さんにとっても、これからの開発スタイルをイメージする上で非常に参考になる内容です。
1. コードレビューが数時間から「数分」に短縮
従来、Ramp社のエンジニアはプルリクエスト(PR)を作成してから最初のレビュー結果を得るまでに数時間待つ必要がありました。しかし、Codexの導入により、わずか数分で具体的かつ有益なフィードバックを受け取れるようになりました。 Codexは単なる構文チェックにとどまらず、コードベース全体を深く理解して「推論」する能力を持っています。そのため、人間のレビュアーや他のAIツールが見落としがちな複雑なバグも的確に検出します。エンジニアは、黒い画面(CLI)での操作や、グラフィカルな専用アプリなど、自分に合ったスタイルで快適にCodexを利用しています。
2. 複雑な社内AIアシスタント開発への応用
Ramp社では、システムの監視や緊急対応(オンコール業務)を担当するエンジニアを支援するエージェントツール「On-Call Assistant」の開発にもCodexを活用しています。 オンコール業務は、複雑なビジネスロジックや並行処理のバグ、刻々と変わる障害状況などを同時に把握する必要があり、エンジニアに大きな精神的負荷がかかります。Codexの高度な推論能力を活用することで、こうした複雑な社内ツールの開発スピードが飛躍的に向上し、自信を持って新機能をリリースできるようになりました。
3. AIツールを組織に浸透させるための秘訣
Ramp社の開発責任者であるAustin Ray氏は、新しいAIツールをチームに導入する際のポイントとして以下を提唱しています。
- 一緒に使って体験を共有する: 最初にエンジニアの横に座って一緒にツールを動かし、開発がどう楽になるかを実感させます。
- 不信感を信頼に変える道筋を作る: エンジニアは新しいツールに対して懐疑的になりがちです。最初の成功体験をガイドすることで、自発的に使ってみようという姿勢を引き出します。
- 開発元とのフィードバックループ: ツールを提供するCodexチームと直接連携し、課題が発生した際にすぐにフィードバックを送る関係性を築いています。
4. これからのエンジニアに求められるスキル
Ramp社は、今後のエンジニアの役割は「すべてのコードを自分で書く人」から、AIツールを率いる「オーケストレーター(指揮者)」へと変化していくと考えています。 「AIをどのように指示し、どのタイミングで信頼し、いつ修正を求めるか」を判断する能力こそが、これからのエンジニアに最も求められるスキルになります。
引用元: https://openai.com/index/ramp
3COINSで発売された3,850円の「ビデオトランシーバー」が話題です。2.4GHz帯(技適取得済)を利用し、内蔵カメラでリアルタイム映像と音声を双方向で送受信できます。有効距離は約50mと実用性は控えめですが、なぜか起動音が「PSP」と全く同じ仕様。このノスタルジックな遊び心とガジェット感が、大人のエンジニアやガジェット好きの間で「テンションが上がるおもちゃ」としてSNSで注目を集めています。
引用元: https://togetter.com/li/2699181
(株式会社ずんだもんは架空の登場組織です)