私立ずんだもん女学園放送部 podcast 20260327

2026年03月27日

内容紹介

OpenClaw-RLで学ぶAgentic RLの報酬設計、How Middleware Lets You Customize Your Agent Harness、【緊急】月間9500万DLのLiteLLMが乗っ取られた。インストールしただけでSSH鍵・AWS認証・仮想通貨が全部盗まれる、「ずんだもん」のイベント「ずんだもん POP UP SHOP mini in あみあみ」の開催が決定！

出演者

お嬢様ずんだもん

youtube版(スライド付き)

関連リンク

OpenClaw-RLで学ぶAgentic RLの報酬設計

本記事は、AIエージェントが自ら学習し進化する「Self-Evolving Agent」を実現するための手法、Agentic RL（エージェント型強化学習）と、その具体的な報酬設計について解説しています。LayerXのエンジニアブログによるもので、特に「対話するだけでモデルが賢くなる」仕組みを目指すプロジェクト「OpenClaw-RL」に焦点を当てています。

背景：なぜAgentic RLが注目されているのか

AIエージェントの性能向上には、プロンプトに指示を追加する「コンテキストの活用」が一般的ですが、これには「コンテキストの肥大化」という課題があります。一方、モデル自体を更新する「Fine Tuning」はコストが高いのが実情です。Agentic RLは、強化学習の枠組みを用いて、エージェントが環境との試行錯誤を通じてモデルパラメータを継続的に最適化するアプローチとして期待されています。

OpenClaw-RLが解決する課題

通常の強化学習では、数学やコーディングのように「正解が明確なタスク」が扱われやすいですが、ユーザーとの対話ログには明確な正解ルールがありません。OpenClaw-RLでは、実際の対話ログからどのように学習信号（報酬）を取り出すか、以下の2つの手法を提案しています。

Binary報酬（二値評価） エージェントの行動に対するユーザーの反応やエラー情報を、評価用LLMに渡してスコアリングさせます。1回の評価では不安定なため、多数決（アンサンブル）をとることで報酬の信頼性を高めています。
蒸留報酬（コンテキスト蒸留） 「観測情報をコンテキストに含めた教師モデル」と「含めていない生徒モデル」を比較し、生徒の出力を教師に近づける手法です。これにより、外部からのフィードバックをモデルの内部知識として効率よく取り込むことができます。

エンジニアとしての注目ポイント

強化学習で主流の「GRPO」アルゴリズムは、1つのプロンプトに対して複数の試行（rollout）を必要としますが、実際の対話では1つの行動に1つの反応しか得られないため、そのまま適用できないという技術的課題があります。OpenClaw-RLではこれを相対評価値として扱う工夫をしていますが、まだ改善の余地がある興味深い領域です。

新人エンジニアの方にとっても、「使えば使うほどAIがパーソナライズされ賢くなる」という未来を支える、非常にエキサイティングな技術トピックと言えます。

引用元: https://tech.layerx.co.jp/entry/openclawrl-agenticrl

How Middleware Lets You Customize Your Agent Harness

AIエージェント開発における新しい設計パターンである「エージェント・ミドルウェア」について解説された記事です。LangChainなどのフレームワークを使ってエージェントを構築する際、エンジニアが直面する「細かな制御の難しさ」を解決するための強力な手法が紹介されています。

1. エージェント・ハーネスとミドルウェア

まず「エージェント・ハーネス（Agent Harness）」とは、LLMを外部環境やツール、メモリと接続し、ループ実行させるためのシステム基盤を指します。通常、このループの内部ロジックをカスタマイズするのは困難ですが、Web開発でおなじみの「ミドルウェア」の考え方を導入することで、ループの各ステップに独自の処理を差し込むことが可能になります。

2. 6つの主要なフック（介入ポイント）

ミドルウェアを利用すると、以下のタイミングでカスタムロジックを実行できます。

before_agent / after_agent: エージェントの開始時と終了時に実行。リソースの初期化や結果の保存に最適です。
before_model / after_model: モデル呼び出しの前後で実行。個人情報（PII）の削除や、人間による確認（Human-in-the-loop）を挟むのに適しています。
wrap_model_call / wrap_tool_call: モデルやツールの実行自体を包み込みます。リトライ処理やキャッシュ、動的なツールの切り替えなどに利用されます。

3. 具体的な活用シーン

新人エンジニアにとってもイメージしやすい、実戦的な例がいくつか挙げられています。

コンプライアンスとセキュリティ: プロンプトだけで個人情報の流出を防ぐのは不確実です。ミドルウェアで機械的に検知・マスクすることで、確実なガードレールを構築できます。
コンテキスト管理: トークン上限が近づいた際に自動で履歴を要約（Summarization）し、モデルの精度低下を防ぎます。
本番環境への対応: APIエラー時のリトライ処理や、特定の条件でのモデルのフォールバックなど、デモレベルを超えた「信頼性の高いシステム」を作るために不可欠な要素です。

4. なぜミドルウェアが重要なのか

モデル自体が進化しても、「ビジネス固有のルール」や「決定論的なポリシー（必ず実行すべき処理）」をモデルに完全に任せることはできません。ミドルウェアを活用することで、ビジネスロジックをエージェントのコアコードから切り離し、再利用性が高くメンテナンスしやすいコードを書くことができます。

これからエージェント開発に挑戦するエンジニアにとって、プロンプトエンジニアリングだけでなく、このような「ソフトウェア工学的なアプローチ」を学ぶことは、より堅牢なAIアプリケーションを作るための大きな武器になるでしょう。

引用元: https://blog.langchain.com/how-middleware-lets-you-customize-your-agent-harness/

【緊急】月間9500万DLのLiteLLMが乗っ取られた。インストールしただけでSSH鍵・AWS認証・仮想通貨が全部盗まれる

2026年3月24日、多くのAIエージェント開発に利用されているPythonライブラリ「LiteLLM」が、サプライチェーン攻撃により完全に掌握されました。影響範囲は極めて広く、対象バージョンをインストールしただけで、システム内の重要情報が窃取される恐れがあります。

1. 事件の概要と原因

攻撃グループ「TeamPCP」による連鎖的なサプライチェーン攻撃が原因です。まず、脆弱性スキャナー「Trivy」やGitHub Actionsが侵害され、そこから流出した認証情報を用いてLiteLLMのメンテナーアカウントが乗っ取られました。 汚染されたバージョン：v1.82.7 および v1.82.8 これらはPyPI（Pythonのパッケージ管理システム）に直接アップロードされており、正規のソースコード管理をバイパスして配信されました。

2. 技術的特徴：`.pth`ファイルによる自動実行

今回の攻撃の巧妙な点は、Pythonの仕様である「.pthファイル」を悪用したことです。通常、ライブラリはimportしない限りコードは実行されませんが、site-packagesディレクトリに配置された.pthファイル内にimportから始まる記述があると、Pythonインタプリタが起動するたびにそのコードが自動実行されます。 つまり、pip installしただけで、ライブラリを呼び出す前からマルウェアが動き出す仕組みです。

3. 被害の内容

マルウェアは3段階のBase64難読化を経て、以下の情報を攻撃者のサーバーへ送信します。

認証情報: SSH鍵、AWS/GCP/Azureの認証トークン、Git/Docker/NPMの認証情報
機密ファイル: 仮想通貨ウォレット、シェル履歴（パスワード等を含む）、DBパスワード
クラウド・K8s環境: AWSのSecrets Manager等の全シークレット、Kubernetesクラスタ内の全ノードへのバックドア設置特にKubernetes環境では、特権Podを全ノードに展開し、ホストOSを完全に掌握する動きが確認されています。

4. 影響範囲の広さ

LiteLLMは直接利用していなくても、OpenHandsやDSPy、Langfuseといった著名なAIフレームワークが依存（Dependents）しているため、それらを通じて間接的にインストールされている可能性が非常に高いです。

5. エンジニアが取るべき対策

新人エンジニアの方は、まず自分の環境（ローカル、仮想環境、Docker等）で以下の確認と対応を最優先で行ってください。

バージョン確認: pip show litellmでバージョンを確認し、該当する場合は即座にアンインストール。
不審なファイルの削除: litellm_init.pthや~/.config/sysmon/などの痕跡を削除。
認証情報のローテーション: SSH鍵の再作成、クラウド（AWS等）のアクセスキー、APIキー、パスワード類をすべて変更してください。「たぶん大丈夫」は通用しない深刻な事態です。

教訓

「有名なライブラリだから」「最新版だから」安全であるという前提は捨て、ゼロトラストの精神で依存関係のハッシュ検証や最小権限の原則を徹底することが、現代のエンジニアには求められています。

引用元: https://qiita.com/emi_ndk/items/2332ff5c93e63ab736ad

「ずんだもん」のイベント「ずんだもん POP UP SHOP mini in あみあみ」の開催が決定！

AI音声合成などでエンジニアにも馴染み深い「ずんだもん」のポップアップショップが、2026年4月24日から池袋にて開催されます。大川ぶくぶ氏が描く「スクール」をテーマにした新規イラストのグッズが先行販売されるほか、購入特典も用意されています。技術界隈でも愛されるキャラクターの最新イベントは、業務の合間のリフレッシュやチーム内の交流を深める話題として、新人エンジニアの方にもおすすめです。

引用元: https://prtimes.jp/main/html/rd/p/000008770.000016064.html

お便り投稿フォーム

VOICEVOX:ずんだもん