私立ずんだもん女学園放送部 podcast 20260410

2026年04月10日

内容紹介

Deep Agents Deploy: an open alternative to Claude Managed Agents、Multimodal Embedding & Reranker Models with Sentence Transformers、日本発、LLMの推論を「桁違い」に効率化する新アーキテクチャ「PHOTON」の論文が面白かったのでまとめてみた、40歳が生活のすべてを『ぽこあポケモン』に全振りして遊んでいたら、己の体のリカバリーに10万円かかってしまった話

出演者

お嬢様ずんだもん

youtube版(スライド付き)

関連リンク

Deep Agents Deploy: an open alternative to Claude Managed Agents

LangChainチームは、オープンソースのエージェント基盤を迅速かつ本番環境レベルでデプロイできる新ツール「Deep Agents deploy」のベータ版を公開しました。これは、Anthropic社が提供する「Claude Managed Agents」のような特定のプラットフォームに依存する仕組み（クローズドなエコシステム）に対する、オープンで自由な代替手段として設計されています。

開発の背景：ハーネス・エンジニアリングと「メモリ」の重要性

AIエージェント開発において、LLMをエージェントとして動かすためのオーケストレーション論理やツール、スキルの基盤を構築することを「ハーネス・エンジニアリング」と呼びます。クローズドなプラットフォームを利用する場合、エージェントが対話を通じて蓄積した「メモリ（記憶や文脈）」がそのベンダーのAPIの背後に閉じ込められてしまうという課題があります。

一度特定のプラットフォームにメモリが蓄積されると、他社モデルへの移行が困難になる「ベンダーロックイン」が発生します。Deep Agents deployは、このメモリをユーザー自身が所有し、特定のモデルに縛られずに運用できる世界を目指しています。

Deep Agents deployの概要

deepagents deployという単一のコマンドを実行するだけで、以下のような本番環境に必要なコンポーネントをパッケージ化してデプロイできます。

モデルの柔軟性: OpenAI、Google、Anthropic、Azure、さらにはローカルのOllamaなど、あらゆるLLMプロバイダーを選択可能です。
オープンな標準規格: エージェントの指示書（AGENTS.md）やスキル、MCP（Model Context Protocol）など、オープンな標準規格に基づいて構築されています。
高度なサーバー機能: デプロイされるサーバーはスケーラブルであり、マルチエージェント連携（A2A）や人間による介入（Human-in-the-loop）、長期・短期メモリへのアクセスなど、30以上のエンドポイントを即座に提供します。
安全な実行環境: エージェントがコードを実行したり作業を行ったりするためのサンドボックス環境（Daytona, Modal等）とも容易に統合できます。

新人エンジニアへのポイント

このツールが画期的なのは、複雑なインフラ構築の手間を省きつつ、技術的な「自由度」を確保している点です。特定の巨大IT企業の仕様に依存せず、自分たちの手でエージェントの挙動やデータをコントロールできることは、将来的なシステムの柔軟性を守る上で非常に重要です。

これからエージェント開発に携わるエンジニアにとって、モデルを単に呼び出すだけでなく、その実行基盤（ハーネス）をいかにオープンに保つかという視点を持つための、非常に教育的かつ実用的なプロジェクトと言えるでしょう。

引用元: https://blog.langchain.com/deep-agents-deploy-an-open-alternative-to-claude-managed-agents/

Multimodal Embedding & Reranker Models with Sentence Transformers

AIエンジニアにとっておなじみのライブラリ「Sentence Transformers」のバージョン5.4において、テキスト・画像・音声・動画を統合的に扱える「マルチモーダル対応」が大幅に強化されました。本記事は、その概要とエンジニアが知っておくべき主要な機能を解説しています。

1. マルチモーダル埋め込みとRerankerの進化 これまでの埋め込みモデル（Embedding Models）は主にテキストをベクトル化するものでしたが、v5.4からは画像や動画、音声も同じ「共有ベクトル空間」にマッピングできるようになりました。これにより、例えば「赤い車の画像」と「A red car」というテキストの類似度を直接比較する「クロスモーダル検索」が可能になります。また、検索精度をさらに高める「マルチモーダルReranker」も導入され、テキストと画像が混在したペアに対して、より精緻な関連度スコアリングが行えるようになりました。

2. 開発効率を高めるシンプルなAPI 新人エンジニアにとっても扱いやすいよう、既存のシンプルなAPIが維持されています。model.encode() メソッドに画像のURLやローカルのファイルパス、さらには動画ファイルを渡すだけで、モデルが自動的にモダリティを判別して処理します。また、encode_query() や encode_document() を使うことで、検索クエリ用とドキュメント用で異なるプロンプトを自動適用する仕組みも備わっており、実装のミスを防ぎつつ高度な検索システムを構築できます。

3. 実践的な「検索と再順位付け（Retrieve and Rerank）」 大規模なシステムを構築する際の実践的なパターンとして、「埋め込みモデルで高速に候補を絞り込み、Rerankerで精査する」という2段階の手法が推奨されています。v5.4ではQwen3-VLやNVIDIAの最新モデルなどがサポートされており、これらを組み合わせることで、マルチモーダルRAG（検索拡張生成）などの高度な機能を効率よく実現できます。

4. 導入のポイント 利用には pip install "sentence-transformers[image]" のように、扱うメディアに応じた追加パッケージのインストールが必要です。また、最新のVLM（視覚言語モデル）ベースのモデルを動かすには一定のVRAMを持つGPUが推奨されていますが、リソースが限られている環境向けに、軽量なCLIPモデルも引き続きサポートされています。

このアップデートにより、テキスト検索の枠を超えた「目や耳を持つAIエージェント」の開発がより身近なものとなりました。最新のAI技術を検索システムに組み込みたいエンジニアにとって、非常に強力なツールとなるでしょう。

引用元: https://huggingface.co/blog/multimodal-sentence-transformers

日本発、LLMの推論を「桁違い」に効率化する新アーキテクチャ「PHOTON」の論文が面白かったのでまとめてみた

富士通、理化学研究所、東京科学大学、東海大学の研究チームが発表した新アーキテクチャ「PHOTON」は、大規模言語モデル（LLM）の推論効率を劇的に向上させる革新的な提案です。現在の主流であるTransformerが抱える「メモリの壁」を、アーキテクチャの工夫で根本から解決しようとしています。

1. 従来の課題：Transformerの「水平スキャン」 ChatGPTなどのLLMは、過去の全ての単語（トークン）を振り返りながら次の単語を生成します。これを論文では「水平スキャン」と呼んでいます。しかし、文章が長くなればなるほど、過去の状態を保存する「KVキャッシュ」が膨大になり、GPUメモリを圧迫します。結果として、計算能力はあってもデータの読み書きが追いつかない「メモリ帯域律速（Memory-bound）」に陥り、推論速度が頭打ちになるのが大きな課題でした。

2. PHOTONのアイデア：文章を「階層」で捉える PHOTON（Parallel Hierarchical Operation for TOp-down Networks）は、自然言語が持つ「単語→文→段落」という階層構造に注目しました。・ボトムアップ・エンコーダ（要約担当）: 過去の文章を抽象化し、ざっくりとした「要約メモ」に圧縮します。・トップダウン・デコーダ（細部担当）: そのメモを受け取り、直近の数トークンだけを見て次の言葉を生成します。この分業により、生成時に読み直すべき情報量が圧倒的に少なくなり、アテンションの計算コストが文章の長さに依存しなくなります。また、要約が同じであれば複数の箇所を「並列に」生成できるため、スループットが向上します。

3. 効率化の鍵：Recursive Generation（RecGen） 生成のたびに全体を読み直す無駄を省くため、「Recursive Generation」という手法を導入しています。これは最上位の要約データだけをGPU上に残して更新し続ける仕組みで、計算の重複を徹底的に排除しています。

4. 驚異的な実験結果 1.2B（12億）パラメータ規模のモデルを用いた実験では、従来のTransformerと比較して、メモリあたりのスループットが設定次第で最大約1,856倍という桁違いの数値を記録しました。品質のわずかな低下と引き換えに、同じGPUメモリで圧倒的に多くのトークンを処理できる「パレート改善」を実現しています。

5. エンジニアにとっての意義 この技術が大規模モデルでも成功すれば、現在は高価な「長文コンテキスト処理」や「多数の同時リクエスト処理」が、より低コストで一般的になる可能性があります。日本発の研究が、世界的なGPU不足という構造的課題に対する「アーキテクチャレベルの回答」になり得るという、非常にワクワクするニュースです。新人エンジニアにとっても、アルゴリズムの工夫がいかに物理的なハードウェア制約を打破しうるかを知る良い事例となるでしょう。

引用元: https://qiita.com/yuji-arakawa/items/2ad0240c56eb7507b261

40歳が生活のすべてを『ぽこあポケモン』に全振りして遊んでいたら、己の体のリカバリーに10万円かかってしまった話

40歳の筆者が、新作ゲーム『ぽこあポケモン』に没頭しすぎてボロボロになった体を、10万円の美容代等で強引に回復させつつ遊び続ける体験記です。本作は人間が消えた世界で、健気に暮らすポケモンたちのために環境を整えるサンドボックスゲーム。30年前の記憶が蘇る再会や愛猫と重なる愛おしさ、リアルな「劣化」を表現できる建築が魅力で、生活を投げ打ってでも推しを幸せにする圧倒的な多幸感を綴っています。

引用元: https://news.denfaminicogamer.jp/kikakuthetower/260409a

お便り投稿フォーム

VOICEVOX:ずんだもん