株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20260611

2026年06月11日

MP3ファイルをダウンロード

内容紹介

Claude Fable 5 のプロンプティング、DiffusionGemma: 4x faster text generation、オープンソースプロジェクト「context-mode」がGitHubトレンド1位に:AIプログラミングのコストを98%削減、Token不安の解消に期待、AIに『マンジャロがテーマの漫才』を考えてもらったら普通に完成度が高いものが出力されてちょっと怖い「笑ってしまった。くやしい」「もうAGIでよくね」

出演者

ずんだもん
ずんだもん

youtube版(スライド付き)

関連リンク

本ドキュメントは、新モデル「Claude Fable 5」および「Claude Mythos 5」を効果的に活用するための、プロンプティングと設計(スキャフォールディング)のベストプラクティスを解説したガイドです。旧モデル(Opus 4.8)からの進化を踏まえ、エンジニアが押さえるべき要点をまとめました。

1. Claude Fable 5 の主な進化

Fable 5は、従来は複雑すぎたり長時間を要したりしたエンドツーエンドの課題で真価を発揮します。

  • 長期の自律性と正確性: 数日間にわたる目標に向け、指示を保持したまま自律実行します。複雑なタスクでも、一回の実行(シングルパス)で正確に実装する能力が向上しました。
  • ビジョンとデバッグの強化: 技術的な画像や図の解釈、リポジトリ全体を対象としたデバッグ精度が大幅に向上しています。
  • 高度な並列協調: 複数の並列サブエージェントをディスパッチし、非同期に通信させながらタスクを進行させることが得意です。

2. プロンプティングのコツ

指示追従能力が大幅に向上したため、プロンプトの設計思想をアップデートする必要があります。

  • エフォート(Effort)レベルの調整: high(デフォルト)や最難関タスク用のxhighだけでなく、日常のタスクにはlowmediumを活用します。低設定でも旧モデルを凌駕するパフォーマンスを発揮し、速度とコストを節約できます。
  • 指示はシンプルに: 指示追従が極めて高いため、細かなルールを列挙せず「簡潔に記述して」などの一言で余計な説明を排除できます。
  • 境界(制約)の明示: 自律性が高く、依頼していない不要な関連作業まで実行することがあるため、「やってはいけないこと」を明示的に定義します。
  • メモリの提供: Markdownファイルなどのシンプルな履歴ファイルを用意し、これまでの実行の教訓を記録・参照させるとパフォーマンスがさらに向上します。

3. 推奨されるシステム設計の変更

  • 応答テキスト内での思考(推論)再現の禁止: プロンプトで「思考プロセスを回答に書き出して」と要求すると、拒否(refusal)を誘発する原因になります。思考過程が必要な場合は、専用の「適応的思考(adaptive thinking)」ブロックを読み取ります。
  • 非同期実行とタイムアウトの調整: 深い推論や自律実行には数分〜数時間かかる場合があります。クライアント側での接続タイムアウトを防ぐため、非同期ジョブとして進捗を確認できる設計に切り替えます。
  • 古いプロンプトのリファクタリング: 旧モデル向けの細かすぎるスキル指示は、Fable 5本来の力を抑制してしまうため、不要な指示は積極的に削除します。

Fable 5は、細かくAIを誘導するのではなく「適切な目標と制約を与えて自律的に解決させる」という、次世代のエージェント開発に適したモデルです。

引用元: https://platform.claude.com/docs/ja/build-with-claude/prompt-engineering/prompting-claude-fable-5

Googleは、テキスト生成の推論速度を最大4倍に高速化する実験的なオープンモデル「DiffusionGemma」を発表しました。Apache 2.0ライセンスで公開されており、GPUの処理能力を最大限に引き出す新しいアプローチ「テキスト拡散」を採用しています。

■ 従来のモデルとの違いと「テキスト拡散」の仕組み 従来の一般的な大規模言語モデル(LLM)は「自己回帰型」と呼ばれ、文字(トークン)を左から右へ1つずつ順番に出力します(タイプライターのような動作)。この方式は、ローカル環境で1人のユーザーが実行する場合、GPUが次の文字の計算を待つ状態になり、ハードウェアの性能を活かしきれない課題がありました。 一方、DiffusionGemmaが採用する「テキスト拡散」は、画像生成AIのように「ノイズ状態から徐々に鮮明な画像を浮き上がらせる」プロセスをテキストに応用したものです。256トークン分のテキストブロックを並列かつ同時に生成・推敲し、一気に書き上げる(印刷機のような動作)ことで、GPUの計算リソースを無駄なく使い切り、圧倒的な高速化を実現しています。

■ 主な特徴とメリット

  1. 圧倒的な推論速度:専用GPUを用いることで最大4倍の高速化を達成。NVIDIA H100で毎秒1000トークン以上、GeForce RTX 5090でも毎秒700トークン以上の出力が可能です。
  2. 省メモリなMoE設計:全体で26B(260億パラメータ)のMixture of Experts(MoE:処理に応じて必要なパーツだけを起動する仕組み)ですが、推論時に動くのは3.8Bのみです。量子化することで、18GB VRAMのコンシューマー向けGPUでも快適に動作します。
  3. 双方向アテンション:生成時にすべてのトークンが互いに関連し合えるため、文章の前後関係を同時に考慮できます。従来のLLMが苦手だった「コードの穴埋め」や「数独の解決」といった非線形なタスクに強みを発揮します。
  4. リアルタイムの自己修正:テキスト全体を同時に見渡しながら生成するため、文法エラーや記述ミスをリアルタイムに検知して自己修正できます。

■ 注意点とおすすめの用途 本モデルは「速度と並列生成」に特化した実験的モデルであるため、出力の「総合的な品質」自体は標準的な「Gemma 4」より低くなります。そのため、高品質な回答が必要な本番システムには従来の「Gemma 4」の利用が推奨されます。 DiffusionGemmaは、エディタでのリアルタイムなコード補完やインライン編集、すばやい試行錯誤が必要なローカル開発など、低遅延(ローカル推論)が最優先されるインタラクティブな開発プロセスで真価を発揮します。

引用元: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

AIプログラミングツールの普及に伴い、開発者は「高額なAPI利用料(トークン消費)」と、会話が長くなると「AIが途中で前提条件を忘れてしまう記憶喪失」という2つの大きな課題に直面しています。これらを根本から解決するために開発され、GitHubでトレンド1位を獲得するなど世界中で大きな注目を集めているオープンソースプロジェクトが「context-mode」です。

context-modeは、AIモデルと外部システムを繋ぐ標準規格「MCP(Model Context Protocol)」に対応した軽量なプラグインです。プログラミング時におけるAIのトークンコストを最大98%削減し、AIの有効な記憶時間を従来の30分から3時間へと大幅に引き延ばすことができます。

このツールは、主に以下の3つのアプローチで課題を解決します。

  1. 仮想サンドボックスによる無駄なトークンの削減 従来のツールは、ファイルの全データをそのままAIに流し込むため、トークン消費が急増していました。context-modeはローカル環境にデータを保存し、AIには必要な情報だけを絞って提供することで、データ読み込み時のトークンコストを大幅に削減します。

  2. 「スナップショット」による記憶の維持 会話が長くなるとAIは過去の指示を忘れてしまいます。これを防ぐため、開発の進捗やルールをまとめた軽量な要約(スナップショット)を定期的にAIへ自動注入し、重要な設計や前提ロジックを忘れさせない仕組みを提供します。

  3. 「コードで思考(Think in Code)」の推進 AIに大量のデータを直接読み込ませて処理させるのではなく、「データを処理するためのスクリプト」をAI自身に書かせ、ローカルで実行した結果だけをAIに返します。これにより、AIとの高価なやり取りを最小限に抑え、トークンコストを劇的に抑えます。

導入のしやすさと今後の展望 context-modeは、Cursorなどの既存の開発環境(IDE)にそのまま組み込めるアドオン(ミドルウェア)として設計されているため、導入のハードルが非常に低いのが強みです。すでに世界中で24万人以上の開発者や大手IT企業に採用されています。さらに、企業向けにAIの利用コストやエラー発生率を可視化・管理する「Insights」という機能も現在テスト中です。

無駄な情報を極限まで削ぎ落とし、賢くAIを活用する「context-mode」は、これからのAI協調開発における新しいスタンダードとして、多くの開発者の財布と開発効率を救う期待のツールです。

引用元: https://finance.biggo.jp/news/MUh9q54BrAZSr0oS5ID7

AIモデル「Claude Fable 5」に「マンジャロ」をテーマにした漫才の作成を指示したところ、極めて完成度の高い台本が出力され話題を呼んでいます。台本は、ダイエット薬、キリマンジャロ、Manjaro Linuxを巧みに掛け合わせた「三段ボケ」が盛り込まれ、最後はオチまで綺麗に回収する構成です。LLMにおけるお笑いセンスの急速な進化や文脈理解の高さが伺え、汎用人工知能(AGI)の到来を予感させる内容です。

引用元: https://togetter.com/li/2707757

(株式会社ずんだもんは架空の登場組織です)