株式会社ずんだもん技術室AI放送局 podcast 20250814

2025年08月14日

内容紹介

Vibe Check: Claude Sonnet 4 Now Has a 1-million Token Context Window、Evaluating & Ranking GPT-5 Reasoning Ability、「LLMはコンテキストがすべて」かもしれない、スイッチ2版STGや不労所得を狙うずんだもん、『ローション侍』アクスタにオタク向けマッサージまで！？会場で大声も存分に出せた「ゲームパビリオンjp」潜入レポ

出演者

ずんだもん

関連リンク

Vibe Check: Claude Sonnet 4 Now Has a 1-million Token Context Window

Anthropicから新しい大規模言語モデル（LLM）「Claude Sonnet 4」が登場しました。このモデルの最大の注目点は、100万トークンという非常に大きなコンテキストウィンドウに対応したことです。コンテキストウィンドウとは、AIが一度に理解・処理できる情報量のこと。この100万トークンは、ハリー・ポッターシリーズの全巻を一度にAIに読み込ませられるほどの情報量に相当します。

この記事では、この新しいClaude Sonnet 4が実際にどのくらい使えるのか、Googleの「Gemini 2.5 Pro」や「Gemini 2.5 Flash」といった他のLLMと比較してテストした結果が報告されています。

主なテスト内容は以下の3つです。

長い文章の分析能力の検証: 約90万語のシャーロック・ホームズ小説の中に隠された映画のシーンを見つけ出し、分析させるテストです。
- 速度と正確性（幻覚の少なさ）: Claude Sonnet 4は、Geminiモデルよりも約半分の速さで分析を完了し、間違った情報（これを「幻覚」と呼びます）を出すことが少なかったです。
- 詳細さ: ただし、分析内容の「詳細さ」ではGeminiモデルに軍配が上がりました。Geminiが非常に詳しい分析を提供したのに対し、Claudeの分析はやや簡潔でした。
長文のコード分析能力の検証: Every社のコンテンツ管理システム（CMS）の全コードベース（約100万トークン相当）を与え、そのコードの仕組みやデータベースの関連性などを分析させるテストです。
- 正確性: Claude Sonnet 4は、Geminiモデルに比べて、コードの細かな部分を見落とすことがあり、正確性では劣る結果となりました。
- 速度: しかし、処理速度はClaude Sonnet 4の方がわずかに速かったです。Gemini Flashは最も良いスコアを出しましたが、時々出力フォーマットが崩れる不安定さも指摘されています。
AI外交ゲームでの戦略性: AI同士で世界征服を目指す「AI Diplomacy」というゲームで、Claude Sonnet 4の戦略性を試しました。
- Claudeは通常、嘘をつくのが苦手な傾向がありますが、今回のテストでは、攻撃的な指示を与えると非常に高いパフォーマンスを発揮し、他のモデルに迫る成績を収めました。特に、特別な調整をしていない標準的なプロンプトでの性能が際立っていました。

まとめると、Claude Sonnet 4は、大量の情報を「高速」に処理し、「間違った情報（幻覚）を出すことが少ない」という点が大きな強みです。 大規模なドキュメントから必要な情報を素早く抽出したり、複雑な状況での交渉シミュレーションなどに非常に役立つ可能性があります。

一方で、非常に「詳細な分析」や「コードの完璧な理解」を求める場合は、Geminiモデルの方が優れている部分もあります。 また、コスト面ではClaude Sonnet 4は100万トークンあたり6ドルと、Geminiモデルに比べて高価です。

新人エンジニアの皆さんにとっては、プロジェクトで大量のテキストやコードをAIに処理させたいときに、それぞれのモデルの得意分野を理解して、適切なAIを選ぶ際の参考になるでしょう。速度と信頼性（幻覚の少なさ）を優先するならClaude Sonnet 4、詳細な分析を求めるならGeminiといった使い分けが考えられますね。

引用元: https://every.to/vibe-check/vibe-check-claude-sonnet-4-now-has-a-1-million-token-context-window

Evaluating & Ranking GPT-5 Reasoning Ability

この研究は、最新の言語モデル、特に「GPT-5」が持つ推論能力を深く掘り下げて評価したものです。従来の知識量だけを測るベンチマークとは異なり、パターン認識、水平思考（柔軟な発想）、抽象的な推論、文脈理解、そして複数のステップを踏む複雑な推論といった、より実用的な「考える力」を測ることを目指しています。

なぜこの評価が重要なのでしょうか？それは、将来のAIシステムが、単に情報を知っているだけでなく、状況を判断し、適切に行動する「マルチエージェントオーケストレーションシステム」のような高度な協調動作を求められるからです。モデルが自分で判断し、必要なら追加情報を取得するといった能力は、これからのAI開発で非常に重要になります。

評価には、知識の暗記ではなく、創造的な問題解決やひらめきが求められるイギリスのクイズ番組「Only Connect」が使われました。この番組の「共通点を見つける」「数列の次を予測する」「16個の要素をグループ分けする」「母音とスペースが抜けた文章を復元する」といった問題は、AIの推論力を測るのに最適と判断されました。

評価対象となったのは、GPT-3からClaude Opus 4.1、そして8種類の異なる設定を持つGPT-5など、複数の主要な言語モデルです。実際のクイズルールに則り、必要に応じてAIが追加情報を要求する（関数呼び出し）仕組みもシミュレーションされました。

評価の結果、最も優れた推論能力を示したのは「GPT-5」とその中でも特に推論に最適化された設定のモデルでした。推論のレベルを高く設定したGPT-5は、応答時間が長くなり、消費するトークン（AIが処理する情報量）も増える傾向にありますが、その分精度も向上しました。

具体的に問題の種類で見ると、AIは「母音抜き問題」を最も得意としました。これは、文法やスペルのミスを修正するAIの能力が活かされたためです。一方で、16個の要素を関連性でグループ分けする「Wall」ラウンドは最も難易度が高く、モデル間の性能差が顕著でした。これは、プロンプト（指示文）が複雑であるため、より強力な推論能力が求められたためと考えられます。

この研究は、最先端のAIモデル、特にGPT-5が高い推論能力を持つ一方で、それを引き出すためには時間（処理速度）とトークン使用量（コスト）が増えることを示しています。これは、今後のAIシステムを設計・開発する上で、性能とコストのバランスを考慮することの重要性を示唆しています。今後は、さらに詳細なデータ分析や、モデル同士を対戦させるような実践的な評価も予定されています。

引用元: https://ingram.tech/posts/evaluating-gpt5-reasoning-ability

「LLMはコンテキストがすべて」かもしれない

この記事では、LLM（大規模言語モデル）を上手に活用するための新しい考え方「コンテキストエンジニアリング」について、新人エンジニアにも分かりやすく解説されています。

まず、これまでの「プロンプトエンジニアリング」と「コンテキストエンジニアリング」の違いが説明されています。「プロンプトエンジニアリング」がLLMへの指示文（プロンプト）の工夫に焦点を当てるのに対し、「コンテキストエンジニアリング」は、LLMに与える情報全体（コンテキスト）を設計・管理する、もっと広い概念です。例えば、プロンプトはもちろん、参考資料、過去の会話履歴、ウェブから集めたデータなど、LLMが何かを判断するために必要なあらゆる情報が含まれます。外部の知識を取り込むRAG（Retrieval-Augmented Generation）といった技術も、このコンテキストエンジニアリングの一部とされています。

なぜコンテキストがそんなに重要なのでしょうか？LLMは大量のデータで学習して賢くなりますが、私たちが実際に使う時（推論時）も、与える情報の質と量がとても大切だからです。LLMは、与えられた情報から新しいことを学ぶように振る舞う「In-context Learning」という特性を持っています。このため、どれだけ適切で豊富な情報をLLMに与えられるか（コンテキストの質と量）が、LLMの性能を大きく左右するのです。

このコンテキストエンジニアリングを効率的に進めるために、AIエージェントが役立ちます。AIエージェントは、ユーザーのデータやWebの情報など、LLMが必要とする情報を自動で選び、整理して渡してくれます。つまり、AIエージェントは、コンテキストエンジニアリングを助け、自動化してくれるツールの一つと言えます。さらに、LLMの出した結果もまた、次のLLMの入力（コンテキスト）として使えるため、使い続けるほどシステム全体の賢さが増していく好循環が生まれます。

特に大切なのが「自分のドキュメント」です。これは、あなたが独自に持っている知識や情報のこと。このドキュメントをLLMの入力として活用し、さらにLLMの出力でドキュメントを更新・成長させていく「フィードバックループ」こそが、コンテキストエンジニアリングと生成AI活用の最も重要なポイントだと筆者は強調します。LLMやAIエージェントのツールは新しく登場し変わっていくかもしれませんが、「自分のドキュメント」は唯一無二の資産であり、これをLLMが使いやすい形で管理することが、生成AIを最大限に活用する上で非常に重要です。

筆者自身の記事執筆を例に、独自のドキュメント、Web検索、論文検索などを活用してLLMに記事のたたき台を作らせ、それを人間がブラッシュアップしていく具体的な活用方法が紹介されています。

まとめとして、LLMの進化とともにプロンプトの重要性が薄れるという意見もある中で、LLMに与える「コンテキスト」全体を最適化する「コンテキストエンジニアリング」は、今後さらに重要性を増す考え方であると結論づけられています。新しいツールに目を奪われがちですが、長期的な視点で自分のナレッジを蓄積し、それをコンテキストとして活用していくことが、生成AIを使いこなす上で最も大切だと締めくくられています。

引用元: https://zenn.dev/karaage0703/articles/76f2a1b20cd6c1

スイッチ2版STGや不労所得を狙うずんだもん、『ローション侍』アクスタにオタク向けマッサージまで！？会場で大声も存分に出せた「ゲームパビリオンjp」潜入レポ

2025年8月のインディーゲームイベント「ゲームパビリオンjp」のレポートです。会場では、ユニークな作品が多数展示されました。話題のSTG『サカモト危機弾発』や、Switch 2対応の『宵祓い探偵ミアズマブレイカー』などが注目を集めました。さらに、防音マイクで大声が出せるホラーゲーム、人気キャラ「ずんだもん」が不労所得を狙う育成ゲーム、オタク向けマッサージブースなど、開発者との交流と共に多様な体験を楽しめるイベントでした。

引用元: https://www.gamespark.jp/article/2025/08/13/155993.html

お便り投稿フォーム

（株式会社ずんだもんは架空の登場組織です）