株式会社ずんだもん技術室AI放送局 podcast 20260422
内容紹介
ReasoningBank: Enabling agents to learn from experience、PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits、[StudyLLM Ep0] ゼロから作る日本語LLM: GPT-2の推論・学習の可視化からModalでの事前学習まで、ChatGPTに “一日だけ人間になれるとしたら何をする?” と聞いたら回答が凄く美しくて感動→一方とんでもない回答も
出演者
youtube版(スライド付き)
関連リンク
Google Researchが発表した「ReasoningBank」は、AIエージェントが過去の成功体験だけでなく「失敗」からも学び、デプロイ後も自律的に進化し続けるための新しいメモリ(記憶)フレームワークです。
背景と課題
これまでのAIエージェントは、新しいタスクに直面するたびに過去の教訓を活かせず、同じ戦略的ミスを繰り返すという課題がありました。既存のメモリ手法は、単に行動ログをすべて保存するか、成功した手順のみを記録するものが主流でした。これでは「なぜその行動をとったか」という高レベルな推論パターンを抽出できず、また失敗から学ぶ貴重な機会を逃していました。
ReasoningBankの主要な特徴
ReasoningBankは、以下の3つのポイントでエージェントの能力を向上させます。
- 「失敗」を教訓に変える推論メモリ 成功事例だけでなく、失敗した経験から「何が原因だったか」「次はどう回避すべきか」という反事実的なシグナルを抽出します。これにより、例えば「無限スクロールの罠を避けるために、ページ識別子を常に確認する」といった戦略的なガードレールを構築します。
- 構造化された知恵の蓄積 メモリは単純なログではなく、「タイトル」「説明」「 distilled reasoning(抽出された推論ステップや判断根拠)」という構造で保存されます。これにより、特定の操作に依存しない、汎用性の高い戦略として再利用が可能になります。
- MaTTS (Memory-aware Test-Time Scaling) 推論時の計算リソース(スケーリング)をメモリと連携させる新しい手法です。並列または逐次的に複数の試行を行い、それらを比較・洗練させることで、より高品質な学習信号をメモリにフィードバックします。
成果と展望
Web閲覧(WebArena)やソフトウェアエンジニアリング(SWE-Bench-Verified)のベンチマークにおいて、ReasoningBankはメモリなしのモデルと比較して成功率を大幅に向上させ、タスク完了までのステップ数を削減(効率化)することに成功しました。学習が進むにつれ、エージェントの記憶は単なるチェックリストから、複雑な論理構造を持つ「戦略」へと成熟していく様子が確認されています。
この技術は、エージェントが実世界で長期間稼働しながら、自ら賢くなっていく「継続的学習」の実現に向けた重要な一歩となります。新人エンジニアの方にとっても、LLMに「記憶」と「反省」のプロセスを組み込む設計思想は、今後のAIアプリケーション開発において非常に参考になるはずです。
引用元: https://research.google/blog/reasoningbank-enabling-agents-to-learn-from-experience/
PrismMLが発表した「Ternary Bonsai」は、重みを1.58ビット(3値:{-1, 0, +1})で表現する、極めて効率的な新しい大規模言語モデル(LLM)ファミリーです。AIモデルの軽量化(量子化)における限界に挑みつつ、実用的な知能を維持している点が最大の特徴です。
1. 驚異的な軽量化と高い知能の両立 Ternary Bonsaiは、8B、4B、1.7Bの3種類のパラメータサイズで展開されます。特筆すべきは、標準的な16ビットモデルと比較してメモリ消費量を約9分の1に削減している点です。8Bモデル(1.75GB)のベンチマークスコアは平均75.5に達し、メモリサイズが10倍近く大きい他社の標準モデルを上回る、圧倒的な「知能密度」を実現しています。
2. 徹底した「3値」アーキテクチャ 本モデルは、ネットワークの一部だけでなく、埋め込み層、アテンション層、MLP、そして言語モデルヘッドに至るまで、全層で1.58ビット表現を貫いています。具体的には、128個の重みごとに共有のスケールファクタ(FP16)を持たせ、個々の重みを{-1, 0, +1}のいずれかに制約するグループ単位の量子化スキームを採用しています。
3. エッジデバイスでの実用性能 軽量化の恩恵は、実行速度と省電力性に顕著に現れています。
- 高速な推論: Apple M4 Proチップでは、16ビットモデルの約5倍速となる「82 tokens/sec」を記録。iPhone 17 Pro Maxでも「27 tokens/sec」で動作します。
- 優れた省エネ: 従来のモデルに比べ、エネルギー効率が3〜4倍向上しており、モバイルデバイスでの長時間利用に適しています。
4. エンジニアへの公開と展望 モデルの重みはApache 2.0ライセンスで公開されており、Hugging FaceやGitHubから利用可能です。AppleデバイスではMLXフレームワークを通じてネイティブに動作します。
新人エンジニアにとって、このニュースは「LLMは巨大なクラウドサーバーで動かすもの」という常識を覆すものです。1.58ビットという極限の圧縮技術(量子化)によって、手元のスマホやPCで高度な推論をローカル実行できる時代が来ていることを示しています。リソース制約の厳しい環境でいかに知的な処理を実現するか、というエンジニアリングの醍醐味が詰まった技術と言えるでしょう。
引用元: https://prismml.com/news/ternary-bonsai
本ドキュメントは、現代のLLM(大規模言語モデル)の基礎であるGPT-2を題材に、その仕組みを理論と実践の両面から徹底解説したエンジニア向けチュートリアルです。2026年時点の最新モデルも「Decoder-Only Transformer」という基本構造はGPT-2から大きく変わっていません。そのため、小規模なモデルで内部挙動を深く理解することは、最新技術を扱うエンジニアにとって極めて価値の高い経験となります。
前半の理論編では、入力テキストがトークン化され、ベクトルとして多層のTransformerブロックを通過し、次の一語が確率的に選ばれるまでのプロセスを可視化しています。特に「Self-Attention」がどのように過去の文脈を取り込むか、また「残差接続(Residual Connection)」がなぜ深層ネットワークの学習を安定させるのかといった核心部分が、数式と図解で明快に示されています。
中盤の学習編では、LLMの学習の本質が「次トークン予測」というシンプルなタスクの繰り返しであることを解説しています。並列処理を可能にする「Teacher forcing」や、ズレを数値化する「Cross-Entropy Loss」、そしてAdamW最適化手法による重みの更新など、モデルを賢くするための具体的なアルゴリズムが網羅されています。
後半の実践編では、日本語特有の課題と解決策に焦点が当てられています。英語前提のトークナイザは日本語の処理効率が悪いため、SentencePieceを用いた日本語特化型トークナイザを自作。データセットには、教育的価値の高いWebテキストを抽出した「FineWeb-2-edu-japanese」を採用し、計算資源に対して最適なモデルサイズとデータ量を導き出す「Chinchilla則」に基づいた設計を行っています。
インフラ面では、クラウドGPUを秒単位で利用できる「Modal」を活用しています。A100などの高性能GPUを関数単位で呼び出し、数時間・十数ドルのコストで事前学習を完結させるフローは、個人や新人がLLM開発に挑戦する際の強力な武器となります。
結論として、110M程度の小規模モデルでも文法的な日本語は習得できますが、正確な知識の保持にはさらなるスケールが必要であるという、LLMの物理的な限界と可能性を実体験として学べる内容となっています。基礎から実装、モデルの公開までを一気通貫で体験できる、エンジニア必読のガイドです。
引用元: https://nyosegawa.com/series/study-llm/gpt-2/
ChatGPTに「一日だけ人間になれたら何をする?」と問いかけた際の多様な反応をまとめた記事です。「五感を通じて世界を感じ、誰かと時間を共有したい」という哲学的で心温まる回答が多くの感動を呼ぶ一方、設定次第で非常にユニークな回答をする例も紹介されています。プロンプトや学習文脈によって、AIがこれほど情緒豊か、あるいは個性的な表現を生成できるという、LLMの奥深さを実感できる内容です。
引用元: https://togetter.com/li/2688424
(株式会社ずんだもんは架空の登場組織です)