株式会社ずんだもん技術室AI放送局 podcast 20260604
内容紹介
Introducing Gemma 4 12B: a unified, encoder-free multimodal model、Introducing new capabilities to GPT-Rosalind、Introducing MAI-Thinking-1 Microsoft AI、台風で休校になった息子が即座にSwitch2の電源を入れたので諫めたら、「違う」と画面を見せてきた→子どもの間での意外な活用術に、3DS世代が涙
出演者
youtube版(スライド付き)
関連リンク
Google DeepMindは、一般的なノートPCなどのローカル環境で軽快に動作する、高性能なマルチモーダルAIモデル「Gemma 4 12B」を発表しました。本モデルは、モバイル向けモデルの「E4B」と、より高度な「26B MoEモデル」のギャップを埋める位置づけとして開発され、メモリ消費を抑えながらも強力な推論能力を備えているのが特徴です。
新人エンジニアの方に向けて、このモデルの革新的なポイントを4つに分けて解説します。
1. 「エンコーダフリー」という新しいアプローチ
従来の画像や音声に対応するAI(マルチモーダルモデル)は、画像用や音声用の独立した「エンコーダ(前処理用AI)」を使ってデータを変換し、メインの言語モデル(LLM)に渡していました。 しかし、Gemma 4 12Bではこのエンコーダを排除した革新的なアーキテクチャを採用しています。
- 画像(ビジョン)処理: 軽量な埋め込みモジュールのみを使用し、処理の大部分をLLM本体が直接行います。
- 音声オーディオ処理: エンコーダを完全に無くし、生の音声信号を直接テキストトークンと同じ空間にマッピングして処理します。 このシンプルな構造(Unified Architecture)により、処理の遅延(レイテンシ)とメモリの使用量を劇的に削減することに成功しました。
2. ノートPC(ローカル環境)で動く軽さ
モデルのサイズが12B(120億パラメータ)とコンパクトに抑えられているため、16GBのVRAM(ビデオメモリ)やユニファイドメモリを搭載した一般的なPCがあれば、完全にオフラインのローカル環境で動作させることができます。これにより、クラウドのAPIコストを気にせず、手元で手軽にマルチモーダルAIを動かすことができます。
3. 大型モデルに迫る高度な推論力
メモリ消費量は半分以下であるにもかかわらず、ベンチマーク性能は上位モデルである「26B MoE」に迫る実力を持っています。これにより、複雑な「複数ステップの推論」や、自律的に動く「AIエージェント」のワークフローをローカルで実現可能です。また、Multi-Token Prediction(MTP)技術を搭載しており、推論速度も高速化されています。
4. オープンで充実した開発エコシステム
ライセンスは「Apache 2.0」で提供され、自由な開発や商用利用が可能です。Hugging Face、Ollama、LM Studio、llama.cppなど、開発者が普段使っている主要なローカル推論ツールやライブラリに最初から対応しています。さらに、AIエージェント構築を支援する公式のスキルライブラリ「Gemma Skills」も同時に公開されています。
Gemma 4 12Bは、特別なGPUサーバーを用意せずとも、手元のPCだけで最先端の「画像・音声・テキスト」を融合したプロダクト開発を始められる、エンジニアにとって非常に魅力的な選択肢です。
引用元: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
OpenAIは、ライフサイエンス(生命科学)研究およびエンタープライズ規模の創薬に特化したAIモデル「GPT-Rosalind」のアップデートと新機能を発表しました。本モデルは、GPT-5.5が持つ高度なエージェント機能(自律的なコーディングやツール利用)に、医学化学やゲノミクスといった専門領域の強力な知識を融合させたものです。
本アップデートの主な要点と、技術的な特徴は以下の通りです。
1. 専門ベンチマークにおける高い性能と優れたトークン効率
ライフサイエンス研究の現場に即した複数のベンチマークにおいて、従来のGPT-5.5を上回る精度を達成しつつ、消費するトークン数を大幅に削減(コストパフォーマンスが向上)しています。
- LifeSciBench: 科学的根拠の処理、分析、設計、推論など、実際の研究に必要なエンドツーエンドのタスクを評価する新ベンチマーク。本モデルは業界トップクラスの成績を記録。
- MedChemBench (医学化学): 創薬プロセスの最適化などを評価。GPT-5.5に比べトークン消費量を7.2%削減しつつ、精度を向上(27.5% vs 25.1%)。
- GeneBench (ゲノミクス・定量生物学): 長期的な計画と分析が必要なエージェントタスクを評価。GPT-5.5比でトークン数を31%削減し、21.6%の精度を達成。
- LabWorkBench (実験支援): 実際のウェットラボ(実験室)プロトコルにおけるトラブルシューティング能力を測定。トークン数を5.3%削減し、精度は63.2%に向上。
2. ワークフローを実効化するプラグインと可視化ツール
推論を行うだけでなく、開発者や研究者が実際に手を動かして検証できる「実行環境」が強化されました。
- 2つの新プラグイン: 「Life Sciences Research」および「Life Sciences NGS Analysis(次世代シーケンシング分析)」をCodex(コーディング環境)経由で提供。
- データ可視化ビューア: 配列、アライメント、分子構造など、生物学特有のネイティブファイル形式を直接確認・操作できるインタラクティブなビューアをCodex内に実装。
- ユースケース: がんの液体生検データから変異を特定し、関連文献の探索や阻害剤の立体構造の確認までを、同一のワークスペース上でシームレスに実行できます。
3. 安全性を重視した展開
高度な生物学的機能の悪用を防ぐため、十分なガバナンスと安全管理体制を持つグローバルな「信頼された組織(例:製薬大手のノボ ノルディスクなど)」を対象に、リサーチプレビューとして限定的にアクセスが提供されます。
本モデルは、AIが単なる知識の要約にとどまらず、専門的なデータ分析や複雑な実験計画を自律的に支援する「実用的な開発・研究パートナー」へと進化していることを示しています。
引用元: https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind
Microsoft AIは、高度な推論能力を持つ新しいAIモデル「MAI-Thinking-1」を発表しました。このモデルは、人間を置き換えるのではなく、人間の自律性を支援する「Humanist Superintelligence(人間中心の超知能)」の実現に向けた重要な一歩として開発されました。
1. モデルの概要と特徴
MAI-Thinking-1は、アクティブパラメータ数35B(350億)、総パラメータ数約1T(1兆)の「スパースMoE(Mixture of Experts:必要な部分だけを活性化させる高効率な仕組み)」を採用した中規模モデルです。他社のAIモデルの出力結果を真似て学習させる「蒸留」を一切行わず、クリーンかつ商業利用可能なライセンス済みデータのみを用いて、ゼロからトレーニングされました。これにより、高い制御性と信頼性を確保しています。
2. 開発を支える「Hill-Climbing Machine」
Microsoftは、モデルを継続的かつ安定的に進化させる開発パイプライン「Hill-Climbing Machine」を導入しました。以下の3つの柱を重視しています。
- 自立した学習: 模倣(蒸留)による学習は、教師モデルの限界や設計の偏りを受け継いでしまいます。自ら課題を解くことで、真の適応力を養っています。
- クリーンなデータ: プレトレーニングからAI生成コンテンツを排除し、データの出所を明確にすることで、モデルの挙動を正確に把握・改善できるようにしています。
- 自社インフラの最適化: 自社製のアクセラレータから強化学習フレームワークに至るまで、全レイヤーを社内で最適化し、効率的な訓練を可能にしています。
3. エンジニアを強力に支援する高い性能
中規模ながら、以下のような極めて高いパフォーマンスを発揮します。
- 優れたコーディング支援: ソフトウェア開発のベンチマーク(SWE-Bench Pro)において、より巨大なモデルである「Claude Opus 4.6」と同等の実力を示しました。開発者が実際に行う「コードの読み込み、ファイルの編集、テストの実行、エラーからの復旧」といったマルチステップの作業をエミュレートした環境で訓練されています。
- 高い数学的・科学的推論力: 数学オリンピックレベルの難問を扱う「AIME」ベンチマークにおいて極めて優秀な成績を収め、推論ループによる知能の一般化が証明されています。
- 優れたユーザー評価: 人間によるブラインド評価において、「Claude Sonnet 4.6」よりも好ましい回答を出力すると評価されました。
4. 実務への導入しやすさ(エンタープライズ対応)
256kトークン(約600ページの文書に相当)の長い文脈を理解でき、関数呼び出し(Function Calling)や開発者命令にも柔軟に対応します。また、一般的なChat Completions APIと互換性があるため、既存システムへの組み込みも容易です。
安全性を考慮するあまり必要な要求まで拒否してしまう「過剰な拒絶」を防ぐため、利便性と安全性のバランスを強化学習の段階から最適化しています。現在は「Microsoft Foundry」でプライベートプレビューとして提供されています。
引用元: https://microsoft.ai/news/introducing-mai-thinking-1/
スマホを持たない子どもたちが、Nintendo Switchのアカウント名を変更して「休校やったー」「2時公園」などと記述し、フレンド間で連絡を取り合っている微笑ましいハック。この「限られた機能(制約)を工夫して通信手段に落とし込む」手法は、かつて3DSのコメント欄等で行われていた文化の再来であり、制約の中で新しい価値を生み出す子どもたちの逞しい知恵に、多くの元ゲームキッズが感動しています。
引用元: https://togetter.com/li/2704944
(株式会社ずんだもんは架空の登場組織です)