株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20250626

2025年06月26日

MP3ファイルをダウンロード

内容紹介

Gemini CLI: your open-source AI agent、MUVERA: Making multi-vector retrieval as fast as single-vector search、How to Streamline Complex LLM Workflows Using NVIDIA NeMo-Skills、ずんだもん本日メジャーデビュー、リード曲MV公開(動画あり)

出演者

ずんだもん
ずんだもん

関連リンク

Googleは、開発者向けに「Gemini CLI(Command Line Interface)」という新しいオープンソースのAIエージェントを発表しました。これは、GoogleのAIモデルであるGeminiの強力な機能を、皆さんが普段利用しているターミナル(コマンドライン)で直接使えるようにするツールです。

このツールの最大の目的は、開発者の作業を効率化することにあります。コードの生成、プログラムの問題解決(デバッグ)、情報検索、日々のタスク管理など、様々な開発作業をAIの力を借りてよりスムーズに進められるようになります。

Gemini CLIの主な特徴は以下の通りです。

  • オープンソースであること: Apache 2.0ライセンスで公開されており、誰でもコードの中身を確認したり、開発に貢献したりできます。これにより、ツールの透明性が高く、セキュリティ面でも安心して利用できます。また、開発者が自分のニーズに合わせて機能を拡張できる柔軟性も持っています。
  • Gemini 2.5 Proモデルへのアクセス: 最先端のGemini 2.5 Proモデルを利用でき、100万トークンという非常に大きなコンテキストウィンドウ(一度に扱える情報量)を持つため、複雑なリクエストにも対応できます。
  • 充実した無料利用枠: 個人の開発者は、個人用のGoogleアカウントでサインインし、Gemini Code Assistの無料ライセンスを利用することで、1分あたり60リクエスト、1日あたり1,000リクエストまで無料でGemini CLIを使うことができます。これは業界でもトップクラスの利用量です。
  • 多様な機能連携: Google検索と連携してリアルタイムな情報を取得し、プロンプトの回答精度を高める「グラウンディング」機能や、独自の拡張機能を追加できる仕組み(Model Context Protocol)も備わっています。また、プロンプトや指示をカスタマイズしたり、スクリプトに組み込んで作業を自動化したりすることも可能です。

さらに、Gemini CLIはGoogleのAIコーディングアシスタント「Gemini Code Assist」と同じ技術基盤を共有しています。これにより、VS Codeなどの統合開発環境(IDE)でも、Gemini CLIと同様の強力なAIエージェント機能(例えば、複雑なタスクを複数ステップで計画・実行する「エージェントモード」)が利用でき、ターミナルとIDEの両方でシームレスなAI開発体験が得られます。

この新しいツールは簡単に導入でき、日々の開発作業を大きく変える可能性を秘めています。

引用元: https://blog.google/technology/developers/introducing-gemini-cli-open-source-ai-agent/

このGoogleの研究ブログ記事は、情報検索(IR)の分野で使われる「マルチベクトル検索」を高速化する新しい技術「MUVERA」について紹介しています。情報検索は、膨大なデータの中からユーザーが知りたい情報(例えばLLM(大規模言語モデル)の「RAG(Retrieval Augmented Generation)」機能で使う知識など)を素早く見つけ出すための重要な技術です。

最近の情報検索では、文章などをコンピュータが扱いやすい数値の並び「ベクトル(埋め込み)」に変換して、ベクトル同士の似ている度合い(類似度)を計算することで、関連する情報を探すのが一般的です。これまでの「単一ベクトル検索」は、一つのデータに一つのベクトルを割り当て、高速に検索できましたが、情報が複雑になると検索の精度に限界がありました。

そこで、より高度な「マルチベクトルモデル」が登場しました。これは、一つのデータに対して複数のベクトルを生成することで、よりきめ細かく情報を表現でき、検索精度を大きく向上させることができます。しかし、たくさんのベクトルを扱い、複雑な方法で類似度(「Chamfer類似度」など)を計算するため、検索に時間がかかってしまうという課題がありました。

MUVERA(Multi-Vector Retrieval via Fixed Dimensional Encodings)は、この「マルチベクトル検索は精度が高いけれど遅い」という問題を解決するための技術です。MUVERAは、複雑なマルチベクトルの情報を「FDE(Fixed Dimensional Encoding)」という、たった一つのシンプルな単一ベクトルに変換します。このFDEは、元のマルチベクトル間の複雑な類似度を、単一ベクトルで使われる簡単な計算(「内積」)で近似できるように設計されています。

MUVERAの検索の流れは次のようになります。まず、検索したい質問(クエリ)と検索対象のドキュメントのマルチベクトルを、それぞれFDEに変換します。次に、FDE化されたドキュメントの中から、単一ベクトル検索で使われる高速なアルゴリズム「MIPS(Maximum Inner Product Search)」を使って、関連性の高い候補ドキュメントを素早く見つけ出します。最後に、MIPSで見つけた候補ドキュメントに対して、元の正確なChamfer類似度を使って再度ランキングを行うことで、最終的な検索精度を高いレベルで保ちます。

MUVERAの大きな強みは、データを問わずFDE変換が可能であること、そして理論的にChamfer類似度を高い精度で近似できることが保証されている点です。実際のテストでは、MUVERAは高い検索精度を保ちながら、従来のマルチベクトル検索システムに比べてレイテンシ(検索にかかる時間)を平均で90%も削減できることが分かりました。また、FDEは効率的に圧縮できるため、メモリ使用量も大幅に減らせます。

MUVERAは、単一ベクトルの検索速度とマルチベクトルの検索精度を両立させることで、検索エンジン、推薦システム、自然言語処理など、様々な情報検索の現場で役立つことが期待されます。このFDEを生成するアルゴリズムのオープンソース実装は、GitHubで公開されています。

引用元: https://research.google/blog/muvera-making-multi-vector-retrieval-as-fast-as-single-vector-search/

LLM(大規模言語モデル)の性能を向上させるためには、「合成データの生成」「モデルの学習(ファインチューニングなど)」「モデルの評価」といった複数の工程が必要です。しかし、これらの工程では異なるライブラリやツールを使うことが多く、その設定や連携は非常に複雑で、開発者は多くの手間をかける必要があります。例えば、データ生成にはNVIDIA TensorRT-LLMやvLLM、学習にはNVIDIA NeMoといったツールが使われ、これらを連携させるには多くの設定やスクリプト実行が必要になることも少なくありません。

このような複雑なLLM開発ワークフローを効率化するためにNVIDIAが開発したのが、「NeMo-Skills」というライブラリです。NeMo-Skillsは、異なるフレームワークやライブラリをシームレスに連携させるための、より抽象化された(=使いやすい)仕組みを提供します。これにより、開発者はそれぞれのツールを統一された方法で、スムーズに切り替えながら利用できるようになります。

この記事では、NeMo-SkillsがLLMの数学的推論能力を向上させるための具体的なパイプラインを、NVIDIAチームがAI数学オリンピック(AIMO2)Kaggleコンペティションで優勝した際の手法を例に紹介しています。

このパイプラインの主な流れは以下の通りです。

  1. ベースライン評価: まず、モデルが現在の数学問題に対してどの程度の能力を持っているかを評価し、改善の基準点を確認します。
  2. 合成データ生成(SDG): モデルの学習に必要なデータを自動で生成します。既存のデータから問題を抽出し、別の高性能なモデルを使ってその問題に対する詳細な解答(推論過程を含む)を生成します。
  3. モデル学習(ファインチューニング): 生成された合成データを使って、ベースラインモデルの学習を行い、新たなスキルを獲得させます。
  4. 最終評価: 学習後のモデルがどれだけ性能向上したかを再度評価し、ベースラインと比較してその効果を確認します。

NeMo-Skillsを使うことで、これらの複雑なステップを簡単なコマンドやPythonスクリプトで一元的に管理できるようになります。これにより、開発者はローカル環境での手軽なプロトタイピングから、Slurmクラスタのような大規模な計算環境での本格的な実験まで、簡単に移行して実行できます。

NVIDIAはNeMo-Skillsを、AIMO-2コンペティションでの勝利だけでなく、OpenMathReasoningやOpenCodeReasoningといった大規模なデータセットやモデルの開発にも実際に利用しています。LLMの開発や改善に取り組む日本の新人エンジニアの皆さんにとって、NeMo-Skillsは複雑なLLMワークフローをシンプルにし、効率的にモデルを開発・改善するための強力なツールとなるでしょう。

引用元: https://developer.nvidia.com/blog/how-to-streamline-complex-llm-workflows-using-nvidia-nemo-skills/

インターネットで人気のキャラクター「ずんだもん」が、2025年6月25日にメジャーデビューEP「DANCE THROUGH THE WORLD」を配信リリースしました。東北ずん子の武器の妖精で、無料音声合成ソフト「VOICEVOX」を通じて広く知られています。EPにはリード曲「セーワ?」を含むオリジナル曲4曲と、wowakaさんの楽曲カバー1曲が収録され、「セーワ?」のMVもYouTubeで公開中です。

引用元: https://natalie.mu/music/news/629567

(株式会社ずんだもんは架空の登場組織です)