株式会社ずんだもん技術室AI放送局 podcast 20250717

2025年07月17日

内容紹介

R²D²: Training Generalist Robots with NVIDIA Research Workflows and World Foundation Models、Gemini Embedding now generally available in the Gemini API、KiroとClaude Codeの組み合わせで開発の質と速度を両取りできた、Grokのアライグマが人気ない理由わかったわ。こんなん誰が使うねん「天龍みたいな声でクッソ罵倒してくるのほんまおもろい」

出演者

ずんだもん

関連リンク

R²D²: Training Generalist Robots with NVIDIA Research Workflows and World Foundation Models

NVIDIAが、ロボットが新しいタスクを効率的に学習するための画期的な研究成果を発表しました。これまでは、ロボットに新しい動作を教えるには、大量のデータを集めて一つずつラベル付けする手間がかかっていました。この課題に対し、NVIDIAは「生成AI」や「ワールドファウンデーションモデル（WFMs）」、そして「合成データ生成」という最先端技術を活用することで、ロボットの学習を劇的に効率化しようとしています。

この研究の核となるのが、ロボットが未来の状況を予測し、リアルなトレーニングデータを自動で生成できる「NVIDIA Cosmos」のようなWFMsです。これにより、数ヶ月かかっていた開発期間がわずか数時間で済むようになります。

特に注目されるのが「DreamGen」という合成データ生成パイプラインです。これは、WFMsを使って、人間が手作業で集める手間をかけずに、現実的で多様なトレーニングデータを作り出す技術です。DreamGenで生成されたデータは、ロボットの賢さを測る「DreamGen Bench」という基準で評価され、スコアが高いほど実際のロボットの性能も向上することが確認されています。この技術をベースにした「NVIDIA Isaac GR00T-Dreams」を使えば、ロボットの行動学習に必要な大量のデータを効率的に用意できます。

さらに、NVIDIAは汎用的なロボットを実現する「GR00T N1」というオープンファウンデーションモデルを開発しました。これは、人間の認知能力にヒントを得て、視覚、言語、行動を統合することで、ロボットが複雑な指示を理解し、多段階のタスクを実行できるようにします。「GR00T N1.5」は、このGR00T N1の改良版で、実世界のデータ、シミュレーションデータ、そしてDreamGenで生成した合成データを組み合わせて訓練することで、より高い成功率と幅広いタスクへの対応力を実現しています。驚くべきことに、GR00T N1.5のアップデートは、手動でのデータ収集なら約3ヶ月かかるところを、合成データを活用することでわずか36時間で完了したとのことです。

また、「Latent Action Pretraining from Videos（LAPA）」という技術も発表されました。これは、インターネット上のラベルなし動画を大量に利用して、ロボットの行動を自動で学習させる方法です。これにより、高コストな手動ラベリングが不要になり、効率的なロボット学習が可能になります。

「Sim-and-Real Co-Training」という手法は、ロボットの学習における「リアリティギャップ」を埋めるものです。少量の現実世界のデータと大量のシミュレーションデータを賢く組み合わせることで、シミュレーションで訓練したロボットが実際の環境でも安定して動作できるようになります。この手法は、データ収集のコストを抑えつつ、ロボットの頑丈な動作を可能にします。

これらのNVIDIAの研究成果は、すでにAeiRobot、Foxlink、Lightwheel、NEURA Roboticsといった企業で活用され始めており、産業用ロボットやヒューマノイドロボットの開発を加速させています。今回の発表は、AIとロボティクスの未来を大きく変える可能性を秘めた、非常に重要な一歩と言えるでしょう。

引用元: https://developer.nvidia.com/blog/r2d2-training-generalist-robots-with-nvidia-research-workflows-and-world-foundation-models/

Gemini Embedding now generally available in the Gemini API

Googleは、Gemini APIで新しいテキスト埋め込みモデル「gemini-embedding-001」の正式リリースを発表しました。このモデルは、私たちが普段使う「文章」や「単語」といったテキスト情報を、AIが理解し計算しやすい「数値の並び」（これを「埋め込み」と呼びます）に変換するための技術です。AI開発において、この埋め込みを使うことで、テキストデータの中から関連性の高い情報を素早く探し出したり、文章の意味を理解して分類したり、質問に自動で答えるシステムを構築したりと、AIが賢くテキストを扱うための土台となります。

「gemini-embedding-001」の最も大きな特徴は、その非常に高い性能です。テキスト埋め込みモデルの国際的な評価基準である「MTEB Multilingualリーダーボード」で、常にトップクラスの性能を維持しています。これまでのGoogleのモデルや、他社が提供しているモデルと比べても、情報の検索からテキストの分類まで、様々なタスクで優れた結果を出していることが示されています。この汎用性の高さにより、科学論文、法律文書、金融データ、さらにはプログラミングコードなど、幅広い分野でのAIアプリケーション開発に活用できる可能性を秘めています。

このモデルは100以上の言語に対応し、一度に最大2048トークン（AIが処理する最小単位の文字数）のテキストを扱えます。さらに「Matryoshka Representation Learning (MRL)」というユニークな技術を採用しており、出力される埋め込みの「次元（数値の並びの長さ）」を、デフォルトの3072次元から、1536次元や768次元へと柔軟に変更できます。これは、開発者がAIアプリケーションの性能を最大限に引き出すか、それともデータの保存コストを抑えるかを、プロジェクトのニーズに合わせて最適化できるというメリットをもたらします。

このモデルは現在、Gemini APIを通じて利用可能で、Google AI Studioから無料で試すことができます。料金体系も手頃で、100万入力トークンあたり0.15ドルと設定されています。

なお、現在使用されている実験版モデル「gemini-embedding-exp-03-07」は2025年8月14日にサポートが終了し、その他の古いモデルも順次非推奨となるため、Googleは早期に新しい「gemini-embedding-001」への移行を推奨しています。今後は、大量のデータをまとめて効率的に処理できる「Batch API」でのサポートも予定されており、さらに大規模なAI開発が可能になるでしょう。この高性能な埋め込みモデルの登場により、これまで実現が難しかった新しいAI活用の道が拓かれることが期待されます。

引用元: https://developers.googleblog.com/en/gemini-embedding-available-gemini-api/

KiroとClaude Codeの組み合わせで開発の質と速度を両取りできた

この記事では、新しく登場したAI搭載の統合開発環境「Kiro」と、既存の高速開発AI「Claude Code」を組み合わせることで、ソフトウェア開発の質と速度を同時に向上させる実践的な方法が紹介されています。

まず、それぞれのツールの特徴を理解しましょう。「Kiro」は、2025年7月15日にAmazonがリリースしたAI開発ツールで、対話形式で非常に詳細な「要件定義書」や「設計書」、そして「タスクリスト」を作成することに優れています。つまり、何を、どのように作るかを明確にする「設計」の部分がKiroの強みです。しかし、現時点では実際にコードを生成する「実装」の速度には課題があります。

一方、「Claude Code」は、非常に高速にコードを生成できるAIとして多くの開発現場で使われています。しかし、指示が曖昧だと意図しないコードが生成されたり、過去の会話内容を忘れてしまったりすることがあり、正確な「指示出し」が難しいという弱点があります。

そこで筆者は、Kiroの「質の高い要件・設計書作成」という強みと、Claude Codeの「爆速実装」という強みを組み合わせることを考えました。具体的な実践例として、簡単な太陽系シミュレータを開発するプロジェクトでこの方法を試しています。

Kiroによる要件・設計・タスク作成: まず、Kiroに「太陽系の惑星の公転をシミュレートするツールを作りたい」といった大まかな指示を与えるだけで、Kiroは対話形式で詳細な要件書、設計書、そして具体的な実装手順を記したタスクリストを自動で作成してくれます。これにより、開発の初期段階で必要な情報を漏れなく、かつ明確に定義できます。
Claude Codeへの実装指示: Kiroが作成した詳細なタスクリストをClaude Codeに読み込ませます。Claude Codeは、Kiroによって完璧に整理されたタスクリストを理解し、その指示に従ってコードの生成を「爆速」で実行し始めます。Claude Codeは、Kiroが作成した要件書や設計書も参照することで、より正確に意図を汲み取ってくれます。

この組み合わせにより、要件定義や設計でAIの助けを借りて品質を高めつつ、実装では別のAIを使って高速化するという、「良いとこ取り」が実現できたと筆者は述べています。新人エンジニアの皆さんも、将来的にAIツールを活用して開発を進める際に、このように複数のツールを組み合わせることで、それぞれのAIの得意なことを最大限に引き出し、効率的で高品質な開発を目指せるという良い学びになります。AIが進化する現代の開発現場では、AIをいかに使いこなすかが重要になってきています。

引用元: https://zenn.dev/ubie_dev/articles/kiro-claude-code

Grokのアライグマが人気ない理由わかったわ。こんなん誰が使うねん「天龍みたいな声でクッソ罵倒してくるのほんまおもろい」

AIアシスタント「Grok」の、可愛らしいレッサーパンダのキャラクターが話題です。実は、見た目に反して、特定のモードでは渋い声でユーザーを罵倒してくるユニークな特徴があります。この「悪口モード」と、見た目とのギャップがSNS上で「面白い」と多くのエンジニアの間で注目を集めています。AIの意外な一面を楽しめる記事です。

引用元: https://togetter.com/li/2576837

お便り投稿フォーム

（株式会社ずんだもんは架空の登場組織です）