株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20241205

2024年12月05日

MP3ファイルをダウンロード

内容紹介

AIやテクノロジーに関する記事を紹介 OpenAI partners with defense company Anduril、Genie 2: A large-scale foundation world model、Building Reliable GenAI Applications: A Hands-on Testing & CI Workshop

出演者

ずんだもん
ずんだもん

関連リンク

OpenAIと防衛技術企業Andurilが12月4日に提携を発表しました。この提携により、AndurilはOpenAIの高度なAIシステムを「国家安全保障任務」に利用できるようになります。

これは、AI企業が軍事利用に関する禁止を撤回し、防衛産業大手と提携する、物議を醸す広範なトレンドの一部です。 先月には、AnthropicとPalantirがAWSと提携し、米国情報機関や国防総省にAnthropicのAIシステムへのアクセスを提供すると発表しています。

今回のOpenAIとAndurilの提携は、主に無人航空機に対する防御システムの向上に焦点を当てています。具体的には、リアルタイムでの脅威の検知、評価、対応能力の向上を目指します。 OpenAIは、AIモデルを活用することで、時間制約のあるデータの迅速な分析、人的負担の軽減、状況認識の向上を図ると説明しています。

ただし、この提携は、AI技術の軍事利用に関する倫理的な懸念を再び浮き彫りにしています。OpenAIは、AIシステムを他者を傷つけるために使用することを禁じるという方針を堅持しているものの、軍事利用に関する具体的な禁止事項は既に削除されています。 過去には、GoogleのProject Mavenや、Microsoft、Amazonの軍関連契約を巡って、従業員からの反対運動が起こった経緯があります。 今回のOpenAIとAndurilの提携は、AI技術の軍事利用における複雑な倫理的課題を改めて示す事例と言えるでしょう。

引用元: https://www.cnbc.com/2024/12/04/openai-partners-with-defense-company-anduril.html

Google DeepMindが開発した「Genie 2」は、エージェントの訓練と評価のための多様な3D環境を無限に生成できる基盤となるワールドモデルです。単一の画像プロンプトから、人間またはAIエージェントがキーボードとマウスで操作可能な、インタラクティブな3D環境を生成します。

従来、現実世界のエージェントを訓練するには、多様な環境データが不足していましたが、Genie 2は、Imagen 3で生成された画像をプロンプトとして使用することで、テキストによる世界描写からインタラクティブな3D環境を生成します。 生成された環境では、オブジェクトの相互作用、複雑なキャラクターアニメーション、物理法則などが再現され、最大1分間の継続的なシミュレーションが可能です。

Genie 2は、カウンターファクチュアルな体験のシミュレーションや、視界から外れた部分の記憶と再現、様々な視点からのレンダリング(一人称視点、アイソメトリックビューなど)といった機能も備えています。さらに、煙や水、重力、光、反射といった物理現象もモデル化できます。

実世界の画像からもプロンプトとして利用でき、風による草の揺れや川の流れる様子なども再現可能です。 これにより、研究者は多様なインタラクティブな体験を迅速にプロトタイプ化し、様々な環境でAIエージェントを訓練・評価できます。 また、概念アートやスケッチからインタラクティブな環境を生成することで、クリエイティブなワークフローの革新にも繋がります。

Genie 2は、大規模なビデオデータセットで訓練された自己回帰型潜在拡散モデルであり、オートエンコーダとトランスフォーマーダイナミクスモデルを用いています。推論時には、フレームごとに個々のアクションと過去の潜在フレームを受け取り、自己回帰的にサンプリングされます。分類子フリーガイダンスを用いることで、アクションの制御性を向上させています。

本研究はまだ初期段階であり、エージェントと環境生成能力の両方に改善の余地がありますが、Genie 2は、AGIへの進歩に必要な広さと汎化性を達成しつつ、安全にエンボディッドエージェントを訓練するという構造的問題解決への道筋を示しています。 Google DeepMindは、Genie 2が、より汎用的なAIシステムとエージェントの開発に貢献すると考えています。

引用元: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

このワークショップは、生成AIアプリケーションの信頼性ある開発を目的とした実践的なテストとCI/CDパイプライン構築に関する内容です。従来のソフトウェアテストとは異なり、AIの応答の良し悪しを客観的に評価する手法が課題となります。

本ワークショップでは、手動レビューに頼るのではなく、別のAIモデルを評価者(ジャッジ)として用いることで、応答の受容基準を明確化し、再現可能なテストプロセスを構築する方法を学びます。 Helix.mlのテストフレームワークを用いて、YAMLでテスト仕様を記述し、GitHub ActionsやGitLab CIへの統合、自動デプロイまでを網羅します。

ワークショップでは、以下の3種類のAIアプリケーションを例に、様々なテストの課題と解決策を学びます。

  1. コメディアンチャットボット: 一貫性と個性のあるジョーク生成のテストを通して、プロンプトエンジニアリングと自動テストの重要性を理解します。
  2. 文書Q&Aシステム: 人事関連文書を用いたQ&Aシステムを構築し、正解データに基づいた自然言語処理のテスト方法を習得します。
  3. 為替レートAPI連携: 外部APIと連携するAIシステムのテスト方法を学び、通貨ペアの正確な処理と情報提示の明確さを検証します。

GitHubリポジトリhttps://github.com/helixml/testing-genaiには、ワークショップで使用されたコードとサンプルが公開されています。 ただし、使い方等の詳細はリポジトリを参照ください。 本要約では概要と制約事項のみを記述しています。

ワークショップは毎週月曜日に開催され、参加登録はhttps://mlops-l.ink/helix-workshopから可能です。 個別ワークショップも対応可能ですので、luke@helix.mlまでお問い合わせください。

引用元: https://blog.helix.ml/p/building-reliable-genai-applications

(株式会社ずんだもんは架空の登場組織です)