株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20241024

2024年10月24日

MP3ファイルをダウンロード

内容紹介

AIやテクノロジーに関する記事を紹介 Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku、Stable Diffusion 3.5 のご紹介 — Stability AI Japan、Runway Research Introducing Act-One

出演者

ずんだもん
ずんだもん

関連リンク

Anthropic社は、大規模言語モデルClaudeの最新版であるClaude 3.5 SonnetとClaude 3.5 Haikuを発表しました。 Claude 3.5 Sonnetは、前モデルと比べて大幅な性能向上を見せており、特にコーディング能力が飛躍的に向上しています。SWE-bench Verifiedでのスコアは33.4%から49.0%に向上し、公開されているモデルの中で最高点を記録しました。 これは、GitLab、Cognition、The Browser Companyといった企業による実証実験でも裏付けられています。これらの企業は、DevSecOpsタスク、AI評価、Webベースのワークフロー自動化など、様々な用途でClaude 3.5 Sonnetを活用し、顕著な成果を上げています。

一方、Claude 3.5 Haikuは、前世代の最大モデルであるClaude 3 Opusと同等の性能を、より低いコストと高速さで実現しています。SWE-bench Verifiedでのスコアは40.6%と、高いコーディング能力を有しています。低レイテンシと高い命令遵守能力から、ユーザー向け製品や、大量データ処理を伴うパーソナライズされた体験の生成などに適しています。

そして、今回の発表で最も注目すべきは、公開ベータ版として提供開始された「コンピュータ使用」機能です。これは、Claudeが人間のように画面を見て、カーソルを動かし、ボタンをクリックし、テキストを入力することでコンピュータを操作できる画期的な機能です。 Claude 3.5 Sonnetは、この機能を公開ベータ版として提供する最初の最先端AIモデルとなります。 この機能は実験段階であり、まだ不完全でエラーが発生する可能性がありますが、開発者のフィードバックを元に迅速に改善していく予定です。 Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyといった企業が既にこの機能を試用しており、複雑なタスクの自動化に成功しています。

ただし、コンピュータ使用機能は、スパム、誤情報、不正行為といったリスクも伴うため、Anthropic社は安全な展開を推進するための対策を講じています。 この機能はAnthropic API、Amazon Bedrock、Google CloudのVertex AIで利用可能です。Claude 3.5 Haikuは今月末に公開予定です。 これらの新モデルとコンピュータ使用機能は、AIを活用した業務効率化に大きく貢献する可能性を秘めています。

引用元: https://www.anthropic.com/news/3-5-models-and-computer-use

Stability AIは、最新の高性能画像生成AIモデル「Stable Diffusion 3.5」をリリースしました。これは、複数のモデルバリエーション(Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turboなど)から構成され、一般のハードウェアでも動作する点が特徴です。 特に、10月29日には、消費者のPCでも使いやすい「Stable Diffusion 3.5 Medium」もリリース予定です。

これらのモデルは、Stability AI Community Licenseの下で、商用・非商用を問わず無料で利用できます(年間収益100万ドル以上の企業はエンタープライズライセンスが必要)。 Hugging Faceからモデルの重み(ウェイト)をダウンロードし、GitHubで公開されている推論コードを用いて利用可能です。

Stable Diffusion 3.5シリーズは、カスタマイズ性を重視して開発されました。Query-Key Normalizationの導入により、ファインチューニングやLoRAによる調整が容易になっています。そのため、特定のニーズに合わせたモデル構築や、アプリケーション開発に適しています。 ただし、シード値による出力のばらつきが大きくなる可能性がある点は留意が必要です。これは、多様なスタイルに対応するための設計上のトレードオフです。

各モデルの特性は以下の通りです。

  • Stable Diffusion 3.5 Large: パラメータ数80億。高品質で、プロフェッショナルな用途(1メガピクセル解像度)に最適。
  • Stable Diffusion 3.5 Large Turbo: Stable Diffusion 3.5 Largeの蒸留版。高速で高品質な画像生成が可能(4ステップ)。
  • Stable Diffusion 3.5 Medium (10月29日リリース予定): パラメータ数26億。消費者のハードウェアでも動作し、カスタマイズ性と画質のバランスが良い(0.25~2メガピクセル解像度)。

Stable Diffusion 3.5は、プロンプトへの忠実度と画質において高い性能を示し、市場で最もカスタマイズしやすいモデルの一つです。 様々なスタイルに対応し、多様な肌の色や特徴を持つ人物の生成にも優れています。

Stability AI Community Licenseでは、非営利目的での利用は無料です。年間収益100万ドル未満の企業も商用利用が可能です。生成されたメディアの著作権はユーザーが保有します。

さらに、Stability AI API、Replicate、DeepInfra、ComfyUIなど、複数のプラットフォームからもアクセス可能です。 安全性についても配慮されており、悪用防止のための措置が講じられています。詳細な情報は、Stable Safetyページを参照してください。

今後、ControlNetsのリリースも予定されており、より高度な制御機能が提供されます。 ユーザーからのフィードバックも歓迎しています。

引用元: https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

Runwayは、アーティストのための表現力豊かで制御可能なツールを開発するというミッションのもと、Gen-3 Alpha内で表現力豊かなキャラクターのパフォーマンスを生成する最新ツール「Act-One」を発表しました。

Act-Oneは、ビデオと音声のパフォーマンスを入力として、魅力的なアニメーションを作成します。従来の顔アニメーションのパイプラインは、モーションキャプチャ機器、複数の映像参照、手動での顔リギングなど、複雑で複数ステップのワークフローを必要としますが、Act-Oneは、俳優のパフォーマンスのみを直接入力とすることで、これらを簡素化します。

シンプルなビデオ入力(例えば、自宅のカメラで撮影した俳優の演技)だけで、視線、微表情、ペース、セリフのデリバリーなどを忠実に再現した生成出力が得られます。俳優の体型とは異なるキャラクターにも適用可能で、創造的なキャラクターデザインとアニメーションの可能性を広げます。

複数カメラによる会話シーンも、単一の俳優とカメラ設定で生成可能です。異なるキャラクターを演じる俳優の演技をビデオ入力として、複数のキャラクターのアニメーションを生成できます。

Runwayは、安全な開発と展開に尽力しており、Act-Oneには、有名人の生成防止、音声使用権の確認、その他悪用防止のための包括的なコンテンツモデレーションと安全対策が導入されています。

Act-Oneは、高度な技術を幅広いクリエイターやアーティストに提供するというRunwayの目標に向けた一歩であり、アニメーションとキャラクターパフォーマンスにおける創造的なストーリーテリングの新たな可能性を切り開くことが期待されています。今後、段階的にユーザーへのアクセスが開始されます。 新人エンジニアの皆さんにも、手軽に高度なキャラクターアニメーション制作を体験できるツールとして、ぜひ注目してみてください。

引用元: https://runwayml.com/research/introducing-act-one

(株式会社ずんだもんは架空の登場組織です)