株式会社ずんだもん技術室AI放送局 podcast 20241127

2024年11月27日

内容紹介

AIやテクノロジーに関する記事を紹介 7 examples of Gemini’s multimodal capabilities in action、Now Hear This: World’s Most Flexible Sound Machine Debuts、GitHub - vcraftjp/VZEditor: MS-DOS Text Editor、8歳で国家資格の第2種電気工事士に合格した小学3年生の女の子が話題に→｢技能試験もあったはずなのに圧着ペンチを握れるのか...｣

出演者

ずんだもん

関連リンク

7 examples of Gemini’s multimodal capabilities in action

GoogleのシニアプロダクトマネージャーLogan Kilpatrickによるブログ記事では、Gemini 1.5 Pro(画像・動画理解に最適化されたモデル)を用いたマルチモーダル機能の7つの実例が紹介されています。Geminiは、画像・動画だけでなく、長文PDF(1000ページ以上)も理解し処理できます。

主な機能と例:

詳細な画像説明: 画像の内容を詳細に記述し、質問にも回答できます。プロンプトに応じて説明の長さ、トーン、形式を調整可能です。
長文PDFの理解: 1000ページ以上のPDFを理解し、表の転記、複雑なレイアウトの解釈、図表・スケッチ・手書き文字の認識、構造化された出力やコードの生成が可能です。例として、15四半期のAlphabetの収益報告書(152ページ)からGoogleの収益データを抽出し、表を作成し、matplotlibを用いたグラフを作成する例が示されています。
現実世界の文書の推論: レシート、ラベル、看板、メモ、ホワイトボードのスケッチなど、現実世界の文書から情報を抽出し、JSONオブジェクトとして返すことができます。
ウェブページデータの抽出: ウェブページのスクリーンショットからデータ(画像・動画を含む)を抽出し、JSONなどの構造化された形式で出力できます。ウェブデータAPIやブラウジングエージェントなどのアプリケーションに活用できます。Google Playの書籍ページから書籍名、著者、評価、価格をJSON形式で抽出する例が示されています。
物体検出: 画像内の物体を検出し、バウンディングボックス座標を生成します。ユーザー定義の基準に基づいて物体を検索・推論する機能も備えています。
動画の要約と転写: 最大90分の動画を処理し、要約や転写を作成、日常シーンからの構造化データの抽出、質問への回答、重要な箇所の特定などが可能です。技術講義の動画を高校生向けに要約する例が紹介されています。
動画からの情報抽出: 動画から情報を抽出し、リスト、表、JSONオブジェクトなどの構造化された形式で出力できます。小売、交通、ホームセキュリティなどの分野でのエンティティ検出、スクリーン録画からの非構造化データ抽出などに役立ちます。

制約:

動画処理においては、現状1FPSのサンプリングのため、一部情報が欠落する可能性があります。より高いFPSでのサンプリングは今後の開発予定です。

Gemini APIを活用した開発には、開発者ガイドと開発者フォーラムが役立ちます。様々なユースケースに対応できる強力なマルチモーダル機能を備えていることがわかります。

引用元: https://developers.googleblog.com/en/7-examples-of-geminis-multimodal-capabilities-in-action/

Now Hear This: World’s Most Flexible Sound Machine Debuts

NVIDIAの研究チームが開発した画期的なAIサウンド生成モデル「Fugatto」は、テキストプロンプトだけで音声を生成・変換できる、世界最高レベルの柔軟性を誇るツールです。既存のAIモデルが特定の音声生成や編集に特化しているのに対し、Fugattoは音楽、音声、効果音などを自由に組み合わせ、テキストと音声ファイルの両方から指示を受け付けることができます。

例えば、「悲しい雰囲気のフランス語で話すテキスト」といった複雑な指示にも対応し、アクセントの強さや感情の度合いを細かく調整できます。既存の楽曲に楽器を追加・削除したり、声のアクセントや感情を変えることなども可能です。さらに、既存データにはない全く新しいサウンドも生成できます。例えば、トランペットが吠えたり、サックスが鳴き声をあげたりといった、想像を超える音も作成可能です。

Fugattoは、音楽制作、広告制作、言語学習ツール、ゲーム開発など、幅広い分野で活用できます。音楽プロデューサーは楽曲のプロトタイプ作成や編集に、広告代理店は多言語・多様な感情表現のボイスオーバー作成に活用できます。言語学習ツールでは、好きな声で学習コンテンツをパーソナライズすることも可能です。ゲーム開発者は、ゲーム内の状況に合わせて効果音をリアルタイムで生成・変更できます。

Fugattoは、音声モデリング、音声符号化、音声理解に関するNVIDIAの以前の研究成果を基盤としています。25億個のパラメータを使用し、NVIDIA DGXシステムとH100 Tensor Core GPUを用いてトレーニングされました。世界各国の研究者による多様な視点と協力体制が、Fugattoの多言語・多アクセント対応機能を強化しました。開発には1年以上の歳月を費やしており、テキストプロンプトからの音楽生成や、犬の鳴き声と電子音楽を組み合わせたサウンド生成など、開発チームを驚かせる成果が多数ありました。

Fugattoは、テキストによる自由度の高いサウンド操作を可能にし、音楽制作やサウンドデザインの可能性を大きく広げる革新的なツールと言えるでしょう。新人のエンジニアの皆さんにとっても、AIによる音声生成技術の最先端を理解する上で、非常に有益な事例となるでしょう。

引用元: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

GitHub - vcraftjp/VZEditor: MS-DOS Text Editor

このGitHubリポジトリは、vcraftjp氏によって公開されたMS-DOS用テキストエディタ「VZ Editor」のソースコードと関連ファイルを提供しています。バージョン1.6が公開されており、PC-9800、J-3100、DOS/V、AX、PS/55、US版のマスターディスクイメージ、ソースコード(アセンブラ)、マニュアル(Markdown形式)、そしてエミュレータでの動作に必要なFDイメージが含まれています。ただし、ソースコードをビルドするには、対応するフリーのアセンブラとリンカが必要となります。また、マニュアルは一部内容を除いてMarkdown形式で提供されています。多くのユーザーによって作成されたマクロは、現状では公開されていませんが、今後公開に向けて準備が進められています。ライセンスはBSD-3-Clauseライセンスです。 PC-9801のエミュレーションにはNeko Project II x64、DOS/V版にはDOSVAXJ3が推奨されています。本プロジェクトは、古き良きMS-DOS時代のテキストエディタを現代に蘇らせる試みであり、多くのユーザーから250のスターと5のフォークを獲得しています。

引用元: https://github.com/vcraftjp/VZEditor

8歳で国家資格の第2種電気工事士に合格した小学3年生の女の子が話題に→｢技能試験もあったはずなのに圧着ペンチを握れるのか…｣

福島県西郷村の小学3年生、石川禾奈子さん(8歳)が第2種電気工事士試験に合格し、話題になっています。これは国家資格であり、電気工事の作業に従事するための専門知識と技能が求められます。禾奈子さんは筆記試験に加え、実際に工具を使って行われる技能試験にも合格したため、多くの注目を集めています。

特にネット上では、8歳という年齢で圧着ペンチなどの工具を扱えること、そして技能試験をクリアしたことに対する驚きと称賛の声が多く上がっています。多くのユーザーが禾奈子さんの努力と才能に感銘を受け、その高い技能と、筆記試験合格のための学習努力に驚きの声をあげています。中には、自身も電気工事士の資格取得を目指しているものの、学習の難しさに苦戦しているという声も見られました。

禾奈子さんの合格は、年齢に関わらず努力と才能があれば国家資格取得も可能であることを示す事例として、多くの反響を呼んでいます。このニュースは、日本のエンジニア、特に新人エンジニアにとって、目標設定やモチベーション向上に繋がる可能性のある、非常に刺激的な出来事です。

引用元: https://togetter.com/li/2470890

お便り投稿フォーム

（株式会社ずんだもんは架空の登場組織です）