株式会社ずんだもん技術室AI放送局 podcast 20241107

2024年11月07日

内容紹介

AIやテクノロジーに関する記事を紹介 Google Confirms Jarvis AI Is Real by Accidentally Leaking It、Unearth insights from audio transcripts generated by Amazon Transcribe using Amazon Bedrock Amazon Web Services、Reducto Document Ingestion API

出演者

ずんだもん

関連リンク

Google Confirms Jarvis AI Is Real by Accidentally Leaking It

Googleが開発中のAIエージェント「Jarvis AI」が、Chrome拡張機能ストアに誤って公開され、その後すぐに削除されました。しかし、一部ユーザーはダウンロードに成功したようです。

Jarvis AIは、Web上の情報を収集したり、商品購入やフライト予約といったタスクを自動化することを目的としたAIです。Gemini AIをベースにしており、日常的なWebベースの作業の自動化を支援するとのことです。2024年12月のリリースを目指しているようです。

記事では、Jarvis AIと同様の機能を持つ他のAIエージェントについても言及しています。AnthropicのClaude AIもコンピュータを制御する機能を持ち、Apple Intelligenceも画面上の操作を学習して自動化する機能を有しています。また、MicrosoftのCopilot+ Recallも同様の機能を持っていましたが、プライバシーに関する懸念からリリースが延期されています。

これらのAIエージェントは、コンピュータ操作の自動化という点で共通の目標を持っていますが、プライバシーやセキュリティに関する課題も抱えていることが示唆されています。Jarvis AIの早期公開は、Googleがこうした技術の開発とリリースにおいて、まだ課題を抱えていることを示しているのかもしれません。今後、Jarvis AIがどのように進化し、どのような機能を提供するのか注目されます。

引用元: https://gizmodo.com/google-confirms-jarvis-ai-is-real-by-accidentally-leaking-it-2000521089

Unearth insights from audio transcripts generated by Amazon Transcribe using Amazon Bedrock Amazon Web Services

本記事は、Amazon TranscribeとAmazon Bedrockを用いた音声データ分析によるビジネス価値創出について解説しています。音声データは分析が難しく、手動での転写・分析は時間とコストがかかりますが、生成AIを活用することで効率的にインサイトを得ることが可能になります。

課題: 音声データの分析は、手動転写とレビューが必要で時間とリソースを大量に消費します。自動音声認識ツールはテキスト化できますが、インサイト抽出には依然として人的作業が必要です。

解決策: Amazon Transcribeによる音声テキスト化と、Amazon Bedrock上のファウンデーションモデル(FM)を用いた分析を組み合わせることで、効率的なインサイト抽出を実現します。具体的には、AnthropicのClaude 3 Sonnetなど、Amazon Bedrockで提供されている様々なLLMを選択して利用可能です。

具体的なユースケース:

マーケティングコンテンツ分析: ポッドキャスト、インタビュー、動画などを要約、分類、分析し、新たなマーケティング素材を生成します。
会議録分析: 会議録音から主要ポイント、要約、感情分析を行い、戦略的意思決定に役立てます。
コンタクトセンター通話分析: 通話を転写・分析し、顧客体験向上に繋げます。

Amazon Transcribeの機能: 音声テキスト化、複数話者認識、個人情報自動削除、業界固有の語彙やカスタム言語モデルの使用による精度向上など。

Amazon Bedrockの機能: テキスト要約、トピック特定、結論認識、感情分析、新規コンテンツ生成など。既存のテキストデータを用いて、ブログ記事作成、要約文作成、SEOキーワード抽出、さらには顧客満足度や感情分析まで行うことが示されています。

実装例: 記事では、PythonとJupyter Notebookを用いた具体的なコード例が紹介されています。Amazon S3のバケットに音声ファイルをアップロードし、Amazon Transcribeでテキスト化、その後、Amazon Bedrock上のFMを用いて様々な分析を行う流れが示されています。 (コードの詳細な説明は省略)

結論: Amazon TranscribeとAmazon Bedrockの組み合わせにより、音声データから顧客感情、課題、リスク軽減策などの貴重なインサイトを効率的に抽出できます。手動作業に比べて時間とコストを削減し、既存コンテンツを革新的に活用する機会を生み出します。マーケティング、会議分析、顧客サービスなど、様々な分野で活用可能です。

引用元: https://aws.amazon.com/blogs/machine-learning/unearth-insights-from-audio-transcripts-generated-by-amazon-transcribe-using-amazon-bedrock/

Reducto Document Ingestion API

RD-TableBenchは、複雑な表のデータ抽出性能を評価するためのオープンベンチマークです。スキャンされた表、手書き文字、複数言語、セル結合など、様々な困難なシナリオを含む1000枚の表画像データセットで構成されています。データはPhDレベルの専門家によって手動でアノテーションされており、既存のベンチマークとは異なり、現実世界の多様な状況を反映した高精度なデータセットとなっています。

本ベンチマークでは、Reducto、Azure Document Intelligence、AWS Textract Tables、GPT4o、Google Cloud Document AI、Unstructured、Chunkr、LlamaParseといった複数のツール/手法の抽出性能を評価しました。評価指標としては、Needleman-Wunschアルゴリズムを基にした階層的アライメント手法を採用しています。これは、セルレベルと行レベルの両方で類似度を計算することで、表構造と内容の両方の類似性を捉えることができます。セルレベルではLevenshtein距離を用いて部分一致も考慮し、行レベルでは行の挿入・削除・分割・結合にも対応できる柔軟な比較を行います。最終的な類似度スコアは0〜1の間で表され、1.0が完全一致、0.0が全く異なることを意味します。

既存のPubTabNetやFinTabNetなどのベンチマークとは異なり、RD-TableBenchはより現実的で多様なデータと高精度なアノテーションを提供することを目指しています。ただし、ベンチマークデータの悪用を防ぐため、評価フレームワークの一部のみが公開されています。各ツールの評価結果については、指定のブログ記事を参照ください。新人エンジニアの皆様には、このベンチマークが表データ抽出モデルの開発・評価に役立つことを願っています。複雑な表データ処理における課題と、その解決に向けた様々なアプローチを理解する上で、非常に有効なリソースとなるでしょう。特に、Needleman-Wunschアルゴリズムを用いた類似度計算手法は、文字列比較だけでなく、表構造の比較にも応用できる高度な技術であることを理解しておきましょう。

引用元: https://reducto.ai/blog/rd-tablebench

お便り投稿フォーム

（株式会社ずんだもんは架空の登場組織です）