株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20241002

2024年10月02日

MP3ファイルをダウンロード

内容紹介

AIやテクノロジーに関する記事を紹介 Show HN: A real time AI video agent with under 1 second of latency、Ask HN: How to deal with AI generated sloppy code、LLMの日本語化はベクトル表現にも有効か?LLM2Vecにおける日本語ドメイン適応の効果、「ゲーム一切やらないけど好きな実況を見てゲームのグッズだけ買う友人」にモヤっとしてたけど、野球観戦に例えたら腑に落ちた

出演者

ずんだもん
ずんだもん

関連リンク

Tavus社が開発した、1秒以下の低遅延を実現したリアルタイムAIビデオエージェントが発表されました。これは、人間と自然な会話ができるデジタルツイン(アバター)を生成する技術です。

概要

Tavus社は、AIビデオモデルを用いてデジタルツインを構築するAI研究開発企業です。今回の発表では、人間とリアルタイムで自然な会話ができるAIビデオエージェントを開発したことを示しています。このエージェントは、1秒以下の低遅延を実現しており、まるで人と話しているような感覚を得られます。

制約と課題

低遅延、スケーラビリティ、コストの3つのバランスを保つことが大きな課題でした。特に、初期のモデルでは、1つの会話にH100 GPUを1つ使用する必要があり、スケーラブルでコスト効率の良いシステムではありませんでした。

そこで、Phoenix-2モデルを開発し、以下の改善を行いました。

  • Gaussian Splattingを用いたフレーム生成による高速化
  • GPUメモリとコア使用量の最適化による低スペックハードウェアでの動作
  • ストリーミング処理や並列処理などの効率化

さらに、音声認識、LLM、音声合成、ビデオ生成などの各コンポーネントを高度に最適化することで、1秒以下の低遅延を実現しました。LLMについては、処理速度だけでなく、最初のトークン生成までの時間を短縮することが重要でした。また、音声の終わりを正確に検知する技術も開発し、会話の自然さを向上させています。

この技術は、顧客サポートや教育、エンターテイメントなど、様々な分野で活用が期待されています。

補足

  • この技術は、まだ開発段階であり、完璧な自然さや精度を実現しているわけではありません。
  • GPUリソースの利用にはコストがかかります。
  • この技術が社会に与える影響については、倫理的な観点からも議論が必要となります。

引用元: https://news.ycombinator.com/item?id=41710227

近年、AIを用いたコード生成ツールが普及し始めていますが、生成されるコードが冗長で複雑になり、保守性が低下するという問題が指摘されています。

Hacker Newsの記事では、AI生成コードの品質に関する懸念が議論されています。投稿者は、AIによって生成されたコードが、多くの関数や型、間接的な呼び出しを含み、手書きのコードよりもはるかに長く、理解しにくいものになっていると述べています。また、このようなコードには、従来であれば容易に発見できたバグが潜んでおり、デバッグに非常に時間がかかることも問題視されています。

これは、かつてJava開発で起こった、IDEのオートコンプリート機能によってクラスやオブジェクトが乱用され、コードが複雑化してしまった問題と似ていると投稿者は指摘しています。

AI生成コードは、動作するコードを生成するものの、保守性の観点からは望ましくない書き方をしていることが多く、将来的に大きな問題となる可能性があります。

議論では、AI生成コードの問題に対処する方法として、以下のような意見が出ています。

  • AIにコード生成だけでなく、コードレビューやテストもさせるのではなく、どちらかに限定する
  • AIに、より簡潔で表現力豊かな言語(Rubyなど)で疑似コードを生成させ、それをJavaなどに翻訳させる
  • AIに、経験豊富なエンジニアのコードスタイルを模倣するように指示する
  • AI生成コードの特性を理解した上で、適切なコードレビューやリファクタリングを行う
  • AI生成コードの保守性を考慮し、料金を調整する

AIによるコード生成は、開発の効率化に役立つ一方で、コードの品質や保守性を考慮することが重要です。エンジニアは、AIを活用しつつ、コードの可読性や保守性を維持するための対策を講じる必要があります。

引用元: https://news.ycombinator.com/item?id=41677207

この記事では、大規模言語モデル(LLM)を用いたテキストベクトル化手法「LLM2Vec」とその日本語ドメインへの適応について解説しています。

LLM2Vecは、LLMのテキスト生成能力を活かして、テキスト全体を効果的にベクトル表現に変換する手法です。従来、LLMの出力ベクトルはテキストの末尾のみを用いることが多かったですが、LLM2Vecでは、Transformerの自己注意機構のマスクを調整することで、テキスト全体の情報を含むベクトルを得られるように工夫されています。さらに、SimCSEを用いることで、ベクトル表現の質を向上させています。

論文では、Wikipediaを用いた教師なし学習と、E5データセットを用いた教師あり学習において、LLM2Vecが従来手法よりも高い精度を達成することを示しています。

日本語への適応実験では、以下の2つの実験を行いました。

  1. LLM2Vecの処理を日本語Wikipediaで行う
  2. 日本語で事前学習されたLLM(Swallow-7b)を用いてLLM2Vecを行う

その結果、日本語Wikipediaを用いたLLM2Vecは、英語Wikipediaを用いた場合と比べて精度が向上し、日本語で事前学習されたLLMを用いることでさらに精度が向上することが分かりました。これは、LLM2Vecの手法を対象ドメインの言語で適用することや、対象ドメインでLLMを継続学習することが、ベクトル表現の精度向上に有効であることを示唆しています。

ただし、英語タスクでは、日本語でLLM2Vecを行った場合、英語でLLM2Vecを行った場合よりも精度が低いという結果も得られました。これは、LLMの日本語化が必ずしもすべてのタスクで有効ではないことを示しており、今後の更なる研究が必要となります。

この記事は、LLMを用いたテキストベクトル化に興味のある、特に日本語テキストを扱うエンジニアにとって有益な情報となります。LLM2Vecは、日本語テキストのベクトル表現の精度向上に貢献する可能性を秘めており、今後の自然言語処理分野の発展に期待が持てます。

引用元: https://tech.uzabase.com/entry/2024/09/30/114245

近年、ゲーム実況を視聴する層が増加し、ゲームをプレイせずに実況動画のみで楽しんだり、グッズを購入する人がいることに対して、ゲームクリエイターなどからは疑問の声が上がっていました。

しかし、このTogetterのまとめでは、「ゲーム実況視聴」を「野球観戦」に例えることで、その行動の背景にある心理が理解できるという意見が多数寄せられています。

野球観戦では、実際にプレイする人は限られており、多くの人はプロの試合を楽しみ、応援する立場にあります。同様に、ゲームにおいても、操作が苦手であったり、時間的制約があるなど、様々な理由で自身でプレイできない人が、実況動画を通じてゲームの世界を楽しんだり、好きな実況者やゲームに関連するグッズを購入することで、その世界観に共感し、満足感を得ていると考えられます。

ゲーム実況は、単にゲームプレイの配信ではなく、実況者による個性的な解説や反応、視聴者との交流など、ゲームプレイだけでは得られない付加価値を提供している側面もあります。そのため、ゲームをプレイしない人でも、実況動画を通じてゲームの世界を深く理解したり、楽しんだりすることができるのです。

一方で、ゲームメーカー側としては、ゲームの購入やプレイを通じて収益を得ることを期待しているため、実況動画視聴のみでグッズ購入に留まる現状には、必ずしも満足していないという声も上がっています。

このTogetterのまとめは、ゲーム実況の視聴動機や、ゲームと視聴者との関係性を改めて考えさせられる内容となっています。ゲーム業界において、実況動画視聴者をどのように捉え、より良い関係を構築していくのか、今後の課題と言えるでしょう。

引用元: https://togetter.com/li/2442931

(株式会社ずんだもんは架空の登場組織です)