株式会社ずんだもん技術室AI放送局 podcast 20241218
内容紹介
AIやテクノロジーに関する記事を紹介 GPUで高速なモデル推論を実現するために考えること -FlashAttentionはなぜ高速か-、MobileDiffusion: Rapid text-to-image generation on-device、Microsoft、GraphRAG 1.0をリリース ―セットアップやCUIを改善し処理効率もアップ gihyo.jp、片耳が聴こえず、もう片耳もかなり聴力が低い父親にAirPodsの聴覚・聴力機能を勧めてみたら感動の展開に
出演者
関連リンク
この記事では、GPUにおける深層学習モデルの推論速度を向上させるための重要な要素として、演算量だけでなく、GPUメモリ(HBMとSRAM)間のデータ転送量に着目しています。特に、大規模言語モデル(LLM)の推論では、メモリI/Oがボトルネックになることが多く、FlashAttentionという技術がその解決策として紹介されています。
FlashAttentionは、Attention機構の計算を高速化するアルゴリズムで、行列演算量を削減するのではなく、データ転送量を削減することで大幅な高速化を実現しています。GPUには高速な行列演算を行うためのハードウェアがありますが、メモリ間のデータ転送速度がボトルネックになることが多く、特にLLMのような大規模モデルでは顕著です。
記事では、簡略化したGPUモデルを用いて、QKV projectionとAttention機構の計算における演算量とデータ転送量を比較しています。通常のAttention機構では、データ転送量が演算量よりも支配的になり、I/Oが律速となることが示されています。
FlashAttentionは、このI/Oボトルネックを解消するために、QKVをブロック分割し、ブロックごとにAttentionの最終出力まで計算することで、冗長なデータ転送を削減しています。これにより、演算量に対するデータ転送量の比率を改善し、推論速度を大幅に向上させています。
記事の結論として、GPUでの高速なモデル推論には、演算量だけでなくデータ転送量にも着目する必要があり、特に大規模モデルではハードウェアの制約を考慮した技術が重要になると述べています。
引用元: https://www.m3tech.blog/entry/20241217_flash_attention
Googleの研究チームが、モバイルデバイス上で高速なテキストからの画像生成を可能にする「MobileDiffusion」を発表しました。従来のテキストから画像生成するモデルは、計算コストが高く、モバイルデバイスでの利用が困難でしたが、MobileDiffusionは、モデルの構造を最適化し、推論時のステップ数を削減することで、この課題を克服しました。
MobileDiffusionは、以下の3つの主要な要素で構成されています。
- テキストエンコーダ: 軽量なCLIP-ViT/L14モデルを使用。
- 拡散UNet: Transformerブロックと畳み込みブロックを最適化。特に、TransformerブロックをUNetの中央部に集中させ、計算コストの高い自己注意層を削減。畳み込み層は、分離可能な畳み込み層を使用。
- 画像デコーダ: 軽量なVAEデコーダを設計し、品質を維持しつつ高速化。
さらに、DiffusionGANという手法を導入し、推論時のステップ数を1ステップに削減しました。これにより、MobileDiffusionは、わずか520Mのパラメータで、高品質な512x512サイズの画像を0.5秒以内で生成できます。
この技術は、モバイルデバイスでの画像生成をより身近にし、ユーザー体験の向上やプライバシー保護に貢献することが期待されます。
引用元: https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/
Microsoftが、RAG(検索拡張生成)を効率化するGraphRAGの正式版1.0をリリースしました。主な改善点は以下の通りです。
graphrag init
コマンドによる簡単なセットアップ:環境変数の設定が不要になり、.env
ファイルとsettings.yaml
ファイルが自動生成されるようになりました。- 新しいコマンドラインインターフェース(CLI):Typerを採用し、使いやすさが向上。起動時間が大幅に短縮されました。
- 統合されたAPIレイヤー:GraphRAGの機能を独自アプリに組み込みやすくなりました。
- データモデルの簡素化:冗長なフィールドが削除され、出力が整理されました。
- ベクターストアの合理化:インデックス作成時にベクターストアが作成されるようになり、読み込み時間とメモリが節約されました。
- コード構造の簡素化:保守性が向上し、大規模データセットの処理が容易になりました。
- インクリメンタルな取り込み:
update
コマンドにより、差分更新が可能になり、再インデックス作成が最小限になりました。
これらの変更により、GraphRAG 1.0は以前のバージョンと下位互換性がありません。移行ガイドがGitHubリポジトリに用意されています。GraphRAG 1.0はGitHubとPyPIで公開されており、Getting Startedガイドを参照することで利用を開始できます。
引用元: https://gihyo.jp/article/2024/12/graphrag-1-0
この記事は、片耳が聞こえず、もう片耳の聴力も低い父親にAirPodsの聴覚サポート機能を試したところ、感動的な体験が得られたという話です。 投稿者は、父親がAirPodsを通して今まで聞こえなかった沢の音を聞いて感動した様子を伝えています。 この機能は、AirPods Pro 2と特定のiOSバージョンを搭載したiPhoneが必要で、設定アプリから聴覚診断を行うことで利用できます。 この体験から、テクノロジーが「奪う」だけでなく「与える」側面もあることを再認識したと述べています。 また、他のユーザーからも、AirPodsの聴覚サポート機能によって、テレビの音が聞こえやすくなった、補聴器に抵抗がある人でも受け入れやすいといった肯定的な意見が寄せられています。 一方で、この機能が軽度から中度の難聴者向けであり、重度の難聴者には適さないという注意点や、医療機関での適切な診断と補聴器の利用を推奨する意見も紹介されています。 AirPodsの登場により、より手軽に聴覚サポートを受けられるようになった一方で、難聴の程度によっては専門医の診断や補聴器が必要であることも理解しておく必要がありそうです。
引用元: https://togetter.com/li/2481842
(株式会社ずんだもんは架空の登場組織です)