株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20240919

2024年09月19日

MP3ファイルをダウンロード

内容紹介

AIやテクノロジーに関する記事を紹介 GitHub - ictnlp/LLaMA-Omni: LLaMA-Omni is a low-latency and high-quality end-to-end speech interaction model built upon Llama-3.1-8B-Instruct, aiming to achieve speech capabilities at the GPT-4o level.、Qwen2.5: A Party of Foundation Models!、RLHF and RLAIF in GPT-NeoX

出演者

ずんだもん
ずんだもん

関連リンク

LLaMA-Omniは、Llama-3.1-8B-Instructをベースに構築された、音声言語モデルです。音声指示に基づいて、テキストと音声の両方の応答を同時に生成し、低遅延かつ高品質な音声対話を実現することを目指しています。

LLaMA-Omniの特徴

  • Llama-3.1-8B-Instructを基盤とすることで、高品質な応答を生成します。
  • 遅延が226msと非常に短い、低遅延な音声対話を実現します。
  • 音声指示に対して、テキストと音声の両方の応答を同時に生成します。
  • わずか4つのGPUで3日以内の短期間でトレーニングが完了しました。

制約事項

LLaMA-Omniは、MetaのLlama 3.1を基盤としているため、Llama 3.1のライセンスに準拠する必要があります。

LLaMA-Omniは、音声対話においてGPT-4レベルの性能を目指した、有望なモデルです。日本語のエンジニア、特に新人エンジニアにとって、音声認識や自然言語処理技術の理解を深める上で、参考になるリポジトリと言えるでしょう。

引用元: https://github.com/ictnlp/LLaMA-Omni

Qwen2.5は、アリババが開発したオープンソースの大規模言語モデル(LLM)の最新バージョンです。Qwen2の後継として、コーディングに特化したQwen2.5-Coder、数学に特化したQwen2.5-Mathを含む、様々なサイズ(0.5B〜72Bパラメータ)のモデル群が公開されました。

Qwen2.5の主な特徴は、以下の通りです。

  • 知識量の増加と性能向上: 18兆トークンのデータで事前学習されており、Qwen2と比較して、MMLU、HumanEval、MATHなどのベンチマークで大幅な性能向上を実現しています。
  • 命令理解力とテキスト生成能力の強化: より複雑な指示への対応力、8Kトークンを超える長文生成、表などの構造化データの理解、JSONなどの構造化出力生成能力が向上しました。
  • 多言語対応: 中国語、英語、フランス語など29以上の言語に対応しています。
  • トークン数: 最大128Kトークンの入力と最大8Kトークンの出力をサポートしています。

Qwen2.5-Coderは、5.5兆トークンのコード関連データで学習されており、小型モデルでも他のLLMと比較して競争力のあるコーディング性能を発揮します。Qwen2.5-Mathは、中国語と英語に対応し、CoT、PoT、TIRなどの推論手法を取り入れています。

性能面では、Qwen2.5-72BはLlama-3.1-70B、Mistral-Large-V2などのオープンソースLLMと比較して、優れた性能を示しています。また、APIベースのフラッグシップモデルであるQwen2.5-Plusは、GPT4-oやClaude-3.5-Sonnetなどの商用モデルと比較しても遜色のない性能を有しています。

利用方法としては、Hugging Face Transformers、vLLM、Ollamaなどのツールを用いて、API経由やローカル環境で利用できます。また、vLLMやOllamaでは、ツール呼び出し機能もサポートされています。

Qwen2.5は、オープンソースコミュニティの協力によって開発が進められています。今後も、マルチモーダルな情報処理や推論能力の強化など、更なる発展が期待されます。

制約として、3Bと72B以外のモデルはApache 2.0ライセンスで公開されています。また、Qwen2.5-PlusやQwen2.5-Turboなどのフラッグシップモデルは、Model Studioを通じてAPIアクセスのみ提供されています。

本要約は、Qwen2.5の主要な特徴と性能、利用方法、そして今後の展望を理解する助けとなることを目的としています。新人エンジニアの方でも、Qwen2.5の概要を掴み、今後の学習や開発に役立てられることを願っています。

引用元: http://qwenlm.github.io/blog/qwen2.5/

GPT-NeoXは、大規模言語モデルの事前学習フレームワークとして広く使われているオープンソースのライブラリです。EleutherAIとSynthLabsは共同で、GPT-NeoXに人間の好みを反映させるための強化学習(RLHF)好みに基づくAI学習(RLAIF)の機能を追加しました。

RLHFは、AIモデルを人間の好みに合わせるための効果的な手法で、要約などのタスクでモデルの性能向上に役立ちます。GPT-NeoXでは、RLHFの実装として、直接的選好最適化(DPO)Kahneman-Tversky最適化(KTO)という2つの手法が導入されました。DPOは、使いやすく安定した学習が可能なため、広く利用されています。KTOは、従来の手法とは異なり、二値の報酬を用いて好みに基づいた学習を行うことができます。

さらに、GPT-NeoXでは報酬モデルの学習機能も強化されました。これにより、大規模な報酬モデルの研究が促進されると期待されます。GPT-NeoXは、ZeRO、3D並列処理、Flash Attentionなどの技術を活用することで、様々なGPU、モデルアーキテクチャ、ネットワーク環境、ジョブランチャーに対応し、大規模モデルの学習を効率的に行うことができます。

今回のRLHF/RLAIF機能の追加により、GPT-NeoXは既存のTRLなどのライブラリと比べて、30~40%の速度向上を実現しました。これは、事前学習の最適化を、事後学習プロセスにも適用することで可能になりました。

今回の発表のポイントは、誰でも利用可能なオープンソースのGPT-NeoXに、大規模言語モデルの性能向上に効果的なRLHF/RLAIF機能が追加されたことです。これにより、より多くの研究者が、大規模言語モデルの研究開発に参画しやすくなり、AI技術の進化が加速すると期待されます。

補足

  • RLHF: Reinforcement Learning with Human Feedback(人間のフィードバックによる強化学習)
  • RLAIF: Reinforcement Learning with AI Feedback(AIフィードバックによる強化学習)
  • DPO: Direct Preference Optimization(直接的選好最適化)
  • KTO: Kahneman-Tversky Optimization(Kahneman-Tversky最適化)
  • GPT-NeoX: EleutherAIが開発した大規模言語モデルの事前学習フレームワーク
  • TRL: Hugging Faceが開発したRLHF用のライブラリ

新人エンジニアの方にも理解しやすいように、専門用語を出来る限り避け、平易な言葉で説明するように心がけました。

引用元: https://blog.eleuther.ai/_rlhf-and-rlaif-in-gpt-neox/

(株式会社ずんだもんは架空の登場組織です)