株式会社ずんだもん技術室AI放送局 podcast 20241122

2024年11月22日

MP3ファイルをダウンロード

内容紹介

AIやテクノロジーに関する記事を紹介 Introducing the Open Leaderboard for Japanese LLMs!

出演者

ずんだもん

関連リンク

Introducing the Open Leaderboard for Japanese LLMs!

LLM（大規模言語モデル）は英語での能力が向上していますが、他の言語での性能はまだ未知数です。そこで、日本語のLLMの性能を評価する「Open Japanese LLM Leaderboard」が発表されました。これは、LLM-jpプロジェクトとHugging Faceのパートナーシップにより開発されたもので、20以上のデータセットから構成され、日本語LLMのメカニズムを理解することを目的としています。

日本語は、漢字、ひらがな、カタカナの3種類の文字を組み合わせた複雑な書き言葉体系を持ち、英語や中国語、オランダ語、ポルトガル語、フランス語、ドイツ語、アラビア語などからの外来語や、独特の絵文字や顔文字も存在します。さらに、日本語は単語間のスペースがなく、トークン化の難易度が高い言語です。

Open Japanese LLM Leaderboardは、日本語LLMの評価に特化したllm-jp-evalライブラリを使用し、16のタスクでLLMを評価します。これらのタスクには、自然言語推論、機械翻訳、要約、質問応答などの古典的なものから、コード生成、数学的推論、人間試験などの現代的なものまで含まれます。データセットは、LLM-jpの評価チームが言語学者、専門家、人間アノテーターと協力して作成したものや、日本語に自動翻訳され、日本語の特徴に合わせて調整されたものなどがあります。

このリーダーシップでは、Jamp、JEMHopQA、jcommonsenseqa、chABSA、mbpp-ja、mawps、JMMLU、XL-Sumなどのデータセットを使用しています。Jampは、NLIのための日本語の時間的推論ベンチマークであり、JEMHopQAは、内部推論を評価できる日本語の多段QAデータセットです。jcommonsenseqaは、常識的推論能力を評価する多肢選択式の質問回答データセットです。chABSAは、金融レポートの感情分析データセットで、2016年の日本の上場企業の財務報告書に基づいています。mbpp-jaは、Pythonの基本的な問題を日本語に翻訳したプログラミングデータセットです。mawpsは、数学的な問題を解く能力を評価するデータセットで、CoT推論を使用しています。JMMLUは、高校レベルのテストの知識を評価する4択の質問回答データセットです。XL-Sumは、BBCニュースの記事の日本語翻訳に基づく要約データセットです。

このリーダーシップは、Hugging FaceのOpen LLM Leaderboardに触発され、HuggingFaceのInference endpoints、llm-jp-evalライブラリ、vLLMエンジン、mdxコンピューティングプラットフォームを使用してモデルを評価します。

日本語LLMガイド「Awesome Japanese LLM」によると、MetaのLLamaアーキテクチャが多くの日本のAIラボで好まれているようです。しかし、MistralやQwenなどの他のアーキテクチャも、日本語LLMリーダーシップで高いスコアを獲得しています。オープンソースの日本語LLMは、クローズドソースのLLMとの性能差を縮めており、特にllm-jp-3-13b-instructはクローズドソースのモデルと同等の性能を示しています。

今後の方向性として、llm-jp-evalツールの開発に合わせて、リーダーシップも進化していく予定です。例えば、JHumanEvalやMMLUなどの新しいデータセットの追加、CoTプロンプトを使用した評価、NLIタスクでのアウト・オブ・チョイス率の測定などが挙げられます。

Open Japanese LLM Leaderboardは、LLM-jpコンソーシアムによって構築され、国立情報学研究所（NII）とmdxプログラムの支援を受けています。このプロジェクトには、東京大学の宮尾祐介教授、Han Namgi氏、Hugging Faceのクレモンティーヌ・フーリエ氏、林俊宏氏が参加しています。

引用元: https://huggingface.co/blog/leaderboard-japanese

お便り投稿フォーム

（株式会社ずんだもんは架空の登場組織です）