株式会社ずんだもん技術室AI放送局 podcast 20260408

2026年04月08日

内容紹介

Arcade.dev tools now in LangSmith Fleet、AITuber奮闘記：ローカルLLMでゲーム実況、モデル選定と配信テストの記録、国産「LLM-jp-4」公開！GPT-4oを上回るスコアを記録 - すまほん!!

出演者

ずんだもん

youtube版(スライド付き)

関連リンク

Arcade.dev tools now in LangSmith Fleet

本記事は、LangChainが提供するAIエージェント運用プラットフォーム「LangSmith Fleet」と、プロダクション環境向けのエージェント実行基盤である「Arcade.dev」が提携したことを報じるニュースです。この統合により、開発者は7,500以上のエージェント向けに最適化されたツール群を、単一のセキュアなゲートウェイを通じてエージェントに提供できるようになります。

新人エンジニアの方々が理解しやすいよう、このニュースの要点を3つのポイントで解説します。

ツールの「ゲートウェイ」による一元管理 通常、AIエージェントにSalesforce、Notion、Slackなどの外部サービスを操作させるには、個別のAPI連携や認証処理（Auth）の実装、そして継続的なメンテナンスが必要です。Arcadeはこれらを一つの「ゲートウェイ（玄関口）」にまとめます。一度Arcadeと連携すれば、個別のAPIの癖を気にすることなく、数百ものアプリケーションを数分でエージェントに組み込むことが可能になります。
「AIエージェント専用」に磨き上げられたツール群 世の中にある多くのAPIは「人間」が使うことを前提に設計されており、エージェントにとっては情報量が多すぎたり、構造が複雑だったりすることがあります。Arcadeが提供するMCP（Model Context Protocol）ツールは、エージェントが実行すべきアクションを絞り込み、LLMが理解しやすい説明文（ディスクリプション）が付与されています。これにより、エージェントのツール選択ミスや、無駄なトークンの消費、ハルシネーション（もっともらしい嘘）を防ぐことができます。
現場で使える高度なセキュリティと認証 企業でエージェントを利用する際、「誰の権限でその操作を行うか」は非常に重要です。本統合では、ユーザー個人の権限を引き継いで動作する「Assistant（アシスタント）」構成と、チーム共通の権限で動作する「Claws（クロウズ）」構成が選択できます。これにより、最小権限の原則を守りながら、安全に業務自動化を推進できます。

すでに60以上のテンプレートが用意されており、営業・マーケティング・エンジニアリングなどの幅広い業務で、信頼性の高いAIエージェントを即座に構築できる環境が整いました。本番環境で「動く」エージェントを作るための、強力なインフラが登場したと言えます。

引用元: https://blog.langchain.com/arcade-dev-tools-now-in-langsmith-fleet/

AITuber奮闘記：ローカルLLMでゲーム実況、モデル選定と配信テストの記録

本記事は、ローカルLLM（自分のPC上で動かすAIモデル）を活用して、AITuberがゲーム実況を行うための技術的な試行錯誤をまとめた記録です。新人エンジニアの方にとっても、最新のLLMが「画像を見て状況を判断する（マルチモーダル機能）」という高度なタスクを、いかに身近な環境で実現できるかを知る非常に興味深い事例となっています。

まず、システムの構成として「AITuberKit」というツールを使用しています。OBSの仮想カメラを通じてゲーム画面をAIに共有し、90秒ごとにAPI（/user_input）経由で画像を送信。AIがその画像を受け取ったタイミングで実況コメントを生成するという仕組みです。

特筆すべきは、複数の軽量な最新モデル（Qwen 3.5 4B/9B, Gemma 3 4B, Gemma 4 E4B）を比較検証している点です。ローカルLLMは特定のゲーム固有の知識を学習していない場合、存在しない情報をさも正しいかのように話してしまう「ハルシネーション（幻覚）」という課題が発生しがちです。

検証の結果、多くのモデルが知らない情報をそれらしく作り話してしまう中で、最新の「Gemma 4」だけは「情報がないため答えられない」とはっきり答え、画像から読み取れる事実（画面に映っている戦況など）のみを実況しました。この「知らないことは知らないと言える正直さ」が、ライブ配信という失敗が許されない環境において、誤った情報を話し続けるリスクを避けるための重要な選定基準となった点は、エンジニアとして非常に示唆に富んでいます。

実際のTwitch配信テストでも、Gemma 4は2時間エラーなく、かつ大きな間違いもない安定した実況を披露しました。返答の遅延やPCへの負荷も許容範囲内であり、ローカル環境のAIでも実用的なレベルに達していることが示されています。

今後の課題として、システムプロンプトの調整による「キャラクター性の深化」や、ハードウェア面でのVRAM割り当ての最適化、より大型のモデル（26B）への挑戦が挙げられています。

この記事は、AI技術を単なる数値としてではなく、「いかに実戦（配信）に投入し、特性を見極めて最適化するか」というエンジニアリングの楽しさを伝えてくれます。最新モデルをいち早く触り、その挙動を冷静に分析するプロセスは、これからAI開発に携わる新人の方々にとって大変参考になるはずです。

引用元: https://note.com/yono_f4ll/n/n2834a3ac77f6

国産「LLM-jp-4」公開！GPT-4oを上回るスコアを記録 - すまほん!!

国立情報学研究所（NII）が、完全国産の大規模言語モデル（LLM）の最新版「LLM-jp-4」をオープンソースで公開しました。日本のエンジニアにとって非常に刺激的なニュースであり、特に新人エンジニアの方々には「日本発の技術が世界トップクラスのAIに肩を並べた」という大きな節目として注目してほしい内容です。

今回公開されたのは、約86億パラメータの「8Bモデル」と、約320億パラメータを持つMoE（Mixture of Experts：複数の専門家モデルを組み合わせる手法）モデル「32B-A3B」の2種類です。驚くべきは、日本語の対話性能を評価するベンチマーク「MT-Bench」において、世界的に有名な「GPT-4o」や「Qwen3-8B」を上回るスコアを記録した点です。日本語だけでなく英語のベンチマークでもGPT-4oを超える数値を叩き出しており、その実力の高さが証明されています。

このモデルの強みは、その学習プロセスとデータにあります。約11.7兆トークンという膨大なデータを用いてフルスクラッチ（ゼロからの構築）で学習されており、その中には日本の政府文書や国会文書といった、正確で質の高い日本語データが豊富に含まれています。これにより、日本固有の文脈や公的な表現にも強い、極めて自然な日本語処理が可能になりました。また、最大で約6万5000トークンの入出力に対応しているため、長文のドキュメント解析などにも活用が期待できます。

エンジニアとして特に嬉しいポイントは、このモデルが「Apache License, Version 2.0」というライセンスで、AI開発のプラットフォーム「Hugging Face」上に公開されていることです。誰でも自由にモデルをダウンロードして試したり、自身のプロジェクトに組み込んだりすることができます。

NIIは2026年度中に、さらに大規模な「332Bモデル」や、逆に運用コストを抑えた「軽量モデル」の公開も予定しています。日本の公的研究機関が主導し、これほど高品質なモデルをオープンな形で提供する流れは、今後の国内AI開発をさらに加速させるでしょう。まずはHugging Faceでモデルカードをチェックし、国産LLMの最前線に触れてみることをおすすめします。

引用元: https://smhn.info/202604-llm-jp-4-surpasses-gpt-4o-nii-open-source

お便り投稿フォーム

（株式会社ずんだもんは架空の登場組織です）