株式会社ずんだもん技術室AI放送局 podcast 20250312

2025年03月12日

内容紹介

Build Real-Time Multimodal XR Apps with NVIDIA AI Blueprint for Video Search and Summarization NVIDIA Technical Blog、RAGのウソを検知する新手法（LLM-as-a-Judgeを超えて）、GitHub - johnbean393/Sidekick: A native macOS app that allows users to chat with a local LLM that can respond with information from files, folders and websites on your Mac without installing any other software. Powered by llama.cpp.

出演者

ずんだもん

関連リンク

Build Real-Time Multimodal XR Apps with NVIDIA AI Blueprint for Video Search and Summarization NVIDIA Technical Blog

NVIDIA AI Blueprintを用いて、XR環境で動画と音声の両方を活用するリアルタイムなマルチモーダルAIエージェントを構築する方法を紹介します。このBlueprintは、VLM（Vision Language Model）とLLM（Large Language Model）を組み合わせ、動画の内容理解と要約を可能にします。XR環境では、音声認識とテキスト読み上げを組み込むことで、ユーザーはより自然な対話を通じてXRアプリケーションを操作できます。例えば、VR空間でロボットアームに質問をすると、AIエージェントが音声で応答するといったことが可能です。この技術は、技能トレーニング、設計・プロトタイピング、教育など、様々な分野でのXRアプリケーションの可能性を広げます。

引用元: https://developer.nvidia.com/blog/build-real-time-multimodal-xr-apps-with-nvidia-ai-blueprint-for-video-search-and-summarization/

RAGのウソを検知する新手法（LLM-as-a-Judgeを超えて）

RAG利用時の課題である、事実と異なる情報を生成する「ハルシネーション」を高速に検出する新手法「LettuceDetect」を紹介。従来はGPTのような大規模言語モデル(LLM)で検出していたため時間とコストがかかっていたが、「LettuceDetect」は軽量な「ModernBERT」を使用することで、高速化を実現。RAGで生成された回答と、その根拠となる外部ソース、質問文をまとめてモデルに入力することで、回答の各部分に対する信頼度を判定し、誤った情報にフラグを立てることが可能。LLM自身が回答の誤りを認識し、再検索を行うAIエージェントへの応用も期待される。

引用元: https://zenn.dev/knowledgesense/articles/10e18ea3cbeb7a

GitHub - johnbean393/Sidekick: A native macOS app that allows users to chat with a local LLM that can respond with information from files, folders and websites on your Mac without installing any other software. Powered by llama.cpp.

macOS用アプリ「Sidekick」は、ローカルLLMとチャットできるツール。特徴は、外部ソフト不要で、Mac内のファイル、フォルダ、Webサイト情報を活用できる点。llama.cppで動作し、オフラインでの会話とローカルデータ保存が可能。RAGにより大量データを扱え、Alibaba Cloud’s QwQ-32Bなど多様なモデルをサポート。コードインタプリタ、画像生成、文章アシスタント機能も搭載。Apple Silicon搭載Macで高速動作し、GPUオフロードも可能。

引用元: https://github.com/johnbean393/Sidekick

お便り投稿フォーム

（株式会社ずんだもんは架空の登場組織です）