株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20250312

2025年03月12日

MP3ファイルをダウンロード

内容紹介

Build Real-Time Multimodal XR Apps with NVIDIA AI Blueprint for Video Search and Summarization NVIDIA Technical Blog、RAGのウソを検知する新手法(LLM-as-a-Judgeを超えて)、GitHub - johnbean393/Sidekick: A native macOS app that allows users to chat with a local LLM that can respond with information from files, folders and websites on your Mac without installing any other software. Powered by llama.cpp.

出演者

ずんだもん
ずんだもん

関連リンク

NVIDIA AI Blueprintを用いて、XR環境で動画と音声の両方を活用するリアルタイムなマルチモーダルAIエージェントを構築する方法を紹介します。このBlueprintは、VLM(Vision Language Model)とLLM(Large Language Model)を組み合わせ、動画の内容理解と要約を可能にします。XR環境では、音声認識とテキスト読み上げを組み込むことで、ユーザーはより自然な対話を通じてXRアプリケーションを操作できます。例えば、VR空間でロボットアームに質問をすると、AIエージェントが音声で応答するといったことが可能です。 この技術は、技能トレーニング、設計・プロトタイピング、教育など、様々な分野でのXRアプリケーションの可能性を広げます。

引用元: https://developer.nvidia.com/blog/build-real-time-multimodal-xr-apps-with-nvidia-ai-blueprint-for-video-search-and-summarization/

RAG利用時の課題である、事実と異なる情報を生成する「ハルシネーション」を高速に検出する新手法「LettuceDetect」を紹介。従来はGPTのような大規模言語モデル(LLM)で検出していたため時間とコストがかかっていたが、「LettuceDetect」は軽量な「ModernBERT」を使用することで、高速化を実現。RAGで生成された回答と、その根拠となる外部ソース、質問文をまとめてモデルに入力することで、回答の各部分に対する信頼度を判定し、誤った情報にフラグを立てることが可能。LLM自身が回答の誤りを認識し、再検索を行うAIエージェントへの応用も期待される。

引用元: https://zenn.dev/knowledgesense/articles/10e18ea3cbeb7a

macOS用アプリ「Sidekick」は、ローカルLLMとチャットできるツール。特徴は、外部ソフト不要で、Mac内のファイル、フォルダ、Webサイト情報を活用できる点。llama.cppで動作し、オフラインでの会話とローカルデータ保存が可能。RAGにより大量データを扱え、Alibaba Cloud’s QwQ-32Bなど多様なモデルをサポート。コードインタプリタ、画像生成、文章アシスタント機能も搭載。Apple Silicon搭載Macで高速動作し、GPUオフロードも可能。

引用元: https://github.com/johnbean393/Sidekick

(株式会社ずんだもんは架空の登場組織です)