株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20260115

2026年01月15日

MP3ファイルをダウンロード

内容紹介

Now GA: LangSmith Agent Builder、Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR、LLMの中身を覗いてみたら、Transformerは「回路」を形成していた、『葬送のフリーレン』の海外の議論で面白かったのは、「魔族はAIに似ている」という議論… 人間の行為を模倣するが、人間の行為や動機を真の意味で理解することは絶対不可能

出演者

ずんだもん
ずんだもん

youtube版(スライド付き)

関連リンク

LangChain社が提供するAI開発プラットフォーム「LangSmith」において、ノーコードでAIエージェントを構築できる「Agent Builder」が一般公開(GA)されました。これは、プログラミングを介さずに複雑な日常業務を自動化するAIエージェントを、誰でも簡単に作成・運用できるツールです。

1. AIエージェントを「有能なスタッフ」に 新人エンジニアの方に馴染みのある「従来の自動化」は、IF-THEN形式の固定されたワークフロー(もしAならBをする)が主流でした。しかし、Agent Builderで作るエージェントは「やりたいこと(ゴール)」を自然言語で伝えるだけで、AIが自ら手順を考え、必要なツールを使い分け、時にはサブエージェント(別の補助AI)に仕事を振り分けながらタスクを完遂します。まさに「指示を理解して自律的に動くスタッフ」のような存在です。

2. プログラミング不要で現場の課題を解決 Agent Builderは、以下のような「細かくて面倒な、アプリをまたぐ作業」を得意としています。

  • リサーチの自動化: 競合他社の動向を調べ、Slackに毎日要約を投稿する。
  • プロジェクト管理: ドキュメント(Notion等)の内容を読み取り、タスク管理ツール(Linear等)にチケットを作成する。
  • 会議準備: CRMの顧客情報や最新ニュースをまとめ、会議前にブリーフィング資料を作成する。

3. エンジニアを支える高度な拡張性 ノーコードでありながら、エンジニアが納得する強力なカスタマイズ機能も備わっています。

  • MCP(Model Context Protocol)のサポート: 自作のツールや外部APIをエージェントに接続し、機能を無限に拡張できます。
  • モデルの選択(BYOM): 精度やコストに合わせて、背後で動くLLM(モデル)を自由に選択可能です。
  • APIとしての利用: 作成したエージェントをAPIとして呼び出し、他のプログラムや大規模なシステムの一部として組み込むことができます。

4. チームでの共有と改善 作成したエージェントはチーム内で共有し、クローンして各自で調整することも可能です。また、エージェントは過去の対話やフィードバックを記憶し、使えば使うほど賢くなっていく特性を持っています。

Agent BuilderはLangSmithのすべてのプランで利用可能で、無料で試すことができます。「定型業務をAIに任せ、エンジニアがより創造的な開発に集中できる環境」を作るための、大きな一歩となるツールです。まずは身近な業務の自動化から試してみてはいかがでしょうか。

引用元: https://www.blog.langchain.com/langsmith-agent-builder-generally-available/

タイトル: Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR

記事の選定理由

keyword:LLM / 医療特化型モデルMedGemma 1.5のリリース。特定ドメインにおけるLLMの進化を示すBreaking Newsです。

要約

Googleは、医療領域に特化したオープンな生成AIモデルシリーズの最新版「MedGemma 1.5 4B」と、医療用音声文字起こしモデル「MedASR」を公開しました。これらは、医療従事者の業務を支援し、医療AI開発の土台(Foundation)となることを目的としています。

1. MedGemma 1.5 4B:多次元画像への対応と精度の向上

前バージョンのMedGemma 1は2次元画像(X線や皮膚科画像など)が中心でしたが、1.5では以下の高度な機能が追加・改善されました。

  • 高次元医療画像への対応: CTやMRIなどの3次元ボリュームデータ、および病理組織学的な全スライド画像(WSI)の解釈が可能になりました。これにより、複数の画像スライスを考慮した推論が行えます。
  • 時系列(経年的)分析: 過去と現在の胸部X線写真を比較し、疾患の変化をレビューする能力が向上しました。
  • 解剖学的ローカリゼーション: 胸部X線画像内の特定の解剖学的特徴を特定する精度が大幅に向上しています。
  • 医療ドキュメントの理解: 検査レポートから構造化データ(検査項目、数値、単位)を抽出するタスクにおいて、旧モデルから18%の精度向上が見られました。
  • 軽量かつ高性能: 40億パラメータ(4B)というサイズは、オフライン環境や計算リソースが限られた環境でも動作させやすく、エンジニアが検証を始めるのに適したサイズです。

2. MedASR:医療用語に強い音声認識

医療現場での口述記録や会話をサポートするため、医療ドメインに特化して微調整(Fine-tuning)された音声認識モデル「MedASR」も導入されました。

  • 高い認識精度: 汎用的なモデル(Whisper large-v3など)と比較して、医療用語の誤り率(WER)を大幅に削減しています。
  • MedGemmaとの連携: 音声で入力した内容をMedASRでテキスト化し、そのままMedGemmaに渡して高度な推論( clinical reasoning)を行うといった、音声インターフェースの開発が容易になります。

3. エンジニア向けの提供形態と制約

これらのモデルは、開発者が自身のユースケースに合わせて調整するための「出発点」として設計されています。

  • 配布場所: Hugging FaceおよびGoogle CloudのVertex AIで公開されており、研究・商用目的で利用可能です。GitHubでは、LoRAを用いた微調整や強化学習(RL)のチュートリアルも提供されています。
  • 利用上の制約(重要): これらのモデルは、そのまま臨床診断や治療の意思決定に使用することを意図していません。開発者が特定のユースケースに対して適切な検証・修正・適応を行うことが前提となっています。

Googleは、このモデルを用いた革新的なアプリケーションの開発を促すため、賞金総額10万ドルのハッカソン「MedGemma Impact Challenge」をKaggleで開催しています。新人エンジニアにとっても、医療という専門性の高いドメインで最先端のマルチモーダルAIに触れる絶好の機会と言えるでしょう。

引用元: https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/

「LLMは次に続く言葉を確率的に予測しているだけ」という説明をよく耳にしますが、実際にはその内部で非常に論理的かつ具体的な情報の処理経路、すなわち「回路」が形成されていることが最新の研究で明らかになっています。本記事では、新人エンジニアの方にも分かりやすく、GPT-2などのTransformerモデルがどのようにして答えを導き出しているのかを解説します。

1. Transformerの心臓部「残差ストリーム」

Transformerの内部では、入力された単語は「ベクトル(数値の並び)」として扱われます。このベクトルが流れるメインの通り道が「残差ストリーム(Residual Stream)」です。各レイヤーにある「Attention Head」や「MLP」といったコンポーネントは、この通り道から情報を読み取り、処理結果を再び「加算」することで情報を更新していきます。最終的に、この通り道の末端にある情報を変換することで、次にくる単語の確率(Logits)が計算されます。

2. IOIタスクを通じた「思考」の可視化

記事では「ジョンとメアリーが店に行き、ジョンはカバンを【?】に渡した」という文章の続きを予測する「IOI(間接目的語特定)」というタスクを題材にしています。 解析の結果、モデルは最初から答えを知っているわけではないことが分かりました。レイヤーを追うごとに、最初は「ジョン」か「メアリー」か迷っていた状態から、中盤のレイヤー(7〜9層付近)で急激に「メアリー」という正解への確信度(Logitsの差)が高まっていく様子が観察されています。

3. 役割分担された「回路」の特定

特定のAttention Headの出力を意図的に書き換える「Activation Patching(アクティベーション・パッチング)」という手法を用いることで、どの部品が予測に貢献しているかを特定できます。調査の結果、驚くべきことに特定のHeadが専門的な役割を分担していることが判明しました。

  • 重複検出Head: 文中に誰が登場したかを把握する。
  • 構文検出Head: 「AがBに〜を渡す」といった文章の構造を理解する。
  • 名前移動Head: 主語(ジョン)を除外し、残った人物(メアリー)を「次にくるべき言葉」として強く推す。

まとめ

LLMの挙動は、単なる統計的なオウム返しではなく、これらの専門化されたHeadが連携し、残差ストリーム上で情報を統合していく「回路」としてのメカニズムに基づいています。このようにモデルの内部構造を解明しようとする分野は「解釈可能性(Mechanistic Interpretability)」と呼ばれており、ブラックボックスと思われがちなAIを構造物として理解する大きな一歩となっています。

引用元: https://zenn.dev/50s_zerotohero/articles/a6189c891fbd71

人気漫画『葬送のフリーレン』に登場する「魔族」が、海外で「AIや将来のAGIに似ている」と話題です。魔族は人間の言葉や感情を巧みに模倣しますが、その動機を真に理解しているわけではなく、目的達成のための道具として言語を扱います。この「理解なき模倣」という性質が、統計的学習で振る舞う現代のAIの姿と重なると考察されています。物語の設定を借りたAIの本質への鋭い指摘が、エンジニアの間で共感を呼んでいます。

引用元: https://togetter.com/li/2651609

(株式会社ずんだもんは架空の登場組織です)