株式会社ずんだもん技術室AI放送局 podcast 20251030
内容紹介
Introducing LangSmith’s No Code Agent Builder、StreetReaderAI: Towards making street view accessible via context-aware multimodal AI、「Google Gemini」がプレゼン資料の自動生成に対応--「Canvas」ツールでスライド作成が可能に
出演者
youtube版(スライド付き)
関連リンク
皆さん、こんにちは!今回は、AI開発の最前線から、新人エンジニアの皆さんにもぜひ知ってほしい画期的なニュースをお届けします。AIエージェント開発で有名なLangChainの製品「LangSmith」から、「ノーコードAIエージェントビルダー」が発表されました。これは、プログラミングの知識がなくても、誰でも簡単にAIエージェントを作れるようになるという、すごいツールなんです!
これまでのAIエージェント開発は、コードを書く必要があり、主に開発チームが担当していました。しかし、この「LangSmith Agent Builder」を使えば、社内のあらゆる部署の人が、それぞれの仕事に役立つAIエージェントを自分で作れるようになります。例えば、毎日決まった時間にメールで会議の準備状況をまとめてくれたり、送られてきたメールの内容に応じて自動でタスクを作成したりするAIエージェントを、コードなしで設定できるようになるイメージです。
一般的なビジュアルワークフローツールとは違い、LangSmith Agent Builderでは、AI(大規模言語モデル、LLM)が自ら状況を判断し、次に何をするかを決めることができます。これにより、あらかじめ決まった流れだけでなく、もっと柔軟で賢いエージェントを作れるのが大きな特長です。
AIエージェントは、主に以下の4つの要素で構成されます。
- プロンプト: エージェントが何をするべきかを指示する「脳」にあたる部分です。
- ツール: エージェントが外部のサービス(Gmail、Slack、LinkedInなど)と連携するための「手足」のようなものです。
- トリガー: 「メールを受け取ったら」「特定のスラックチャンネルにメッセージがあったら」といった、エージェントを起動するきっかけです。
- サブエージェント: 複雑なタスクを、より小さな専門のエージェントに任せることで、管理しやすくする仕組みです。
特に、AIエージェントを作る上で一番難しいと言われる「効果的なプロンプトの作成」について、このビルダーは強力なサポートを提供します。例えば、「こんなことをしたい」と話しかけるだけで、システムが詳細な質問をしながら、適切なプロンプトを自動で生成してくれます。また、エージェントが過去のやり取りやユーザーからの修正を覚えて、次回以降に活かす「記憶機能」も備わっています。
このツールは、LangChainがこれまで培ってきたAIエージェント開発の知見(LangChainやLangGraphといったオープンソースフレームワーク)を活かして作られており、エージェントが複雑な計画を立てたり、複数のステップを踏んで問題を解決したりできる「Deep Agents」という技術が土台になっています。
つまり、この「LangSmith Agent Builder」は、AIエージェント開発のハードルを大きく下げ、より多くの人がAIの力を活用できる未来を切り開くものだと言えるでしょう。現在、プライベートプレビューのウェイティングリストを募集中なので、興味のある方はぜひチェックしてみてください。
引用元: https://blog.langchain.com/langsmith-agent-builder/
この研究は、Google Street Viewのような没入型ストリートビュー体験を、視覚に障がいのある方々(ブラインド・ロービジョンコミュニティ)にとって、より利用しやすくするための画期的なプロジェクト「StreetReaderAI」について紹介しています。これは、マルチモーダルAIと画像認識技術を活用し、これまでのストリートビューが対応していなかったスクリーンリーダーによる画像解釈や代替テキストの提供を可能にするものです。
StreetReaderAIは、UIST’25で発表されたコンセプト実証プロトタイプで、リアルタイムの文脈認識AIとアクセスしやすいナビゲーション機能を組み合わせています。チームには視覚に障がいのある研究者も参加し、アクセシビリティを重視して設計されました。主な機能は以下の通りです。
- リアルタイムAI記述: 周囲の道路、交差点、場所をAIがリアルタイムで音声説明します。
- ダイナミックなAIチャット: マルチモーダルAIエージェントと会話しながら、景色や地理について質問できます。
- アクセスしやすい操作: 音声コマンドやキーボードショートカットで、パノラマ画像の移動や視野の変更が可能です。
ナビゲーションは、まるでビデオゲームのように音声が主要なインターフェースとなります。キーボードの矢印キーで視点変更や移動を行い、「今、北を向いています」といった音声フィードバックを得られます。
StreetReaderAIの核となるのは、Geminiをベースにした二つのAIシステム「AI Describer」と「AI Chat」です。 AI Describerは、現在のストリートビュー画像と地理情報を組み合わせて、リアルタイムで音声記述を生成します。ナビゲーションや安全性を重視したモードと、観光情報を提供するツアーガイドモードがあります。 AI Chatは、GoogleのMultimodal Live APIを活用し、ユーザーが現在の視点や過去の視点、周辺の地理について質問できるシステムです。最大約4,000枚の画像に相当する膨大な情報を一時的に記憶する能力があり、「あのバス停はどこにあった?」といった過去の質問にも文脈を理解して応答できます。
実際に11名の視覚に障がいのあるユーザーによる評価では、StreetReaderAIは高い有用性が示され、特にAIチャットのインタラクティブ性が好評でした。既存のツールにはないアクセシビリティの進歩が強調されています。AIチャットはAI Describerの6倍も利用され、パーソナライズされた会話型クエリへの明確な好みが示されました。質問内容は、位置や距離(空間的方位)、障害物の有無(オブジェクトの存在)、一般的な説明、場所の特定が多かったです。
AIチャットの応答精度は86.3%が正確で、今後の改善点としては、ユーザーがAIの回答の真偽を見極める難しさや、AIの知識の限界を理解する点などが挙げられています。
今後の展望として、より自律的な「ジオビジュアルエージェント」の開発、完全なルートプランニングのサポート、そして空間化されたオーディオなど、より豊かなオーディオインターフェースの実現が検討されています。
StreetReaderAIはまだプロトタイプですが、没入型ストリートビュー環境をすべての人にアクセス可能にする大きな可能性を示しています。
引用元: https://research.google/blog/streetreaderai-towards-making-street-view-accessible-via-context-aware-multimodal-ai/
GoogleのAI「Gemini」に、プレゼンテーション資料を自動で作成してくれる便利な新機能が加わりました。この機能は「Canvas」というツールを使って提供され、現在はGoogleのProアカウント向けに先行公開されていますが、近いうちには無料プランでも利用できるようになる予定です。
普段PowerPointやGoogleスライドで資料を作る際、「どんな内容にしようか」「どう見せたら伝わるだろうか」と悩むことはありませんか?Geminiの新機能を使えば、その悩みから解放されるかもしれません。使い方はとても簡単で、Geminiにプレゼンテーションのテーマを伝えたり、元になるドキュメントをアップロードしたりするだけで、テーマに合った内容と関連画像を含んだスライドセットを自動で生成してくれます。
Canvasツールは、プロンプト(指示)を入力する側と、生成されたスライドのプレビューが表示される側が左右に分かれていて、リアルタイムで結果を確認しながら調整できるのが特徴です。完成した資料は、Googleスライドにエクスポートしてさらに細かく編集したり、PDFとしてダウンロードしたり、共有リンクを作成したりできます。
記事には実際に使ってみた感想も書かれており、例えば「パスワードマネージャーの長所と短所」についてプレゼンを依頼すると、13枚のスライドが生成されたそうです。ただし、AIはまだ完璧ではなく、細かいデザインの指示が意図通りに反映されないこともあったとのこと。そのため、まずはAIに大まかな草案を作成させ、その後にGoogleスライドなどで手動でテキストやデザインを調整するという使い方が、最も効率的で現実的な活用法だと結論付けられています。
この機能は、プレゼン資料作成の初期段階でのアイデア出しや、時間のかかるドラフト作成を大きく効率化してくれる可能性があります。特に忙しいエンジニアの皆さんにとって、強力なアシスタントとして活用できるでしょう。
引用元: https://japan.zdnet.com/article/35239714/
(株式会社ずんだもんは架空の登場組織です)