株式会社ずんだもん技術室AI放送局 podcast 20250709
内容紹介
Introducing Deep Research in Azure AI Foundry Agent Service、退屈なことは Devin にやらせよう: Booster開発チームでのリアルなAI活用事例、【生成AI】AIによるWebブラウザの自動操作を実現するには
出演者
関連リンク
マイクロソフトが、Azure AI Foundry Agent Service向けに「Deep Research(ディープリサーチ)」のパブリックプレビューを発表しました。これは、OpenAIの高度なAIエージェント技術をAzure上で利用できるようにするものです。AIエージェントとは、指示に基づいて自動で情報を探し、分析し、タスクを実行するプログラムのことです。
Deep Researchを使うと、企業は複雑なウェブ調査を自動化できるようになります。例えば、市場分析や競合調査、規制報告書の作成など、これまでは人が時間をかけて行っていた調査業務を、AIが代行できるようになります。
このサービスの主なポイントは以下の通りです。
- 広範囲なウェブ調査の自動化: Bing検索と連携し、ウェブ上の膨大な情報から必要なものを正確に見つけ出します。調査結果には引用元が明記されるため、情報の信頼性を確認しやすいのが特徴です。
- プログラムから利用できるAIエージェント: チャット形式だけでなく、APIやSDKを使って、他のアプリケーションやワークフローからDeep Researchの機能を呼び出すことができます。これにより、調査機能を既存のビジネスシステムに組み込んだり、繰り返し実行する自動処理の一部にしたりすることが可能です。
- 複雑な業務フローの自動化: Azure FunctionsやLogic Appsといった他のAzureサービスと組み合わせることで、調査だけでなく、その結果を元にしたレポート作成や通知といった一連の複雑な業務プロセス全体を自動化できます。
- 高い透明性と企業での利用への対応: 調査の過程や判断の根拠、参照した情報源がすべて記録されるため、結果の透明性が高く、企業内のセキュリティやコンプライアンス(法令遵守)の基準を満たしながら利用できます。
Deep Researchの仕組みは、まずAIが与えられた質問を正確に理解し、Bing検索で関連性の高い最新情報を収集します。次に、収集した情報をもとに深く思考し、分析を行い、最終的な回答をまとめます。この際、単なる情報の要約ではなく、新しい洞察やパターンを見つけ出すこともできます。出力されるレポートには、AIがどのように推論し、どの情報源を参照したかが詳しく記載されます。
このサービスは、現在限定パブリックプレビューとして提供されており、利用にはサインアップが必要です。料金は、AIが処理するトークン(テキストの単位)の量に基づいて計算されます。 Deep Researchは、AIエージェントがビジネスの様々な場面で活用される未来に向けた、重要な一歩となるでしょう。
引用元: https://azure.microsoft.com/en-us/blog/introducing-deep-research-in-azure-ai-foundry-agent-service/
Repro Booster開発チームでは、AIを開発業務だけでなく、ドキュメント作成や顧客対応まで幅広く活用し、業務効率を大幅に向上させています。
中心となるのは、自分で考えて作業を進めるAIエージェント「Devin」です。Devinは、Slackや専用画面から指示されたバグ修正や新機能の実装タスクを受け持ちます。自分でコードを解析し、修正案を「Pull Request(プルリクエスト、コード変更の提案)」として作成するだけでなく、人間のレビューコメントに合わせて修正も自動で行います。特に、Devinが過去の会話や指示から知識を学習・記憶し、その後のアウトプットに活かす「Knowledge機能」によって、その性能は導入当初よりも大きく向上し、より質の高い成果物を出せるようになっています。
個々のエンジニアも、コーディングを支援するAIツールを積極的に利用しています。例えば、「Claude Code」は新しいプロジェクトの土台コードを素早く生成するのに役立ちます。また、Devinが作ったプルリクエストをGoogle Geminiという別のAIにレビューさせるという、AI同士でのコードレビューも試されており、異なるAIの組み合わせによってレビューの質が高まる効果が実感されています。
開発以外の領域でもAIは活躍しています。ChatGPTやDevinは、バグ修正後の関連ドキュメントの更新やリリースノートの作成を自動化します。プロダクトマネージャーは、AIを使って口頭でのアイデア出しを「PRD(プロダクト要求仕様書)」という正式なドキュメントに清書・整理し、これはAIがコーディングする際の重要な指示書にもなります。さらに、顧客サポートではDevinがWebページを参照しながら問い合わせチケットの一次調査を行い、結論を自動でコメントすることで、単純なケースでは迅速な問題解決に貢献しています。チーム内のSlackやり取りを要約し、開発進捗レポートを自動作成するといったレポーティング業務にもAIが使われています。
このように、Devinを通じて得られた知見をAIの知識として蓄積し、それを元にドキュメントを作成するといった「AI in the Loop」と呼べるような知識の循環が生まれています。このループにより、AIはRepro Boosterチームにとって、もはやなくてはならない存在となっており、業務の効率化と安定性向上に大きく貢献しています。
引用元: https://tech.repro.io/entry/2025/07/08/151618
この記事では、生成AIを使ってWebブラウザを自動で操作する技術について、新人エンジニアの皆さんにも分かりやすく解説しています。
まず、「ブラウザ操作」とは、ウェブサイトを自動で開いたり、ボタンをクリックしたり、文字を入力したりする技術のことです。これは、ソフトウェアの動作確認テスト(E2Eテスト)や、繰り返し行う業務の自動化(RPA)などで昔から使われてきました。たとえば、MicrosoftのPlaywrightやSeleniumといったツールがその代表です。
AIによるブラウザ操作の大きな特徴は、「自然言語」、つまり私たちが普段話す言葉で指示するだけで、ブラウザが自動で動いてくれる点です。これにより、複雑なプログラムコードをたくさん書かなくても、手軽にさまざまなウェブ操作を自動化できるようになります。AIは、指示された内容から必要な情報を判断し、適切な操作(クリック、入力など)を選んで実行してくれるため、AIが賢くツールを使いこなすようなイメージです。
すでに、OpenAIのOperatorやGoogle DeepMindのProject Mariner、Microsoftが提供するPlaywright MCPといった、AIを活用したブラウザ自動操作の製品やオープンソースソフトウェア(OSS)がいくつも登場しています。
もし、自分でAIによるブラウザ操作システムを作りたい場合、主に「AIへの指示の仕方を整理するプロンプト管理」「AIが賢く行動するための骨組みとなるAIエージェントフレームワーク」「ブラウザを実際に動かすためのライブラリ」の3つの要素を組み合わせることで実現できます。特に、Microsoftが提供するPrompty、Semantic Kernel、PlaywrightというOSSを組み合わせる方法が紹介されており、効率的に開発を進められます。
ただし、AIにブラウザを操作させる際は、指示と異なる予期せぬ動きをしてしまう可能性もゼロではありません。そのため、実際に使う前に、インターネットと隔離された「サンドボックス環境」(隔離された安全なテスト環境)で動作を確認することが強く推奨されています。これは、リモートサーバーや仮想環境(Dev Container、クラウドインスタンス)を使うことで実現できます。
最近では、MCP(Multi-Cloud Playground)やA2A(Agent-to-Agent)といった、エージェント(AI)をより手軽に動かすための新しい仕組みも注目されており、今後の技術進化が期待される分野です。
AIによるWebブラウザの自動操作は、プログラミングの専門知識が少なくても、アイデア次第で様々な自動化を実現できる可能性を秘めており、とても夢のある技術と言えるでしょう。
引用元: https://qiita.com/ymd65536/items/1497a60c11ebe1d8dda5
(株式会社ずんだもんは架空の登場組織です)