株式会社ずんだもん技術室AI放送局 podcast 20260303
内容紹介
Microsoft Copilot Tasks発表、AIが「答える」から「実行する」時代へ、microgpt、Improved Gemini audio models for powerful voice interactions
出演者
youtube版(スライド付き)
関連リンク
Microsoftは2026年2月26日、AIアシスタントCopilotの新機能「Copilot Tasks」を発表しました。これまでの生成AIは、ユーザーの問いに対してテキストや画像で「答える」ことが中心でしたが、今回のアップデートは、AIがユーザーに代わって自律的にタスクを「実行する」エージェント型AI(AI Agent)への大きな転換を意味しています。
■ 主な機能とユースケース Copilot Tasksは、自然言語で指示を与えるだけで、AIがバックグラウンドでタスクを分解・実行し、結果を報告します。主なユースケースとして、定期タスクの自動化、ドキュメント作成、予約や買い物の代行、ロジスティクスの最適化などが挙げられます。なお、支払いやメッセージ送信といった重要なアクションには、ユーザーの同意を必要とする「Human-in-the-loop」の設計が採用されています。
■ エンジニアが注目すべき「クラウドサンドボックス」構造 技術的な側面で最も重要なのは、その実行環境の設計です。Copilot Tasksは、Microsoftのクラウド上に隔離された「仮想実行環境(サンドボックス)」でタスクを処理します。 2026年初頭、ローカルPC上で直接コマンドを実行するオープンソースのエージェント「OpenClaw」が、深刻な脆弱性を多数指摘され「セキュリティ上の悪夢」と評された事例がありました。これに対し、Microsoftはエージェントの実行場所をクラウド側に封じ込めることで、ユーザーのデバイスへの直接的なリスクを抑え、認証情報の漏洩やシステム乗っ取りを防ぐアーキテクチャを選択しました。
■ 業界の動向と今後の展望 現在、AI業界は「エージェント型」の激戦区となっています。同時期にOpenAIは「Operator」を、GoogleはAndroid向けの「Geminiエージェント」を展開しており、AIがブラウザやアプリを直接操作する時代が本格的に到来しました。 今後の開発においては、単に「正解を出す」だけでなく、外部サイトの悪意ある記述による「プロンプトインジェクション」への対策や、AIが行ったアクションの責任の所在、監査ログの透明性といった「信頼性エンジニアリング」が競争力の鍵となります。
新人エンジニアの皆さんは、AIを単なるチャットボットとしてではなく、クラウド上の安全な環境で外部ツールを操作する「自律的なソフトウェアコンポーネント」として捉えることで、次世代のシステム設計のヒントが得られるはずです。現在はリサーチプレビュー段階であり、今後の段階的なロールアウトが注目されます。
引用元: https://innovatopia.jp/ai/ai-news/81599/
元OpenAIのAndrej Karpathy氏が公開した「microgpt」は、外部ライブラリを一切使用せず、わずか200行の純粋なPythonコードだけでGPTの学習と推論を実現した教育的プロジェクトです。LLM(大規模言語モデル)の仕組みを極限までシンプルに削ぎ落とし、その「アルゴリズムの本質」を1つのファイルに凝縮しています。
概要
microgptは、現代のAIの核心となる技術をブラックボックスなしで実装しています。具体的には以下の要素が含まれています。
- データセットとトークナイザ: テキストを読み込み、文字単位で数値(トークン)に変換する最小限の仕組み。
- Autograd(自動微分)エンジン: 誤差逆伝播法を実現する独自の
Valueクラス。PyTorchなどのライブラリが内部で行っている計算を、数学の連鎖律に基づいてゼロから記述しています。 - GPT-2ベースのアーキテクチャ: アテンション機構(トークン間の通信)とMLP(計算処理)を交互に配置し、残差接続やRMSNormを組み込んだ標準的なトランスフォーマー構造。
- 学習と推論: Adamオプティマイザによるパラメータ更新と、学習した統計モデルから新しい文字列を生成(サンプリング)するループ。
本プロジェクトの制約と特徴
効率性よりも「理解のしやすさ」を最優先しているため、以下の制約があります。
- ライブラリ依存なし: NumPyすら使わず、標準の数学ライブラリのみで動作します。
- スカラー演算: 通常、AIは行列演算で高速化しますが、本作は個々の数値を個別に計算します。そのため非常に低速ですが、デバッガで一行ずつ計算を追うことが可能です。
- 小規模な検証: 1分程度の学習で「名前らしい文字列」を生成するレベルを目指しており、巨大な計算リソースは不要です。
エンジニアとしての学び
新人エンジニアにとって、LLMは魔法のように見えるかもしれません。しかし、この200行のコードは「AIには魔法など存在せず、すべては微分と統計的な確率予測の積み重ねである」ことを証明しています。 「ChatGPTがどうやって動いているのか」という壮大な問いに対し、巨大なライブラリやGPUの知識なしで、コードを直接読んで理解できる点が最大の魅力です。LLMの内部構造を深く理解するための「最初の一歩」として、これ以上ない最高級の教材と言えるでしょう。
引用元: http://karpathy.github.io/2026/02/12/microgpt/
Googleは、Gemini 2.5モデルにおける音声生成およびネイティブ音声処理の大幅なアップデートを発表しました。本アップデートの核心は、音声データを直接理解・生成する「Native Audio」モデルの進化にあり、より高度な音声AIエージェントの構築が可能になります。
1. Gemini 2.5 Flash Native Audioの主要な改善
ライブ音声エージェント向けのモデルにおいて、以下の3つの技術的領域が大幅に強化されました。
- 精度の高いFunction Calling(外部機能呼び出し): 会話の中で「いつ外部APIやツールを使って情報を取得すべきか」を判断する能力が向上しました。取得したリアルタイム情報を会話の流れを止めずに自然に組み込むことができます。ベンチマークテスト(ComplexFuncBench Audio)では71.5%という高いスコアを記録し、競合他社を凌駕しています。
- 指示遵守(Instruction Following)の堅牢化: 開発者が設定した複雑なシステムプロンプトや制約に従う能力が向上しました。遵守率は従来の84%から90%へと改善されており、ユーザーに対してより一貫性のある、信頼性の高い応答が可能になります。
- マルチターン会話の滑らかさ: 過去のやり取りの文脈(コンテキスト)を保持する能力が高まりました。複数回のラリーが続く会話においても、文脈を正しく理解し続けることで、人間同士のような自然な対話を実現します。
2. 次世代のリアルタイム音声翻訳(Live Speech Translation)
Geminiのマルチリンガル能力を活用した、新しいストリーミング音声翻訳機能が導入されました。
- 表現力の維持(Style Transfer): 単なる言葉の置き換えではなく、話し手の抑揚、話すペース、声のピッチを保ったまま翻訳後の音声を出力します。
- 広範な対応力: 70以上の言語、2000以上の言語ペアをサポート。複数の言語が混在する環境でも、言語設定を手動で切り替えることなく、自動で言語を検知して翻訳を開始します。
- ノイズ耐性: 周囲の騒音をフィルタリングする機能を備えており、屋外などの騒がしい環境でもスムーズな翻訳が可能です。現在はGoogle翻訳アプリのベータ版(Android/US等)として順次ロールアウトされています。
3. エンジニア向けの活用方法
すでにShopifyなどの企業が、この新モデルを顧客対応AIに活用し、ユーザーがAIと話していることを忘れるほど自然な体験を提供しています。 エンジニアは、Google AI StudioやVertex AIを通じて、今すぐこれらの機能を試すことができます。特に「Live API」を利用することで、低遅延かつ高精度な音声インターフェースを自社のアプリケーションに組み込むことが可能です。
新人エンジニアの方は、まずGoogle AI Studioで音声入力を試してみることから始めると、テキストベースのLLMとは異なる「ネイティブ音声モデル」のポテンシャルを実感できるはずです。
引用元: https://blog.google/products-and-platforms/products/gemini/gemini-audio-model-updates/
(株式会社ずんだもんは架空の登場組織です)