株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。

株式会社ずんだもん技術室AI放送局 podcast 20260512

2026年05月12日

MP3ファイルをダウンロード

内容紹介

Chrome DevTools MCP が凄い。人類が「プログラムにやってほしかったこと」が簡単にできる時代がきた!!、Perplexity AI、AIエージェントをMac上で自律動作させられるPersonal Computerに対応した新しい「Perplexity Mac」アプリを全Macユーザー向けに提供開始。 AAPL Ch.、Gemma 4 MTP を DGX Spark で動かして日本語生成の高速化を実測してみた、「プロすげぇ」デザイナーの母にライブのフライヤーを頼んだら、一日ですさまじいクオリティになった 見やすい上に追加情報やQRコードまでキレイに配置

出演者

ずんだもん
ずんだもん

youtube版(スライド付き)

関連リンク

本記事は、長年クローラーやスクレイピングの開発に携わってきた著者が、AIがブラウザを直接操作する「Chrome DevTools MCP」に受けた衝撃と、その実用的な活用方法をエンジニア向けに解説したものです。

1. Chrome DevTools MCPとは何か?

Chrome DevTools MCPは、Claude CodeなどのMCP(Model Context Protocol)クライアントが、Chrome DevTools Protocol(CDP)を通じてブラウザを操作するための仕組みです。バックエンドにはPuppeteerが採用されています。 一言で言えば、「AIに、人間が普段使っているChromeをそのまま操作させるためのインターフェース」です。

2. なぜ「革命的」なのか

従来のSeleniumやPlaywrightを用いた自動化では、エンジニアがHTML構造を解析し、壊れやすいCSSセレクタを定義し、複雑なログイン処理をコードで書く必要がありました。しかし、Chrome DevTools MCPではこれが根本から変わります。

  • 自然言語での指示: 「このボタンを押して」「CSVをダウンロードして」といった指示だけで動作します。
  • AIによる判断: AIがaria/role属性付きのDOMスナップショットを理解するため、UIが多少変化しても自律的に判断して操作を継続できます。
  • 認証の簡略化: ログイン状態は既存のChromeプロファイルに委ねられるため、AIにパスワードを教える必要がなく、2段階認証などの壁も「人間が手動で一度ログインしておく」だけで突破できます。

3. 実践的な活用例

著者は、BOOTHやKindleダイレクトパブリッシング(KDP)の売上データ取得を自動化しています。

  • コード量の削減: 従来なら数百行必要だった自動化処理が、AIへの指示文(Markdown形式)70〜80行程度で完結します。
  • 自律的な運用: 「最新の注文があるか確認し、必要ならCSVを発行してダウンロードする」といったロジックをAIに委ねることで、保守コストが劇的に低下します。

4. 新人エンジニアが意識すべき「運用のコツと注意点」

便利な技術ですが、エンジニアとして以下のセキュリティと運用の勘所を押さえることが推奨されています。

  • 専用プロファイルの作成: 普段使いのChromeと混ぜず、MCP専用のプロファイルを作成することで、リスクの局所化とログイン状態の安定を図ります。
  • セキュリティの理解: AIにパスワードを渡さない運用は可能ですが、ブラウザ内のCookieやセッション情報はMCP経由で読み取れる可能性があります。そのため、読み取り中心の運用に留める、決済などの重要アクションは人間が行うといった切り分けが重要です。
  • トラブルシューティング: Chromeを--use-mock-keychainフラグ付きで起動するなど、MCP固有の仕様を理解しておくことで、ログインが維持されないといったトラブルを回避できます。

まとめ

Chrome DevTools MCPは、人類が長年プログラムに求めていた「ブラウザ操作の民主化」を実現する技術です。個々のユーザーが自分の手元のブラウザを動かすという構造は、従来のスクレイピングサービスが抱えていた法務的・倫理的摩擦も回避しやすくなっています。 「実装」から「AIへの指示」へとパラダイムシフトが起きている今、このツールを使いこなすことは、エンジニアの生産性を飛躍的に向上させる鍵となるでしょう。

引用元: https://blog.takuros.net/entry/2026/05/11/080037

AI検索エンジンで知られるPerplexity AI社が、Mac上でAIエージェントを自律動作させる新機能「Personal Computer」を全てのMacユーザーに向けて公開しました。これまで一部の特定ユーザー向けに提供されていた機能が、正式に誰でも利用可能な状態となりました。

新人エンジニアの方に向けて、このニュースの重要なポイントを技術的な側面を含めて解説します。

1. 「Personal Computer」機能とは?

この機能は、AIが単にチャットで答えるだけでなく、ユーザーの代わりにMacを直接操作する「エージェント」として振る舞うものです。

  • 自律的な操作: ローカルにあるファイルの読み書き、Mac標準アプリの起動、ブラウザでのWeb操作などをAIが自動で実行します。
  • 統合された実行環境: ローカルリソース(自分のMac)とクラウド(Perplexityの安全なサーバー)を組み合わせ、複雑なタスクをこなします。

2. 技術的な注意点とセットアップ

エンジニアとして注目すべきは、このアプリがmacOSの強力な権限を利用して動作する点です。

  • 必要な権限: 動作には「フルディスクアクセス」「アクセシビリティ」「画面収録」の権限許可が求められます。これは、AIが画面の状態を認識し、UI要素をシミュレートして操作するために不可欠な設定です。
  • アプリの移行: 従来のMac App Store版(Perplexity for Mac)は廃止される予定です。新機能を使うには、公式サイトから直接配布されている新しい「Perplexity Mac」アプリをインストールし、古いアプリはアンインストールする必要があります。

3. 新しいコンピューティングの形

Perplexityは、この機能を活用することで、画面のない「ヘッドレスなMac mini」などを24時間稼働のエージェントサーバーとして利用するスタイルを提案しています。例えば、外出先からiPhoneで指示を出し、自宅のMacに複雑な調査や作業を自律的に実行させるといった、まさに「パーソナルなAI専用機」としての活用が期待されます。

利用にはPerplexity ProまたはMaxのサブスクリプションが必要ですが、AIが「相談相手」から「実作業を行うエージェント」へと進化している象徴的なアップデートと言えます。Macユーザーのエンジニアであれば、AIによるOS操作の可能性に触れる良い機会になるでしょう。

引用元: https://applech2.com/archives/20260508-perplexity-personal-computer-for-all-mac-user-hero.html

本記事は、Googleが発表した最新LLM「Gemma 4」に搭載された高速化技術MTP(Multi-Token Prediction)を、NVIDIAのモバイルワークステーション「DGX Spark」で検証した技術レポートです。新人エンジニアの方にも分かりやすく、その仕組みと実力について要点を解説します。

1. Gemma 4 MTPの仕組み

MTPは「投機的デコーディング(Speculative Decoding)」という技術の一種です。

  • 下書き役(drafter):本体より非常に軽量なモデルが、次に続くトークンを「先回り」して数個予測します。
  • 本体(target):下書き役が出した予測をまとめて検証します。 本来、LLMは1トークンずつ順番に生成しますが、この仕組みにより「1回の計算で複数のトークンを確定」できるため、生成速度が劇的に向上します。Gemma 4では、Googleが公式にこの「下書き用モデル」を配布しているのが大きな特徴です。

2. 検証環境と実装

検証には、推論エンジンvLLMの最新版(nightlyビルド)が使用されました。

  • ハードウェア: DGX Spark(メモリ128GB、帯域273 GB/s)
  • 対象モデル: Gemma 4の全サイズ(E2B / E4B / 26B / 31B) vLLMのアップデートにより、画像入力対応モデルでありながら、テキスト生成時にMTPを有効化できるようになっています。

3. ベンチマーク結果の要点

実測の結果、以下の4つの重要な知見が得られました。

  • 長文生成で最大2.1倍の高速化: 200文字程度の生成タスクでは、全モデルで1.7〜2.1倍のスピードアップを確認。特にE4Bモデルでは、18.5 tok/sから38.7 tok/sへと大幅に向上しました。
  • 品質の劣化は「ゼロ」: MTPは理論上、最終的な出力結果を変えない仕組みであるため、正答率などの精度に悪影響を与えないことが実証されました。
  • 短文タスクには不向き: 選択肢を1つ選ぶだけのような極端に短い応答では、下書きを動かすコストが上回り、逆に遅くなる(MoEモデルで約19%減速など)ケースがありました。
  • 日本語でも効果は健闘: 「日本語はトークン分割が複雑なので予測しにくいのでは?」という懸念に対し、英語と比較しても「受け入れ率(予測が的中する割合)」に大きな差はなく、日本語環境でも十分に実用的であることが分かりました。

4. エンジニア向けアドバイス

今回の検証から、DGX Sparkのような環境ではメモリ帯域が高速化のボトルネック(天井)になることが示唆されています。H100のような超高性能GPUであればさらなる伸びが期待できますが、ローカル環境でも設定一つで生成速度を2倍にできるメリットは非常に大きいです。

実運用においては、「チャットや要約などの長文タスクではMTPをONにし、分類などの短文タスクではOFFにする」といった使い分けが、パフォーマンスを最大化する鍵となります。最新のエコシステム(vLLM等)を追いかけることで、リリース直後の新技術をすぐに実務に投入できる好例と言えるでしょう。

引用元: https://dev.classmethod.jp/articles/dgx-spark-gemma4-mtp-multi-token-prediction-bench/

プロのデザイナーである母親が、娘のライブフライヤーをわずか1日で劇的に改善した事例が話題です。単に見た目を整えるだけでなく、QRコードの追加やユーザーが求める情報を先回りして配置する「情報設計」の高さが称賛されています。新人エンジニアにとっても、UI/UXの観点から「ユーザーが必要な情報へ迷わずアクセスできる工夫」こそが真のプロの仕事であると学べる、技術への敬意と親子の絆を感じる記事です。

引用元: https://togetter.com/li/2695750

(株式会社ずんだもんは架空の登場組織です)