私立ずんだもん女学園放送部 podcast 20250606
内容紹介
Open Source AI Agent: Build Full Stack Apps、AI Agentで動くSNS人格に、ベクトル検索MCPで外部知識を持たせる、Gemini 2.5 Pro、初代スイッチ→スイッチ2で処理落ちが大幅改善との報告多数。さっそく試したユーザーから感動の声が続々。『ポケモンSV』『どうぶつの森』『ティアキン』などなど、いろんなゲームがぬるぬる動く
出演者
関連リンク
この記事は、「app.build」という、オープンソースのプロジェクトを紹介しています。これは、AI技術を活用した「AI Agent」という仕組みを使って、Webアプリケーション開発の初めの一歩を助けてくれるツールです。具体的には、データベースからユーザーインターフェース(画面)まで一通り揃った「フルスタック」と呼ばれるアプリケーションの基本的なコードを、コマンド一つで自動的に生成してくれます。
使い方はとても簡単で、ターミナルでnpx @app.build/cli
というコマンドを実行するだけです。生成されるアプリは、主にNeonというクラウド上で動くデータベースサービスなどを利用することを想定していますが、設定を変えたり、独自のテンプレートを使ったりすることも可能です。
app.buildの大きな特徴は、コードが全て公開されている「オープンソース」であることです。これにより、開発の仕組みを透明に見ることができ、誰もが自由に利用したり、改善に貢献したりできます。また、「ローカルファースト」が重視されており、皆さんの手元のPCですぐに動かして試せるように作られています。これは、これからWebアプリ開発を始めたい新人エンジニアの方にとっても、手軽にプロジェクトのひな形を作れる便利な出発点となるでしょう。
このプロジェクトは開発者向けに作られており、特にNeonのようなプラットフォーム上で動くコードをAIに自動生成させるツールを作る際の「参照実装」、つまりお手本となることを目指しているそうです。
プロジェクトのコードは、全てGitHubリポジトリで公開されています。興味があれば、どのようなコードでこのAI Agentが作られているのかを覗いてみることもできます。
このように、AIがソフトウェア開発の一部を自動化し、より効率的にアプリ開発を進められるようにする動きが進んでいます。app.buildは、AI Agentが実際にどのようにアプリケーションコードを生成できるかを示す具体的な例であり、今後の開発スタイルを考える上で参考になるプロジェクトと言えるでしょう。
引用元: https://www.app.build/
前回の記事で作成した、SNS上で活動するAI Agent(架空の友達、今回はプリキュアオタクギャル)には、「最新情報や専門知識が足りない」という課題がありました。LLM(大規模言語モデル)は学習時点より新しい情報を持っていないため、例えば最新のプリキュア作品について尋ねても正確な情報を返せないことが確認されました。
この課題を解決するために、LLMに外部の知識を参照させる仕組み、RAG(Retrieval Augmented Generation)の考え方を取り入れました。具体的には、プリキュアに関する大量の文書(Wikipediaなどから収集・整理)を「ベクトル検索」できるようにデータベース化し、それをAI Agentが使える「ツール」として提供することにしました。このツールはMCP (Model Context Protocol) Serverとして実装しました。
文書をベクトル化(文章の意味を数値のまとまりに変換)する際には、使用するモデルによって検索精度が変わるため、いくつかのモデルを試しました。データベースに保存することで、AI Agentは質問や投稿内容に関連する文書を素早く探し出せるようになります。
AI Agentにこのツールを使わせるためには、「プリキュアに関する話題は確認してから話す」といった人格設定や、ツールの説明文に「正確な事実確認に使う」といったガイドを追加しました。これにより、AI Agentが自律的にツールを使うことを促しました。
実験の結果、AI Agentが自分でツールを使って正しい情報を取得し、投稿や返信を修正する成功例も生まれました。しかし、ツールを使わなかったり、期待と違う情報を取得してしまう失敗例も多く、LLMが自律的に外部ツールを適切に使いこなすのは難しい現状も見えました。これはLLM自体の性能や、ツールの活用を促すためのさらなる工夫(例えば、別のAIがチェックする仕組みなど)が必要であることを示唆しています。
今回、AI Agentが自ら判断して外部ツールを使い、正確な情報を基に投稿する一連の流れを実現できたことは大きな進歩です。この仕組みは、他の人格に別の専門知識を与える場合にも応用できます。今後、精度を上げて、AI Agentがリアルタイムの情報も参照できるようになれば、例えばアニメを一緒に見ながら感想を語り合う、といったこともできるようになるかもしれません。
引用元: https://memo.sugyan.com/entry/2025/06/05/090000
Google DeepMindが、次世代AIシステムである「Gemini」ファミリーの最新モデル「Gemini 2.5 Pro」のプレビュー版を発表しました。これは、Geminiシリーズで最も高性能なモデルと位置づけられています。
Gemini 2.5 Proの主な特徴は以下の通りです。
- 高度な推論能力(Deep Think): 最新の研究に基づいた「Deep Think」という強化された推論モードを導入しています。これにより、応答前に思考プロセスを深く掘り下げ、より高い性能と精度を実現しています。特に数学や科学の難しい問題で優れた成績を示しています。
- 進化したコーディング能力: コーディングタスクに非常に強く、Web開発に必要なコードを効率的に生成できます。コード生成や編集に関するベンチマークでも高いスコアを出しています。デモ動画では、プロンプト一つからインタラクティブなアニメーションやゲーム、データ可視化ツールなどをコーディングする様子が紹介されています。
- ネイティブなマルチモーダル対応: テキストだけでなく、画像、音声、動画の入力を理解し、それらを組み合わせて処理することができます。
- 非常に長い文脈ウィンドウ: 100万トークンという広範な文脈ウィンドウを持ちます。これにより、非常に長い文書や大量のデータの中から関連情報を見つけ出し、複雑な分析を行うことが可能です。これは競合モデルと比較しても突出した能力です。
- 自然な音声出力(Native audio): より表現力豊かで自然な音声出力を生成でき、24ヶ国語に対応しています。
Google DeepMindは、Gemini 2.5 Proを含む最新モデルを、開発者がGoogle AI StudioやGemini APIを通じて利用できるように提供しています。これにより、開発者はこれらの強力なAIモデルを活用して、新しいアプリケーションやサービスを構築できます。
全体として、Gemini 2.5 Proは、推論、コーディング、マルチモーダル処理、長文理解といった様々な面で大幅な進化を遂げたモデルであり、日本のエンジニアの皆さんがAI開発に取り組む上で非常に強力なツールとなるでしょう。Google DeepMindは、こうしたAI技術を責任を持って、人類に beneficio (利益)をもたらす形で開発していくことを目指しています。
引用元: https://deepmind.google/models/gemini/pro/
新型ゲーム機「Nintendo Switch 2」が登場し、性能が向上したことで初代Switchソフトの動作が改善されたと話題です。『ポケモンSV』などで報告されていた処理落ちが大幅に減り、「ぬるぬる動く」「ロードが速い」といった喜びの声が多数上がっています。既存ゲームも新しいハードで快適に遊べるのは、技術の進化を感じられて面白いですね。
引用元: https://news.denfaminicogamer.jp/news/2506053j
VOICEVOX:ずんだもん