株式会社ずんだもん技術室AI放送局 podcast 20250619
内容紹介
【Claude Code Tips】私のマイCLAUDE.mdを解説します、Benchmarking LLM Inference Costs for Smarter Scaling and Deployment、医療AI診断の盲点:GPT-4o・Command R+を人間が使うと精度が3分の1に低下、1,298人実験で判明 - イノベトピア
出演者
関連リンク
この記事では、ターミナルで動作するAIコーディングツール「Claude Code」をより効果的に使うための設定ファイル「CLAUDE.md」について、具体的な設定例を交えながら解説されています。新人エンジニアの方も、AIを活用した開発のヒントとして役立つでしょう。
CLAUDE.mdは、Claude Codeにプロジェクト固有の知識を覚えさせる「メモリ機能」です。これにプロジェクトの設計やコーディングルール、作業の流れなどを記述することで、AIが生成するコードの質を上げることができます。たくさん書きすぎるとAIが内容を無視してしまうことがあるため、必要な情報を簡潔にまとめることが大切です。英語で書く方がAIが処理しやすい(トークン量を抑えられる)側面もありますが、筆者は保守性を考慮して日本語で書くことも問題ないとしています。
筆者のCLAUDE.mdには、開発中のSNSアプリ「Gotoshisha」の具体的な情報が記述されています。
- プロジェクト概要: アプリの目的や主な機能。
- 技術スタック: 利用しているプログラミング言語、フレームワーク、クラウドサービスなど。
- プロジェクト構造: ディレクトリの構成。
- 開発ワークフロー: 環境構築や開発開始の手順。
- テストガイドラインとコード生成規約: テストの書き方(Vitestを使い、テストコードを実装ファイルと同じ場所に書く、日本語でテスト説明を書くなど)や、コードの書き方のルール(コメントの付け方、ハードコードを避けるなど)。
特に注目すべきは、テストガイドラインの重要性です。AIにコードを生成させる際、テスト駆動開発(先にテストを書き、それに合わせてコードを開発する手法)と組み合わせることで、AIが作ったコードが正しく動くかを確認しやすくなり、スムーズに開発を進められると筆者は強調しています。
また、Claude Codeが実行できるコマンドを細かく設定する.claude/settings.json
ファイルについても紹介されています。このファイルで、AIに自動で許可するコマンド(allow
リスト)と、絶対に禁止するコマンド(deny
リスト)を設定することで、安全にAIと協力して開発を進めることができます。
まとめると、CLAUDE.mdにプロジェクトの情報を詳しく、かつ簡潔に記述し、特にテスト駆動開発と組み合わせることで、Claude Codeの能力を最大限に引き出し、効率的で品質の高い開発ができるという点がこの記事の大きな学びです。
引用元: https://zenn.dev/dirtyman/articles/ddbec05fd9fbb4
この記事は、大規模言語モデル(LLM)の運用にかかるコスト(推論コスト)を効率的に見積もり、賢くシステムを拡張・展開するための方法を、新人エンジニアにも分かりやすく解説しています。LLMが様々なアプリケーションの基盤となる中で、システムを大規模に運用する際には、どれくらいのインフラが必要で、総費用(TCO: Total Cost of Ownership)がどれくらいになるかを事前に把握することが非常に重要になります。
このブログ記事では、主に以下の3つのステップを通じて、LLMの推論コストを計算する流れを説明しています。
-
パフォーマンスベンチマークの実施: まず、LLMを動かすサーバーが、どれくらいの速さでどれだけの処理量(スループット)をこなせるのか、そして応答にどれくらいの時間(レイテンシ)がかかるのかを測定します。これは、必要なハードウェアの規模を決めるための土台となります。NVIDIAの「GenAI-Perf」のようなツールを使うと、「最初の単語が出るまでの時間(TTFT)」や「1秒あたりのリクエスト数(RPS)」といった主要な性能指標を測ることができます。これは、チャットボットのようにリアルタイム性が求められるシステムでは特に重要です。
-
ベンチマークデータの分析と最適な構成の特定: 測定したデータから、システムが最高の性能を発揮できるバランス点を見つけます。一般的に、多くのリクエストを同時に処理しようとするとスループットは上がりますが、個々の応答にかかる時間は長くなる傾向があります(レイテンシが増える)。このトレードオフを理解し、例えば「応答時間は250ミリ秒以内」といった要件を満たしつつ、最も効率よく処理できる設定(パレート最適フロンティア)を選び出します。これにより、「ピーク時にこれだけの要求を処理するには、最低限これだけの数のLLMインスタンス(処理単位)が必要だ」という具体的な数字を算出できます。
-
総所有コスト(TCO)の計算: 最後に、算出した必要なインフラに基づいて、実際にどのくらいの費用がかかるのかを計算します。これには、サーバーやGPUといった「ハードウェア費用」、LLMのソフトウェアを使うための「ライセンス費用」、サーバーの「ホスティング費用」などが含まれます。これらの費用を組み合わせ、「必要なサーバー台数」や「年間にかかる総費用」を算出します。さらに、「1000回の問い合わせ(プロンプト)あたりにかかる費用」や「100万トークン処理あたりにかかる費用」といった、より具体的な運用コストも計算できるようになります。
これらのステップを踏むことで、LLMアプリケーションを大規模に展開する前に、コスト面での計画をしっかりと立て、効率的で費用対効果の高いシステムを構築するための重要な知見が得られます。新人エンジニアの皆さんも、将来的にAIシステムを設計・運用する際に、このようなコストの見積もり能力が非常に役立つでしょう。
引用元: https://developer.nvidia.com/blog/benchmarking-llm-inference-costs-for-smarter-scaling-and-deployment/
今回ご紹介するオックスフォード大学の研究は、大規模言語モデル(LLM)を使った医療診断において、「人間が関わることでAIの診断精度が大きく低下する」という、新人エンジニアの皆さんがAIシステム開発を考える上で非常に重要な研究結果です。
LLMとは、ChatGPTなどで使われる、大量のテキストから学習し自然な文章を理解・生成できるAIモデルのことです。この研究では、GPT-4oやLlama 3、Command R+といった最新のLLMを使って、1,298人の参加者に医療シナリオの診断実験を行いました。
結果は驚くべきものでした。LLMが単独で病状を特定する精度は94.9%と非常に高かったのに対し、人間がLLMを使って診断を行った場合、正答率は34.5%以下にまで落ち込んでしまったのです。これは、従来の自己診断方法よりも低い結果でした。
なぜこのようなギャップが生じたのでしょうか?研究では、参加者がLLMに症状を伝える際に情報が不完全だったり、LLMからの回答を人間が誤解したりする問題が確認されました。例えば、重要な情報を省略して伝えたために、LLMが誤った診断を下すケースが見られました。つまり、AIがどんなに高性能でも、人間がAIにどう情報を与えるか(プロンプトの質)、そしてAIからの情報を人間がどう解釈するかが、そのAIの最終的な性能を大きく左右するということです。
この課題は医療分野に限らず、AIチャットボットを使ったカスタマーサポートなど、人間とAIが相互作用するあらゆるシステムに共通します。システム開発においては、「テスト環境では完璧に見えたAIが、実際のユーザーに使われると期待通りの性能を出せない」というリスクがあることを理解しておく必要があります。
AIが真に役立つシステムとなるためには、単にAIモデルの性能を高めるだけでなく、「人間が質の高いプロンプトを与えやすい工夫」や、「AIからの情報を人間が正しく理解できるように、AIの回答を分かりやすく提示する工夫」といった、「人間とAIのコミュニケーション」を円滑にする設計が非常に重要です。
また、興味深いことに、AI同士で診断実験を行った場合は60.7%の正答率を示しました。これは、人間とAIの組み合わせよりもAI同士の方が効率的に情報をやり取りできる可能性を示唆しています。
新人エンジニアの皆さんがAI開発に携わる際、「技術は素晴らしいけれど、実際に使うのは人間だ」という視点を常に持ち、人間の認知特性や行動パターンを深く理解し、それに適応する「人間中心のAI設計」を心がけることが、真に価値あるAIシステムを生み出す鍵となるでしょう。
引用元: https://innovatopia.jp/ai/ai-news/57656/
(株式会社ずんだもんは架空の登場組織です)