株式会社ずんだもん技術室AI放送局 podcast 20250605
内容紹介
Stockmark-2-VL-100B:日本語に特化したドキュメント読解のためのChain-of-Thought視覚言語モデル、やさしいClaude Code入門、Anthropic、5カ月で売上高が3倍に--急成長の背景にあるものは、iPhoneを中に投入すると"小さなクリーンルーム"で画面保護フィルムを貼ってくれる自動販売機が登場!「不器用なのでこれはアリ」
出演者
関連リンク
ストックマーク株式会社が、日本語のドキュメント理解に特化した新しいAIモデル「Stockmark-2-VL-100B」を開発し、公開しました。このモデルは、画像とテキストの両方を同時に理解できる「視覚言語モデル(VLM)」と呼ばれるもので、特に日本のビジネスでよく使われる、グラフや図が含まれたPDFやプレゼン資料などを正確に読み解くことを目指しています。
日本のビジネス文書は、文字だけでなく図や表、写真などが混ざっていることが多く、これらをまとめて理解するのはAIにとって難しい課題でした。Stockmark-2-VL-100Bは、このような文書から重要な情報を抽出し、質問に答えることができます。
このモデルの大きな特徴は、「Chain-of-Thought(CoT)」、つまり回答に至るまでの「思考過程」を詳細に示す能力を持っていることです。これにより、AIがなぜその回答を出したのか、どのような情報(画像やテキストのどこを見ればよいか)を根拠にしたのかが分かりやすくなります。これは、AIがもっともらしい間違った情報(ハルシネーション)を生成することを抑え、AIの回答の信頼性を高める上で非常に重要です。
このモデルは、国のGENIACプロジェクトの支援を受けて開発されました。1000億パラメータを持つ大きなモデルで、大規模な日本語データや、ビジネス文書に特化したデータを集めて、段階的に学習させることで高い性能を実現しています。特に、他の大規模なAIモデルを使って、日本語の高品質な学習データを新しく作り出した工夫も紹介されています。
開発されたモデルは、日本語のドキュメント読解に関する様々な評価データセットでテストされました。その結果、他の日本のVLMモデルを大きく上回り、特定のビジネスドキュメント読解タスクにおいては、GPT-4oよりも高い性能を示すことが確認されました。一般的な画像に関する質問応答でも高い性能を持っています。
今回発表された「Stockmark-2-VL-100B」モデルは、HuggingFace Hubで公開されており、誰でも利用できるようになっています。また、モデルの評価に使われたビジネススライドの質問応答データセット「BusinessSlideVQA」もGitHubで公開されています。
このモデルの登場は、日本のビジネス文書をAIでより正確に、そして信頼性高く処理する可能性を広げるものと言えるでしょう。
引用元: https://stockmark-tech.hatenablog.com/entry/2025/06/03/101007
このSpeaker Deck資料は、KDDIアジャイル開発センターの御田稔さん(みのるんさん)による、「やさしいClaude Code入門」の発表内容をまとめたものです。主に、Anthropic社が提供する最新のLLM(大規模言語モデル)であるClaude 4と、そのコード生成に特化したAIエージェント「Claude Code」について、日本のエンジニア、特に新人の方に向けて分かりやすく解説しています。
まず、先日(2025年5月23日)リリースされたばかりのClaude 4に触れています。これはClaudeシリーズの最新モデルで、「軽量」なHaiku、バランスの取れたSonnet、パワフルなOpusなどのモデルがあります。Claudeシリーズ全体の特徴として、OpenAIやGoogle Geminiにも負けない高い賢さ、特にコーディング能力が地球最強クラスであること、そして安全性を重視しているため企業での利用にも向いている点が挙げられます。また、自然でこなれた日本語の生成が得意で、日本語の図表や写真の解釈も優秀とのことです。
次に本題のClaude Codeについて解説されています。Claude Codeは、Anthropicが提供するCLI(コマンドラインインターフェース)ベースのAIコーディングエージェント製品です。2025年2月にプレビュー版が登場し、Claude 4と同時に5月に正式リリースされました。この正式リリースで特に注目されたのが、VS Codeへの対応です。これにより、CLI操作のとっつきにくさが解消され、多くのユーザーが利用し始めています。
Claude Codeの大きな特徴は、コード生成に使われるLLMがClaudeであるため、生成されるコードの品質が非常に高いことです。CLIで指示を出しつつも、コードの編集結果はVS CodeなどのGUIで差分表示されるため、変更内容を確認しやすいのが利点です。また、To Doリストを自分で作って作業を進め、今何をしているのか報告してくれるなど、自律的な作業が得意です。作業中に質問や追加の依頼をしても、キリの良いところで対応してくれる賢さも持っています。Web検索も標準装備しており、最新情報に基づいた回答やコード生成が可能です。
既存のAIエディタと比べて、Claude Codeの最大のメリットはコストパフォーマンスです。なんと定額プラン(Claude Max)で最新のClaude APIを利用できるため、高性能なLLMを使う際に発生しがちな従量課金コストを抑えられます。サブスクせずにAPI課金することも可能です。また、同じClaude 4 APIを使う場合でも、本家AnthropicのClaude Codeはコード生成の品質がさらに高いという体感があるそうです。
使い方は非常にシンプルで、Node.jsをインストール後、npm install -g @anthropic-ai/claude-code
コマンドでパッケージをインストールし、ターミナルでclaude
と打つだけで起動できます。起動後は日本語で指示を出すことが可能です。VS Codeと連携することで、コードの変更差分を視覚的に確認しながら作業を進められます。
この資料は、最新の強力なAIツールであるClaude Codeが、エンジニアのコーディング作業をどのようにサポートしてくれるのか、その可能性をやさしく解説しています。最新技術に関心のある新人エンジニアにとって、AIを活用した開発の第一歩として非常に参考になる内容と言えるでしょう。
引用元: https://speakerdeck.com/minorun365/yasasiiclaude-coderu-men
AIスタートアップ企業のAnthropicが、わずか5カ月という短期間で年間売上高を3倍にし、30億ドル(約4700億円)に達したというニュースです。これは、企業が生成AIツールをビジネスで活用することへの関心が非常に高まっていることを示しています。
Anthropicは、2021年にOpenAI出身のメンバーを中心に設立されました。彼らは、AIの「安全性」や「責任ある開発」を重視する考え方を創業当初から掲げており、多くの研究者がこの理念に共感して集まっています。
ビジネスの中心は、企業向けの生成AIチャットボット「Claude」ファミリーです。Anthropicは、企業が安心してAIを使えるように、プライバシーやデータセキュリティに特に力を入れています。例えば、ユーザーが明示的に同意しない限り、入力したデータをAIモデルの学習に利用しないという方針を採っています。これは、ビジネスでAIを導入する際に重要視されるポイントの一つです。
Anthropicは技術開発も進めており、最新モデルの「Claude Opus 4」はコーディング能力が高いと評価されています。このような技術力と安全性への配慮が、多くの企業に支持され、驚異的な売上増加につながったと考えられます。
今回のAnthropicの急成長は、生成AIが企業活動に深く浸透し、ビジネスを変革する力を持っていることを改めて示す出来事です。そして、ただ高機能なだけでなく、「安全性」や「信頼性」がビジネスでAIを選ぶ上で非常に重要な要素になってきていることが分かります。
一方で、AIの進化が雇用に影響を与える可能性についても議論されています。AnthropicのCEOは、将来的にAIが特定の仕事の一部を代替したり、少人数のチームがAIを活用して大きな事業を立ち上げたりする可能性に言及しています。新しい技術であるAIが、これから社会や働き方をどう変えていくのか、エンジニアとして注目していく価値のある動向と言えるでしょう。
引用元: https://japan.zdnet.com/article/35233736/
iPhoneの保護フィルム貼りに失敗しがちな人向けの自動販売機「フィルラボ」が登場しました。iPhoneを入れると、機械の中で小さなクリーンルームのような環境を作り、ホコリや気泡を抑えながら画面クリーニングとフィルム貼りを約2分で完了します。手作業の煩わしさを解消する、ユニークなテクノロジーの活用事例として注目されています。
引用元: https://togetter.com/li/2559302
(株式会社ずんだもんは架空の登場組織です)