株式会社ずんだもん技術室AI放送局 podcast 20260610
内容紹介
Claude Fable 5 and Claude Mythos 5、Fluid, natural voice translation with Gemini 3.5 Live Translate、OpenCV 5 Is Here: The Biggest Leap in Years for Computer Vision、パイの奪い合いといいつつ皆ピザを想像している オタク
出演者
youtube版(スライド付き)
関連リンク
米Anthropic社は、同社史上最高性能を持つ最新AIモデル「Claude Fable 5」および、そのセキュリティ・バイオ研究向けの特別版「Claude Mythos 5」を発表しました。従来のモデルを大幅に上回る実務能力を持ちながら、高度な安全対策が実装されているのが特徴です。日本のエンジニア、特に新人エンジニアが押さえておくべき主要ポイントは以下の4点です。
1. 開発・実務を劇的に効率化する圧倒的な性能 Fable 5は、コーディング、視覚理解(ビジョン)、複雑な意思決定などのベンチマークで世界最高水準(SOTA)の性能を記録しました。
- コーディングの超効率化: Stripe社における先行テストでは、通常なら開発チーム全体で2ヶ月以上かかる5,000万行のRubyコードの移行(マイグレーション)作業を、Fable 5がわずか1日で自律的に完了させました。
- 高度な視覚理解: 画面のスクリーンショット画像だけを頼りにWebアプリのソースコードを再構築できます。また、補助ツールを一切使わず、ゲーム画面の画像入力のみで『ポケットモンスター ファイアレッド』をクリアするほどの空間・状況把握能力を持ちます。
- 自律性と記憶力の向上: 外部メモリを活用し、長期にわたるタスクでも破綻せずに自律的に思考を継続できます。
2. 安全性を担保する「フォールバック」システム 高い能力を持つAIはサイバー攻撃などに悪用されるリスクもあります。これを防ぐため、Fable 5には危険な対話を検知する高度な「分類器(セーフガード)」が搭載されました。 もしサイバー攻撃やバイオ兵器に関連する危険な質問だと判定された場合、システムは回答を拒否するのではなく、安全な前世代モデル「Claude Opus 4.8」に自動で処理を引き継ぎます(フォールバック)。通常の用途(95%以上のセッション)ではこの制限に引っかかることなく、Fable 5のフルパワーを利用できます。
3. 専門家向けの特別版「Claude Mythos 5」 Fable 5と全く同じモデルでありながら、サイバーセキュリティやバイオ分野のセーフガードを解除した「Mythos 5」も提供されます。こちらは、政府機関や信頼されたセキュリティ防衛組織、高度な医薬品・ゲノム研究を行う専門家にのみ、厳格な審査を経て限定提供されます。
4. 価格とデータ保持ポリシー
- 低価格化: 入力100万トークンあたり10ドル、出力100万トークンあたり50ドルに設定され、従来のプレビュー版の半額以下に抑えられています。
- データの30日保持: 新たな安全基準として、ビジネスデータは30日間保持されます(ただし安全確認目的のみに使用され、AIの学習には一切使われません)。
- 提供状況: APIおよび一部プランで即日利用可能となっており、個人向けのProプランなどでも段階的に展開される予定です。
Fable 5の登場により、エンジニアが面倒な定型業務をAIエージェントに丸投げし、より本質的な設計や創造的タスクに集中できる未来がすぐそこまで来ています。
引用元: https://www.anthropic.com/news/claude-fable-5-mythos-5
2026年6月9日、Googleは音声から音声への翻訳をほぼリアルタイムで実現する最新モデル「Gemini 3.5 Live Translate」を発表しました。本モデルは、従来の翻訳システムが抱えていた「不自然な間」や「感情の欠如」という課題を打破する画期的な技術です。
■ 技術的な特徴と革新性 Gemini 3.5 Live Translateの最大の特徴は、70以上の言語を自動検出し、話し手の「抑揚(イントネーション)」「話速(ペース)」「声の高さ(ピッチ)」を維持したまま、自然な音声を生成する点にあります。
従来のシステムは話し手が最後まで話し終えるのを待ってから翻訳を開始する「ターン制」が主流でしたが、本モデルはストリーミング処理により継続的に音声を生成します。文脈の理解度と即時性のバランスを高度に制御することで、話者からわずか数秒遅れるだけの、スムーズで同時通訳に近い体験を提供します。
■ 開発者向けの提供と活用 新人エンジニアの方にとっても、この強力な機能を自分のアプリケーションに組み込むチャンスがすぐに用意されています。 ・APIの公開:Gemini Live APIを通じて、パブリックプレビューとして利用可能です。Google AI Studioでも試すことができます。 ・優れた堅牢性:高度なノイズ耐性を備えており、騒がしい屋外や予測不可能な環境でも動作します。 ・エコシステムの活用:LiveKit、Agora、Pipecatといった主要なリアルタイム通信SDKがすでに対応しており、複雑なストリーミングインフラを自前で構築しなくても、高品質な音声翻訳機能を実装できる環境が整っています。
■ 実際の展開と安全性 この技術はGoogle MeetやGoogle Translateアプリにも順次導入されます。特にGoogle Meetでは、これまで英語を中心とした限定的な対応でしたが、今後は2000以上の言語ペアでの会話が可能になり、グローバルな会議のあり方を一変させます。
また、生成されたすべての音声には、Googleの電子透かし技術「SynthID」が不可視の状態で埋め込まれています。これにより、AI生成コンテンツであることを識別可能にし、誤情報の拡散を防ぐといった「責任あるAI」としての安全策も講じられています。
多言語コミュニケーションの壁を取り払うこの技術は、世界のエンジニアが協力して開発を行う現場や、グローバル展開するプロダクトの可能性を大きく広げる、非常にエキサイティングなニュースです。
引用元: https://deepmind.google/blog/fluid-natural-voice-translation-with-gemini-35-live-translate/
コンピュータビジョンの世界標準ライブラリであるOpenCVが、数年ぶりのメジャーアップデートとなる「OpenCV 5」をリリースしました。これまでのOpenCV 4系では、最新のディープラーニング(DL)モデルを読み込もうとするとエラーが出ることもありましたが、今作は「現代のAI・DL環境への完全対応」を掲げた、非常に意欲的な進化を遂げています。
最大のハイライトは、完全に再設計された「新DNNエンジン」です。ONNX(モデル共有用フォーマット)の対応率が従来の22%から80%以上へと劇的に向上しました。内部構造が「グラフベース」に刷新されたことで、推論時に計算順序を最適化したり、複数の処理を一つにまとめたりすることが可能になり、ONNX Runtimeなどの専用エンジンに匹敵、あるいは凌駕する実行速度を実現しています。
さらに驚くべきは、LLM(大規模言語モデル)やVLM(視覚言語モデル)へのネイティブ対応です。ライブラリ内にトークナイザー(文字を数値化する処理)やキャッシュ機構が組み込まれたため、OpenCVだけで画像の説明文を生成したり、チャットAIを動かしたりできます。また、物体を自然に消去する「LaMa」を用いた画像修復機能なども追加されており、生成AI時代の機能を標準装備しています。
新人エンジニアにとって嬉しい、開発環境の現代化も行われました。
- 言語仕様の刷新: C++17が標準となり、古いC言語時代の負の遺産(C API)が整理されました。
- Pythonの使い勝手向上: Pythonでキーワード引数が使えるようになり、引数の順番を覚えなくてもコードが書けるようになりました。またNumPy 2.xにも対応しています。
- ハードウェア加速: 新たな抽象化レイヤー(HAL)により、IntelやARM、RISC-Vなど、どんなCPU・チップ上でもコードを変えずに高速動作する仕組みが整いました。
3Dビジョン機能もモジュールごとに整理され、複数カメラのキャリブレーションや点群処理が扱いやすくなっています。ドキュメントも一新され、検索性が向上しました。
OpenCV 5は、古典的な画像処理から最新の生成AIまでを一気通貫で扱える強力なツールへと生まれ変わりました。今後のアップデートでは、この新エンジンによるGPU加速や、前処理・後処理まで含めたハードウェア高速化も予定されています。最新のAIモデルをプロダクトに組み込みたいエンジニアにとって、必見のリリースです。
引用元: https://opencv.org/opencv-5/
「パイの奪い合い」という慣用句を聞いた際、多くの人が本来の洋菓子ではなく、ピザを脳内でイメージしているのではないかという日常の気づきを綴ったエッセイです。日本人にとって馴染み深い「切り分けられた円形の食べ物」がピザであるため、無意識にイメージが変換されている面白さを指摘しています。用語の共通認識が大切なエンジニアにとっても、言葉とイメージの乖離を再確認できる、クスッと笑える内容です。
引用元: https://anond.hatelabo.jp/20260608224942
(株式会社ずんだもんは架空の登場組織です)