株式会社ずんだもん技術室AI放送局 podcast 20260217
内容紹介
GPT5.2が理論物理学の定説を覆し、シンプルな新公式を発見、【緊急】AIエージェントの12%がマルウェアだった。OpenClaw史上最悪のサプライチェーン攻撃の全貌、AIプロダクトの品質をどう守る?、エアコンの調子が悪いというので行ってみるとこれ「かつてエアコンの室外機だった何か」「むしろよくここまで行っても動いてたなw」
出演者
youtube版(スライド付き)
関連リンク
米OpenAIは2026年2月13日、最新のAIモデル「GPT-5.2」が理論物理学における未解決問題を解明したと発表しました。これは、AIが単なるデータ処理ツールを超え、科学的発見の主体となり得ることを示した歴史的な成果です。
【発見の内容:物理学の定説を覆す】 今回の発見の舞台は、素粒子物理学の「グルーオン散乱」という分野です。グルーオンとは、原子核の中で強い相互作用(粒子を繋ぎ止める力)を媒介する素粒子です。これまでの物理学の教科書では、特定の条件下(ヘリシティ構成)においてグルーオンの相互作用は「ゼロ」になると定義されてきました。 しかし、GPT-5.2はこの定説に反し、特定の条件下(half-collinear regime)では相互作用が消滅せず、非ゼロの値を保つことを突き止めました。さらに、その複雑な現象を極めてシンプルな数式で記述できる新公式を発見し、証明まで完了させたのです。
【エンジニアが注目すべき「発見のプロセス」】 今回の成果で最も驚くべき点は、GPT-5.2が「仮説の立案(推測)」から「厳密な数学的証明」までを自律的に遂行したプロセスにあります。
- パターンの特定と予想:まずGPT-5.2 Proモデルが、人間が計算した膨大な数式を簡略化し、そこに潜む未知のパターンを特定して「一般公式」を推測しました。
- 12時間の自律思考による証明:次に、内部の推論強化モデルが約12時間にわたる自律的な思考(Chain of Thoughtの高度な形態)を行い、推測した公式が数学的に正しいことを一貫して証明しました。
これは、従来のAIが「既存の知識を要約・整理する」ものだったのに対し、今回のモデルは「人類がまだ知らない未知の真理を論理的に導き出す」フェーズに到達したことを意味しています。
【検証と今後の影響】 この発見は、プリンストン高等研究所の著名な物理学者ニマ・アルカニ=ハメド氏らによって検証され、その正当性が確認されています。専門家は、AIと人間の専門家が高度な科学探究において協働する新たなモデルケースになると高く評価しています。 研究チームは既にこの手法を「グラビトン(重力子)」の解明にも応用し始めており、物理法則のさらなるアップデートが期待されています。
エンジニアにとって、このニュースは「推論特化型AI」の可能性を強く実感させるものです。AIを単なるコーディング補助として使うだけでなく、複雑な論理構造の検証や、未知の最適解を探索する「パートナー」として捉える時代の幕開けと言えるでしょう。
引用元: https://www.sbbit.jp/article/cont1/180888
2026年2月、人気のパーソナルAIエージェント「OpenClaw」のスキルマーケットプレイス「ClawHub」にて、大規模なサプライチェーン攻撃が発覚しました。登録スキルの約12%にあたる341個が悪意あるマルウェアであり、AIエージェントの利用に伴う深刻なセキュリティリスクが浮き彫りになっています。
本件の主要なポイントは以下の通りです。
-
組織的な攻撃「ClawHavoc」の実態 発見された悪意あるスキルのうち、98%以上(335個)が同一のサーバーに接続されており、組織的な攻撃であることが判明しました。攻撃者は「ウォレットトラッカー」や「便利ツール」を装ったスキルを公開し、利用者に「前提条件」として外部ファイルをダウンロード・実行させることでマルウェアを感染させます。標的は暗号資産の秘密鍵、APIキー、SSH認証情報など、エンジニアにとって極めて重要な機密情報です。
-
致命的な脆弱性 CVE-2026-25253 OpenClaw自体に、特定のWebページを訪問するだけでPCを完全に乗っ取られる脆弱性が存在していました。WebSocketの検証不備を突くことで、認証トークンの窃取からサンドボックスの無効化までが瞬時に行われる極めて危険なものです。既に2万台以上のインスタンスがインターネットに公開状態で晒されており、甚大な被害が懸念されています。
-
パーソナルAIエージェントが抱える構造的な欠陥 Ciscoの分析によれば、現在のAIエージェントには以下の「セキュリティ上の懸念」があります。 ・過剰な権限:シェルコマンドの実行やファイルの読み書きなど、PCに対してrootに近い権限を持っている。 ・認証情報の不適切な管理:APIキーなどを平文で保存しており、プロンプトインジェクション等で漏洩しやすい。 ・攻撃面の拡大:メッセージアプリ等と連携することで、外部からの攻撃経路が増大している。
新人エンジニアが意識すべき対策として、まずは「便利さと引き換えに強力な権限をAIに与えている」という自覚を持つことが重要です。安易にスキルを導入せず、Ciscoが公開した「Skill Scanner」などの解析ツールを活用して安全性を確認する、不要な外部公開を控えるといった基本動作の徹底が求められます。
2026年はAIエージェントが最大の攻撃ベクトルになると予測されています。正規の権限を持つエージェントが内部から攻撃を行う「マンチュリアン・エージェント」シナリオも現実味を帯びており、利便性よりも「セキュリティ・バイ・デザイン」を優先する姿勢が、これからのエンジニアには不可欠です。
引用元: https://qiita.com/emi_ndk/items/bf3b5f0f3eef99a4d124
本資料は、LayerX社が提供する「バクラク勤怠」のAI機能を題材に、出力が確率的で予測しにくいAIプロダクトの品質をどのように定義し、維持・向上させていくかという実践的な戦略を解説したものです。新人エンジニアの方にとっても、AI開発におけるQA(品質保証)の具体的な進め方を理解するのに非常に役立つ内容となっています。
AIプロダクトの品質保証における最大の難しさは、従来のソフトウェアと異なり「100%の正解を出すことが難しい」点にあります。これに対処するため、資料では以下の3つの軸で品質を定義することを提唱しています。
- ユーザーの期待値調整(UX): AIは完璧ではないことを前提とし、AIが勝手に設定を決めるのではなく「下書きをサジェストする」というUI/UXにすることで、ユーザーの期待値と実態の乖離を防ぎます。
- 精度評価の基準: 「精度90%以上」といった具体的な受け入れ基準と計算式を定義し、リリース判断の指標とします。
- システム全体の信頼性: 従来のソフトウェアテストに加え、AIの振る舞いを含めた全体的な安定稼働を担保します。
具体的なテスト手法としては、「守り」と「攻め」の2つのレイヤーを使い分ける戦略が紹介されています。
- 「守り」の結合テスト(runnの活用): APIシナリオテストツールの「runn」を用い、システム全体が壊れていないかを確認します。実際のAPIリクエストに対してスコアリングを行い、モデルの変更やプロンプトの微調整によって全体の品質が低下(デグレ)していないかを監視する「ガードレール」の役割を果たします。
- 「攻め」のユニットテスト(Langfuseの活用): LLMの評価・監視プラットフォーム「Langfuse」を活用し、個別のプロンプト精度を向上させます。特に、本番環境でユーザーから得たフィードバックや失敗したケースをデータセットとして取り込み、プロンプト改善後にスコアが向上したかを定量的に評価します。GitHub Actionsと連携し、スコアが一定以上低下した場合はプルリクエストを失敗させる仕組みを構築しています。
AIプロダクトの品質は、リリースして終わりではなく、本番のデータを元に「継続的な改善サイクル」を回し続けることが重要です。最新のツールを組み合わせたこの実践的なアプローチは、これからAIを活用した機能を開発するエンジニアにとって非常に再現性の高いガイドラインとなっています。
引用元: https://speakerdeck.com/matsu802/aipurodakutonopin-zhi-wodoushou-ru
海沿いの駐車場で、原型を留めないほど腐食しきったエアコン室外機の姿が話題です。外装が朽ち果て内部が剥き出しの状態ながら、直前まで稼働していたという驚異の耐久性が注目を集めています。塩害の恐ろしさを象徴する一方で、限界を超えて動く機械への敬意や「保守の重要性」を笑いと共に学べる内容です。新人エンジニアにとっても、ハードウェアの頑強さと環境対策の大切さを再認識させてくれる非常に興味深い事例です。
引用元: https://togetter.com/li/2664717
(株式会社ずんだもんは架空の登場組織です)