株式会社ずんだもん技術室AI放送局 podcast 20241115
内容紹介
AIやテクノロジーに関する記事を紹介 OpenAI reportedly working on AI agent slated for January release、The Gemini app is now available on iPhone、GitHub - Ligo-Biosciences/AlphaFold3: Open source implementation of AlphaFold3、Linuxの開発者であるリーナス・トーバルズ氏が、ふとしたきっかけで数行のコードを調整したところ、Linuxのパフォーマンスが2.6%向上した話
出演者
関連リンク
OpenAIが開発中のAIエージェント「Operator」が、2025年1月にリリースされる見込みです。Bloombergの報道によると、Operatorはユーザーのコンピュータを制御し、フライト予約やコード作成などのタスクを実行できます。
OpenAIのCEOであるSam Altman氏はRedditのAMA(Ask Me Anything)で、「次の大きなブレークスルーはエージェントだ」と示唆しており、CPOのKevin Weil氏は、ChatGPTがユーザーに最初にメッセージを送信する機能が「2025年の大きなテーマになる」と述べています。既に9月には、ChatGPTがユーザーに先行してメッセージを送信する事例が報告されており、OpenAIは意図しない動作だと説明しましたが、今後の展開を示唆する出来事でした。
現在、AI業界ではAIエージェントの開発が次の大きな課題となっています。MicrosoftはCopilotモデル向けに、企業がカスタマイズしてユーザーの代わりにタスクを実行できるAIエージェントを提供しています。AnthropicもClaudeモデルでユーザーのカーソルを制御してコードを作成できる機能をリリースしており、Googleも同様のツール「Jarvis」の開発を進めていると噂されています。
一方で、BloombergとThe Informationの報道によると、大規模言語モデル(LLM)は開発の壁にぶつかっている可能性も指摘されています。計算能力の向上にも関わらず、モデルの改善は小さく、限界に近づいているという見方です。AI専門家のGary Marcus氏も、2022年にこの壁を予測していました。
Altman氏はAMAで、AGI(Artificial General Intelligence)は「現在のハードウェアで実現可能だ」と述べていますが、OpenAIは現行のLLMのバリエーションを基にした機能の追加に注力しているようです。つまり、現時点では、劇的な進化ではなく、既存モデルの機能強化に重点を置いていると理解できます。 Operatorは、そのような機能強化の一環として期待されているAIエージェントと言えるでしょう。 1月のリリースが予定されているOperatorの具体的な機能や性能、そして今後のAI開発の進展に注目が集まります。
引用元: https://mashable.com/article/openai-reportedly-working-ai-agent-slated-january-release
GoogleのパーソナルAIアシスタント「Gemini」のiPhoneアプリがリリースされました。App Storeから無料でダウンロード可能です。
このアプリでは、Geminiの機能をよりスムーズに利用できます。主な機能は以下の通りです。
-
Gemini Liveによる自然な会話: Gemini Liveと自由度の高い会話を楽しめます。インタビュー練習、旅行プランの相談、アイデア出しなど、様々な用途で活用できます。10種類の音声から好みの声を選択することも可能です。現在10以上の言語に対応しており、今後さらに言語が増える予定です。
-
学習支援機能: あらゆる科目の質問に答え、学習プランの作成、ステップバイステップの学習ガイダンス、知識確認のためのクイズを提供します。複雑な図表を添付して質問することも可能です。
-
高品質画像生成: 高性能画像生成モデル「Imagen 3」を搭載。テキストの説明から、精細でリアルなAI画像を生成できます。
-
Googleアプリとの連携: Googleの各種アプリ(YouTube、Googleマップ、Gmail、カレンダーなど)とシームレスに連携し、必要な情報を会話中に取得できます。
Android版とiOS版の両方が利用可能です。Geminiアプリで、メール作成、画像生成、アイデア出しなど、様々なタスクを効率的にこなせるAIアシスタント機能を体験してみてください。 アプリの利用にはインターネット接続が必要です。また、機能の可用性はデバイス、国、言語によって異なる場合があります。詳細については、Googleのサポートページをご確認ください。
引用元: https://blog.google/products/gemini/gemini-iphone-app/
Ligo Biosciencesは、AlphaFold3のオープンソース実装である「AlphaFold3 Open-Source Implementation」を公開しました。これは、バイオ分子構造予測の進歩を目指した進行中の研究プロジェクトです。本リポジトリは、AlphaFold3の忠実で完全にオープンソースな実装をバイオテクノロジーコミュニティ全体が自由に使用できるようにすることを目的としています。
現時点では、単鎖タンパク質予測機能が実装されており、リガンド、マルチマー、核酸予測機能は、トレーニングが完了次第追加される予定です。 モデルトレーニングは高速で、8台のA100 GPUを用いて10時間で4000ステップのトレーニングが可能です(テンプレートなし)。
本実装では、速度とメモリ効率の最適化に重点が置かれています。AlphaFold3の論文のサプリメンタリー情報に記載されているアルゴリズムの一部に、既存のディープラーニング文献と矛盾する点が見つかりました。具体的には、MSAモジュールの順序、損失スケーリング、DiTブロック設計に関する修正が加えられています。これらの修正は、より高速な収束と優れた勾配フローをもたらします。 また、メモリ効率の高い実装のために、Tritonを用いたカスタムカーネルが開発されています。特にMSAペア加重平均演算において、TritonカーネルはPyTorch実装に比べてメモリ使用量を大幅に削減し、実行速度も向上させています。
現在、リガンド・タンパク質および核酸予測機能のトレーニングが完了していないため、サンプリングコードは提供されていません。 将来的な機能拡張として、リガンド・タンパク質、核酸予測機能の追加、よりユーザーフレンドリーな機能の提供が予定されています。 本リポジトリは、研究開発を主な用途としており、バグ報告やコードへの貢献を歓迎しています。
本プロジェクトは、Google DeepMindのAlphaFold3チーム、OpenFoldプロジェクト、ProteinFlowライブラリ、そして複数の個人の貢献によって実現しました。 特に、Alex Zhang氏によるTritonでのカスタムMSAペア加重平均カーネルは、メモリ効率の大幅な向上に貢献しています。 ライセンスはApache License 2.0です。
引用元: https://github.com/Ligo-Biosciences/AlphaFold3
Linuxカーネル開発者のリーナス・トーバルズ氏が、わずか数行のコード修正によってLinuxのパフォーマンスを2.6%向上させました。これは、数百万台のサーバーで稼働するLinuxにおいて非常に大きな成果であり、Metaのような大企業では、この程度の向上でもエネルギーコストを数百万ドル削減できるほどの影響力があります。
この修正は、copy_from_user()
関数におけるbarrier_nospec()
の呼び出しを、より高速なポインタマスキングに置き換えるというものでした。 具体的なコード変更はGitHubのコミット(https://github.com/torvalds/linux/commit/0fc810ae3ae110f9e2fcccce80fc8c8d62f97907 参照)で確認できますが、その簡潔さにも関わらず、大きなパフォーマンス向上を実現しています。この変更はLinux 6.12パッチでリリースされる予定です。Phoronixの記事(https://www.phoronix.com/news/Linus-2.6p-Faster-Scale-Patch)では、このパフォーマンス向上についてより詳細な情報が掲載されています。
この事例は、カーネル開発において、小さな修正でも大きな影響を与える可能性を示しており、新人エンジニアにとっても、コードの細部への注意深さと、最適化の重要性を改めて認識させる良い例と言えるでしょう。 些細な変更が、大規模システムのパフォーマンスに大きな影響を与えることを理解することは、今後の開発活動において非常に重要です。 また、熟練エンジニアの高度なスキルと経験の蓄積が、このような効率的な改善に繋がっていることも示しています。
引用元: https://togetter.com/li/2465120
(株式会社ずんだもんは架空の登場組織です)