株式会社ずんだもん技術室AI放送局 podcast 20240815
内容紹介
AIやテクノロジーに関する記事を紹介 AI・機械学習チームで学んだ開発技法で趣味の通知系ツールを量産した、ゼロからRAGを作るならこんなふうに、LangChain Integration Docs: Find information faster with revamped pages & API references、ぬいぐるみを投げて撮影する練習したら躍動感が溢れるのでコツを求めたらガチアドバイス続々 一週間での上達っぷりに驚き
出演者
関連リンク
この記事では、エムスリー株式会社のAI・機械学習チームのエンジニアである高田氏が、チームで培った開発ノウハウを活かして趣味で作った通知系ツールの開発事例を紹介しています。チームでは、開発スピードを重視し、Googleスプレッドシートを簡易な管理画面として活用し、BigQueryやGoogle Sheets APIと連携してデータ分析を行うアーキテクチャを採用しています。また、Python製のタスクパイプラインツール「gokart」やデータバリデーションライブラリ「pandera」を用いることで、データの品質を担保しながら開発を進めています。
記事では、具体的にYouTubeライブ開始通知、ポイ活案件検知、ANAトクたびマイル通知の3つの趣味プロダクトを紹介しています。これらのプロダクトは、スプレッドシートで管理画面を作成し、panderaでデータバリデーションを行うことで、短時間で開発することができました。
これらの事例から、スプレッドシートとpanderaを組み合わせることで、開発スピードを落とすことなく、データの品質を担保することができると分かります。この記事は、新人エンジニアにとって、開発の効率化やデータ品質の重要性を理解する上で参考になる内容です。
引用元: https://www.m3tech.blog/entry/2024/08/14/170000
この記事は、RAG(Retrieval-Augmented Generation)をゼロから作りたいエンジニア向けのガイドです。DifyやLangChainのようなフルマネジメントサービスではなく、自分で開発をハンドリングしたいエンジニアのために、ベクトルDBや埋め込みモデルの選定の勘所を解説しています。
RAGは、LLM(大規模言語モデル)に企業が保有するデータを組み合わせて活用する手法として注目されています。ファインチューニングと比べて、既存のデータを活用でき、データの取り出し方を調整することで柔軟に知識を導入・除外できる点がメリットです。
この記事では、DifyやLangChainを使わずにシンプルなRAGを構成する際に考慮すべき点を、以下の4つの観点から解説しています。
- 開発フリーでPoCに使いたいならフルマネジメントサービス
- Vertex AI SearchやNotebookLMは、社内資料やWebサイトからRAGを簡単に作成できます。
- Vertex AI Searchは多様なデータソースに対応し、NotebookLMは小さなデータセットに最適です。
- 社内向けのデータを使うなら、まずはベクトルDBを選定しよう
- ベクトルDBは、RAGのコスト面とできる範囲を制限するクリティカルポイントになります。
- 多くのベクトルDBが存在するため、価格、ホスティングの容易さ、検索インターフェースなどを考慮して適切なものを選択する必要があります。
- 外向きのデータを使いたいならクローラーなど他のツールとの統合を考慮する
- Webデータを使う場合は、クローラーやAPI経由のアクセスなどを検討する必要があります。
- FirecrawlはLLMベースでWebページを構造化された状態で取得できますが、構造化に問題がある場合もあるため、実際に確認することが重要です。
- 日本語埋め込み(Embedding)モデルを選ぶ
- OpenAIの
text-embedding-ada-002
やtext-embedding-3-large
などがよく使われます。 - ローカルの埋め込みモデルも精度が高く、コストと実行速度の面から比較検討する価値があります。
pkshatech/GLuCoSE-base-ja
やintfloat/multilingual-e5-large
は、精度が高く、部分的な実用に耐えうるモデルです。
- OpenAIの
この記事は、RAGを初めて構築するエンジニアにとって、技術選定の勘所を理解するのに役立つ内容となっています。
引用元: https://zenn.dev/minedia/articles/8f4ef7f2daed11
LangChainは、LLM、ベクトルストア、ツール、ドキュメントローダーなど、1,000を超える統合を提供する、広範な統合のエコシステムを提供しています。今回、PythonとJavaScriptの両方で、統合ドキュメントが全面的に見直され、コミュニティにとってより便利でアクセスしやすくなりました。主な変更点としては、すべての統合ページの標準化されたフォーマット、特定の機能をサポートする統合を強調表示する「機能」テーブルを含む各コンポーネントの整理されたインデックスページ、例や関連情報をより適切に表示する改善されたAPIリファレンスなどがあります。
今回のアップデートでは、統合ページの標準化されたテンプレートにより、開発者は統合が何ができるのか、どのように使用できるのかを迅速に把握できるようになりました。また、各タイプの統合のインデックスページも合理化され、個々の統合ページと同様のテーブルが追加されました。これにより、必要な機能を持つ統合を迅速に特定することができます。さらに、PythonとJavaScriptのAPIリファレンスも改善され、より多くの説明や使用例が追加されました。構造とフォーマットもよりモダンでユーザーフレンドリーになりました。
これらの変更により、LangChainの統合ドキュメントは、コミュニティにとってより価値のあるリソースとなることが期待されます。
引用元: https://blog.langchain.dev/langchain-integration-docs-revamped/
ノナ子さんは、ぬいぐるみを投げて撮影する写真に挑戦しました。最初はうまくいかず、才能がないと嘆いていましたが、Twitterでアドバイスを求めたところ、多くのユーザーから具体的なアドバイスが寄せられました。カメラのシャッタースピードや投げ方、構図など、様々な角度からのアドバイスを受け、ノナ子さんの撮影技術はみるみるうちに上達しました。一週間後には、躍動感あふれる素晴らしい写真が撮れるようになり、ユーザーからも絶賛されています。ノナ子さんの努力とユーザーの温かいサポートによって、素晴らしい結果が生まれた、感動的なストーリーです。
引用元: https://togetter.com/li/2418267
(株式会社ずんだもんは架空の登場組織です)