⚙️
AI・機械学習

LangChainとPythonでRAG構築!2026年最新手順と最適化戦略

#RAG #LangChain #Python
AI

ヨミアゲAI編集部

AI音声・動画制作に関する情報をお届けします

2026年におけるRAGの進化とLangChainの役割

2026年6月時点において、大規模言語モデル(LLM)の幻覚(hallucination)問題への対策として、Retrieval-Augmented Generation (RAG) は企業におけるLLM活用の中核技術として確立されています。特に、LangChainはRAGシステム構築のための最も汎用的なフレームワークの一つであり、そのモジュール性と柔軟性により、複雑なデータソースやカスタムロジックを統合した高度なRAGアプリケーションの開発を加速しています。

最新の動向としては、単一の埋め込みモデルとベクトル検索だけでなく、キーワード検索(BM25など)と組み合わせるハイブリッド検索、複数の検索結果を再ランク付けするRAG-fusion、さらには検索クエリ自体をLLMで最適化するQuery Transformationといった高度な手法がLangChainによって容易に実装可能になっています。これにより、より文脈に即した、信頼性の高い応答生成が求められるエンタープライズ領域でのRAGの利用が拡大しています。

LangChainとPythonによるRAG構築のステップバイステップ

LangChainとPythonを用いたRAGシステムの基本的な構築手順を、2026年6月時点の推奨されるプラクティスと合わせて解説します。

ステップ1: 環境構築と必要なライブラリのインストール

まず、Python環境をセットアップし、LangChainおよび関連ライブラリをインストールします。ここでは、LangChainの最新安定版0.2.19とOpenAIモデルを使用する前提で進めます。

pip install langchain==0.2.19 langchain-openai pypdf chromadb tiktoken

💡 ポイント: langchainはコア機能、langchain-openaiはOpenAIモデルとの連携、pypdfはPDFドキュメントの読み込み、chromadbはローカルベクトルストア、tiktokenはトークン数計算にそれぞれ利用します。

ステップ2: ドキュメントの読み込みと分割 (Loading & Splitting)

RAGの最初のステップは、外部知識ベースとなるドキュメントを読み込み、LLMが処理しやすいように適切なサイズに分割することです。

from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

# ドキュメントの読み込み
loader = PyPDFLoader("path/to/your/document.pdf") # 例: 企業の製品マニュアル
documents = loader.load()

# ドキュメントの分割
# 再帰的に分割することで、意味のある塊を保ちつつチャンクサイズを調整
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # 1チャンクあたりの文字数
    chunk_overlap=200, # チャンク間のオーバーラップ文字数
    add_start_index=True,
)
splits = text_splitter.split_documents(documents)

print(f"オリジナルドキュメント数: {len(documents)}")
print(f"分割後チャンク数: {len(splits)}")

⚠️ 注意: chunk_sizechunk_overlapの最適な値は、ドキュメントの種類やLLMのコンテキストウィンドウサイズによって異なります。試行錯誤を通じて最適な設定を見つけることが重要です。

ステップ3: 埋め込みとベクトルストアへの保存 (Embedding & Storing)

分割されたテキストチャンクを数値ベクトル(埋め込み)に変換し、ベクトルデータベースに保存します。これにより、意味的に類似したドキュメントを高速に検索できるようになります。

from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
import os

# OpenAI APIキーの設定 (環境変数から取得することを推奨)
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"

# 埋め込みモデルの初期化 (2026年6月時点ではtext-embedding-3-largeが推奨される高性能モデル)
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

# ベクトルストアの作成と保存
# ローカルで永続化する場合
vectorstore = Chroma.from_documents(
    documents=splits,
    embedding=embeddings,
    persist_directory="./chroma_db",
)

# 永続化されたベクトルストアのロード(次回以降)
# vectorstore = Chroma(persist_directory="./chroma_db", embedding_function=embeddings)

print(f"ベクトルストアに{vectorstore._collection.count()}個のチャンクを保存しました。")
ベクトルデータベース 無料枠の目安(2026年6月時点) 特徴
Chroma ローカル無制限 ローカルでの開発・検証に最適。Pythonで完結しセットアップが容易。
Pinecone 最大100,000ベクトルまで 大規模かつ高速な検索に特化。マネージドサービスで運用負担が少ない。
Qdrant 最大1GBストレージ(クラウド版) オープンソースで柔軟性が高い。ハイブリッド検索などの高度な機能も豊富。

ステップ4: 検索器の構築とRAGチェーンの作成 (Retrieval & Chain)

ベクトルストアから関連ドキュメントを検索し、LLMにプロンプトとして渡すRAGチェーンを構築します。

from langchain_openai import ChatOpenAI
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import create_retrieval_chain

# LLMの初期化 (2026年6月時点ではgpt-4oが最新かつ高性能)
llm = ChatOpenAI(model="gpt-4o", temperature=0.1)

# プロンプトテンプレートの定義
prompt = ChatPromptTemplate.from_messages([
    ("system", "あなたは与えられたコンテキストに基づいて質問に答えるAIアシスタントです。もしコンテキストに情報がない場合は、その旨を伝えてください。\n\nコンテキスト:\n{context}"),
    ("human", "{input}")
])

# ドキュメントをプロンプトに詰め込むチェーン
document_chain = create_stuff_documents_chain(llm, prompt)

# 検索器 (Retriever) の作成
retriever = vectorstore.as_retriever(search_kwargs={"k": 3}) # 上位3件の関連ドキュメントを取得

# 検索とドキュメント結合、LLM呼び出しを組み合わせたRAGチェーン
rag_chain = create_retrieval_chain(retriever, document_chain)
LLMモデル 入力トークン単価(USD/1K tokens) 出力トークン単価(USD/1K tokens)
gpt-4o 0.005 0.015
gpt-4-turbo 0.010 0.030
gpt-3.5-turbo 0.0005 0.0015

💡 ポイント: kの値を調整することで、LLMに渡すコンテキストの量を制御できます。多すぎるとコストが増え、少なすぎると情報不足になります。

ステップ5: RAGシステムの実行と評価

構築したRAGチェーンを実行し、質問に対する応答を生成します。また、LangSmithなどのツールを用いてシステムの性能を評価し、継続的に改善することが2026年におけるRAG運用の標準的なプラクティスです。

# RAGチェーンの実行
question = "製品Aの保証期間は何年ですか?"
response = rag_chain.invoke({"input": question})

print(f"質問: {question}")
print(f"回答: {response['answer']}")
print("\n--- 参照ドキュメント ---")
for doc in response["context"]:
    print(f"- {doc.metadata.get('source', '不明')} (ページ: {doc.metadata.get('page', '不明')})")

⚠️ 注意: 本番環境でのRAGシステム運用には、応答の関連性、忠実性、応答性といった指標を評価するためのフレームワーク(例: Ragas, LangSmith)の導入が不可欠です。

RAGシステムの最適化と運用戦略(2026年版)

2026年において、単にRAGを構築するだけでなく、その性能を最大化し、持続的に運用するための戦略が求められています。

  1. 高度な検索戦略の導入:

    • ハイブリッド検索: ベクトル検索とキーワード検索(例: BM25)を組み合わせることで、多様なクエリタイプに対応し、検索精度を向上させます。
    • RAG-fusion: 複数の検索結果をLLMで再ランク付けすることで、より関連性の高いドキュメントを抽出します。
    • Query Transformation: ユーザーの質問をLLMで複数のクエリに変換し、それぞれで検索を実行後、結果を統合する手法です。
  2. チャンキング戦略の最適化:

    • ドキュメントの構造(セクション、テーブル、コードなど)を考慮したセマンティックチャンキングや、LLMが理解しやすいようにチャンクを要約する手法が注目されています。LangChainのRecursiveCharacterTextSplitterは強力ですが、よりドメイン特化の分割器も検討すべきです。
  3. プロンプトエンジニアリングとLLM選択:

    • プロンプトはRAGの性能に直結します。明確で具体的な指示、役割定義、出力形式の指定が重要です。
    • LLMはタスク特性(コスト、速度、精度)に応じて使い分けます。例えば、簡単な要約にはgpt-3.5-turbo、複雑な推論にはgpt-4oのように使い分けることで、運用コストを最適化できます。
  4. 評価とモニタリング:

    • LangSmithのようなプラットフォームを活用し、RAGチェーンの各ステップ(検索、生成)を可視化し、ボトルネックやエラーを特定します。
    • A/Bテストを通じて、異なるRAG設定やモデルのパフォーマンスを比較し、継続的に改善サイクルを回します。
    • ユーザーフィードバックシステムを構築し、実際の利用状況に基づいた改善を行います。

これらの戦略を組み合わせることで、2026年のビジネス要件に応える、堅牢で高性能なRAGシステムをLangChainとPythonで実現することが可能です。

AI音声でナレーションを作ってみませんか?

ヨミアゲAIを試す(無料)