⚙️

AI・機械学習 2026年5月20日

【2026年最新版】Stable Diffusion LoRA 作り方手順を徹底解説！環境構築から学習まで

#Stable Diffusion #LoRA #AI学習 #Kohya_ss #画像生成AI

ヨミアゲAI編集部

AI音声・動画制作に関する情報をお届けします

2026年5月現在、Stable DiffusionのLoRA（Low-Rank Adaptation）は、特定のスタイル、キャラクター、オブジェクトを生成モデルに効率的に学習させるための主要な手法として確立されています。特にStable Diffusion XL (SDXL) モデルの普及に伴い、より高解像度で高品質なLoRAの需要が高まっています。ここでは、LoRA作成に必要な環境構築から具体的な学習手順、そして成功のためのヒントを詳細に解説します。

LoRA作成の準備：環境構築とツールの選択

高品質なLoRAを作成するためには、適切なハードウェアとソフトウェア環境が不可欠です。

1. ハードウェア要件

LoRAの学習は高いGPU性能を要求します。特にSDXLモデルを対象とする場合、以下のスペックを強く推奨します。

GPU: NVIDIA GeForce RTX 30シリーズ以降。VRAMは最低でも12GB（例: RTX 3060 12GB）が必須ですが、SDXLの学習や効率的なバッチ処理を考慮すると16GB（例: RTX 4060 Ti 16GB、RTX 4070 Ti SUPER 16GB）以上が望ましいです。RTX 4090のような24GB VRAMを搭載したGPUがあれば、最も快適に作業できます。
CPU: Intel Core i7またはAMD Ryzen 7シリーズ以上。
RAM: 32GB以上。
ストレージ: 高速なSSDを200GB以上（OS、学習環境、ベースモデル、データセット含む）確保してください。

2. ソフトウェア要件

最新の学習ツールとライブラリに対応するため、以下の環境を準備します。

OS: Windows 10/11またはLinux。
Python: 3.10.xバージョンが、2026年5月現在、最も多くのライブラリとツールで安定して動作します。
Git: バージョン管理とリポジトリのクローンに必要です。
CUDA Toolkit & cuDNN: NVIDIA GPUを使用する場合、PyTorchやTensorFlowがGPUを最大限に活用するために必須です。GPUドライバーと互換性のあるバージョンをインストールしてください。

3. 主要な学習ツール

現在、LoRA学習のデファクトスタンダードとなっているのは、Kohya_ss GUIです。これは、sd-scriptsをベースにした使いやすいグラフィカルユーザーインターフェース（GUI）を提供し、多くの最適化オプションをサポートしています。

💡 ポイント: 自宅のGPUスペックが不足する場合、RunPod, Vast.ai, Google Colab Pro+などのクラウドGPUサービスを利用するのも有効です。例えば、RunPodのRTX 4090インスタンスは、時間あたり約$0.7〜$1.5で利用可能（2026年5月現在）で、高性能な環境を手軽に利用できます。

Stable Diffusion LoRA作成ステップバイステップ

ここでは、Kohya_ss GUIを使用したLoRA作成の具体的な手順を解説します。

ステップ1: データセットの準備

LoRAの品質はデータセットの質に大きく依存します。

画像収集: 学習させたい対象（人物、スタイル、オブジェクトなど）が明確に写っている画像を収集します。
- 枚数: 20〜50枚程度が目安ですが、複雑な概念や多様なポーズを学習させたい場合はさらに増やします。
- 多様性: ポーズ、表情、背景、ライティング、構図などに多様性を持たせると、汎用性の高いLoRAになります。
- 一貫性: 同じ対象であれば、一貫した特徴が捉えられている画像を選びます。
画像の前処理:
- 解像度調整: Stable Diffusion 1.5系なら512x512px、SDXLなら1024x1024pxにリサイズします。アスペクト比を維持しつつ、学習モデルの推奨解像度に合わせます。
- アノテーション（キャプション付け）: 各画像の内容を詳細に記述したテキストファイル（.txt）を作成します。
  - インスタンスプロンプト: LoRAで学習させたい固有のキーワード（例: 1girl, inoue takuya）。
  - クラスプロンプト: その固有キーワードが属する一般的なカテゴリ（例: person, woman）。
  - その他、髪の色、服装、背景、感情などを具体的に記述します。BLIPやWaifu Diffusion Taggerなどの自動タグ付けツールを活用し、手動で修正・追記するのが効率的です。

ステップ2: Kohya_ssのセットアップと設定

Kohya_ssのインストール:

git clone https://github.com/kohya-ss/sd-scripts.git
cd sd-scripts
pip install --upgrade pip
pip install -r requirements.txt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # お使いのCUDAバージョンに合わせる
accelerate config # GPU設定を最適化

GUIの起動: python gui.pyを実行し、WebブラウザでGUIを開きます。
ベースモデルの指定: 「LoRA」タブで「Base model (pretrained model)」に学習元となるStable Diffusionモデル（例: sd_xl_base_1.0.safetensors）のパスを指定します。
データセットパスの設定: 「Folders」セクションで、準備した画像とキャプションのフォルダパスを指定します。

ステップ3: 学習パラメータの設定

LoRAの学習には多くのパラメータがありますが、主要なものを以下に示します。

パラメータ名	推奨値/説明
Learning Rate (Unet)	1e-6 または 5e-7。画像生成の中核を担うUnetの学習率。低いほど安定しますが、学習に時間がかかります。
Learning Rate (Text Encoder)	5e-7 または 2.5e-7。テキストプロンプトの解釈を担うText Encoderの学習率。Unetより低く設定するのが一般的です。
Epochs / Steps	データセットの枚数と学習の繰り返し回数。50枚の画像で1000〜2000ステップが目安。過学習を避けるため、少なすぎず多すぎない範囲で調整します。
Batch Size	GPUのVRAM容量に応じて設定（例: 1）。大きいほど学習が高速化しますが、VRAM消費も増えます。
Network Dim (Rank)	LoRAの表現力。32または64が一般的です。高いほど表現力が増しますが、ファイルサイズが大きくなり、過学習しやすくなります。
Network Alpha	学習の安定性に関わる。`Network Dim`の半分程度（例: `Dim=32`なら`Alpha=16`）が推奨されます。
Optimizer	`AdamW8bit`や`Lion`など。`AdamW8bit`はVRAM使用量を抑えつつ、安定した学習が可能です。
Mixed Precision	`fp16`または`bf16`。VRAM使用量を削減し、学習を高速化します。`bf16`は`fp16`より精度が高いですが、対応GPUが必要です。
Gradient Checkpointing	VRAM消費を抑える機能。有効にすると学習速度はやや落ちますが、VRAM不足の際に有効です。

ステップ4: 学習の実行と評価

学習開始: 設定を確認後、「Start training」ボタンをクリックして学習を開始します。
進捗確認: コンソールに表示されるログで学習の進捗を確認できます。
モデルの保存: 定期的にモデルが保存される設定（例: 「Save every N epochs」）にしておくと、途中で停止しても再開できます。
結果の評価:
- 学習が完了したら、生成されたLoRAファイルをWeb UI（Automatic1111, ComfyUIなど）に導入し、テストプロンプトで画像を生成します。
- 過学習: LoRAが強すぎると、生成される画像が元画像に似すぎたり、特定のプロンプトでしか機能しなくなったりします。
- 未学習: LoRAの効果がほとんど見られず、ベースモデルの生成結果と大差ない場合です。

ステップ5: 調整と再学習

評価結果に基づき、以下の点を調整して再学習を検討します。

過学習の場合: 学習率を下げる、ステップ数を減らす、Network Dim/Alphaを下げる、データセットを増やす、正則化画像を導入する。
未学習の場合: 学習率を上げる、ステップ数を増やす、データセットの質を見直す、キャプションをより詳細にする。

LoRA学習を成功させるための追加ヒントと注意点

⚠️ 注意: 学習中にGPUのVRAM不足エラーが発生した場合、バッチサイズを最小（1）にする、Mixed Precisionをfp16に設定する、Gradient Checkpointingを有効にする、不要なバックグラウンドプロセスを終了する、といった対策を試してください。

データセットの均質性: 一貫したライティング、背景、アングルで撮影された画像は、LoRAの学習効率を高めます。
キャプションの精度と冗長性: 詳細なキャプションは、LoRAが何を学習すべきかを正確に指示します。ただし、あまりに冗長すぎると、他のプロンプトとの干渉を引き起こす可能性もあります。
インスタンスプロンプトの選択: 他の一般的な単語と被らない、ユニークなインスタンスプロンプト（例: tky_style, inoue_art）を使用することで、生成時のコントロールがしやすくなります。
正則化画像（Regularization Images）: 特定のクラス（例: person）を学習させる際に、そのクラスの多様な画像を学習データに追加することで、過学習を抑制し、LoRAの汎用性を高めることができます。
学習のログとグラフの活用: Kohya_ssは学習の進捗をグラフで可視化する機能を持っています。Loss値の推移などを確認し、過学習や未学習の兆候を早期に発見しましょう。

これらの手順とヒントを参考に、2026年現在の最新環境で高品質なStable Diffusion LoRA作成に挑戦してみてください。