🤖
AI・機械学習

2026年最新版!Stable Diffusion LoRAの作り方と高品質化手順

#Stable Diffusion #LoRA #作り方 #AI学習 #画像生成AI #SDXL #Kohya's GUI
AI

ヨミアゲAI編集部

AI音声・動画制作に関する情報をお届けします

2026年10月時点において、Stable Diffusionの**LoRA(Low-Rank Adaptation)**は、特定のスタイル、キャラクター、オブジェクトをAIモデルに効率的に学習させるための最も重要な技術の一つとして確立されています。クラウドGPUの進化と学習ツールの高機能化により、個人でも以前よりはるかに高品質なLoRAを比較的容易に作成できるようになりました。本記事では、その具体的な手順を解説します。

2026年10月時点のLoRA作成環境とツール選定

高品質なLoRAを作成するためには、適切なハードウェアとソフトウェア環境の選定が最初のステップです。

1. ハードウェア要件とクラウドGPUの活用

ローカル環境での学習を検討する場合、最低でもVRAM 12GB以上のGPU(例: NVIDIA GeForce RTX 3060 12GB)が必要ですが、SDXLベースのLoRA学習にはRTX 4070 Ti SUPER 16GB以上を推奨します。しかし、安定性と速度を考慮すると、クラウドGPUサービスの利用が主流です。

サービス 特徴 料金例
RunPod 多様なGPUオプション。RTX A6000 (48GB VRAM) など高性能GPUが利用可能。 約$0.80/時間 (RTX A6000)
Vast.ai 競合が多いが、価格競争力がある。 約$0.50/時間 (RTX 3090)
Google Colab Pro+ 手軽だが、セッション制限やGPUの種類に制約あり。 月額$49.99

2. 主要学習ツールと環境構築

現在、最も広く利用されている学習GUIは、Kohya's GUI(sd-scripts)です。2026年には、より直感的なWebベースの統合プラットフォームLoRA Forge Pro(仮称)のようなサービスも登場しており、月額**$29.99**で利用可能です。ここではKohya's GUIを例に基本的な構築手順を示します。

  1. Python環境の準備: Python 3.10.xのインストールが推奨されます。
  2. sd-scriptsのクローンと依存関係のインストール:
    git clone https://github.com/Kohya-ss/sd-scripts.git
    cd sd-scripts
    pip install --upgrade pip
    pip install -r requirements.txt
    # PyTorchのバージョンはCUDA環境に合わせて調整 (例: cu121の場合)
    pip install torch==2.3.0 torchvision==0.18.0 --index-url https://download.pytorch.org/whl/cu121
    
  3. GUIの起動:
    python gui.py --listen --port 7860
    
    ブラウザで指定されたURL(例: http://0.0.0.0:7860)にアクセスしてGUIを操作します。

💡 ポイント: LoRA Forge Proのような統合型サービスは、上記のような環境構築の手間を省き、Webブラウザからデータセットのアップロードから学習、テスト生成まで一貫して行えるため、初心者や手軽さを求めるユーザーには特におすすめです。

高品質LoRAのためのデータセット準備

LoRAの品質は、データセットの質に大きく左右されます。慎重な準備が成功の鍵です。

1. 画像の選定と加工

  • 枚数: 最低20枚、推奨は50〜150枚の高品質な画像を用意します。枚数が多いほど多様な表現が可能になります。
  • 品質: 被写体が鮮明で、多様なポーズ、表情、背景、アングルを含むことが重要です。低品質な画像や被写体が不明瞭な画像は避けてください。
  • 解像度: 元画像は512x512px以上が望ましく、SDXLベースのLoRAでは768x768px以上を推奨します。必要に応じてWaifu2x-caffeReal-ESRGANなどのアップスケーラーで補完し、ImageMagickなどで一括リサイズします。

2. アノテーション(キャプション付け)

各画像には、その内容を正確に記述したキャプション(テキストファイル)を付与します。

  1. 自動キャプション: DeepDanbooruBLIP-2などのツールを使用して、まず自動でキャプションを生成します。
  2. 手動修正・追記: 自動生成されたキャプションを基に、手動で修正・追記を行います。特に、学習させたいトリガーワード(例: my_character_name)をキャプションの先頭に追加し、被写体の特徴(髪の色、服装、ポーズなど)を詳細に記述します。

    ⚠️ 注意: キャプションは具体的に、かつ簡潔に記述することが重要です。曖昧な表現や過剰な情報は学習を阻害する可能性があります。

LoRA学習プロセスの最適化と実行

データセットの準備が完了したら、いよいよ学習プロセスに入ります。

1. ベースモデルと学習パラメータの設定

  • ベースモデル: 2026年10月時点では、Stable Diffusion XL(SDXL)1.0が主流です。SDXL用のLoRAを学習する場合は、SDXLベースモデルを選択します。
  • 学習パラメータ:
    • Epochs (エポック数): データセットの枚数や目標とする過学習度合いによりますが、10〜25回が一般的な目安です。
    • Learning Rate (学習率): UNet1e-45e-5Text Encoder5e-51e-5が一般的です。SDXL LoRAではText Encoderの学習率をUNetより低く設定するのが定石です。
    • Batch Size (バッチサイズ): GPUのVRAM容量によりますが、1〜4が一般的です。クラウドGPUでは4以上も設定可能です。
    • Network Rank (Dimension): LoRAの表現力を決定する重要なパラメータです。32〜128の範囲で設定し、SDXL LoRAでは64または128が推奨されます。高いほど表現力が増しますが、ファイルサイズも大きくなります。
    • Optimizer: AdamW8bitLionが高速かつ効率的です。2026年にはAdanの改良版であるAdan-Wも注目されています。
    • Resolution: SDXL LoRAの場合、1024x1024pxが推奨されます。

2. 学習の実行

Kohya's GUIを使用する場合、設定画面で上記パラメータを入力し、「Start training」ボタンをクリックします。クラウドGPUを利用する場合、学習時間は数時間程度で完了することが多いです。

# Kohya's GUIでの学習コマンド例(GUIから実行される内容)
accelerate launch --num_cpu_threads_per_process=2 train_lora.py \
  --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
  --train_data_dir="./train_data" \
  --output_dir="./output" \
  --caption_extension=".txt" \
  --resolution="1024,1024" \
  --train_batch_size=2 \
  --gradient_checkpointing \
  --mixed_precision="fp16" \
  --save_every_n_epochs=1 \
  --learning_rate="1e-4" \
  --unet_lr="1e-4" \
  --text_encoder_lr="5e-5" \
  --lr_scheduler="cosine" \
  --lr_warmup_steps=0 \
  --max_train_steps=1000 \
  --optimizer_type="AdamW8bit" \
  --network_dim=64 \
  --network_alpha=32 \
  --xformers \
  --enable_bucket \
  --shuffle_caption \
  --max_token_length=225

💡 ポイント: mixed_precision="fp16"を設定することで、VRAM消費を抑えつつ学習速度を向上させることができます。

作成したLoRAの評価と微調整

学習が完了したら、生成されたLoRAファイルを評価し、必要に応じて微調整を行います。

1. テスト生成と品質評価

学習中に保存されたLoRAファイル(例: epoch-0000X.safetensors)をStable Diffusion Web UI(AUTOMATIC1111版やComfyUIなど)に導入します。プロンプトに学習時に設定したトリガーワードを含め、様々なプロンプトと強度(例: <lora:my_lora_name:0.7>1.0)で画像を生成し、LoRAの性能を評価します。

  • 過学習の確認: トリガーワードなしでも被写体が生成される、または被写体以外の要素まで固定されすぎる場合は過学習の可能性があります。
  • 未学習の確認: トリガーワードが効かない、または意図したスタイルやキャラクターが表現されない場合は未学習の可能性があります。

2. 微調整

評価結果が不十分な場合は、以下の点を検討して再学習を行います。

  • データセットの見直し: 画像の追加・削除、キャプションの修正。
  • 学習パラメータの調整: 学習率、エポック数、ネットワークランクなどを微調整。
  • 異なるLoRAの組み合わせ: 複数のLoRAをマージしたり、LoRA Block Weightのような拡張機能で特定レイヤーへの影響度を調整することも有効です。

💡 ポイント: 完璧なLoRAは一度で完成するものではありません。試行錯誤を繰り返し、理想の結果に近づけていくプロセスが重要です。

AI音声でナレーションを作ってみませんか?

ヨミアゲAIを試す(無料)