2026年最新版!Stable Diffusion LoRA 作り方 手順を徹底解説
ヨミアゲAI編集部
AI音声・動画制作に関する情報をお届けします
2026年5月現在、Stable DiffusionのLoRA(Low-Rank Adaptation)は、特定のスタイルやキャラクター、概念を効率的に学習させ、オリジナルのモデルに影響を与えることなく多様な画像を生成するための不可欠な技術となっています。特に**Stable Diffusion XL (SDXL)**モデルの普及に伴い、より高品質なLoRA作成への需要が高まっています。本記事では、2026年におけるLoRA作成の具体的な手順を解説します。
1. 必要な準備と環境構築
LoRAの学習には、適切なハードウェアとソフトウェア環境の構築が不可欠です。
ハードウェア要件
LoRA学習のボトルネックとなるのは主にGPUのVRAM容量です。
| コンポーネント | 推奨スペック(2026年5月時点) | 備考 |
|---|---|---|
| GPU | NVIDIA GeForce RTX 4080以上 | VRAM 16GB以上が最低ライン。SDXL対応なら24GB推奨。 |
| CPU | Intel Core i7 / AMD Ryzen 7 相当以上 | 学習速度には影響が少ないが、データ処理に影響。 |
| メモリ | 32GB以上 | データセットのロード等に影響。 |
| ストレージ | SSD 1TB以上 | 高速なNVMe SSDが望ましい。 |
💡 ポイント: 自宅PCのスペックが不足する場合、RunPodやVast.aiなどのクラウドGPUサービスを利用するのが一般的です。例えばRunPodでは、RTX 4090インスタンスを1時間あたり**$0.70〜$1.50**で利用可能です(2026年5月時点)。
ソフトウェア環境構築
Pythonと関連ライブラリ、そして学習ツールを導入します。
- Pythonのインストール: Python 3.10または3.11を推奨します。
- 仮想環境の作成: 依存関係の衝突を避けるため、仮想環境での作業を推奨します。
python -m venv lora_env source lora_env/bin/activate # Linux/macOS # lora_env\Scripts\activate # Windows - PyTorchのインストール: GPUの種類に合わせてCUDA対応版をインストールします。
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # CUDA 12.1の場合 - Diffusersおよび関連ライブラリのインストール:
pip install transformers accelerate diffusers bitsandbytes xformers # xformersはNVIDIA GPU向け - 学習ツールの導入: 2026年5月時点では、Kohya's GUIが最も広く利用されています。GitHubからクローンし、
setup.shまたはsetup.batを実行して依存関係をインストールします。
2. LoRA学習データセットの準備
高品質なLoRAを作成するためには、適切なデータセットの準備が最も重要です。
画像の収集と加工
- 枚数: 学習させたい概念(人物、スタイルなど)につき、15〜30枚程度が目安です。多様なポーズ、表情、背景、アングルを含むことで汎用性が高まります。
- 解像度: SDXL向けLoRAの場合、1024x1024ピクセルまたはそれ以上の高解像度画像が推奨されます。全ての画像を同じアスペクト比にリサイズ・クロップします。
- 画質: ノイズが少なく、被写体が鮮明に写っている高品質な画像を選びます。
キャプション付け (Tagging)
収集した画像に適切なキャプション(タグ)を付与します。これはLoRAが何を学習すべきかをAIに教える重要な工程です。
- 自動キャプションツール: BLIPやDeepDanbooruなどのツールを使って、画像を分析し自動でタグを生成します。Kohya's GUIにはこれらの機能が統合されています。
- 手動修正: 自動生成されたタグは完璧ではありません。以下の点に注意して手動で修正・追加・削除します。
- トリガーワード: LoRAを呼び出すための固有の単語(例:
my_character,my_style)を追加します。 - 詳細な説明: 画像の内容を具体的に説明するタグ(例:
red eyes,long blonde hair,wearing a blue dress,standing in a park)を追加します。 - 不要なタグの削除: 背景のノイズや望まない要素のタグは削除します。
- 品質評価: タグの質がLoRAの出力品質に直結します。
- トリガーワード: LoRAを呼び出すための固有の単語(例:
⚠️ 注意: キャプションの質が低いと、LoRAが意図しない要素を学習したり、過学習・未学習の原因となります。
3. LoRA学習の実行
準備が整ったら、いよいよ学習プロセスを開始します。Kohya's GUIを例に説明します。
- 学習スクリプトの選択: Kohya's GUIを起動し、「Dreambooth LoRA」タブを選択します。
- モデルパスの設定: 学習元となるSDXLのベースモデル(例:
stabilityai/stable-diffusion-xl-base-1.0)またはマージ済みモデルのパスを指定します。 - データセットパスの設定: 準備した画像とキャプションを含むデータセットのディレクトリを指定します。
- 学習パラメータの設定:
- Instance Prompt: トリガーワードを設定します(例:
a photo of my_character)。 - Class Prompt: 学習対象のカテゴリを示すプロンプト(例:
a photo of a person)を設定します。 - Resolution: データセットの解像度と合わせます(例:
1024,1024)。 - Optimizer: AdamW8bitやLionが一般的です。SDXLではProdigyが効率的とされています。
- Learning rate:
unet_lr(U-Net学習率)とtext_encoder_lr(Text Encoder学習率)を設定します。SDXLではU-Netは1e-5(0.00001)、Text Encoderは5e-6(0.000005)程度から調整を開始します。 - Batch size: GPUのVRAM容量に合わせて調整します。一般的には
1から4。 - Epochs / Steps: 学習回数を設定します。通常、3〜10エポックで十分な結果が得られます。画像の枚数に応じて総ステップ数を調整します。
- Save every N epochs: LoRAモデルを保存する頻度を設定します。途中でモデルを評価できるよう、
1または2に設定するのが良いでしょう。
- Instance Prompt: トリガーワードを設定します(例:
- 学習開始: 設定を確認後、「Start training」ボタンをクリックして学習を開始します。
💡 ポイント: 学習中にVRAM不足のエラーが発生した場合、Batch sizeを減らすか、解像度を下げる、または
gradient_checkpointingを有効にすることでメモリ使用量を削減できます。
4. 学習済みLoRAの評価と調整
学習が完了したら、生成されたLoRAモデルを評価し、必要に応じて調整を行います。
- 生成テスト:
- WebUI(AUTOMATIC1111's Stable Diffusion web UIなど)に学習済みLoRAモデルを導入します。
- トリガーワードと多様なプロンプトを使って画像を生成し、LoRAの学習効果を確認します。
- LoRAの重み(Weight)を
0.5から1.0の間で変更しながら、最適なバランスを見つけます。
- 過学習と未学習の判断:
- 過学習: LoRAがトリガーワードに過度に反応し、元の画像と酷似した画像ばかり生成されたり、他のプロンプトの影響を受けにくくなったりする場合。
- 未学習: LoRAを使用しても、トリガーワードがほとんど機能せず、元のモデルと変わらない画像が生成される場合。
- これらの問題が発生した場合、学習パラメータ(学習率、エポック数、データセット)を見直して再学習を検討します。
- LoRAのファイルサイズと学習時間:
- 一般的に、SDXL用LoRAのファイルサイズは10MB〜200MB程度です。
- 学習時間は、GPUのスペックとデータセットの規模によりますが、数時間から数十時間が目安です。例えば、RTX 4090でSDXL LoRAを15枚の画像で学習する場合、数時間で完了することが多いです。
⚠️ 注意: 複数のLoRAを組み合わせて使用する「LoRAマージ(Merge)」機能も活用することで、より複雑な表現が可能になりますが、互いのLoRAが干渉し合うこともあるため、慎重な調整が必要です。
これらの手順を踏むことで、2026年における最新のLoRA作成手法に基づき、高品質なLoRAモデルを効率的に生成することが可能です。