「Stable Diffusionを使ってみたい」と思って調べ始めた途端、情報の洪水に飲み込まれた経験はないだろうか。SDXL、SD3.5、Flux、AUTOMATIC1111、Forge、ComfyUI——名前だけで10個以上のツールやモデルが出てきて、どれを選べばいいのか見当もつかない。しかも2024年以降、画像生成AIの進化スピードが加速し、半年前の記事がもう古くなっている。
この記事では、2026年4月時点の最新環境をベースに、Stable Diffusionの導入から実践的なワークフロー構築までを一本の流れで解説する。「まず1枚生成する」ところからスタートし、段階的にスキルを広げていく構成にした。焦らず、自分のペースで読み進めてほしい。
・2026年時点の初心者向け推奨環境はStable Diffusion WebUI Forge+SDXLモデルの組み合わせ
・VRAM 6GB以上のNVIDIA GPUがあればローカル実行可能。GPUなしでもクラウド型サービスで代替できる
・txt2img→img2img→inpaintと段階的にワークフローを広げるのが最短の習得ルート
・Flux.1 Schnellなど高速モデルの登場で、中級者以降の選択肢が大きく広がっている
Stable Diffusionとは?2026年現在の全体像
Stable Diffusionは、テキストの指示(プロンプト)から画像を自動生成するAIモデル。2022年にStability AI社がオープンソースとして公開し、誰でも無料でダウンロード・実行できる点が最大の特徴だ。MidjourneyやDALL-Eといった他のAI画像生成ツールがクラウド上の有料サービスとして提供されているのに対し、Stable Diffusionは自分のPCで動かせる。月額料金がかからず、生成枚数の制限もない。
ただし、2026年現在の状況は少し複雑になっている。Stable Diffusion本体だけでなく、派生モデルやフォーク版が乱立しているためだ。Stability AI自体も組織体制の変動を経ており、コミュニティ主導の開発が存在感を増している。初心者が混乱するのも無理はない。
ローカル実行とクラウド型サービスの違い
Stable Diffusionを使う方法は、大きく2つに分かれる。
ローカル実行は、自分のPCにソフトをインストールして動かす方式。初期設定の手間はかかるが、一度環境を構築すれば無料で無制限に画像を生成できる。カスタムモデルの導入やパラメータの細かい調整も自由自在。ただし、NVIDIA製のGPU(VRAM 6GB以上)が必要になる。
クラウド型サービスは、ブラウザからアクセスするだけで使えるオンラインサービス。RunPod、CivitAIの生成機能、fal.aiなどが代表例。PCスペックを問わず使えるのが利点だが、無料枠には制限があり、本格的に使うなら従量課金や月額料金が発生する。なお、Google Colabは無料枠でのStable Diffusion実行が制限されているため、以前ほど手軽な選択肢ではなくなっている。
ローカルのStable Diffusionとクラウド型ツールを目的に応じて使い分けるのが、2026年のスマートなやり方だ。
主要モデルの特徴と選び方(SDXL・SD3.5・Flux)
2026年4月時点で、初心者が選択肢として検討すべきモデルは主に3系統ある。
SDXL(Stable Diffusion XL) は、最もコミュニティが成熟しているモデル。対応するカスタムモデル(checkpoint)やLoRAの数が圧倒的に多く、情報も豊富。VRAM 8GBあれば快適に動作する。安定性と情報量の面で、迷ったらまずこれを選ぶのが正解。
SD3.5(Stable Diffusion 3.5) は、Stability AIが2024年10月にリリースした次世代モデル。Large(8Bパラメータ)、Medium、Turboの3バリアントが公開されている。文字の描画精度が向上し、プロンプトへの忠実度も高い。SD3.5 Turboは少ないステップ数で高速生成できるのが強み。コミュニティのLoRA・checkpointも徐々に増えてきたが、SDXLの蓄積にはまだ及ばない。
Flux は、元Stability AIのメンバーが設立したBlack Forest Labs社が開発したモデル。Flux.1 Pro(API専用)、Flux.1 Dev(オープンウェイト)、Flux.1 Schnell(高速版・Apache 2.0ライセンス)の3種が提供されている。画質の高さとプロンプト理解力で評価が高い。特にFlux.1 Schnellはわずか1〜4ステップで生成でき、VRAM 8GBでも動作するため、以前ほど敷居は高くない。CivitAI上のFlux用LoRAも急速に増加しており、カスタマイズ性も向上している。
Stable Diffusionの導入手順|初心者向け環境構築ガイド
ここからは、実際にPCへStable Diffusionをインストールする手順を解説していく。対象OSはWindows 10/11。macOSやLinuxでも動作するが、NVIDIAのGPUを使うWindows環境が最も情報が多く、トラブル対応もしやすい。
必要なPCスペックとGPU要件
Stable Diffusionをローカルで動かすために最低限必要なスペックは以下の通り。
| 項目 | 最低スペック | 推奨スペック |
|---|---|---|
| OS | Windows 10 64bit | Windows 11 64bit |
| GPU | NVIDIA GTX 1660(VRAM 6GB) | NVIDIA RTX 4060(VRAM 8GB)以上 |
| メモリ | 16GB | 32GB |
| ストレージ | SSD 20GB以上の空き | SSD 50GB以上の空き |
| Python | 3.10.x | 3.10.x〜3.11.x |
特に重要なのがGPUのVRAM容量。SDXLモデルでの生成にはVRAM 6GBが最低ライン、快適に使うなら8GB以上が望ましい。Fluxモデルも視野に入れるなら12GB以上を確保しておきたい。AMD製GPUでも動作はするが、CUDA非対応のためセットアップが複雑になり、速度面でも不利になる。
WebUI(Forge推奨)のインストール手順
Stable Diffusionを操作するためのインターフェースはいくつかあるが、2026年時点で初心者に最も適しているのはStable Diffusion WebUI Forgeだ。AUTOMATIC1111版WebUIをベースに、VRAM使用量の最適化と速度向上が施されたフォーク版で、SDXL・SD3.5・Fluxの各モデルに対応している。
もう一つの有力な選択肢としてComfyUIがある。ノードベースのワークフロー構築が特徴で、デスクトップアプリ版(ComfyUI Desktop)も提供されている。拡張性と再現性が高く、中級者以降に人気が高い。ただし初心者にはForgeのほうが直感的で取り組みやすい。
Forgeのインストール手順は以下の通り。
1. Gitのインストール
Git公式サイト(git-scm.com)からWindows版をダウンロードし、デフォルト設定のままインストールする。
2. Python 3.10のインストール
Python公式サイトからPython 3.10系(3.10.11推奨)をダウンロード。インストール時に「Add Python to PATH」のチェックを必ず入れること。ここを忘れると後のステップで確実にエラーになる。Python 3.11系でも動作するが、3.10系のほうが互換性トラブルが少ない。
3. Forgeのダウンロード
GitHubのForgeリポジトリから最新版をダウンロードする。Zipファイルを展開し、任意のフォルダ(例: D:\stable-diffusion-webui-forge)に配置する。パスに日本語や半角スペースが含まれるフォルダは避けること。
4. モデルファイルの配置
CivitAI等からSDXLモデル(.safetensors形式)をダウンロードし、models/Stable-diffusion フォルダに配置する。初心者向けには「animagine-xl」や「RealVisXL」あたりが扱いやすい。
5. 初回起動
webui-user.bat をダブルクリックして起動。初回は必要なライブラリのダウンロードが自動で行われるため、10〜30分ほどかかる場合がある。完了するとブラウザが自動で開き、操作画面が表示される。
初回起動でつまずきやすいポイントと対処法
インストール直後にエラーが出るケースは少なくない。頻出するトラブルと対処法を整理した。
「Python was not found」と表示される場合
Pythonのインストール時にPATHを通し忘れている。Pythonを一度アンインストールし、再インストール時に「Add Python to PATH」にチェックを入れ直す。
「torch is not compiled with CUDA enabled」と表示される場合
NVIDIA GPUのドライバが古い、またはCUDA Toolkitが正しくインストールされていない可能性がある。NVIDIAの公式サイトから最新のGame Readyドライバをインストールし、PCを再起動してから再度Forgeを起動してみてほしい。
起動途中でコマンドプロンプトが閉じる場合
webui-user.batをテキストエディタで開き、最終行にpauseを追加すると、エラーメッセージが表示された状態で画面が止まる。エラー内容を確認してから対処できるようになる。
Stable Diffusionの基本的な使い方|txt2imgで画像を生成する
環境構築が完了したら、いよいよ画像生成に入る。まずはtxt2img(テキストから画像を生成)の基本操作を押さえよう。
プロンプトとネガティブプロンプトの書き方
Stable Diffusionでの画像生成は、プロンプト(生成したい内容の指示文)とネガティブプロンプト(生成したくない要素の指定)の2つで制御する。
プロンプトは英語で記述するのが基本。日本語対応モデルも一部あるが、大半のモデルは英語プロンプトで学習されているため、英語の方が意図通りの結果が出やすい。
プロンプトの構成には一定のパターンがある。以下の順番で要素を並べると、安定した結果を得やすい。
品質タグ → 被写体の説明 → 構図・アングル → 背景・環境 → 照明・色調
具体例を挙げると、こうなる。
masterpiece, best quality, 1girl, long silver hair, blue eyes, white dress, standing in flower garden, golden hour lighting, soft focus background
ネガティブプロンプトには、生成画像で避けたい要素を記述する。一般的に使われるのは以下のような定型句。
worst quality, low quality, blurry, deformed hands, extra fingers, missing fingers, watermark, text
手や指の描画はAI画像生成の弱点として知られてきたが、SDXLではかなり改善された。SD3.5やFluxではさらに精度が上がっており、指の破綻はかなり減っている。それでもネガティブプロンプトに含めておくのは無難な習慣だ。
ポイントになるのは、プロンプトの語順。前方に書いた要素ほど優先度が高くなる仕組みのため、最も重要な要素は先頭付近に配置すること。「品質タグを先頭に置く」という慣習は、この仕様に基づいている。
サンプラー・ステップ数・CFG Scaleの設定目安
プロンプト以外にも、生成結果を左右するパラメータがいくつかある。初心者がまず理解しておくべきは3つ。
サンプラー(Sampling method) は、画像を生成するアルゴリズムの種類。選択肢が多すぎて迷うが、初心者はDPM++ 2M KarrasかEuler aを選んでおけば問題ない。サンプラーごとに画風が微妙に変わるので、慣れてきたら色々試してみると面白い。
ステップ数(Sampling steps) は、画像を何回繰り返して精製するかの回数。数値を上げるほど画質が上がるが、生成時間も伸びる。SDXLなら20〜30ステップが品質と速度のバランスが良い。50以上にしても劇的な改善は見込めないため、無駄にVRAMと時間を消費するだけになる。
CFG Scale は、プロンプトにどれだけ忠実に従うかの度合い。数値が低いと自由度が高くなり、高いとプロンプトに厳密に従おうとする。ただし上げすぎると画像が不自然に硬くなる。SDXLでの推奨値は5〜8の範囲。まずは7あたりから試して、好みに応じて調整するのがいいだろう。
最初の1枚を生成する手順をまとめると、こうなる。
- WebUI Forgeを起動し、txt2imgタブを開く
- 上部のドロップダウンでSDXLモデルを選択する
- プロンプト欄に生成したい内容を英語で入力する
- ネガティブプロンプト欄に品質除外の定型句を入力する
- サンプラーをDPM++ 2M Karras、ステップ数を25、CFG Scaleを7に設定する
- 画像サイズを1024×1024(SDXLの推奨解像度)に設定する
- Generateボタンをクリックする
VRAM 8GBのGPUなら、1枚あたり10〜30秒程度で生成が完了するはずだ。生成された画像はWebUIの画面下部にプレビュー表示され、自動的にoutputsフォルダにも保存される。
気に入った画像が出るまで、プロンプトやパラメータを少しずつ調整しながら何度も生成を繰り返す——これがStable Diffusionの基本的なワークフロー。1回で完璧な画像が出ることはまずないので、「試行錯誤が前提」という認識で臨んでほしい。
画像編集ワークフローの実践|img2img・inpaint・複数画像の活用
txt2imgで基本操作に慣れたら、次のステップへ進もう。Stable Diffusionの真価は、生成した画像をさらに加工・修正できる画像編集機能にある。「一発で完成品を作る」のではなく、「段階的に仕上げていく」のが実用的なワークフローだ。
img2imgとinpaintの使い分け
img2imgは、既存の画像を入力し、それをベースに新しい画像を生成する機能。txt2imgで作った画像の雰囲気を維持しつつ、細部を変更したい場合に使う。たとえば、構図はいいが色調を変えたい、季節感を冬から春に変えたいといった場面で有効だ。
操作手順は以下の通り。
- img2imgタブを開く
- ベースとなる画像をアップロードする
- プロンプトに変更したい内容を記述する
- Denoising strength(変化の強さ)を調整する
Denoising strengthは0〜1の範囲で設定する。0に近いほど元画像を忠実に保ち、1に近いほど大きく変化する。使い方としては0.3〜0.5あたりから始めて、結果を見ながら調整するのがおすすめだ。0.7以上にすると元画像の面影がほぼなくなるため、最初は控えめに設定しよう。
inpaintは、画像の一部だけを選択して再生成する機能。顔だけ描き直したい、背景の一部を変えたいなど、ピンポイントの修正に使う。img2imgが画像全体に影響するのに対し、inpaintは指定した範囲だけを変更できるのが違い。
inpaintの操作手順はこうなる。
- img2imgタブ内のInpaintサブタブを開く
- 画像をアップロードする
- ブラシツールで修正したい範囲をマスク(塗りつぶし)する
- プロンプトに修正後のイメージを記述する
- Denoising strengthを0.5〜0.75に設定して生成する
inpaintではDenoising strengthをやや高めに設定するのがコツ。マスク範囲だけが変化するため、低すぎるとほとんど変化が見えない。マスクの境界が不自然になる場合は、Inpaint paddingの値を大きくすると、周囲との馴染みが良くなる。
img2imgとinpaintを組み合わせた実践ワークフロー
実用レベルでStable Diffusionを使いこなすには、txt2img・img2img・inpaintを組み合わせた段階的なワークフローを身につけることが重要だ。プロの使い方に近づく典型的な流れを紹介する。
ステップ1: txt2imgで複数パターンを生成する
まずtxt2imgで同じプロンプトから4〜8枚を一括生成し、構図や雰囲気が最も良い1枚を選ぶ。Batch sizeを2〜4に設定すれば、一度に複数枚を生成できる。
ステップ2: img2imgで全体の質を底上げする
選んだ画像をimg2imgに送り、Denoising strength 0.3〜0.4で再生成する。これにより、全体的なディテールが向上し、細部の粗さが改善される。Hires. fix(高解像度補正)を使うのも有効だ。
ステップ3: inpaintで部分修正を行う
顔の表情、手の指、背景の不自然な箇所などをinpaintでピンポイント修正する。修正箇所ごとにマスクを描き直して、個別に対処していく。
ステップ4: アップスケールで最終仕上げ
Extrasタブのアップスケーラー機能を使い、最終的な解像度を上げる。SDXLの標準解像度は1024×1024だが、アップスケールで2048×2048以上に拡大しても、十分なクオリティを維持できる。
この4段階のプロセスを踏むと、txt2img単発では到達できない品質の画像が仕上がる。最初は手間に感じるかもしれないが、慣れれば1枚あたり10〜15分程度で完了する。
LoRA・ControlNetで表現の幅を広げる
基本のワークフローが身についたら、カスタムモデルや制御ツールの導入を検討しよう。特にLoRAとControlNetは、Stable Diffusionの表現力を大きく広げる重要な仕組みだ。
LoRAの基本と導入方法
LoRA(Low-Rank Adaptation)は、ベースモデルに小さな追加学習データを適用して、特定の画風やキャラクターを再現する技術。ファイルサイズが数十MB〜数百MB程度と軽量で、複数のLoRAを同時に適用することもできる。
導入はシンプルだ。CivitAIなどから.safetensors形式のLoRAファイルをダウンロードし、models/Loraフォルダに配置するだけ。プロンプト内で<lora:ファイル名:適用強度>の書式で呼び出す。適用強度は0.5〜0.8が一般的な範囲で、強すぎると画像が崩れる原因になる。
ControlNetでポーズや構図を制御する
ControlNetは、入力画像からポーズ・輪郭・深度情報などを抽出し、それに沿った画像を生成する拡張機能。「この人物と同じポーズで別のキャラクターを描きたい」「この構図を維持したまま画風だけ変えたい」といった要求に応える。
代表的なControlNetのプリプロセッサは以下の通り。
- OpenPose: 人体の骨格ポーズを検出し、同じポーズで生成する
- Canny: 画像の輪郭線を抽出し、その線に沿って生成する
- Depth: 奥行き情報を取得し、同じ立体構造で生成する
- Tile: 画像の大まかな色・配置を維持しつつ、ディテールを再生成する
ForgeにはControlNetが標準で組み込まれているため、追加インストールは不要。txt2imgまたはimg2imgタブの下部にあるControlNetセクションを展開し、参照画像のアップロードとプリプロセッサの選択を行えば使い始められる。
次のステップ:ComfyUIとFluxへの移行
Forgeでの操作に慣れ、LoRAやControlNetも使いこなせるようになったら、さらに高度な環境への移行を検討する段階だ。
ComfyUIの特徴と導入タイミング
ComfyUIは、画像生成のプロセスをノード(ブロック)の接続で視覚的に組み立てるインターフェース。Forgeのような入力フォーム型と異なり、処理の流れを自分で自由に設計できる。ワークフローの保存・共有・再現が容易で、複雑な生成パイプラインを構築するのに向いている。
ComfyUI Desktopを使えばインストールも容易になった。公式サイトからインストーラーをダウンロードするだけで、Python環境の構築やモデル配置を自動で行ってくれる。
ただし、ノードベースのUIは初見だと取っつきにくい。Forgeで画像生成の基本概念(サンプラー、CFG Scale、ControlNetの役割など)を理解してからComfyUIに移行したほうが、ノードの意味がすんなり頭に入る。
Fluxモデルへの移行
FluxはSDXLと比べてプロンプトの理解力が高く、自然言語に近い指示でも意図通りの画像が出やすい。SDXLでは「品質タグを先頭に」「カンマ区切りで要素を並べる」といったテクニックが必要だったが、Fluxでは普通の英文で指示を書いても高品質な結果が得られる。
Flux.1 SchnellならVRAM 8GBでも動作し、1〜4ステップで高速に生成できる。品質重視ならFlux.1 Devを20ステップ前後で使う。ForgeでもComfyUIでもFluxモデルに対応しているため、UIを変えずにモデルだけ差し替えることも可能だ。
よくあるトラブルと解決策まとめ
Stable Diffusionの運用で遭遇しやすいトラブルを補足としてまとめた。
VRAM不足(Out of Memory)エラー
生成サイズを下げる、Batch sizeを1にする、Forgeの「–medvram」オプションを有効にする、のいずれかで対処できることが多い。SDXLなら1024×1024を超えるサイズでの直接生成は避け、アップスケーラーで拡大する方法を採ろう。
生成画像がぼやける・崩れる
モデルが推奨する解像度と異なるサイズで生成していないか確認する。SDXLは1024×1024が基準、SD1.5系のモデルなら512×512が基準。推奨解像度から大きく外れると画質が急激に落ちる。
モデルの読み込みが極端に遅い
モデルファイルをHDD上に置いていないか確認する。SSDへの配置を推奨する。また、Forgeの「モデルキャッシュ」設定を有効にしておくと、2回目以降の読み込みが高速化する。
LoRAを適用しても変化がない
プロンプト内のLoRA記述が正しいか(ファイル名の大文字小文字、拡張子の有無)を確認する。また、LoRAの対応モデル(SDXL用・SD1.5用など)がベースモデルと一致しているかも要チェック。
画像生成AIの世界は変化が速い。この記事の内容も、半年後にはアップデートが必要になる可能性は十分ある。基本の操作とワークフローの考え方を身につけておけば、新しいモデルやツールが出てきたときにも応用がきく。まずはSDXL+Forgeで「自分で画像を作れる」という手応えを掴むことから始めてほしい。


コメント