「テキストを入力するだけで画像が生成される」——数年前なら空想だったこの技術が、今では誰でも無料で使える時代になった。その中核にあるのが、オープンソースの画像生成AI「Stable Diffusion」だ。SNSやクリエイターコミュニティで目にする機会は増えたものの、「名前は知っているけど、実際に何ができるのか」「どうやって始めればいいのか」がわからず手を出せていない人も多い。この記事では、Stable Diffusionの基本的な仕組みから導入方法の選び方まで、専門用語を噛み砕きながら解説していく。
- Stable DiffusionはStability AI社が公開したオープンソースの画像生成AIで、誰でも無料で利用できる
- テキストから画像を生成する「txt2img」のほか、画像の加工や部分修正など多彩な機能を持つ
- ローカルPC・クラウド・Webサービスの3つの導入方法があり、用途や環境に合わせて選べる
Stable Diffusionとは?AI画像生成の基本を理解する
Stable Diffusionは、Stability AI社が公開したオープンソースの画像生成AIモデルだ。ユーザーがテキスト(プロンプト)で指示を出すと、その内容に沿った画像を自動で生成してくれる。基礎理論となる論文「High-Resolution Image Synthesis with Latent Diffusion Models」がCVPR 2022で発表され、ピクセル空間ではなく潜在空間で拡散過程を実行することで計算コストを大幅に削減する手法が示されたRombach et al., High-Resolution Image Synthesis with Latent Diffusion Models (arXiv:2112.10752)。
核となる技術は「拡散モデル(Diffusion Model)」と呼ばれるもの。イメージしやすいのは、砂嵐のようなノイズだらけの画像から少しずつノイズを取り除き、最終的にきれいな画像を浮かび上がらせるプロセスだ。AIはこの「ノイズ除去」のパターンを大量の画像データから学習しており、テキストの指示に応じて適切なノイズ除去の方向を決定する。こうして、入力した言葉が画像になるという仕組み。
Stable Diffusionが他の画像生成AIと一線を画すのは、オープンソースである点にある。モデルの重みデータ(学習済みのAIの中身)が一般公開されているため、誰でも自由にダウンロードして使える。商用利用を前提とした有料サービスに頼る必要がなく、手元のPC上で動かすことも可能だCompVis/stable-diffusion 公式リポジトリ。
このオープンな性質が、巨大なエコシステムを生んでいる。SD 1.5やSDXL、SD3といった公式モデルのほか、コミュニティが独自に追加学習させた派生モデル(カスタムモデル)が数千種類以上公開されているとされる。アニメ調に特化したモデル、写真のようなリアルさを追求したモデルなど、用途に応じて使い分けられるのが大きな魅力だ。
公式モデル世代の違いを押さえる
Stable Diffusionには複数の公式世代があり、出力品質・推奨VRAM・ライセンス条件が世代ごとに異なる。導入前に違いを把握しておくと、目的に合わせた選択がしやすい。
| 世代 | 標準解像度 | パラメータ数の目安 | 主な特徴 |
|---|---|---|---|
| SD 1.5 | 512×512 | 約8.6億 | 軽量で派生モデル・LoRAの数が最多。コミュニティ資産が圧倒的に豊富 |
| SD 2.1 | 768×768 | 約8.6億 | 解像度向上。学習データセットの方針変更で1.5との作風差が大きいとされる |
| SDXL 1.0 | 1024×1024 | 約35億(Base+Refiner合計) | 2段階アーキテクチャで高解像度・高品質。商用利用が現実的なライン |
| SD 3 Medium | 1024×1024 | 約20億 | MMDiTアーキテクチャ採用。テキスト描画とプロンプト追従性が向上したと報告されている |
| SD 3.5 Large | 1メガピクセル級 | 約81億 | 現行のフラッグシップ。詳細・色再現性・プロンプト忠実度が最高水準とされる |
はじめての導入では、コミュニティリソースが揃ったSD 1.5系か、品質と扱いやすさのバランスがよいSDXL 1.0から触れる流れが現実的。最新世代のSD 3.5 LargeはVRAM要件と出力品質が高い一方、対応UIと派生モデルの数は世代の浅さに比例して限られるstabilityai/stable-diffusion-3.5-large 配布ページ (HuggingFace)。
Stable Diffusionでできること——活用シーン別に紹介
Stable Diffusionの基本機能は大きく3つに分かれる。それぞれ活用シーンと合わせて見ていこう。
txt2img:テキストから画像を生成する
最も基本的な機能が「txt2img(テキスト・トゥ・イメージ)」だ。英語のプロンプトを入力すると、AIがその内容を解釈して画像を生成する。たとえば「a cat sitting on a sofa, photorealistic, warm lighting」と入力すれば、暖かい照明の下でソファに座る猫の画像が出力される仕組み。
ブログのアイキャッチ画像、SNS投稿用のビジュアル、プレゼン資料の挿絵など、「ちょうどいい画像が既存の素材集に見つからない」という場面で威力を発揮する。デザイナーがコンセプトアートの初期案を大量に出すときにも使われており、アイデア出しのスピードが格段に上がるという報告もある。
img2img:画像をベースに別の画像を生成する
「img2img(イメージ・トゥ・イメージ)」は、既存の画像を入力として、それを元にAIが新しい画像を生成する機能。手描きのラフスケッチを入力して、そこからリアルなイラストに仕上げるといった使い方が代表的だ。
たとえばWebデザインの現場で、ワイヤーフレーム段階の簡単な図をimg2imgに通せば、完成イメージに近いビジュアルが短時間で得られる。クライアントへの提案資料に使えるレベルのものが出てくることもあり、デザインの意思疎通を円滑にするツールとしても注目されている。
Inpainting:画像の一部だけを修正する
「Inpainting(インペインティング)」は、画像の特定の部分だけをAIに再生成させる機能。「この部分だけ変えたい」というピンポイントな修正に対応できる。
生成した画像の背景だけ差し替えたい、人物の服の色を変えたい、不要なオブジェクトを消したい——こうした部分的な調整がInpaintingの得意分野。画像全体を作り直す必要がないため、「ほぼ完成しているけど一箇所だけ気に入らない」という状況で重宝する。
ここで押さえておきたいのが、プロンプトの質が出力の質を大きく左右するという点。同じモデルを使っても、プロンプトの書き方次第で結果はまったく異なる。具体的な描写(構図、光の方向、画風など)を細かく指定するほど、意図に近い画像が得られやすい。逆に「beautiful picture」のような漠然とした指示では、期待通りの結果にならないケースが大半とされる。
Stable Diffusionの始め方——3つの導入方法を比較
Stable Diffusionを始める方法は、大きく分けて3つある。それぞれ必要な環境やスキルが異なるため、状況に合ったものを選ぶのが重要だ。
| 項目 | ローカル環境 | クラウド環境 | Webサービス |
|---|---|---|---|
| 代表的なツール | AUTOMATIC1111 WebUI / ComfyUI | Google Colabなど | DreamStudioなど |
| 初期コスト | GPU搭載PCが必要 | 低〜中(従量課金) | 低(一部無料枠あり) |
| カスタマイズ性 | 高い | 中程度 | 低い |
| セットアップの難易度 | やや高い | 中程度 | 簡単 |
| 生成速度 | GPU性能に依存 | プランに依存 | サーバー側に依存 |
推奨VRAMの目安(ローカル環境)
ローカル実行で快適さを左右する最大の要素はGPUのVRAM容量。同じモデルでもVRAMが足りないと生成失敗や極端な速度低下が起きる。世代別の目安は以下のとおり。
| モデル世代 | 最低VRAM | 推奨VRAM | 快適に動くGPU例 |
|---|---|---|---|
| SD 1.5 | 4GB | 8GB | RTX 3060 / RTX 4060 Ti / RTX 5060 Ti |
| SDXL 1.0 | 8GB | 12GB以上 | RTX 4070 / RTX 4070 Ti SUPER / RTX 5070 |
| SD 3 Medium | 12GB | 16GB以上 | RTX 4080 / RTX 5070 Ti / RTX 4090 |
| SD 3.5 Large | 16GB | 24GB以上 | RTX 4090 / RTX 5080 / RTX 5090 |
表の数値はFP16推論時の概算で、量子化(FP8・INT8など)やCPUオフロード設定を併用すれば最低VRAM以下の環境でも動作するケースはある。ただし生成速度や安定性は落ちる前提で考えるのが現実的だHuggingFace Diffusers メモリ最適化ガイド。
当サイトの検証——3世代GPUでの実測値
当サイトでは実機 (Intel Core i7-14700F + DDR5 96GB + Windows 11、 ComfyUI 環境) で世代の異なる3枚のGPUを用いてStable Diffusionの生成時間を計測した。撤去前のRTX 4070 Super (12GB GDDR6X) も同条件で記録を残してある。
| 計測条件 | RTX 5080 (16GB) | RTX 4070 Super (12GB) ※撤去前 | RTX 5060 Ti (16GB, Oculink) |
|---|---|---|---|
| SD 1.5 / 512×512 / 20 steps / Euler a | 約1.1秒/枚 | 約1.7秒/枚 | 約2.3秒/枚 |
| SDXL 1.0 / 1024×1024 / 30 steps / Euler a | 約3.8秒/枚 | 約6.2秒/枚 | 約8.5秒/枚 |
| SD 3.5 Large / 1024×1024 / 28 steps / FP8 | 約12.4秒/枚 (VRAM ほぼ満載) | OOMで生成不可 (FP4併用が前提) | 約23.1秒/枚 |
当サイト検証では、SDXL 1.0までであればRTX 5060 Tiでも待ち時間は数秒の範囲に収まり、ブログ用素材の量産用途であれば十分に実用域だった。RTX 5080は世代差と帯域差でSDXLが2倍以上速く、SD 3.5 LargeでもFP8運用なら現実的な秒数で生成できる。一方、RTX 4070 SuperでSD 3.5 Largeを動かそうとするとVRAM 12GBの壁にぶつかり、量子化を強めない限り素直には動かない。なお当サイト環境はメイン850W電源 + Oculink専用750W電源の2系統独立構成で、RTX 5080とRTX 5060 Tiは別電源系統に分けて運用しているため、世代別の電源負荷を合算する考え方は実態に合わない点も付記しておく。
ローカル環境で動かす方法
手元のPCにStable Diffusionの実行環境を構築するアプローチだ。最も自由度が高く、カスタムモデルの導入や拡張機能の追加が制限なくできる。
代表的なGUIツール(操作画面を提供するソフト)として、AUTOMATIC1111 WebUIとComfyUIの2つが広く使われている。AUTOMATIC1111 WebUIはブラウザ上で操作できるインターフェースを提供し、初心者にも比較的わかりやすい。ComfyUIはノード(処理の部品)をつなげてワークフローを組む方式で、慣れれば柔軟な画像生成パイプラインを構築できる。
ただし、ローカル環境の構築にはある程度の技術的な知識が求められる。PythonやGitの基本操作に慣れていないと、セットアップの段階でつまずく可能性がある。具体的なインストール手順はバージョンによって変わるため、各ツールの公式リポジトリやドキュメントを参照するのが確実だ。
主要UIツールの違い
ローカル環境で使うUIツールは複数あり、操作感・拡張性・対応モデルが異なる。代表的な3つを並べる。
| ツール | 操作スタイル | 初心者向け度 | 主な特徴 | 公式リポジトリ |
|---|---|---|---|---|
| AUTOMATIC1111 WebUI | フォーム入力型 | 標準的 | 機能拡張(extension)が豊富。SD 1.5/SDXL系の派生モデルとの相性が良いとされる | AUTOMATIC1111/stable-diffusion-webui |
| ComfyUI | ノード接続型 | やや高め | ワークフローを視覚的に組める。SD 3/3.5や動画生成など最新モデル対応が早い | comfyanonymous/ComfyUI |
| Diffusers(Python) | スクリプト型 | 高い | HuggingFace公式のPythonライブラリ。自動化やバッチ処理に向く | HuggingFace Diffusers ドキュメント |
画面のボタンで操作したいならAUTOMATIC1111 WebUI、最新モデルや実験的なパイプラインを試したいならComfyUI、Pythonコードから呼び出して自動化したいならDiffusersという棲み分けになる。
クラウド環境で動かす方法
GPUを搭載したPCを持っていない場合、クラウド上のGPUリソースを借りて実行する方法がある。Google Colabがよく知られた選択肢で、ブラウザさえあればGPU環境を利用できる。
メリットは、高性能なPCを持っていなくても始められる点。初期投資を抑えつつ、ローカル環境に近い自由度でStable Diffusionを使える。一方で、クラウドサービスの利用条件や料金体系は変更される可能性があるため、最新の情報を公式サイトで確認してから利用してほしい。
セットアップの手順は、あらかじめ用意されたノートブック(実行スクリプト)をコピーして実行するだけの場合が多い。ローカル環境ほど複雑ではないが、クラウド特有の制約(セッション時間の制限、ストレージの揮発性など)には慣れが必要だ。
Webサービス経由で使う方法
最も手軽なのが、Stable Diffusionの技術を組み込んだWebサービスを利用する方法。Stability AI社が提供するDreamStudioなどが該当する。ブラウザでアクセスし、プロンプトを入力するだけで画像を生成できるため、環境構築は一切不要。
手軽さの反面、カスタムモデルの利用や細かいパラメータ調整には制限がある。「まずAI画像生成がどんなものか体験してみたい」という段階では最適な選択肢だが、本格的に使い込むにはローカルやクラウドへの移行が必要になる場面が出てくる。
では、どの方法を選べばよいのか。判断基準はシンプルで、手元の環境とスキルに合った方法から始めることだ。GPU搭載PCを持っていて技術的な知識もあるならローカル環境が最適。PCのスペックに不安があるならクラウド環境。とにかくすぐに試したいならWebサービス。段階的に移行していけばいいので、最初から「正解」を選ぶ必要はない。
Stable Diffusionを使うときの注意点
便利なツールだからこそ、使う前に知っておくべきポイントがいくつかある。
著作権とライセンスの確認は必須
Stable Diffusionで生成した画像の商用利用が可能かどうかは、使用するモデルのライセンスに依存する。Stable Diffusion本体のライセンスと、コミュニティが公開している派生モデルのライセンスは別物であることが多い。商用利用を考えている場合は、使用するモデルごとにライセンス条項を必ず確認してほしい。
「オープンソース=何でも自由に使える」と思い込むのは危険だ。オープンソースにも種類があり、商用利用を禁止しているライセンスや、クレジット表記を義務付けているライセンスも存在する。
倫理的な利用について
AI画像生成技術は、使い方次第で他者の権利を侵害するリスクがある。実在する人物の顔を無断で使ったディープフェイク画像の生成や、特定のアーティストの作風を意図的に模倣した商用利用などは、法的・倫理的な問題を引き起こす可能性が高い。
Stable Diffusionの学習データに使われた画像の権利問題についても、業界全体で議論が続いている状況。生成AIと著作権の関係は各国で法整備が進行中であり、今後ルールが変わる可能性も十分にある。利用する際は、最新の法的動向にも目を向けておくことが重要だ。
生成結果のコントロールには学習コストがかかる
「プロンプトを入力すれば思い通りの画像が出る」と期待して始めると、ギャップに戸惑う人が多い。実際には、意図した画像を安定して生成するにはプロンプトの書き方やパラメータの調整に関する知識が必要になる。最初のうちは試行錯誤の連続になることを覚悟しておくと、挫折しにくい。
ライセンスの種類を知っておく
Stable Diffusion系のモデルは世代によって採用ライセンスが異なる。商用利用の可否や帰属表示の要否はライセンス次第で変わるため、配布元の条項を確認することが欠かせない。
The model is intended for research purposes only. … To use it under any other use case, you must accept the terms and conditions of the CreativeML Open RAIL-M License, in particular the use-based restrictions.
CreativeML Open RAIL-M License (公式)
SD 1.5はCreativeML Open RAIL-Mライセンスで、研究目的に加え条件付きで商用利用も可能とされる。SDXL 1.0はCreativeML Open RAIL++-M、SD 3系以降はStability AI Community Licenseへと変遷しており、新しい世代ほど商用利用の年間売上規模に応じた条件が定められているStability AI Community License (公式)。たとえばCommunity Licenseでは年間売上が一定額を超える事業者は別途エンタープライズ契約が必要で、無条件に商用利用できるわけではない点に注意したい。
まとめ
Stable Diffusionは、オープンソースであることを最大の武器に、画像生成AIの分野で独自のポジションを築いている。商用サービスに月額料金を払わなくても、手元のPC上で自由に画像を生成できる点は、他のクローズドなサービスにはない強みだ。
始め方は3つ——ローカル環境、クラウド環境、Webサービス。GPU搭載PCを持っていない場合は、まずWebサービスやクラウド環境でAI画像生成を体験するところから入るのが現実的なルート。そこで「もっとカスタマイズしたい」「独自のモデルを使いたい」と求めるようになったら、ローカル環境の構築に進めばいい。
最初の一歩としておすすめなのは、シンプルなプロンプトで1枚画像を生成してみること。「a landscape with mountains and a lake, sunset」程度の短い指示でも、AIがどのような画像を返してくるかを体感できる。その1枚が、AI画像生成の世界を理解する最も確実な入口になる。
出典・参考
- Stability AI 公式サイト — Stable Diffusion 開発元の公式情報源
- stabilityai/stable-diffusion-3.5-large (HuggingFace) — 最新世代 SD 3.5 Large の公式配布ページ
- CompVis/stable-diffusion (GitHub) — Stable Diffusion の元実装リポジトリ
- High-Resolution Image Synthesis with Latent Diffusion Models (arXiv:2112.10752) — Latent Diffusion Modelsの原論文
- AUTOMATIC1111/stable-diffusion-webui (GitHub) — 代表的なWebUIの公式リポジトリ
- comfyanonymous/ComfyUI (GitHub) — ノードベースUIの公式リポジトリ
- HuggingFace Diffusers ドキュメント — 公式Pythonライブラリのリファレンス
- Stability AI Community License — SD 3系以降の商用利用条件
- 当サイト実機検証 (Intel Core i7-14700F + DDR5 96GB + RTX 5080 / RTX 5060 Ti / RTX 4070 Super、ComfyUI環境) — 世代別生成時間の実測値
よくある質問(FAQ)
Q. Stable Diffusionは無料で使えますか?
モデル自体はオープンソースで公開されているため、ダウンロードは無料。ただし、ローカルで動かすにはGPU搭載PCが必要であり、クラウドサービスを利用する場合は利用料が発生するケースがある。Webサービスにも無料枠が用意されていることがあるが、生成回数や解像度に制限が設けられているのが一般的だ。
Q. GPUがないPCでも使えますか?
技術的にはCPUだけでも実行可能だが、1枚の画像生成に数分〜数十分かかるとされ、実用的とは言いがたい。快適に使うなら、NVIDIA製GPU搭載のデスクトップPCかクラウドGPU環境を利用するのが現実的な選択肢だ。AMD製GPUでも動作する環境は整いつつあるが、NVIDIA環境と比べると対応状況にばらつきがある。
Q. 生成した画像は商用利用できますか?
使用するモデルのライセンスによって異なる。Stable Diffusionの公式モデルにはそれぞれライセンス条件が定められており、コミュニティ製の派生モデルは独自のライセンスを設定していることも多い。商用利用を検討する場合は、モデル配布ページに記載されたライセンス条項を必ず確認してほしい。「オープンソース=商用フリー」ではない点に注意が必要だ。
Q. SD 1.5 / SDXL / SD 3.5、はじめての一台はどれを選べばいい?
VRAMが8GB前後のGPUしか持っていない場合はSD 1.5系から入るのが安全。コミュニティで配布されている派生モデルやLoRAの数も最も多く、つまずいたときの情報量が豊富だ。VRAM 12GB以上が確保できるならSDXL 1.0が品質と扱いやすさのバランス点になる。24GB以上のVRAMが用意できる環境であれば、最新のSD 3.5 Largeで現行最高水準の出力を試す選択肢が現実的になる。当サイト検証ではVRAM 16GBのRTX 5080でもFP8運用でSD 3.5 Largeが動作したが、VRAM消費はほぼ満載で安全マージンは少なかった。
Q. AUTOMATIC1111とComfyUI、初心者はどちらから始めるべき?
「とにかく1枚生成して結果を見たい」段階ではAUTOMATIC1111 WebUIのほうが学習コストが低い。プロンプト欄とパラメータスライダーが画面に並ぶフォーム型なので、操作のメンタルモデルがシンプルだ。ノードを線でつなぐ操作に抵抗がなく、後で動画生成や複雑なパイプラインまで踏み込みたいならComfyUIから入るのも選択肢になる。一方を使いこなしてからもう一方に乗り換えるのも珍しくないとされる。
Q. 学習元データの著作権リスクはどう扱えばいい?
Stable Diffusionの学習データには公開ウェブ上の画像が大量に含まれており、特定アーティストの作風を狙い撃ちで模倣するような使い方は法的・倫理的なリスクが残る。商用利用する画像については、特定の作家名・キャラクター名・ブランドロゴをプロンプトに含めない、生成後に類似画像検索で意図せぬ酷似が発生していないかを確認する、といった手当をしておくと安全側に倒せる。
本記事は AIツール図鑑編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。


コメント