LTX 2.3の使い方で直面する「キャラ分裂」問題|クローン現象を抑える5つの対策

LTX 2.3の使い方で直面する「キャラ分裂」問題|クローン現象を抑える5つの対策 アイキャッチ ComfyUI

LTX 2.3とは、Lightricks社が公開しているAI動画生成モデルの最新バージョン。Lightricks/LTX-Videoの公式リポジトリでは、リアルタイム性能と物体一貫性を両立するLatent Video Diffusionとして紹介されています (Lightricks/LTX-Video GitHub)。

この記事の要点

  • LTX 2.3では参照画像を使うとキャラや動物が勝手に増える「クローン現象」が海外Redditで報告されている
  • コミュニティでは「シーン内の鏡」が誘発要因の一つとして疑われている
  • プロンプトでの単数指定・反射面の除去・サンプラー調整・シード試行の組み合わせで緩和が期待できる
  • ComfyUI標準ワークフロー、Kijai蒸留版、Q8 GGUF量子化版いずれでも発生報告が集まっている

海外のRedditコミュニティ(r/StableDiffusion)で、LTX 2.3を使った動画生成における奇妙なトラブルが話題になっています。参照画像に女の子と犬を1人ずつ指定したはずなのに、出力された動画には犬が2匹、女の子が2人映り込んでしまう。投稿者は「キャラクターが細胞のように分裂してクローンを作っている」と表現していました。

報告では10本中8本でこの現象が起きるという。RTX 3090と64GB RAMという十分な環境でも、ComfyUIの標準ワークフローでもKijaiの蒸留ワークフローでも、Q8 GGUFでも同じ症状が出るとのこと。今回は、このコミュニティ議論をもとに、原因の仮説と対策を整理していきます。

LTX 2.3で起きる「キャラ複製」現象とは

Reddit投稿者が直面しているのは、被写体の意図しない増殖という現象。以下、投稿内容から読み取れる症状と再現条件を整理します。

投稿者が直面している具体的な症状

投稿者の主張を要約すると、次の通り。

  • 参照画像に1人の女の子と1匹の犬を指定すると、出力動画には2人・2匹が登場する
  • プロンプトから犬や女の子の名前・描写を削除しても改善しない
  • 10本中8本という高い頻度で発生する
  • Pixar風カートゥーンで、プロフィール説明ではなくアクション描写を含む指示を出している

数値は投稿者の体感報告であり、検証されたデータではありません。ただ、複数のコメント投稿者も同様の経験を共有しており、LTX 2.3環境で起きる典型的な困りごとの一つと考えられます。

再現条件(ワークフロー・モデル・スペック)

投稿者の環境と試行内容は以下の通り。

  • GPU: 高性能クラス(具体的な型番は投稿者本人が明記)
  • メインメモリ: 64GB
  • ワークフロー: ComfyUI標準 / Kijai蒸留版の両方で発生
  • モデル: Q8 GGUF量子化版でも再現
  • サンプラー: Euler ancestor cfg_pp(第1フェーズ)・Euler ancestor(第2フェーズ)を中心に、他の組み合わせも試行

つまり、ワークフロー・モデル・量子化の軸を変えても現象が残るため、単一の設定ミスではなく、LTX系モデルの参照画像解釈そのものに起因する可能性が高いと見られます。

LTX-Videoの内部処理と参照画像コンディショニング

複製現象の背景を理解する前に、LTX-Videoがどのように動画を生成しているかを確認しておきます。Lightricksが公開したarXiv論文 “LTX-Video: Realtime Video Latent Diffusion” によると、本モデルはDiffusion Transformer (DiT) ベースの動画生成モデルで、空間・時間方向を統合した潜在表現を扱う設計を採用しています (Lightricks, arXiv:2501.00103)。

LTX-Video processes spatial and temporal dimensions through a unified Transformer architecture, enabling realtime video generation on consumer GPUs while maintaining temporal coherence across frames.
(LTX-Videoは空間・時間軸を統合したTransformer構造で処理し、一般消費者向けGPUでもリアルタイム生成とフレーム間一貫性を両立する。)

参照画像を入力した場合、モデルは画像から抽出した特徴量を初期フレーム条件として注入し、後続フレームの生成を時間方向の自己注意(temporal self-attention)で展開していきます。この過程で、被写体の輪郭・色・姿勢が他のフレームに「写像」される処理が走るため、参照画像内の冗長な情報や反射要素が時間軸に拡張される可能性があります。

フレーム間一貫性と複製の関係

Diffusion Transformerを用いた動画生成では、フレーム間の被写体同一性を維持するために、各フレームの潜在表現を相互参照する注意機構が働きます。Lightricks公式のComfyUI統合リポジトリでも、参照画像ノードがfirst frame conditioningとして動作することが明示されています (Lightricks/ComfyUI-LTXVideo)。

もし参照画像内に被写体と類似した形状(鏡像・写真・人型ポスター等)が含まれていると、モデルがそれらを「もう一つの被写体」として認識し、後続フレームに展開してしまうケースが起こりうる、というのが鏡仮説の技術的な裏付けに近い解釈です。

原因として疑われている要素

Redditコメント欄で有力視されている仮説と、潜在空間の挙動からの考察を重ねて整理します。

鏡・反射面が引き金になるという仮説

投稿に寄せられたコメントの中に、「シーン内に鏡が置かれていると複製が起きやすい」という指摘がありました。別のコメント投稿者も「鏡があるとこの問題に遭遇する」と同意している様子が見られます。

動画生成モデルはフレーム間の一貫性を潜在空間で維持するため、画面内に「同じキャラが映る領域」が増えると、モデル側が「そこにもキャラが存在すべき」と解釈してしまう可能性があります。鏡・窓ガラス・水面などの反射面は、本来1体しかいないキャラの写像を生む場所。モデルが反射ではなく実体として学習・推論した場合、複製現象が発生するという見方もできます。

もちろん、これは仮説にすぎません。Lightricks公式からこの現象に関する公式なアナウンスは現時点では確認できておらず、鏡イコール原因と断定するのは避けるべき段階です。

参照画像に含まれる”曖昧さ”の問題

もう一つの考察として、参照画像自体の冗長情報が複製を誘発しうるという視点があります。例えば、参照画像に以下の要素が含まれていると、モデルは被写体を一意に特定しにくくなるかもしれません。

  • 背景に人物の写真やポスターが映り込んでいる
  • 被写体と似た体型・色合いの物体が並んでいる
  • 対称構図で画面左右にバランスが置かれている

参照画像の「被写体領域を一意にする工夫」が複製回避のカギになりうると考えられます。

なお、LTX VideoそのものやComfyUIでの基本的な使い方については、関連記事のLTX Videoとは?AI動画生成の特徴・使い方・必要スペックを初心者向けに解説も参考にしてください。

複製を抑える5つの対策

ここからは実践編。プロンプト側・参照画像側・サンプラー側の3レイヤーに分け、試す価値がある5つの対策をまとめます。どれも「確実に直る特効薬」ではなく、「複製発生率を下げる緩和策」として捉えてください。

プロンプトで”1人・1匹”を明示する

最初に試したいのがプロンプト側の数量固定。「a girl」ではなく「exactly one girl」「a single girl」と書く、犬についても「one dog, solo」「a lone dog」と単数を明示する。この方法は他の画像生成モデルでも有効なテクニックとして知られており、LTXでも一定の効果が期待できます。

加えて、ネガティブプロンプトに「duplicate, twins, clone, multiple people, extra character, mirror image」などを入れておくのも一手。モデルが「複製してはいけない」と明示的に認識できる手がかりを増やすイメージです。

プロンプトでの数量指定は画像生成と動画生成で効き方が異なる場合があります。LTX 2.3では動画の時間軸方向でも一貫性が問われるため、冒頭フレームで単数であることを強調する記述が有効かもしれません。

参照画像とシーンから反射面を排除

コミュニティで指摘されている「鏡トリガー」説を踏まえ、参照画像と生成シーンから以下の要素を取り除いてみる。

  • 鏡・窓ガラス・水面などの反射面
  • 被写体と似た色・形の物体が並ぶ構図
  • 背景に人物の写真・ポスター・絵画が映り込んでいるカット

参照画像は被写体を大きくクロップし、背景を単純な単色にすると、モデルが被写体領域を一意に特定しやすくなります。背景情報を削ぎ落とすことで、モデル側で被写体を一意に認識しやすくなる方向に寄せられます。

サンプラー・CFG・シードで逃げる

投稿者はEuler ancestor系のサンプラーを使用していました。Ancestor系はランダムノイズを各ステップで加えるため、同じ条件でも出力のバリエーションが広くなる特性があります。以下の調整を試す価値があるでしょう。

  • サンプラーをEuler ancestorから非ancestor系(Euler、DPM++系など)に変更する
  • CFGスケールを下げて、テキストプロンプトへの追従度を緩める(逆に上げて強制する方向もあり)
  • シードを変えて複数回試行し、複製が出ないシードを選ぶ

ComfyUIに搭載されているサンプラーは、ancestor系と非ancestor系で出力の安定性が大きく変わります。ComfyUI公式ドキュメントのサンプラー解説によれば、各サンプラーは収束挙動が異なります (ComfyUI Official Documentation)。

サンプラー 特性 複製問題への影響 推奨用途
Euler ancestor 各ステップでランダムノイズ追加 バリエーション大、複製出現リスク高め 多様性重視のラフ検証
Euler 決定論的な収束 同じシードで再現性高、複製発生時は固定される シード探索フェーズ
DPM++ 2M 2次の精度、収束が早い 細部の描画安定、複製抑制傾向 本番出力候補
DPM++ 2M SDE 確率的な揺らぎを残す 多様性とディテールの両立 仕上げ前の調整
Euler ancestor cfg_pp CFG++の改良版、低CFGでも追従 投稿者報告で複製が頻発したセット 調整余地が大きい

コメント欄でも「プロンプト調整で直らないなら新しいシードで回す」という現実的な対応策が挙がっていました。シード変更は根本解決ではないものの、納期が迫っているときの実用的な逃げ道になります。

量子化フォーマット別の挙動傾向

投稿者はQ8 GGUFでも症状が出ると述べていますが、量子化レベルによってモデルの挙動が変わる可能性は残ります。GGUF形式の仕様はllama.cppプロジェクトで定義されており、量子化ビット数が下がるほど精度劣化と速度向上のトレードオフが大きくなります (llama.cpp GGUF specification)。

フォーマット 精度 VRAM占有目安 複製発生報告 推奨環境
FP16 / BF16 フル精度 大(24GB+ 推奨) 切り分け検証用ベース RTX 4090 / 5090 / A6000
Q8 GGUF 8bit、ほぼ原寸 中(16GB〜) 投稿者報告で発生確認 RTX 3090 / 4080 / 5080
Q6_K GGUF 6bit、わずかに劣化 中(12GB〜) 未検証 RTX 4070 Ti / 3080
Q4_K_M GGUF 4bit、軽量寄り 小(8〜12GB) 未検証、複製増の懸念 RTX 3060 12GB / 4060 Ti

量子化ビット数を上げてFP16で再現するかを確認すると、量子化由来の挙動かモデル本体の挙動かを切り分けやすくなります。LTX-VideoのモデルウェイトはHugging Face上でLightricks公式が配布しているため、ライセンスや配布物の確認はそちらで行えます (Hugging Face: Lightricks/LTX-Video)。

当サイトでもComfyUI環境で同様の検証を進めていますが、現時点では「全てのケースで再現する特定のパラメータ」は特定できていません。数値で語れる段階に達していないため、読者の皆さんも自分の環境で試行錯誤することを前提にしてください。

それでも解決しない場合の切り分け

上記5対策を試しても複製が残る場合、問題の切り分け手順を踏むのが近道。以下の順で検証すると、原因がワークフロー側か参照画像側かを見極めやすくなります。

  1. 参照画像を外し、テキストプロンプトのみで同じシーンを生成する
  2. 複製が出なければ、参照画像に原因がある可能性が高い
  3. 参照画像を戻し、今度はシーンから鏡・反射面を除いて生成
  4. それでも出るなら参照画像そのものをクロップ・単純化してリトライ
  5. 最後にサンプラー・シードの組み合わせを総当たりで試す

この切り分けは、写真撮影で言うところのAFモード選択に近い発想。被写体が動くなら連続AF、静止なら単点AFというように、「どの軸が揺れているか」を固定して原因を絞り込んでいく作業です。

ワークフローを大きく変更する前に、元のワークフローJSONをバックアップしておいてください。LTX VideoシリーズはバージョンアップがLightricks側で随時行われており、過去のワークフローが動かなくなる場合があります。最新バージョンの差分はGitHubリリースノートで確認できます (Lightricks/LTX-Video Releases)。

ComfyUI標準ワークフローとKijai蒸留版の比較

投稿者は両方のワークフローで同じ症状を確認したと述べていますが、それぞれの構造は異なります。標準ワークフローはLightricks公式のComfyUI-LTXVideoノードを直接使う構成、Kijai蒸留版はコミュニティ製の最適化ノードを用いる構成です。

項目 ComfyUI標準ワークフロー Kijai蒸留版ワークフロー
提供元 Lightricks公式 コミュニティ(Kijai氏)
更新頻度 モデルリリースに同期 有志ベースで随時
VRAM最適化 標準 蒸留・量子化で軽量化
サンプラー選択 標準ComfyUIのKSampler 専用ラッパー経由
複製問題 発生報告あり 発生報告あり
サポート窓口 公式Discord / GitHub Issues GitHub Issues中心

両者とも複製が出るということは、ワークフロー実装よりもLTX 2.3モデルそのもの、または入力素材の構造に起因する可能性が高いと判断できます。

よくある質問

Q. 鏡を消せば必ず直りますか?

確実に直るとは言えません。Reddit上では鏡が誘発要因として挙がっていますが、公式の原因説明ではないため、他の要素と組み合わさって発生している可能性があります。複製が残る場合はプロンプト・サンプラー・シードも見直してください。

Q. シードを変えるだけで足りますか?

応急処置としては有効ですが、根本対策ではありません。同じプロンプトと参照画像で繰り返し発生するなら、シード変更よりもプロンプトの数量指定や参照画像のシンプル化のほうが再発を抑えやすいと考えられます。

Q. Q8量子化モデルが原因ではないですか?

投稿者の報告ではQ8 GGUFでも標準モデルでも同様に発生しているため、量子化が主因とは考えにくいです。ただし量子化でモデルの挙動が微妙に変わる可能性はあるため、FP16版で再現するか確認する価値はあります。

Q. ComfyUI-LTXVideoのバージョンは影響しますか?

公式リポジトリ(Lightricks/ComfyUI-LTXVideo)は更新が続いているため、最新版に上げることで挙動が変わる可能性はあります。ただしバージョンアップで別の問題が出るリスクもあるので、動作が安定しているバージョンのワークフローは保存しておきましょう。

Q. 他のAI動画生成モデルでも同じ複製問題はありますか?

Stable Video Diffusion、HunyuanVideo、CogVideoX等の他モデルでも、参照画像の解釈に起因するアーティファクトは報告されています。ただしLTX 2.3で報告されているような「明確に2倍に増える」パターンは特に目立つ事例で、temporal attentionの強さや参照画像コンディショニング方式の違いが要因の可能性があります。

Q. プロンプトの英語と日本語で挙動は変わりますか?

LTX-Videoの学習データは英語キャプションが主軸とされており、英語プロンプトの方が意図通りに反映されやすい傾向があります。数量指定(exactly one, a single, solo, alone等)は英語の表現バリエーションが豊富なため、英語ベースで構築するのが現実的です。

Q. RTX 3090以下のGPUでLTX 2.3を動かす際の注意点は?

VRAM 12〜16GBクラスではQ6_KまたはQ4_K_M GGUFの量子化版を選ぶケースが多くなります。量子化を下げるほど被写体形状の安定性が失われやすく、複製や輪郭の崩れが増える可能性があるため、まずQ8で動作確認したうえで段階的に軽量化していく流れが安全です。

公式リソース・参考リンク集

本記事で参照した一次ソースと、追加検証に役立つリソースをまとめます。

対象モデル LTX Video 2.3
発生環境 ComfyUI標準ワークフロー / Kijai蒸留版 / Q8 GGUF
主な症状 参照画像で指定したキャラ・動物が意図せず複製される
有力な誘発要因(仮説) シーン内の鏡・反射面、参照画像の冗長情報
緩和策 単数指定プロンプト / 反射面排除 / サンプラー変更 / シード試行

まとめ

LTX 2.3のキャラ複製現象は、Redditで複数の報告が集まっている再現性の高い困りごと。完全な特効薬は現時点で公式からも提示されていません。できることは、鏡の除去・プロンプトでの単数指定・反射面排除・サンプラー調整・シード試行といった対策を積み重ね、複製発生率を下げていくアプローチです。

即時対応が必要なのは、LTX 2.3で納品物を作っていて現在進行形で困っている方。まずは参照画像の背景をシンプルにし、プロンプトに数量指定とネガティブキーワードを追加してみてください。様子見でよいのは、これからLTXを試そうと思っている方。今後のアップデートで挙動が改善される可能性もあるため、現状の制約を理解したうえで触ってみるのがおすすめ。

「クローン現象」にどんな対策が効いたか、あるいは全く別の原因に心当たりがあるか。環境・シード・参照画像の条件で挙動が変わるタイプの問題は、コミュニティでの知見共有が解決への近道になるはずです。

本記事は AIツール図鑑編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

タイトルとURLをコピーしました