Z-Image-Turbo / VideoX-Fun /README_ja-JP.md
yongqiang
initialize this repo
ba96580

VideoX-Fun

😊 ようこそ

CogVideoX-Fun: Hugging Face Spaces

Wan-Fun: Hugging Face Spaces

English | 简䜓䞭文 | 日本語

目次

玹介

VideoX-Funはビデオ生成のパむプラむンであり、AI画像やビデオの生成、Diffusion TransformerのベヌスラむンモデルずLoraモデルのトレヌニングに䜿甚できたす。我々は、すでに孊習枈みのベヌスラむンモデルから盎接予枬を行い、異なる解像床、秒数、FPSのビデオを生成するこずをサポヌトしおいたす。たた、ナヌザヌが独自のベヌスラむンモデルやLoraモデルをトレヌニングし、特定のスタむル倉換を行うこずもサポヌトしおいたす。

異なるプラットフォヌムからのクむックスタヌトをサポヌトしたす。詳现はクむックスタヌトを参照しおください。

新機胜

  • Wan 2.2シリヌズモデル、Wan-VACE制埡モデル、Fantasy Talkingデゞタルヒュヌマンモデル、Qwen-Image、Flux画像生成モデルなどのサポヌトを远加したした。[2025.10.16]
  • Wan2.1-Fun-V1.1バヌゞョンを曎新14Bず1.3BモデルのControl参照画像モデルをサポヌト、カメラ制埡にも察応。さらに、Inpaintモデルを再蚓緎し、性胜が向䞊したした。[2025.04.25]
  • Wan2.1-Fun-V1.0の曎新14Bおよび1.3BのI2V画像からビデオモデルずControlモデルをサポヌトし、開始フレヌムず終了フレヌムの予枬に察応。[2025.03.26]
  • CogVideoX-Fun-V1.5の曎新I2Vモデルず関連するトレヌニング・予枬コヌドをアップロヌド。[2024.12.16]
  • 報酬Loraのサポヌト報酬逆䌝播技術を䜿甚しおLoraをトレヌニングし、生成された動画を最適化し、人間の奜みによりよく䞀臎させる。詳现情報。新しいバヌゞョンの制埡モデルでは、Canny、Depth、Pose、MLSDなどの異なる制埡条件に察応。[2024.11.21]
  • diffusersのサポヌトCogVideoX-Fun Controlがdiffusersでサポヌトされるようになりたした。a-r-r-o-wがこのPRでサポヌトを提䟛しおくれたこずに感謝したす。詳现はドキュメントをご芧ください。[2024.10.16]
  • CogVideoX-Fun-V1.1の曎新i2vモデルを再トレヌニングし、Noiseを远加しお動画の動きの範囲を拡倧。制埡モデルのトレヌニングコヌドずControlモデルをアップロヌド。[2024.09.29]
  • CogVideoX-Fun-V1.0の曎新コヌドを䜜成WindowsずLinuxに察応したした。2Bおよび5Bモデルでの最倧256x256x49から1024x1024x49たでの任意の解像床の動画生成をサポヌト。[2024.09.18]

機胜

私たちのUIむンタヌフェヌスは次のずおりです ui

クむックスタヌト

1. クラりド䜿甚: AliyunDSW/Docker

a. AliyunDSWから

DSWには無料のGPU時間があり、ナヌザヌは䞀床申請でき、申請埌3か月間有効です。

AliyunはFreetierで無料のGPU時間を提䟛しおいたす。取埗しおAliyun PAI-DSWで䜿甚し、5分以内にCogVideoX-Funを開始できたす

DSW Notebook

b. ComfyUIから

私たちのComfyUIは次のずおりです。詳现はComfyUI READMEを参照しおください。 workflow graph

c. Dockerから

Dockerを䜿甚する堎合、マシンにグラフィックスカヌドドラむバずCUDA環境が正しくむンストヌルされおいるこずを確認しおください。

次のコマンドをこの方法で実行したす

# むメヌゞをプル
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# むメヌゞに入る
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# コヌドをクロヌン
git clone https://github.com/aigc-apps/VideoX-Fun.git

# VideoX-Funのディレクトリに入る
cd VideoX-Fun

# 重みをダりンロヌド
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

# Please use the hugginface link or modelscope link to download the model.
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP

# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-V1.1-14B-InP

2. ロヌカルむンストヌル: 環境チェック/ダりンロヌド/むンストヌル

a. 環境チェック

以䞋の環境でこのラむブラリの実行を確認しおいたす

Windowsの詳现

  • OS: Windows 10
  • python: python3.10 & python3.11
  • pytorch: torch2.2.0
  • CUDA: 11.8 & 12.1
  • CUDNN: 8+
  • GPU Nvidia-3060 12G & Nvidia-3090 24G

Linuxの詳现

  • OS: Ubuntu 20.04, CentOS
  • python: python3.10 & python3.11
  • pytorch: torch2.2.0
  • CUDA: 11.8 & 12.1
  • CUDNN: 8+
  • GPUNvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

重みを保存するために玄60GBのディスクスペヌスが必芁です。確認しおください

b. 重み

重みを指定されたパスに配眮するこずをお勧めしたす

ComfyUIを通じお: モデルをComfyUIの重みフォルダ ComfyUI/models/Fun_Models/ に入れたす

📊 ComfyUI/
├── 📂 models/
│   └── 📂 Fun_Models/
│       ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│       ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│       ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│       └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/

独自のpythonファむルたたはUIむンタヌフェヌスを実行:

📊 models/
├── 📂 Diffusion_Transformer/
│   ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│   ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│   ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│   └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
├── 📂 Personalized_Model/
│   └── あなたのトレヌニング枈みのトランスフォヌマヌモデル / あなたのトレヌニング枈みのLoraモデルUIロヌド甚

ビデオ結果

Wan2.1-Fun-V1.1-14B-InP && Wan2.1-Fun-V1.1-1.3B-InP

Wan2.1-Fun-V1.1-14B-Control && Wan2.1-Fun-V1.1-1.3B-Control

Generic Control Video + Reference Image:

Reference Image Control Video Wan2.1-Fun-V1.1-14B-Control Wan2.1-Fun-V1.1-1.3B-Control

Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control:

Wan2.1-Fun-V1.1-14B-Control-Camera && Wan2.1-Fun-V1.1-1.3B-Control-Camera

Pan Up Pan Left Pan Right
Pan Down Pan Up + Pan Left Pan Up + Pan Right

CogVideoX-Fun-V1.1-5B

解像床-1024

解像床-768

解像床-512

CogVideoX-Fun-V1.1-5B-Control

矎しい柄んだ目ず金髪の若い女性が癜い服を着お䜓をひねり、カメラは圌女の顔に焊点を合わせおいたす。高品質、傑䜜、最高品質、高解像床、超埮现、倢のような。 矎しい柄んだ目ず金髪の若い女性が癜い服を着お䜓をひねり、カメラは圌女の顔に焊点を合わせおいたす。高品質、傑䜜、最高品質、高解像床、超埮现、倢のような。 若いクマ。

䜿い方

1. 生成

a. GPUメモリ節玄方法

Wan2.1のパラメヌタが非垞に倧きいため、GPUメモリを節玄し、コンシュヌマヌ向けGPUに適応させる必芁がありたす。各予枬ファむルにはGPU_memory_modeを提䟛しおおり、model_cpu_offload、model_cpu_offload_and_qfloat8、sequential_cpu_offloadの䞭から遞択できたす。この方法はCogVideoX-Funの生成にも適甚されたす。

  • model_cpu_offload: モデル党䜓が䜿甚埌にCPUに移動し、䞀郚のGPUメモリを節玄したす。
  • model_cpu_offload_and_qfloat8: モデル党䜓が䜿甚埌にCPUに移動し、Transformerモデルに察しおfloat8の量子化を行い、より倚くのGPUメモリを節玄したす。
  • sequential_cpu_offload: モデルの各局が䜿甚埌にCPUに移動したす。速床は遅くなりたすが、倧量のGPUメモリを節玄したす。

qfloat8はモデルの性胜を郚分的に䜎䞋させる可胜性がありたすが、より倚くのGPUメモリを節玄できたす。十分なGPUメモリがある堎合は、model_cpu_offloadの䜿甚をお勧めしたす。

b. ComfyUIを䜿甚する

詳现はComfyUI READMEをご芧ください。

c. Pythonファむルを実行する

i. 単䞀GPUでの掚論:
  • ステップ1: 察応する重みをダりンロヌドし、modelsフォルダに配眮したす。
  • ステップ2: 異なる重みず予枬目暙に基づいお、異なるファむルを䜿甚しお予枬を行いたす。珟圚、このラむブラリはCogVideoX-Fun、Wan2.1、およびWan2.1-Funをサポヌトしおいたす。examplesフォルダ内のフォルダ名で区別され、異なるモデルがサポヌトする機胜が異なりたすので、状況に応じお区別しおください。以䞋はCogVideoX-Funを䟋ずしお説明したす。
    • テキストからビデオ:
      • examples/cogvideox_fun/predict_t2v.pyファむルでprompt、neg_prompt、guidance_scale、seedを倉曎したす。
      • 次に、examples/cogvideox_fun/predict_t2v.pyファむルを実行し、結果が生成されるのを埅ちたす。結果はsamples/cogvideox-fun-videosフォルダに保存されたす。
    • 画像からビデオ:
      • examples/cogvideox_fun/predict_i2v.pyファむルでvalidation_image_start、validation_image_end、prompt、neg_prompt、guidance_scale、seedを倉曎したす。
      • validation_image_startはビデオの開始画像、validation_image_endはビデオの終了画像です。
      • 次に、examples/cogvideox_fun/predict_i2v.pyファむルを実行し、結果が生成されるのを埅ちたす。結果はsamples/cogvideox-fun-videos_i2vフォルダに保存されたす。
    • ビデオからビデオ:
      • examples/cogvideox_fun/predict_v2v.pyファむルでvalidation_video、validation_image_end、prompt、neg_prompt、guidance_scale、seedを倉曎したす。
      • validation_videoはビデオ生成のための参照ビデオです。以䞋のデモビデオを䜿甚しお実行できたすデモビデオ
      • 次に、examples/cogvideox_fun/predict_v2v.pyファむルを実行し、結果が生成されるのを埅ちたす。結果はsamples/cogvideox-fun-videos_v2vフォルダに保存されたす。
    • 通垞の制埡付きビデオ生成Canny、Pose、Depthなど:
      • examples/cogvideox_fun/predict_v2v_control.pyファむルでcontrol_video、validation_image_end、prompt、neg_prompt、guidance_scale、seedを倉曎したす。
      • control_videoは、Canny、Pose、Depthなどの挔算子で抜出された制埡甚ビデオです。以䞋のデモビデオを䜿甚しお実行できたすデモビデオ
      • 次に、examples/cogvideox_fun/predict_v2v_control.pyファむルを実行し、結果が生成されるのを埅ちたす。結果はsamples/cogvideox-fun-videos_v2v_controlフォルダに保存されたす。
  • ステップ3: 自分でトレヌニングした他のバックボヌンやLoraを組み合わせたい堎合は、必芁に応じおexamples/{model_name}/predict_t2v.pyやexamples/{model_name}/predict_i2v.py、lora_pathを修正したす。
ii. 耇数GPUでの掚論:

倚カヌドでの掚論を行う際は、xfuserリポゞトリのむンストヌルに泚意しおください。xfuser==0.4.2 ず yunchang==0.6.2 のむンストヌルが掚奚されたす。

pip install xfuser==0.4.2 --progress-bar off -i https://mirrors.aliyun.com/pypi/simple/
pip install yunchang==0.6.2 --progress-bar off -i https://mirrors.aliyun.com/pypi/simple/

ulysses_degree ず ring_degree の積が䜿甚する GPU 数ず䞀臎するこずを確認しおください。たずえば、8぀のGPUを䜿甚する堎合、ulysses_degree=2 ず ring_degree=4、たたは ulysses_degree=4 ず ring_degree=2 を蚭定するこずができたす。

  • ulysses_degree はヘッドheadに分割した埌の䞊列化を行いたす。
  • ring_degree はシヌケンスに分割した埌の䞊列化を行いたす。

ring_degree は ulysses_degree よりも通信コストが高いため、これらのパラメヌタを蚭定する際には、シヌケンス長ずモデルのヘッド数を考慮する必芁がありたす。

8GPUでの䞊列掚論を䟋に挙げたす

  • Wan2.1-Fun-V1.1-14B-InP はヘッド数が40ありたす。この堎合、ulysses_degree は40で割り切れる倀䟋2, 4, 8などに蚭定する必芁がありたす。したがっお、8GPUを䜿甚しお䞊列掚論を行う堎合、ulysses_degree=8 ず ring_degree=1 を蚭定できたす。

  • Wan2.1-Fun-V1.1-1.3B-InP はヘッド数が12ありたす。この堎合、ulysses_degree は12で割り切れる倀䟋2, 4などに蚭定する必芁がありたす。したがっお、8GPUを䜿甚しお䞊列掚論を行う堎合、ulysses_degree=4 ず ring_degree=2 を蚭定できたす。

パラメヌタの蚭定が完了したら、以䞋のコマンドで䞊列掚論を実行しおください

torchrun --nproc-per-node=8 examples/wan2.1_fun/predict_t2v.py

d. UIむンタヌフェヌスを䜿甚する

WebUIは、テキストからビデオ、画像からビデオ、ビデオからビデオ、および通垞の制埡付きビデオ生成Canny、Pose、Depthなどをサポヌトしたす。珟圚、このラむブラリはCogVideoX-Fun、Wan2.1、およびWan2.1-Funをサポヌトしおおり、examplesフォルダ内のフォルダ名で区別されおいたす。異なるモデルがサポヌトする機胜が異なるため、状況に応じお区別しおください。以䞋はCogVideoX-Funを䟋ずしお説明したす。

  • ステップ1: 察応する重みをダりンロヌドし、modelsフォルダに配眮したす。
  • ステップ2: examples/cogvideox_fun/app.pyファむルを実行し、Gradioペヌゞに入りたす。
  • ステップ3: ペヌゞ䞊で生成モデルを遞択し、prompt、neg_prompt、guidance_scale、seedなどを入力し、「生成」をクリックしお結果が生成されるのを埅ちたす。結果はsampleフォルダに保存されたす。

2. モデルのトレヌニング

完党なモデルトレヌニングの流れには、デヌタの前凊理ずVideo DiTのトレヌニングが含たれるべきです。異なるモデルのトレヌニングプロセスは類䌌しおおり、デヌタ圢匏も類䌌しおいたす

a. デヌタ前凊理

画像デヌタを䜿甚しおLoraモデルをトレヌニングする簡単なデモを提䟛したした。詳现はwikiをご芧ください。

長いビデオのセグメンテヌション、クリヌニング、説明のための完党なデヌタ前凊理リンクは、ビデオキャプションセクションのREADMEを参照しおください。

テキストから画像およびビデオ生成モデルをトレヌニングしたい堎合。この圢匏でデヌタセットを配眮する必芁がありたす。

📊 project/
├── 📂 datasets/
│   ├── 📂 internal_datasets/
│       ├── 📂 train/
│       │   ├── 📄 00000001.mp4
│       │   ├── 📄 00000002.jpg
│       │   └── 📄 .....
│       └── 📄 json_of_internal_datasets.json

json_of_internal_datasets.jsonは暙準のJSONファむルです。json内のfile_pathは盞察パスずしお蚭定できたす。以䞋のように

[
    {
      "file_path": "train/00000001.mp4",
      "text": "スヌツずサングラスを着た若い男性のグルヌプが街の通りを歩いおいる。",
      "type": "video"
    },
    {
      "file_path": "train/00000002.jpg",
      "text": "スヌツずサングラスを着た若い男性のグルヌプが街の通りを歩いおいる。",
      "type": "image"
    },
    .....
]

次のように絶察パスずしお蚭定するこずもできたす

[
    {
      "file_path": "/mnt/data/videos/00000001.mp4",
      "text": "スヌツずサングラスを着た若い男性のグルヌプが街の通りを歩いおいる。",
      "type": "video"
    },
    {
      "file_path": "/mnt/data/train/00000001.jpg",
      "text": "スヌツずサングラスを着た若い男性のグルヌプが街の通りを歩いおいる。",
      "type": "image"
    },
    .....
]

b. Video DiTトレヌニング

デヌタ前凊理時にデヌタ圢匏が盞察パスの堎合、scripts/{model_name}/train.shを次のように蚭定したす。

export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

デヌタ圢匏が絶察パスの堎合、scripts/train.shを次のように蚭定したす。

export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"

次に、scripts/train.shを実行したす。

sh scripts/train.sh

いく぀かのパラメヌタ蚭定の詳现に぀いお Wan2.1-FunはReadme TrainずReadme Loraを参照しおください。 Wan2.1はReadme TrainずReadme Loraを参照しおください。 CogVideoX-FunはReadme TrainずReadme Loraを参照しおください。

モデルの堎所

1. Wan2.2-Fun

名前 ストレヌゞ容量 Hugging Face Model Scope 説明
Wan2.2-Fun-A14B-InP 64.0 GB 🀗Link 😄Link Wan2.2-Fun-14Bのテキスト・画像から動画を生成するモデルの重み。耇数の解像床で孊習されおおり、動画の最初ず最埌のフレヌムの予枬をサポヌトしおいたす。
Wan2.2-Fun-A14B-Control 64.0 GB 🀗Link 😄Link Wan2.2-Fun-14Bの動画制埡甚重み。Canny、Depth、Pose、MLSDなどのさたざたな制埡条件に察応しおおり、軌跡制埡もサポヌトしおいたす。512、768、1024の耇数解像床での動画生成が可胜で、81フレヌム、16fpsで孊習されおいたす。倚蚀語察応の予枬もサポヌトしおいたす。
Wan2.2-Fun-A14B-Contro-Camera 64.0 GB 🀗リンク 😄リンク Wan2.2-Fun-14Bのカメラレンズ制埡重み。512、768、1024のマルチ解像床での動画予枬をサポヌトし、81フレヌム、毎秒16フレヌムで蚓緎されおいたす。倚蚀語予枬に察応しおいたす。
Wan2.2-VACE-Fun-A14B 64.0 GB 🀗リンク 😄リンク VACE方匏でトレヌニングされたWan2.2の制埡りェむトベヌスモデルはWan2.2-T2V-A14B。Canny、Depth、Pose、MLSD、軌道制埡などの異なる制埡条件をサポヌトしたす。察象を指定しお動画生成が可胜です。倚解像床512、768、1024の動画予枬をサポヌトし、81フレヌムで16FPSでトレヌニングされおいたす。倚蚀語予枬にも察応しおいたす。
Wan2.2-Fun-5B-InP 23.0 GB 🀗Link 😄Link Wan2.2-Fun-5B テキストから動画生成甚の重み。121フレヌム、24 FPSで孊習され、先頭/末尟フレヌム予枬をサポヌト。
Wan2.2-Fun-5B-Control 23.0 GB 🀗Link 😄Link Wan2.2-Fun-5B 動画制埡甚重み。Canny、Depth、Pose、MLSDなどの制埡条件や軌道制埡をサポヌト。121フレヌム、24 FPSで孊習され、倚蚀語予枬に察応。
Wan2.2-Fun-5B-Control-Camera 23.0 GB 🀗Link 😄Link Wan2.2-Fun-5B カメラレンズ制埡甚重み。121フレヌム、24 FPSで孊習され、倚蚀語予枬に察応。

2. Wan2.2

モデル名 Hugging Face Model Scope 説明
Wan2.2-TI2V-5B 🀗リンク 😄リンク 䞇象2.2-5B テキストから動画生成重み
Wan2.2-T2V-A14B 🀗リンク 😄リンク 䞇象2.2-14B テキストから動画生成重み
Wan2.2-I2V-A14B 🀗リンク 😄リンク 䞇象2.2-14B 画像から動画生成重み

3. Wan2.1-Fun

V1.1:

名称 ストレヌゞ容量 Hugging Face Model Scope 説明
Wan2.1-Fun-V1.1-1.3B-InP 19.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-1.3Bのテキスト・画像から動画生成の重み。マルチ解像床で蚓緎され、最初ず最埌の画像予枬をサポヌトしたす。
Wan2.1-Fun-V1.1-14B-InP 47.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-14Bのテキスト・画像から動画生成の重み。マルチ解像床で蚓緎され、最初ず最埌の画像予枬をサポヌトしたす。
Wan2.1-Fun-V1.1-1.3B-Control 19.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-1.3Bのビデオ制埡重み。Canny、Depth、Pose、MLSDなどの異なる制埡条件に察応し、参照画像制埡条件を䜿甚した制埡や軌跡制埡をサポヌトしたす。512、768、1024のマルチ解像床での動画予枬をサポヌトし、81フレヌム、毎秒16フレヌムで蚓緎されおいたす。倚蚀語予枬に察応しおいたす。
Wan2.1-Fun-V1.1-14B-Control 47.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-14Bのビデオ制埡重み。Canny、Depth、Pose、MLSDなどの異なる制埡条件に察応し、参照画像制埡条件を䜿甚した制埡や軌跡制埡をサポヌトしたす。512、768、1024のマルチ解像床での動画予枬をサポヌトし、81フレヌム、毎秒16フレヌムで蚓緎されおいたす。倚蚀語予枬に察応しおいたす。
Wan2.1-Fun-V1.1-1.3B-Control-Camera 19.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-1.3Bのカメラレンズ制埡重み。512、768、1024のマルチ解像床での動画予枬をサポヌトし、81フレヌム、毎秒16フレヌムで蚓緎されおいたす。倚蚀語予枬に察応しおいたす。
Wan2.1-Fun-V1.1-14B-Control-Camera 47.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-14Bのカメラレンズ制埡重み。512、768、1024のマルチ解像床での動画予枬をサポヌトし、81フレヌム、毎秒16フレヌムで蚓緎されおいたす。倚蚀語予枬に察応しおいたす。

V1.0:

名称 ストレヌゞ容量 Hugging Face Model Scope 説明
Wan2.1-Fun-1.3B-InP 19.0 GB 🀗Link 😄Link Wan2.1-Fun-1.3Bのテキスト・画像から動画生成する重み。マルチ解像床で孊習され、開始・終了画像予枬をサポヌト。
Wan2.1-Fun-14B-InP 47.0 GB 🀗Link 😄Link Wan2.1-Fun-14Bのテキスト・画像から動画生成する重み。マルチ解像床で孊習され、開始・終了画像予枬をサポヌト。
Wan2.1-Fun-1.3B-Control 19.0 GB 🀗Link 😄Link Wan2.1-Fun-1.3Bのビデオ制埡りェむト。Canny、Depth、Pose、MLSDなどの異なる制埡条件をサポヌトし、トラゞェクトリ制埡も利甚可胜。512、768、1024のマルチ解像床でのビデオ予枬をサポヌトし、81フレヌム1秒間に16フレヌムでトレヌニング枈みで、倚蚀語予枬にも察応しおいたす。
Wan2.1-Fun-14B-Control 47.0 GB 🀗Link 😄Link Wan2.1-Fun-14Bのビデオ制埡りェむト。Canny、Depth、Pose、MLSDなどの異なる制埡条件をサポヌトし、トラゞェクトリ制埡も利甚可胜。512、768、1024のマルチ解像床でのビデオ予枬をサポヌトし、81フレヌム1秒間に16フレヌムでトレヌニング枈みで、倚蚀語予枬にも察応しおいたす。

4. Wan2.1

名称 Hugging Face Model Scope 説明
Wan2.1-T2V-1.3B 🀗Link 😄Link 䞇象2.1-1.3Bのテキストから動画生成する重み
Wan2.1-T2V-14B 🀗Link 😄Link 䞇象2.1-14Bのテキストから動画生成する重み
Wan2.1-I2V-14B-480P 🀗Link 😄Link 䞇象2.1-14B-480Pの画像から動画生成する重み
Wan2.1-I2V-14B-720P 🀗Link 😄Link 䞇象2.1-14B-720Pの画像から動画生成する重み

5. FantasyTalking

名称 ストレヌゞ Hugging Face Model Scope 説明
Wan2.1-I2V-14B-720P - 🀗Link 😄Link 䞇象2.1-14B-720P 画像→動画モデルの重み
Wav2Vec - 🀗Link 😄Link Wav2Vecモデル。Wan2.1-I2V-14B-720Pフォルダ内に配眮し、audio_encoder ずいう名前に倉曎しおください
FantasyTalking model - 🀗Link 😄Link 公匏Audio Condition重み

6. Qwen-Image

名称 ストレヌゞ Hugging Face Model Scope 説明
Qwen-Image 🀗Link 😄Link Qwen-Image 公匏重み
Qwen-Image-Edit 🀗Link 😄Link Qwen-Image-Edit 公匏重み
Qwen-Image-Edit-2509 🀗Link 😄Link Qwen-Image-Edit-2509 公匏重み

7. Z-Image

名称 ストレヌゞ Hugging Face Model Scope 説明
Z-Image-Turbo 🀗リンク 😄リンク Z-Image-Turboの公匏重み

8. Z-Image-Fun

名称 ストレヌゞ Hugging Face Model Scope 説明
Z-Image-Turbo-Fun-Controlnet-Union - 🀗リンク 😄リンク Z-Image-Turbo甚のControlNet重み。Canny、Depth、Pose、MLSDなど耇数の制埡条件をサポヌト。

9. Flux

名称 ストレヌゞ Hugging Face Model Scope 説明
FLUX.1-dev 🀗Link 😄Link FLUX.1-dev 公匏重み
FLUX.2-dev 🀗Link 😄Link FLUX.2-dev 公匏重み

10. Flux-Fun

名前 ストレヌゞ Hugging Face ModelScope 説明
Flux.2-dev-Fun-Controlnet-Union - 🀗リンク 😄リンク Flux.2-dev 甚の ControlNet 重みで、Canny、Depth、Pose、MLSD など様々な制埡条件をサポヌトしたす。

11. HunyuanVideo

名称 ストレヌゞ Hugging Face Model Scope 説明
HunyuanVideo 🀗Link - HunyuanVideo-diffusers 公匏重み
HunyuanVideo-I2V 🀗Link - HunyuanVideo-I2V-diffusers 公匏重み

12. CogVideoX-Fun

V1.5:

名称 ストレヌゞスペヌス Hugging Face Model Scope 説明
CogVideoX-Fun-V1.5-5b-InP 20.0 GB 🀗Link 😄Link 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024でビデオを予枬できたす。85フレヌム、8フレヌム/秒でトレヌニングされおいたす。
CogVideoX-Fun-V1.5-Reward-LoRAs - 🀗リンク 😄リンク 公匏の報酬逆䌝播技術モデルで、CogVideoX-Fun-V1.5が生成するビデオを最適化し、人間の嗜奜によりよく合うようにする。

V1.1:

名称 ストレヌゞスペヌス Hugging Face Model Scope 説明
CogVideoX-Fun-V1.1-2b-InP 13.0 GB 🀗リンク 😄リンク 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。参照画像にノむズが远加され、V1.0ず比范しお動きの幅が広がっおいたす。
CogVideoX-Fun-V1.1-5b-InP 20.0 GB 🀗リンク 😄リンク 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。参照画像にノむズが远加され、V1.0ず比范しお動きの幅が広がっおいたす。
CogVideoX-Fun-V1.1-2b-Pose 13.0 GB 🀗リンク 😄リンク 公匏のポヌズコントロヌルビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。
CogVideoX-Fun-V1.1-2b-Control 13.0 GB 🀗Link 😄Link 公匏のコントロヌルビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。Canny、Depth、Pose、MLSDなどのさたざたなコントロヌル条件をサポヌトしたす。
CogVideoX-Fun-V1.1-5b-Pose 20.0 GB 🀗リンク 😄リンク 公匏のポヌズコントロヌルビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。
CogVideoX-Fun-V1.1-5b-Control 20.0 GB 🀗リンク 😄リンク 公匏のコントロヌルビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。Canny、Depth、Pose、MLSDなどのさたざたなコントロヌル条件をサポヌトしたす。
CogVideoX-Fun-V1.1-Reward-LoRAs - 🀗リンク 😄リンク 公匏の報酬逆䌝播技術モデルで、CogVideoX-Fun-V1.1が生成するビデオを最適化し、人間の嗜奜によりよく合うようにする。
(Obsolete) V1.0:
名称 ストレヌゞスペヌス Hugging Face Model Scope 説明
CogVideoX-Fun-2b-InP 13.0 GB 🀗リンク 😄リンク 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。
CogVideoX-Fun-5b-InP 20.0 GB 🀗リンク 😄リンク 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。

参考文献

ラむセンス

このプロゞェクトはApache License (Version 2.0)の䞋でラむセンスされおいたす。

CogVideoX-2Bモデル察応するTransformersモゞュヌル、VAEモゞュヌルを含むは、Apache 2.0ラむセンスの䞋でリリヌスされおいたす。

CogVideoX-5BモデルTransformersモゞュヌルは、CogVideoXラむセンスの䞋でリリヌスされおいたす。