Spaces:

Axcomma
/

generator-image-flux

Sleeping

App Files Files Community

Axel-Student commited on Feb 12

Commit

5d5fcf2

1 Parent(s): eeae64d

change model

Browse files

Files changed (2) hide show

README.md +6 -5
video/main.py +112 -44

README.md CHANGED Viewed

@@ -24,15 +24,16 @@ Créez des images et des vidéos de haute qualité avec l'IA grâce aux meilleur
 - Paramètres avancés personnalisables
 - Interface intuitive avec exemples
-## 🎬 Text-to-Video (HunyuanVideo)
-**Modèle** : HunyuanVideo de Tencent
 ### Fonctionnalités
 - Génération de vidéos depuis du texte
-- Qualité vidéo haute définition
-- Mouvements naturels et fluides
-- Compréhension avancée des prompts
 ## 🚀 Utilisation

 - Paramètres avancés personnalisables
 - Interface intuitive avec exemples
+## 🎬 Text-to-Video (Wan2.1-T2V-14B)
+**Modèle** : Wan2.1-T2V-14B de Wan-AI (basé sur CogVideoX)
 ### Fonctionnalités
 - Génération de vidéos depuis du texte
+- Qualité vidéo haute définition (720p)
+- Vidéos de 6 à 10 secondes
+- 14 milliards de paramètres
+- Paramètres avancés personnalisables
 ## 🚀 Utilisation

video/main.py CHANGED Viewed

@@ -1,56 +1,96 @@
 import spaces
 import gradio as gr
-from huggingface_hub import InferenceClient
-import os
 # Configuration
-HF_TOKEN = os.getenv("HF_TOKEN")
-client = InferenceClient(token=HF_TOKEN)
 @spaces.GPU(duration=300)
 def generate_video(
     prompt: str,
     progress=gr.Progress(track_tqdm=True)
 ):
     """
-    Génère une vidéo à partir d'un prompt texte avec HunyuanVideo
     Args:
         prompt: Description de la vidéo à générer
     """
     # Validation du prompt
     if not prompt or prompt.strip() == "":
         raise gr.Error("⚠️ Veuillez entrer un prompt!")
     try:
-        progress(0, desc="🎬 Génération de la vidéo en cours...")
         # Génération de la vidéo
-        video = client.text_to_video(
-            prompt,
-            model="tencent/HunyuanVideo",
-        )
         progress(1.0, desc="✅ Vidéo générée avec succès!")
         # Métadonnées
-        metadata = f"Prompt: {prompt}\nModèle: HunyuanVideo"
-        return video, metadata
     except Exception as e:
         raise gr.Error(f"❌ Erreur lors de la génération: {str(e)}")
 # Interface Gradio
-with gr.Blocks(theme=gr.themes.Soft(), title="HunyuanVideo - Text-to-Video") as demo:
     gr.Markdown(
         """
-        # 🎬 Générateur de Vidéos HunyuanVideo
         ### Créez des vidéos à partir de descriptions textuelles
         """
     )
     with gr.Row():
         # Colonne gauche - Paramètres
         with gr.Column(scale=1):
@@ -60,67 +100,95 @@ with gr.Blocks(theme=gr.themes.Soft(), title="HunyuanVideo - Text-to-Video") as
                 lines=5,
                 value="A young man walking on the street"
             )
             generate_btn = gr.Button("🎬 Générer la Vidéo", variant="primary", size="lg")
             gr.Markdown(
                 """
                 ℹ️ **Conseils pour de meilleurs résultats:**
                 - Décrivez l'action principale clairement
                 - Mentionnez le mouvement et l'environnement
                 - Soyez précis mais concis
                 """
             )
         # Colonne droite - Résultat
         with gr.Column(scale=1):
             output_video = gr.Video(
                 label="🎥 Vidéo Générée",
                 height=400
             )
             output_metadata = gr.Textbox(
                 label="📊 Informations de Génération",
-                lines=3,
                 interactive=False
             )
     # Exemples
     gr.Markdown("### 🎯 Exemples de Prompts")
     gr.Examples(
         examples=[
-            ["A young man walking on the street"],
-            ["A cat playing with a ball in a sunny garden"],
-            ["Ocean waves crashing on a beach at sunset"],
-            ["A bird flying through a forest"],
-            ["Rain falling on a city street at night"],
         ],
-        inputs=[prompt_input],
         outputs=[output_video, output_metadata],
         fn=generate_video,
         cache_examples=False,
     )
     # Event handlers
     generate_btn.click(
         fn=generate_video,
-        inputs=[prompt_input],
         outputs=[output_video, output_metadata]
     )
     gr.Markdown(
         """
         ---
         ### 📚 À propos
-        Ce générateur utilise **HunyuanVideo** de Tencent, un modèle de génération vidéo text-to-video.
         **Caractéristiques:**
         - 🎬 Génération de vidéos depuis des descriptions textuelles
         - 🎨 Qualité vidéo haute définition
-        - ⚡ Génération rapide et efficace
-        - 🎯 Compréhension naturelle des prompts
-        ⏱️ **Note:** La génération peut prendre quelques minutes selon la complexité.
         """
     )

 import spaces
+import torch
 import gradio as gr
+from diffusers import CogVideoXPipeline
+from diffusers.utils import export_to_video
 # Configuration
+device = "cuda" if torch.cuda.is_available() else "cpu"
+dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
+# Chargement du modèle Wan2.1-T2V-14B
+print("🚀 Chargement du modèle Wan2.1-T2V-14B...")
+pipe = CogVideoXPipeline.from_pretrained(
+    "Wan-AI/Wan2.1-T2V-14B",
+    torch_dtype=dtype,
+)
+if torch.cuda.is_available():
+    pipe.enable_model_cpu_offload()
+    pipe.vae.enable_slicing()
+    pipe.vae.enable_tiling()
+print("✅ Modèle chargé avec succès!")
 @spaces.GPU(duration=300)
 def generate_video(
     prompt: str,
+    num_inference_steps: int = 50,
+    guidance_scale: float = 6.0,
+    num_frames: int = 49,
     progress=gr.Progress(track_tqdm=True)
 ):
     """
+    Génère une vidéo à partir d'un prompt texte avec Wan2.1-T2V-14B
     Args:
         prompt: Description de la vidéo à générer
+        num_inference_steps: Nombre d'étapes de diffusion
+        guidance_scale: Force de guidage du prompt
+        num_frames: Nombre de frames (49 ou 81)
     """
     # Validation du prompt
     if not prompt or prompt.strip() == "":
         raise gr.Error("⚠️ Veuillez entrer un prompt!")
     try:
+        progress(0, desc="� Génération de la vidéo en cours...")
         # Génération de la vidéo
+        video = pipe(
+            prompt=prompt,
+            num_videos_per_prompt=1,
+            num_inference_steps=num_inference_steps,
+            num_frames=num_frames,
+            guidance_scale=guidance_scale,
+            generator=torch.Generator(device=device).manual_seed(42),
+        ).frames[0]
+        progress(0.9, desc="💾 Sauvegarde de la vidéo...")
+        # Sauvegarder la vidéo
+        video_path = export_to_video(video, fps=8)
+        # Nettoyage mémoire
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()
         progress(1.0, desc="✅ Vidéo générée avec succès!")
         # Métadonnées
+        metadata = f"""Prompt: {prompt}
+        Modèle: Wan2.1-T2V-14B
+        Steps: {num_inference_steps}
+        Guidance Scale: {guidance_scale}
+        Frames: {num_frames}
+        FPS: 8"""
+        return video_path, metadata
     except Exception as e:
+        # Nettoyage en cas d'erreur
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()
         raise gr.Error(f"❌ Erreur lors de la génération: {str(e)}")
 # Interface Gradio
+with gr.Blocks(theme=gr.themes.Soft(), title="Wan2.1-T2V - Text-to-Video") as demo:
     gr.Markdown(
         """
+        # 🎬 Générateur de Vidéos Wan2.1-T2V-14B
         ### Créez des vidéos à partir de descriptions textuelles
         """
     )
     with gr.Row():
         # Colonne gauche - Paramètres
         with gr.Column(scale=1):
                 lines=5,
                 value="A young man walking on the street"
             )
+            with gr.Accordion("⚙️ Paramètres Avancés", open=False):
+                num_inference_steps = gr.Slider(
+                    minimum=20,
+                    maximum=100,
+                    value=50,
+                    step=1,
+                    label="Nombre d'étapes",
+                    info="Plus = meilleure qualité mais plus lent"
+                )
+                guidance_scale = gr.Slider(
+                    minimum=1.0,
+                    maximum=15.0,
+                    value=6.0,
+                    step=0.5,
+                    label="Guidance Scale",
+                    info="Force de guidage du prompt"
+                )
+                num_frames = gr.Radio(
+                    choices=[49, 81],
+                    value=49,
+                    label="Nombre de frames",
+                    info="49 frames = ~6s, 81 frames = ~10s"
+                )
             generate_btn = gr.Button("🎬 Générer la Vidéo", variant="primary", size="lg")
             gr.Markdown(
                 """
                 ℹ️ **Conseils pour de meilleurs résultats:**
                 - Décrivez l'action principale clairement
                 - Mentionnez le mouvement et l'environnement
                 - Soyez précis mais concis
+                - Utilisez des descriptions visuelles détaillées
                 """
             )
         # Colonne droite - Résultat
         with gr.Column(scale=1):
             output_video = gr.Video(
                 label="🎥 Vidéo Générée",
                 height=400
             )
             output_metadata = gr.Textbox(
                 label="📊 Informations de Génération",
+                lines=6,
                 interactive=False
             )
     # Exemples
     gr.Markdown("### 🎯 Exemples de Prompts")
     gr.Examples(
         examples=[
+            ["A young man walking on the street", 50, 6.0, 49],
+            ["A cat playing with a ball in a sunny garden", 50, 6.0, 49],
+            ["Ocean waves crashing on a beach at sunset", 50, 6.0, 49],
+            ["A bird flying through a forest", 50, 6.0, 49],
+            ["Rain falling on a city street at night", 50, 6.0, 49],
         ],
+        inputs=[prompt_input, num_inference_steps, guidance_scale, num_frames],
         outputs=[output_video, output_metadata],
         fn=generate_video,
         cache_examples=False,
     )
     # Event handlers
     generate_btn.click(
         fn=generate_video,
+        inputs=[prompt_input, num_inference_steps, guidance_scale, num_frames],
         outputs=[output_video, output_metadata]
     )
     gr.Markdown(
         """
         ---
         ### 📚 À propos
+        Ce générateur utilise **Wan2.1-T2V-14B** de Wan-AI, un modèle de génération vidéo text-to-video basé sur CogVideoX.
         **Caractéristiques:**
         - 🎬 Génération de vidéos depuis des descriptions textuelles
         - 🎨 Qualité vidéo haute définition
+        - ⚡ 14 milliards de paramètres
+        - 🎯 Compréhension avancée des prompts
+        - 📹 Vidéos de 6 à 10 secondes
+        ⏱️ **Note:** La génération peut prendre 3-5 minutes selon les paramètres.
         """
     )