Spaces:

SetuG
/

sadtalker

Build error

App Files Files Community

SetuG commited on Feb 2

Commit

017c8fa

verified ·

1 Parent(s): 26f88c0

Upload 4 files

Browse files

Files changed (4) hide show

.gitattributes +6 -35
README.md +89 -12
app.py +126 -0
requirements.txt +30 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,6 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.pth filter=lfs diff=lfs merge=lfs -text
+*.pth.tar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,12 +1,89 @@
----
-title: Sadtalker
-emoji: ⚡
-colorFrom: indigo
-colorTo: purple
-sdk: gradio
-sdk_version: 6.5.1
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: SadTalker
+emoji: 😭
+colorFrom: blue
+colorTo: red
+sdk: gradio
+sdk_version: 3.0.0
+app_file: app.py
+pinned: false
+license: mit
+---
+<!-- Alternative deployment options:
+For Streamlit:
+sdk: streamlit
+app_file: app_streamlit.py
+For FastAPI:
+sdk: docker
+app_port: 7860
+For Docker:
+sdk: docker
+app_port: 7860
+-->
+# SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation (CVPR 2023)
+This is a Gradio app for SadTalker, which can generate talking face videos from a single image and audio.
+## Features
+- Generate talking face videos from single image + audio
+- Multiple preprocessing options
+- Face enhancement with GFPGAN
+- Multiple pose styles
+- Still mode for fewer head movements
+## Setup
+After cloning this repository to your Hugging Face Space, you'll need to:
+1. **Upload model files**: Download the following model files and upload them to your repository:
+### Required Model Files:
+#### SadTalker Models (upload to `checkpoints/` folder):
+- `SadTalker_V0.0.2_256.safetensors`
+- `SadTalker_V0.0.2_512.safetensors`
+- `mapping_00109-model.pth.tar`
+- `mapping_00229-model.pth.tar`
+#### GFPGAN Models (upload to `gfpgan/weights/` folder):
+- `alignment_WFLW_4HG.pth`
+- `detection_Resnet50_Final.pth`
+- `GFPGANv1.4.pth`
+- `parsing_parsenet.pth`
+### Where to get the models:
+1. Download from the original SadTalker repository: https://github.com/OpenTalker/SadTalker
+2. Or from the model links provided in their documentation
+### Upload Instructions:
+1. Go to your Hugging Face Space repository
+2. Click "Upload files"
+3. Create the folder structure and upload the model files
+4. Make sure the files are in the correct paths as listed above
+## Usage
+1. Upload a source image (preferably a portrait with clear face)
+2. Upload an audio file
+3. Adjust settings as needed
+4. Click Generate to create your talking face video
+## Citation
+```
+@InProceedings{zhang2023sadtalker,
+  author={Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei},
+  title={SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation},
+  booktitle={The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
+  month={June},
+  year={2023}
+}
+```
+## Links
+- [Paper](https://arxiv.org/abs/2211.12194)
+- [Project Page](https://sadtalker.github.io)
+- [Original Repository](https://github.com/OpenTalker/SadTalker)

app.py ADDED Viewed

	@@ -0,0 +1,126 @@

+import os, sys
+import gradio as gr
+import torch
+import shutil
+from src.gradio_demo import SadTalker
+def sadtalker_demo():
+    # For Hugging Face, we'll use the current directory structure
+    checkpoint_path = 'checkpoints'
+    config_path = 'src/config'
+    try:
+        sad_talker = SadTalker(checkpoint_path, config_path, lazy_load=True)
+    except Exception as e:
+        print(f"Warning: Could not initialize SadTalker: {e}")
+        sad_talker = None
+    def generate_video(source_image, driven_audio, preprocess_type, is_still_mode, enhancer, batch_size, size_of_image, pose_style):
+        if sad_talker is None:
+            return "Error: SadTalker not initialized. Please ensure all model files are uploaded."
+        try:
+            return sad_talker.test(
+                source_image=source_image,
+                driven_audio=driven_audio,
+                preprocess=preprocess_type,
+                still_mode=is_still_mode,
+                use_enhancer=enhancer,
+                batch_size=batch_size,
+                size=size_of_image,
+                pose_style=pose_style
+            )
+        except Exception as e:
+            return f"Error generating video: {str(e)}"
+        with gr.Row().style(equal_height=False):
+            with gr.Column(variant='panel'):
+                with gr.Tabs(elem_id="sadtalker_source_image"):
+                    with gr.TabItem('Upload image'):
+                        with gr.Row():
+                            source_image = gr.Image(
+                                label="Source image",
+                                source="upload",
+                                type="filepath",
+                                elem_id="img2img_image"
+                            ).style(width=512)
+                with gr.Tabs(elem_id="sadtalker_driven_audio"):
+                    with gr.TabItem('Upload Audio'):
+                        with gr.Column(variant='panel'):
+                            driven_audio = gr.Audio(
+                                label="Input audio",
+                                source="upload",
+                                type="filepath"
+                            )
+            with gr.Column(variant='panel'):
+                with gr.Tabs(elem_id="sadtalker_checkbox"):
+                    with gr.TabItem('Settings'):
+                        gr.Markdown("""
+                        Need help? Please visit our [best practice page](https://github.com/OpenTalker/SadTalker/blob/main/docs/best_practice.md) for more details
+                        """)
+                        with gr.Column(variant='panel'):
+                            pose_style = gr.Slider(
+                                minimum=0,
+                                maximum=46,
+                                step=1,
+                                label="Pose style",
+                                value=0
+                            )
+                            size_of_image = gr.Radio(
+                                [256, 512],
+                                value=256,
+                                label='Face model resolution',
+                                info="Use 256/512 model?"
+                            )
+                            preprocess_type = gr.Radio(
+                                ['crop', 'resize','full', 'extcrop', 'extfull'],
+                                value='crop',
+                                label='preprocess',
+                                info="How to handle input image?"
+                            )
+                            is_still_mode = gr.Checkbox(
+                                label="Still Mode (fewer head motion, works with preprocess `full`)"
+                            )
+                            batch_size = gr.Slider(
+                                label="Batch size in generation",
+                                step=1,
+                                maximum=10,
+                                value=2
+                            )
+                            enhancer = gr.Checkbox(
+                                label="GFPGAN as Face enhancer"
+                            )
+                            submit = gr.Button(
+                                'Generate',
+                                elem_id="sadtalker_generate",
+                                variant='primary'
+                            )
+                with gr.Tabs(elem_id="sadtalker_generated"):
+                    gen_video = gr.Video(
+                        label="Generated video",
+                        format="mp4"
+                    ).style(width=512)
+        submit.click(
+            fn=generate_video,
+            inputs=[
+                source_image,
+                driven_audio,
+                preprocess_type,
+                is_still_mode,
+                enhancer,
+                batch_size,
+                size_of_image,
+                pose_style
+            ],
+            outputs=[gen_video]
+        )
+    return sadtalker_interface
+if __name__ == "__main__":
+    demo = sadtalker_demo()
+    demo.queue()
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,30 @@

+numpy==1.23.4
+torch>=1.12.1
+torchvision>=0.13.1
+torchaudio>=0.12.1
+face_alignment==1.3.5
+imageio==2.19.3
+imageio-ffmpeg==0.4.7
+librosa==0.9.2
+numba
+resampy==0.3.1
+pydub==0.25.1
+scipy==1.10.1
+kornia==0.6.8
+tqdm
+yacs==0.1.8
+pyyaml
+joblib==1.1.0
+scikit-image==0.19.3
+basicsr==1.4.2
+facexlib==0.3.0
+gradio
+gfpgan
+av
+safetensors
+opencv-python
+Pillow
+matplotlib
+einops
+timm
+xformers