ruixiangma
/

LongCat-AudioDiT-1B-Diffusers

LongCatAudioDiTPipeline

Model card Files Files and versions

ruixiangma commited on Apr 15

Commit

256f376

·

verified ·

1 Parent(s): 3785ec6

Create README.md

Files changed (1) hide show

README.md +40 -0

README.md ADDED Viewed

	@@ -0,0 +1,40 @@

+# LongCat-AudioDiT-1B-Diffusers
+Diffusers format for Meituan's [LongCat-AudioDiT-1B](https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B).
+## Model Description
+A DiT (Diffusion Transformer) based audio generation model for text-to-audio synthesis.
+## Directory Structure
+```
+├── model_index.json      # Diffusers config file
+├── text_encoder/         # Text encoder (UMT5)
+├── tokenizer/            # Tokenizer (T5)
+├── transformer/          # Main DiT model
+└── vae/                  # VAE encoder/decoder
+```
+## Usage
+```python
+from diffusers import LongCatAudioDiTPipeline
+import torch
+pipe = LongCatAudioDiTPipeline.from_pretrained(
+    "ruixiangma/LongCat-AudioDiT-1B-Diffusers",
+    torch_dtype=torch.bfloat16
+)
+audio = pipe(
+    prompt="A cheerful piano melody",
+    audio_duration_s=5.0,
+    num_inference_steps=50,
+    guidance_scale=4.0
+).audio
+```
+## Original Model
+- HuggingFace: [meituan-longcat/LongCat-AudioDiT-1B](https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B)