Arabic-F5-T

Sleeping

App Files Files Community

ibrahimabdelaal commited on Nov 14, 2025

Commit

b358825

1 Parent(s): 1bd4aa0

Add F5-TTS Gradio Space with voice cloning

Browse files

Files changed (7) hide show

.gitattributes +3 -32
.gitignore +8 -0
README.md +71 -6
app.py +203 -0
packages.txt +2 -0
reference.wav +3 -0
requirements.txt +5 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,6 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.wav filter=lfs diff=lfs merge=lfs -text
+*.mp3 filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,8 @@

+__pycache__/
+*.py[cod]
+*$py.class
+*.so
+.Python
+build/
+flagged/
+gradio_queue.db

README.md CHANGED Viewed

@@ -1,12 +1,77 @@
 ---
-title: Arabic F5 TTS
-emoji: 🌖
-colorFrom: yellow
-colorTo: yellow
 sdk: gradio
-sdk_version: 5.49.1
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Arabic F5-TTS
+emoji: 🎙️
+colorFrom: green
+colorTo: blue
 sdk: gradio
+sdk_version: 4.44.0
 app_file: app.py
 pinned: false
+license: mit
+models:
+  - IbrahimSalah/Arabic-F5-TTS-v2
+tags:
+  - text-to-speech
+  - tts
+  - arabic
+  - voice-cloning
+  - f5-tts
 ---
+# 🎙️ Arabic Text-to-Speech (F5-TTS Model)
+High-quality Arabic text-to-speech synthesis using the F5-TTS model with voice cloning capabilities.
+## 🌟 Features
+- **Voice Cloning**: Upload a reference audio to clone the voice style
+- **Diacritized Text Support**: Uses fully diacritized Arabic text (تشكيل) for accurate pronunciation
+- **High Quality**: Natural-sounding speech with controllable parameters
+- **Fast Generation**: Efficient inference with NFE steps control
+- **Speed Control**: Adjust speech speed from 0.5x to 2.0x
+## 🚀 Quick Start
+1. **Enter diacritized Arabic text** (with تشكيل)
+2. **Use the default reference audio** or upload your own (WAV format, 5-30 seconds)
+3. **Provide the diacritized transcript** of your reference audio
+4. **Adjust settings** (optional) - NFE steps, CFG strength, speed
+5. **Click "Generate Speech"**
+## ⚠️ Important: Diacritized Text Required
+This model requires **fully diacritized Arabic text (تشكيل)** for both:
+- Input text to synthesize
+- Reference audio transcript
+### How to Add Diacritics:
+**Option 1: Use AI (Recommended)**
+- Ask ChatGPT, Claude, or Gemini: "أضف التشكيل الكامل للنص التالي: [your text]"
+**Option 2: Online Tools**
+- [Mishkal Tashkeel](https://tahadz.com/mishkal)
+- [Harakat.ai](https://harakat.ai)
+## 🎯 Model Information
+- **Model ID**: `IbrahimSalah/Arabic-F5-TTS-v2`
+- **Language**: Modern Standard Arabic (MSA) and dialects
+- **Sample Rate**: 24kHz
+- **Architecture**: Flow Matching based TTS (F5-TTS)
+## 🔧 Advanced Settings
+- **NFE Steps**: Number of function evaluations (16-64, default: 32) - Higher = better quality but slower
+- **CFG Strength**: Classifier-free guidance strength (0-3, default: 1.8) - Controls adherence to prompt
+- **Speed**: Playback speed (0.5-2.0, default: 1.0)
+## 🔗 Related Resources
+- **Model Card**: [IbrahimSalah/Arabic-F5-TTS-v2](https://huggingface.co/IbrahimSalah/Arabic-F5-TTS-v2)
+- **Spark TTS Arabic**: [IbrahimSalah/Arabic-TTS-Spark](https://huggingface.co/IbrahimSalah/Arabic-TTS-Spark)
+- **Report Issues**: [Discussions](https://huggingface.co/IbrahimSalah/Arabic-F5-TTS-v2/discussions)
+## 📄 License
+MIT License

app.py ADDED Viewed

	@@ -0,0 +1,203 @@

+import gradio as gr
+import torch
+import torchaudio
+import spaces
+import os
+import tempfile
+from pathlib import Path
+from huggingface_hub import hf_hub_download
+# Import F5-TTS
+from f5_tts.infer.utils_infer import infer_process, load_model, load_vocoder
+from f5_tts.model import DiT, UNetT
+# Global cache for models
+model_cache = {}
+def load_f5_model():
+    """Load F5-TTS model (cached)."""
+    if "model" not in model_cache:
+        print("Loading F5-TTS model...")
+        # Download model files
+        vocab_file = hf_hub_download(repo_id="IbrahimSalah/Arabic-F5-TTS-v2", filename="vocab.txt")
+        ckpt_file = hf_hub_download(repo_id="IbrahimSalah/Arabic-F5-TTS-v2", filename="model_547500_8_18.pt")
+        config_file = hf_hub_download(repo_id="IbrahimSalah/Arabic-F5-TTS-v2", filename="F5TTS_Base_8_18.yaml")
+        device = "cuda" if torch.cuda.is_available() else "cpu"
+        # Load model
+        model, vocab_char_map, vocab_size = load_model(
+            model_cls=DiT,
+            model_cfg=config_file,
+            ckpt_path=ckpt_file,
+            vocab_file=vocab_file,
+            device=device
+        )
+        model_cache["model"] = model
+        model_cache["vocab_char_map"] = vocab_char_map
+        model_cache["vocab_size"] = vocab_size
+        model_cache["device"] = device
+        print("Model loaded successfully!")
+    return model_cache["model"], model_cache["vocab_char_map"], model_cache["vocab_size"], model_cache["device"]
+@spaces.GPU(duration=120)
+def generate_speech(
+    text: str,
+    reference_audio,
+    reference_transcript: str,
+    nfe_step: int = 32,
+    cfg_strength: float = 1.8,
+    speed: float = 1.0,
+    progress=gr.Progress()
+):
+    """Generate speech using F5-TTS."""
+    try:
+        # Load model
+        progress(0.1, desc="Loading model...")
+        model, vocab_char_map, vocab_size, device = load_f5_model()
+        # Validate inputs
+        if not text.strip():
+            return None, "❌ Please enter text to synthesize."
+        if reference_audio is None:
+            return None, "❌ Please upload a reference audio file."
+        if not reference_transcript.strip():
+            return None, "❌ Please enter the reference transcript."
+        # Generate audio
+        progress(0.3, desc="Generating audio...")
+        # Create temporary output file
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_file:
+            output_path = tmp_file.name
+        # Run inference
+        audio, sample_rate, _ = infer_process(
+            ref_audio=reference_audio,
+            ref_text=reference_transcript,
+            gen_text=text,
+            model_obj=model,
+            vocoder=None,
+            mel_spec_type="vocos",
+            show_info=print,
+            progress=progress,
+            target_rms=0.1,
+            cross_fade_duration=0.15,
+            nfe_step=nfe_step,
+            cfg_strength=cfg_strength,
+            sway_sampling_coef=-1.0,
+            speed=speed,
+            fix_duration=None,
+            device=device,
+            vocab_char_map=vocab_char_map,
+        )
+        # Save audio
+        progress(0.9, desc="Saving audio...")
+        torchaudio.save(output_path, audio, sample_rate)
+        duration = audio.shape[-1] / sample_rate
+        status = f"✅ Generated {duration:.2f}s audio"
+        progress(1.0, desc="Complete!")
+        return output_path, status
+    except Exception as e:
+        import traceback
+        error_msg = f"❌ Error: {str(e)}\n{traceback.format_exc()}"
+        print(error_msg)
+        return None, error_msg
+# Default examples
+DEFAULT_REFERENCE_TEXT = "لَا يَمُرُّ يَوْمٌ إِلَّا وَأَسْتَقْبِلُ عِدَّةَ رَسَائِلَ، تَتَضَمَّنُ أَسْئِلَةً مُلِحَّةْ."
+DEFAULT_TEXT = "تُسَاهِمُ التِّقْنِيَّاتُ الْحَدِيثَةُ فِي تَسْهِيلِ حَيَاةِ الْإِنْسَانِ، وَذَلِكَ مِنْ خِلَالِ تَطْوِيرِ أَنْظِمَةٍ ذَكِيَّةٍ تَعْتَمِدُ عَلَى الذَّكَاءِ الِاصْطِنَاعِيِّ."
+DEFAULT_REFERENCE_AUDIO = "reference.wav"
+# Create Gradio interface
+with gr.Blocks(title="Arabic F5-TTS", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("""
+    # 🎙️ Arabic Text-to-Speech | F5-TTS Model
+    High-quality Arabic TTS with voice cloning. **Diacritized text (تشكيل) required.**
+    **Model:** [IbrahimSalah/Arabic-F5-TTS-v2](https://huggingface.co/IbrahimSalah/Arabic-F5-TTS-v2)
+    """)
+    with gr.Row():
+        with gr.Column(scale=1):
+            text_input = gr.Textbox(
+                label="📝 Text to Synthesize (Arabic with Tashkeel)",
+                placeholder="أَدْخِلْ نَصًّا عَرَبِيًّا مُشَكَّلًا ��ُنَا...",
+                lines=6,
+                value=DEFAULT_TEXT
+            )
+            with gr.Row():
+                with gr.Column():
+                    gr.Markdown("**🎵 Reference Audio**")
+                    reference_audio = gr.Audio(
+                        label="",
+                        type="filepath",
+                        value=DEFAULT_REFERENCE_AUDIO
+                    )
+                with gr.Column():
+                    reference_transcript = gr.Textbox(
+                        label="📄 Reference Transcript (with Tashkeel)",
+                        placeholder="النص المقابل للصوت المرجعي...",
+                        lines=4,
+                        value=DEFAULT_REFERENCE_TEXT
+                    )
+            with gr.Accordion("⚙️ Advanced Settings", open=False):
+                with gr.Row():
+                    nfe_step = gr.Slider(16, 64, value=32, step=1, label="NFE Steps")
+                    cfg_strength = gr.Slider(0.0, 3.0, value=1.8, step=0.1, label="CFG Strength")
+                with gr.Row():
+                    speed = gr.Slider(0.5, 2.0, value=1.0, step=0.1, label="Speed")
+            generate_btn = gr.Button("🎤 Generate Speech", variant="primary", size="lg")
+        with gr.Column(scale=1):
+            output_audio = gr.Audio(label="🔊 Generated Speech", type="filepath")
+            status_text = gr.Textbox(label="Status", interactive=False, lines=2)
+            gr.Markdown("""
+            ### ℹ️ Requirements
+            - **Diacritized text is required** (تشكيل/تشكيل)
+            - Reference audio: 5-30 seconds, clear speech
+            - Use AI (ChatGPT/Claude) or [online tools](https://tahadz.com/mishkal) to add diacritics
+            ### 🔗 Resources
+            - [Model Card](https://huggingface.co/IbrahimSalah/Arabic-F5-TTS-v2)
+            - [Spark TTS](https://huggingface.co/IbrahimSalah/Arabic-TTS-Spark)
+            - [Report Issues](https://huggingface.co/IbrahimSalah/Arabic-F5-TTS-v2/discussions)
+            """)
+    # Examples
+    with gr.Accordion("📚 Examples", open=False):
+        gr.Examples(
+            examples=[
+                [DEFAULT_TEXT, DEFAULT_REFERENCE_AUDIO, DEFAULT_REFERENCE_TEXT, 32, 1.8, 1.0],
+                ["السَّلَامُ عَلَيْكُمْ وَرَحْمَةُ اللَّهِ وَبَرَكَاتُهُ، كَيْفَ حَالُكَ الْيَوْمَ؟", DEFAULT_REFERENCE_AUDIO, DEFAULT_REFERENCE_TEXT, 32, 1.8, 1.0],
+                ["الذَّكَاءُ الِاصْطِنَاعِيُّ يُغَيِّرُ الْعَالَمَ بِسُرْعَةٍ كَبِيرَةٍ.", DEFAULT_REFERENCE_AUDIO, DEFAULT_REFERENCE_TEXT, 32, 1.8, 1.0]
+            ],
+            inputs=[text_input, reference_audio, reference_transcript, nfe_step, cfg_strength, speed]
+        )
+    generate_btn.click(
+        fn=generate_speech,
+        inputs=[text_input, reference_audio, reference_transcript, nfe_step, cfg_strength, speed],
+        outputs=[output_audio, status_text]
+    )
+if __name__ == "__main__":
+    demo.queue(max_size=20)
+    demo.launch()

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ libsndfile1
2	+ ffmpeg

reference.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6db1e038c67df75cdde9ad1e43ba05f660eebc9346a30617d9b2f3892a5b201
+size 1058478

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio==4.44.0
+torch>=2.0.0
+torchaudio>=2.0.0
+spaces
+git+https://github.com/ibrahimabdelaal/F5-TTS-Arabic.git