pythonlearnreal's picture
Upload folder using huggingface_hub
106478e verified

A newer version of the Gradio SDK is available: 6.1.0

Upgrade
metadata
title: F5-TTS Thai
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
license: mit
python_version: 3.1
hardware: cpu-basic
short_description: Zero-shot Text-to-Speech for Thai language

F5-TTS ภาษาไทย 🎤

Zero-shot Text-to-Speech สำหรับภาษาไทย ด้วยโมเดล F5-TTS

✨ Features

  • Multi-Speech Generation: สร้างเสียงพูดหลายสไตล์ในไฟล์เดียว
  • Voice Cloning: โคลนเสียงจากไฟล์ตัวอย่างสั้นๆ
  • Thai Language Support: รองรับภาษาไทยอย่างเต็มรูปแบบ
  • Real-time Processing: ประมวลผลแบบ real-time
  • Segment Editing: แก้ไขและปรับแต่งเสียงแต่ละส่วนได้

🚀 วิธีใช้งาน

Multi-Speech Generation

  1. เพิ่มประเภทคำพูด: คลิก "เพิ่มประเภทคำพูด" เพื่อเพิ่มสไตล์เสียงใหม่
  2. อัปโหลดเสียงตัวอย่าง: อัปโหลดไฟล์เสียงสำหรับแต่ละสไตล์
  3. ใส่ข้อความต้นฉบับ: พิมพ์ข้อความที่สอดคล้องกับเสียงตัวอย่าง
  4. เขียนสคริปต์: ใช้รูปแบบ {ชื่อสไตล์} ข้อความที่จะพูด

ตัวอย่างการใช้งาน

{ปกติ} สวัสดีครับ มีอะไรให้ผมช่วยไหมครับ
{เศร้า} ผมเครียดจริงๆ นะตอนนี้...
{โกรธ} รู้ไหม! เธอไม่ควรอยู่ที่นี่!
{กระซิบ} ฉันมีอะไรจะบอกคุณ แต่มันเป็นความลับนะ

⚙️ Technical Details

Models Used

  • F5-TTS: Zero-shot text-to-speech model
  • Vocoder: Neural vocoder for high-quality audio synthesis
  • Text Processing: Thai text normalization and processing

System Requirements

  • RAM: อย่างน้อย 4GB (แนะนำ 8GB+)
  • GPU: ไม่จำเป็น แต่จะช่วยเพิ่มความเร็ว
  • Storage: ~2GB สำหรับโมเดลและ dependencies

🔧 Configuration

Model Settings

  • NFE Steps: ควบคุมคุณภาพเสียง (16-64)
  • Cross Fade Duration: ปรับการต่อเสียงระหว่างส่วน
  • Speed: ปรับความเร็วการพูด
  • CFG Strength: ปรับความแข็งแกร่งของ guidance

Tips สำหรับผลลัพธ์ที่ดี

  1. เสียงตัวอย่าง: ใช้เสียงที่ชัดเจน ไม่มีเสียงรบกวน ความยาว 5-10 วินาที
  2. ข้อความต้นฉบับ: ให้ตรงกับเสียงตัวอย่างที่สุด
  3. ข้อความที่จะสร้าง: เว้นวรรคและใส่เครื่องหมายวรรคตอนให้ชัดเจน
  4. การตั้งค่า: เริ่มด้วยค่า default แล้วค่อยปรับแต่ง

🚨 Limitations

  • รองรับเฉพาะภาษาไทยเป็นหลัก
  • คุณภาพเสียงขึ้นอยู่กับเสียงตัวอย่าง
  • ใช้เวลาในการประมวลผลตามความยาวข้อความ
  • ต้องใช้ internet เพื่อดาวน์โหลดโมเดล

📝 License

MIT License - ใช้งานได้อย่างอิสระ

🤝 Contributing

สามารถมีส่วนร่วมพัฒนาได้ที่ GitHub Repository

🐛 Bug Reports

หากพบปัญหาการใช้งาน กรุณาแจ้งได้ที่ Issues ของ GitHub Repository