F5TTS ASMR Finetune
Fine-tune จาก model_1000000 จาก F5TTS Thai ให้สามารถใช้เสียงกระซิบได้
🎥 วิดีโอสาธิต Demo
📝 รายละเอียด
โมเดลเดิมใช้เสียงอ้างอิง ref voice ที่เป็นเสียงกระซิบแล้วเสียงจะออกมาแปลกๆ น่าจะเป็นเพราะว่า dataset ที่ใช้เทรนไม่มีคนกระซิบพูดให้ฟัง Lol
Dataset ที่ใช้คือ dataset เดิมที่นำไปเปลี่ยนเสียงให้กระซิบแทน ประมาณ 1 ชม. ±
🎯 ผลลัพธ์
ตัวโมเดลใหม่ที่ได้:
- ถ้าเปิด EMA จะคล้ายๆโมเดลเดิม
- ถ้าปิด EMA จะทำให้เสียงกระซิบได้ดีขึ้น
- บางเสียงจาก ref voice ปกติ จะถูกเปลี่ยนเป็นเสียงที่......แหบขึ้น? crispy?
🚀 การใช้งาน
แนะนำ: ให้เอา train.bat กับ finetune gradio.py อันใหม่ในนี้ ไปแทนที่ของ F5TTS Thai เดิม
เพราะอันใหม่นี้เพิ่ม option ในการเปิดปิด EMA
⚙️ ค่าที่ตั้งตอน Finetune
| Parameter | Value |
|---|---|
| Epoch | 150 (จริงๆผลโอเคตั้งแต่ 10 epoch แรกแล้วมั้ง) |
| Learning Rate | 1e-5 |
| Warm Up | 300 |
| Gradient Accumulation | 1 |
| Max Gradient Norm | 1 |
📌 หมายเหตุ
ตัวโมเดลไม่ได้ลดขนาด เนื่องจากลดแล้วเหมือนมัน....ไม่เอาค่าจาก optimize ออก เอาที่ใช้ EMA ออกมาแทน? ไม่รู้ ผมไม่รู้ ผม vibe coding EMA คืออะไรเอาจริงๆ ผมยังไม่รู้เลย Lol
💡 Use Case
อยากลอง finetune ให้พูดเสียงใหม่ได้แค่นั้นครับ ส่วนสำเนียง หรือ อื่นๆ ผมยังไม่ได้ลอง บวกกับ ผมยังไม่เคยเห็นใคร finetune เพื่อทำให้เสียงใหม่ดีขึ้น หรือ เปลี่ยนสำเนียงไรงี้เลย ใครมีอะไรแนะนำ ทักมาบอกได้เลยครับ
🙏 ขอบคุณ
- VIZINTZOR สำหรับ F5TTS Thai
- SWivid สำหรับ F5TTS architecture
- Mozilla สำหรับ Common Voice
- Gemini สำหรับการ vibe coding