F5TTS ASMR Finetune

Fine-tune จาก model_1000000 จาก F5TTS Thai ให้สามารถใช้เสียงกระซิบได้

🎥 วิดีโอสาธิต Demo

Demo Video

📝 รายละเอียด

โมเดลเดิมใช้เสียงอ้างอิง ref voice ที่เป็นเสียงกระซิบแล้วเสียงจะออกมาแปลกๆ น่าจะเป็นเพราะว่า dataset ที่ใช้เทรนไม่มีคนกระซิบพูดให้ฟัง Lol

Dataset ที่ใช้คือ dataset เดิมที่นำไปเปลี่ยนเสียงให้กระซิบแทน ประมาณ 1 ชม. ±

🎯 ผลลัพธ์

ตัวโมเดลใหม่ที่ได้:

  • ถ้าเปิด EMA จะคล้ายๆโมเดลเดิม
  • ถ้าปิด EMA จะทำให้เสียงกระซิบได้ดีขึ้น
  • บางเสียงจาก ref voice ปกติ จะถูกเปลี่ยนเป็นเสียงที่......แหบขึ้น? crispy?

🚀 การใช้งาน

แนะนำ: ให้เอา train.bat กับ finetune gradio.py อันใหม่ในนี้ ไปแทนที่ของ F5TTS Thai เดิม เพราะอันใหม่นี้เพิ่ม option ในการเปิดปิด EMA

⚙️ ค่าที่ตั้งตอน Finetune

Parameter Value
Epoch 150 (จริงๆผลโอเคตั้งแต่ 10 epoch แรกแล้วมั้ง)
Learning Rate 1e-5
Warm Up 300
Gradient Accumulation 1
Max Gradient Norm 1

📌 หมายเหตุ

ตัวโมเดลไม่ได้ลดขนาด เนื่องจากลดแล้วเหมือนมัน....ไม่เอาค่าจาก optimize ออก เอาที่ใช้ EMA ออกมาแทน? ไม่รู้ ผมไม่รู้ ผม vibe coding EMA คืออะไรเอาจริงๆ ผมยังไม่รู้เลย Lol

💡 Use Case

อยากลอง finetune ให้พูดเสียงใหม่ได้แค่นั้นครับ ส่วนสำเนียง หรือ อื่นๆ ผมยังไม่ได้ลอง บวกกับ ผมยังไม่เคยเห็นใคร finetune เพื่อทำให้เสียงใหม่ดีขึ้น หรือ เปลี่ยนสำเนียงไรงี้เลย ใครมีอะไรแนะนำ ทักมาบอกได้เลยครับ

🙏 ขอบคุณ

  • VIZINTZOR สำหรับ F5TTS Thai
  • SWivid สำหรับ F5TTS architecture
  • Mozilla สำหรับ Common Voice
  • Gemini สำหรับการ vibe coding
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for williampike/finetune_asmr_f5tts_thai

Base model

SWivid/F5-TTS
Finetuned
(1)
this model