F5TTS ASMR Finetune

Fine-tune จาก model_1000000 จาก F5TTS Thai ให้สามารถใช้เสียงกระซิบได้

🎥 วิดีโอสาธิต Demo

📝 รายละเอียด

โมเดลเดิมใช้เสียงอ้างอิง ref voice ที่เป็นเสียงกระซิบแล้วเสียงจะออกมาแปลกๆ น่าจะเป็นเพราะว่า dataset ที่ใช้เทรนไม่มีคนกระซิบพูดให้ฟัง Lol

Dataset ที่ใช้คือ dataset เดิมที่นำไปเปลี่ยนเสียงให้กระซิบแทน ประมาณ 1 ชม. ±

🎯 ผลลัพธ์

ตัวโมเดลใหม่ที่ได้:

ถ้าเปิด EMA จะคล้ายๆโมเดลเดิม
ถ้าปิด EMA จะทำให้เสียงกระซิบได้ดีขึ้น
บางเสียงจาก ref voice ปกติ จะถูกเปลี่ยนเป็นเสียงที่......แหบขึ้น? crispy?

🚀 การใช้งาน

แนะนำ: ให้เอา train.bat กับ finetune gradio.py อันใหม่ในนี้ ไปแทนที่ของ F5TTS Thai เดิม เพราะอันใหม่นี้เพิ่ม option ในการเปิดปิด EMA

⚙️ ค่าที่ตั้งตอน Finetune

Parameter	Value
Epoch	150 (จริงๆผลโอเคตั้งแต่ 10 epoch แรกแล้วมั้ง)
Learning Rate	1e-5
Warm Up	300
Gradient Accumulation	1
Max Gradient Norm	1

📌 หมายเหตุ

ตัวโมเดลไม่ได้ลดขนาด เนื่องจากลดแล้วเหมือนมัน....ไม่เอาค่าจาก optimize ออก เอาที่ใช้ EMA ออกมาแทน? ไม่รู้ ผมไม่รู้ ผม vibe coding EMA คืออะไรเอาจริงๆ ผมยังไม่รู้เลย Lol

💡 Use Case

อยากลอง finetune ให้พูดเสียงใหม่ได้แค่นั้นครับ ส่วนสำเนียง หรือ อื่นๆ ผมยังไม่ได้ลอง บวกกับ ผมยังไม่เคยเห็นใคร finetune เพื่อทำให้เสียงใหม่ดีขึ้น หรือ เปลี่ยนสำเนียงไรงี้เลย ใครมีอะไรแนะนำ ทักมาบอกได้เลยครับ

🙏 ขอบคุณ

VIZINTZOR สำหรับ F5TTS Thai
SWivid สำหรับ F5TTS architecture
Mozilla สำหรับ Common Voice
Gemini สำหรับการ vibe coding

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for williampike/finetune_asmr_f5tts_thai

Base model

SWivid/F5-TTS

Finetuned

VIZINTZOR/F5-TTS-THAI

Finetuned

(1)

this model