sarpba
/

F5-TTS-Hun

Model card Files Files and versions

F5-TTS-Hun / README.md

sarpba's picture

Update README.md

f8e7edc verified 9 months ago

|

history blame contribute delete

3 kB

	---
	license: cc-by-nc-4.0
	language:
	- hu
	base_model:
	- SWivid/F5-TTS
	---

	2025.03.26.

	Már feltöltve a legújabb modellverzió [sarpba/F5-TTS_V1_hun](https://huggingface.co/sarpba/F5-TTS_V1_hun)

	2025.01.27.
	v5 modell egy tisztított hangadatbázisra építve újra finomhangoltam a modellt..

	V5 teszt:
	Petőfi Sándor: Anyám tyúkja
	<audio controls>
	<source src="https://huggingface.co/sarpba/F5-TTS-Hun/resolve/main/hun_v5/ej_mi_a_k%C5%91_v5_seed_555_speed_1.5.wav" type="audio/wav">
	Your browser does not support the audio element.
	</audio>

	Az alap minta amivel generáltam, mint látszik, nem magyar nyelvű (Word of Warcraft - Male Orc):
	ref_text (fonetikusan megadva): "fókosz sztratedzsi vájlensz"
	<audio controls>
	<source src="https://huggingface.co/sarpba/F5-TTS-Hun/resolve/main/hun_v5/VO_92_Proto_Primus_09_M.ogg" type="audio/ogg">
	Your browser does not support the audio element.
	</audio>

	V5+ teszt:
	Petőfi Sándor: A puszta, télen
	<audio controls>
	<source src="https://huggingface.co/sarpba/F5-TTS-Hun/resolve/main/hun_v5/A%20puszta%20t%C3%A9len.wav" type="audio/wav">
	Your browser does not support the audio element.
	</audio>


	Update:
	v4 és v5 esetében szükséges használni a hozzájuk tartozó vocab filet is, anélkül csak haladzsát kapsz...

	Írtam egy kis scriptet, amivel könyebb futtatni a finetuningolt egyedi vocab fileal rendelkező modelleket. A script tömeges filefeldolgozásra készült és tartalmaz egy normalizáló réteget ami kijavítja a modell hibáinak egy jó részét a bemeneti szöveg igazításával. Kimondja a számokat, kicseréli az előzetesen a csv fileokban megadott szavakat a fonetikus változatára.
	https://github.com/sarpba/F5-TTS_scripts

	Tippek a használathoz:
	- A referencia hang maximum 15 sec legyen, inkább rövidebb, de semmiképp sem hoszabb. A hoszabb referencia hang torzulásokat okoz a generálás közben. Már pár másodperc is elegendő, hogy a modell felvegye a referencia hangtónusát. A hoszabb hang a beszéd ritmkájának az átvételében segít.
	- A "berregő" hangok elkerülése végett a referencia audió elején legyen 0,5-1 sec közti csendes szakasz.
	- Ha az első szót/szavakat nem ejti ki a modell akkor próbáj meg a gen_text elejére "..." tenni
	- ha hoszab szünetet akasz a generált szövegben, többnyire egy "," vagy "..." segít kialakítani a hoszabb csendes szakaszt

	Jelenleg az alábbi módon működik(2025-03-21):
	Ha van korábbi telepített anakonda környezetetd akkor töröld az anaconda3/envs/f5-tts mappát elötte
	```
	conda create -n f5-tts python=3.10
	conda activate f5-tts
	pip install torch==2.6.0+cu124 torchaudio==2.6.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124
	pip install f5-tts
	```
	a garadio felölet indítása
	```
	f5-tts_infer_gradio
	```

	costom modell:

	hf://sarpba/F5-TTS-Hun/hun_v5/model_250000_quant.pt

	hf://sarpba/F5-TTS-Hun/hun_v5/vocab.txt

	Az F5-TTs_v1 angol finomgangolása hamarosan érkezik, kb még 1-1.5 hét.