Spaces:

HusseinBashir
/

Somali_tts

Runtime error

App Files Files Community

Somali_tts / app.py

HusseinBashir

Update app.py

678b81f verified 7 months ago

raw

history blame

3.45 kB

	from fastapi import FastAPI, Request
	from fastapi.responses import FileResponse
	import torch
	import numpy as np
	import scipy.io.wavfile
	from transformers import VitsModel, AutoTokenizer
	import re

	app = FastAPI()

	# Load your model
	model = VitsModel.from_pretrained("Somali-tts/somali_tts_model")
	tokenizer = AutoTokenizer.from_pretrained("saleolow/somali-mms-tts")
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	model.to(device)
	model.eval()

	# Number conversion (keep your existing number_words + number_to_words)
	number_words = {
	0: "eber", 1: "koow", 2: "labo", 3: "seddex", 4: "afar", 5: "shan",
	6: "lix", 7: "todobo", 8: "sideed", 9: "sagaal", 10: "toban",
	11: "toban iyo koow", 12: "toban iyo labo", 13: "toban iyo seddex",
	14: "toban iyo afar", 15: "toban iyo shan", 16: "toban iyo lix",
	17: "toban iyo todobo", 18: "toban iyo sideed", 19: "toban iyo sagaal",
	20: "labaatan", 30: "sodon", 40: "afartan", 50: "konton",
	60: "lixdan", 70: "todobaatan", 80: "sideetan", 90: "sagaashan",
	100: "boqol", 1000: "kun"
	}

	def number_to_words(number):
	number = int(number)
	if number < 20:
	return number_words[number]
	elif number < 100:
	tens, unit = divmod(number, 10)
	return number_words[tens * 10] + (" iyo " + number_words[unit] if unit else "")
	elif number < 1000:
	hundreds, remainder = divmod(number, 100)
	part = (number_words[hundreds] + " boqol") if hundreds > 1 else "boqol"
	if remainder:
	part += " iyo " + number_to_words(remainder)
	return part
	elif number < 1000000:
	thousands, remainder = divmod(number, 1000)
	words = []
	if thousands == 1:
	words.append("kun")
	else:
	words.append(number_to_words(thousands) + " kun")
	if remainder >= 100:
	hundreds, rem2 = divmod(remainder, 100)
	if hundreds:
	boqol_text = (number_words[hundreds] + " boqol") if hundreds > 1 else "boqol"
	words.append(boqol_text)
	if rem2:
	words.append("iyo " + number_to_words(rem2))
	elif remainder:
	words.append("iyo " + number_to_words(remainder))
	return " ".join(words)
	elif number < 1000000000:
	millions, remainder = divmod(number, 1000000)
	words = []
	if millions == 1:
	words.append("milyan")
	else:
	words.append(number_to_words(millions) + " milyan")
	if remainder:
	words.append(number_to_words(remainder))
	return " ".join(words)
	else:
	return str(number)

	def normalize_text(text):
	numbers = re.findall(r'\d+', text)
	for num in numbers:
	text = text.replace(num, number_to_words(num))
	text = text.replace("KH", "qa").replace("Z", "S")
	text = text.replace("SH", "SHa'a").replace("DH", "Dha'a")
	text = text.replace("ZamZam", "SamSam")
	return text

	@app.post("/tts")
	async def tts(request: Request):
	data = await request.json()
	text = normalize_text(data["text"])
	inputs = tokenizer(text, return_tensors="pt").to(device)
	with torch.no_grad():
	waveform = model(**inputs).waveform.squeeze().cpu().numpy()
	filename = "output.wav"
	scipy.io.wavfile.write(filename, rate=model.config.sampling_rate, data=(waveform * 32767).astype(np.int16))
	return FileResponse(filename, media_type="audio/wav")