Spaces:

PineSearch
/

generateAudio

Paused

App Files Files Community

generateAudio / app.py

SAUL19

Update app.py

c5e2889 over 2 years ago

raw

history blame contribute delete

5.78 kB

	import gradio as gr
	from gradio.inputs import Textbox

	import re
	from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
	from datasets import load_dataset
	import torch
	import soundfile as sf
	import boto3
	from io import BytesIO
	import os
	import botocore
	from time import sleep

	AWS_ACCESS_KEY_ID = os.getenv("AWS_ACCESS_KEY_ID")
	AWS_SECRET_ACCESS_KEY = os.getenv("AWS_SECRET_ACCESS_KEY")
	S3_BUCKET_NAME = os.getenv("BUCKET_NAME")
	FOLDER = 'public/mdx/'

	device = "cuda" if torch.cuda.is_available() else "cpu"
	# load the processor
	processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
	# load the model
	model = SpeechT5ForTextToSpeech.from_pretrained(
	"microsoft/speecht5_tts").to(device)
	# load the vocoder, that is the voice encoder
	vocoder = SpeechT5HifiGan.from_pretrained(
	"microsoft/speecht5_hifigan").to(device)
	# we load this dataset to get the speaker embeddings
	embeddings_dataset = load_dataset(
	"Matthijs/cmu-arctic-xvectors", split="validation")

	# speaker ids from the embeddings dataset
	speakers = {
	'awb': 0, # Scottish male
	'bdl': 1138, # US male
	'clb': 2271, # US female
	'jmk': 3403, # Canadian male
	'ksp': 4535, # Indian male
	'rms': 5667, # US male
	'slt': 6799 # US female
	}


	def generateAudio(text_to_audio, s3_save_as, key_id):

	if AWS_ACCESS_KEY_ID != key_id:
	return "not permition"

	s3_save_as = '-'.join(s3_save_as.split()) + ".wav"

	def cut_text(text, max_tokens=500):
	# Remove non-alphanumeric characters, except periods and commas
	text = re.sub(r"[^\w\s.,]", "", text)

	# Replace multiple spaces with a single space
	text = re.sub(r"\s{2,}", " ", text)

	# Remove line breaks
	text = re.sub(r"\n", " ", text)

	return text

	def save_audio_to_s3(audio):
	try:
	# Create an instance of the S3 client
	s3 = boto3.client('s3',
	aws_access_key_id=AWS_ACCESS_KEY_ID,
	aws_secret_access_key=AWS_SECRET_ACCESS_KEY)

	# Full path of the file in the bucket
	s3_key = "public/" + s3_save_as

	# Upload the audio file to the S3 bucket
	s3.upload_fileobj(audio, S3_BUCKET_NAME, s3_key)
	print("SUCCESS SAVE IN S3 WHERE" + s3_key + " & " + S3_BUCKET_NAME)

	except Exception as err:
	print("Error al guardar")
	print(err)

	def save_text_to_speech(text, speaker=None):
	# Preprocess text and recortar
	text = cut_text(text, max_tokens=500)

	# Divide el texto en segmentos de 30 palabras
	palabras = text.split()
	segmentos = [' '.join(palabras[i:i+30]) for i in range(0, len(palabras), 30)]

	# Generar audio para cada segmento y combinarlos
	audio_segments = []
	for segment in segmentos:
	inputs = processor(text=segment, return_tensors="pt").to(device)
	if speaker is not None:
	speaker_embeddings = torch.tensor(embeddings_dataset[speaker]["xvector"]).unsqueeze(0).to(device)
	else:
	speaker_embeddings = torch.randn((1, 512)).to(device)
	speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
	audio_segments.append(speech)

	combined_audio = torch.cat(audio_segments, dim=0)

	# Crear objeto BytesIO para almacenar el audio
	audio_buffer = BytesIO()
	sf.write(audio_buffer, combined_audio.cpu().numpy(), samplerate=16000, format='WAV')
	audio_buffer.seek(0)

	# Guardar el audio combinado en S3
	save_audio_to_s3(audio_buffer)


	save_text_to_speech(text_to_audio, 2271)
	return s3_save_as


	def check_if_exist(bucket_name, key):

	s3 = boto3.resource('s3',
	aws_access_key_id=AWS_ACCESS_KEY_ID,
	aws_secret_access_key=AWS_SECRET_ACCESS_KEY)

	try:
	s3.Object(bucket_name, key).load()
	except botocore.exceptions.ClientError as e:
	if e.response['Error']['Code'] == "404":
	# The object does not exist.
	return False
	else:
	# Something else has gone wrong.
	raise
	else:
	return True


	def list_s3_files():

	s3_client = boto3.client('s3',
	aws_access_key_id=AWS_ACCESS_KEY_ID,
	aws_secret_access_key=AWS_SECRET_ACCESS_KEY)

	s3 = boto3.resource('s3',
	aws_access_key_id=AWS_ACCESS_KEY_ID,
	aws_secret_access_key=AWS_SECRET_ACCESS_KEY)

	my_bucket = s3.Bucket(S3_BUCKET_NAME)

	for objects in my_bucket.objects.filter(Prefix=FOLDER):

	filename_ext = '%s' % os.path.basename(objects.key)
	filename = os.path.splitext(filename_ext)[0]
	s3audio = 'public/%s.wav' % filename

	if check_if_exist(S3_BUCKET_NAME, s3audio):
	print('Audio %s already exists!' % s3audio)
	else:
	KEY = 'public/mdx/' + filename_ext
	response = s3_client.get_object(Bucket=S3_BUCKET_NAME, Key=KEY)
	content = response['Body'].read().decode('utf-8')

	if (len(content)):
	generateAudio(content, filename, AWS_ACCESS_KEY_ID)
	print("SUCCESS " + filename + ".wap")
	else:
	print("NOT CONTENT:" + filename_ext + ".md")

	sleep(500/1000)


	demo = gr.Blocks()

	with demo:

	text = gr.Textbox()

	bimage = gr.Button("Generate Blog Images for PineSearch!")

	bimage.click(list_s3_files, outputs=text)

	demo.launch()