Spaces:

PineSearch
/

generateAudio

Paused

App Files Files Community

SAUL19 commited on Jun 26, 2023

Commit

fc96cf9

1 Parent(s): ea1deaf

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -59

app.py CHANGED Viewed

@@ -46,83 +46,67 @@ def generateAudio(text_to_audio, s3_save_as, key_id):
     if AWS_ACCESS_KEY_ID != key_id:
         return "not permition"
     s3_save_as = '-'.join(s3_save_as.split()) + ".wav"
     def cut_text(text, max_tokens=500):
         # Remove non-alphanumeric characters, except periods and commas
         text = re.sub(r"[^\w\s.,]", "", text)
         # Replace multiple spaces with a single space
         text = re.sub(r"\s{2,}", " ", text)
         # Remove line breaks
         text = re.sub(r"\n", " ", text)
         return text
     def save_audio_to_s3(audio):
-        # Create an instance of the S3 client
-        s3 = boto3.client('s3',
-                          aws_access_key_id=AWS_ACCESS_KEY_ID,
-                          aws_secret_access_key=AWS_SECRET_ACCESS_KEY)
-        # Full path of the file in the bucket
-        s3_key = "public/" + s3_save_as
-        # Upload the audio file to the S3 bucket
-        s3.upload_fileobj(audio, S3_BUCKET_NAME, s3_key)
     def save_text_to_speech(text, speaker=None):
         # Preprocess text and recortar
         text = cut_text(text, max_tokens=500)
-        # Verificar si el texto tiene menos de 30 palabras
         palabras = text.split()
-        if len(palabras) <= 30:
-            # Generar audio para el texto completo
-            inputs = processor(text=text, return_tensors="pt").to(device)
             if speaker is not None:
-                speaker_embeddings = torch.tensor(
-                    embeddings_dataset[speaker]["xvector"]).unsqueeze(0).to(device)
             else:
                 speaker_embeddings = torch.randn((1, 512)).to(device)
-            speech = model.generate_speech(
-                inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
-            combined_audio = speech
-            # Crear objeto BytesIO para almacenar el audio
-            audio_buffer = BytesIO()
-            sf.write(audio_buffer, combined_audio.cpu().numpy(),
-                     samplerate=16000, format='WAV')
-            audio_buffer.seek(0)
-            # Guardar el audio combinado en S3
-            save_audio_to_s3(audio_buffer)
-        else:
-            # Divide el texto en segmentos de 30 palabras
-            segmentos = [' '.join(palabras[i:i+30])
-                         for i in range(0, len(palabras), 30)]
-            # Generar audio para cada segmento y combinarlos
-            audio_segments = []
-            for segment in segmentos:
-                inputs = processor(
-                    text=segment, return_tensors="pt").to(device)
-                if speaker is not None:
-                    speaker_embeddings = torch.tensor(
-                        embeddings_dataset[speaker]["xvector"]).unsqueeze(0).to(device)
-                else:
-                    speaker_embeddings = torch.randn((1, 512)).to(device)
-                speech = model.generate_speech(
-                    inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
-                audio_segments.append(speech)
-            if len(audio_segments) > 0:
-                combined_audio = torch.cat(audio_segments, dim=0)
-            else:
-                combined_audio = None
     save_text_to_speech(text_to_audio, 2271)
     return s3_save_as
@@ -165,9 +149,6 @@ def list_s3_files():
         filename = os.path.splitext(filename_ext)[0]
         s3audio = 'public/%s.wav' % filename
-        print("GENERATING ------------------")
-        print(filename_ext)
         if check_if_exist(S3_BUCKET_NAME, s3audio):
             print('Audio %s already exists!' % s3audio)
         else:
@@ -175,7 +156,6 @@ def list_s3_files():
             response = s3_client.get_object(Bucket=S3_BUCKET_NAME, Key=KEY)
             content = response['Body'].read().decode('utf-8')
-            print(content)
             if (len(content)):
                 generateAudio(content, filename, AWS_ACCESS_KEY_ID)
                 print("SUCCESS " + filename + ".wap")

     if AWS_ACCESS_KEY_ID != key_id:
         return "not permition"
     s3_save_as = '-'.join(s3_save_as.split()) + ".wav"
     def cut_text(text, max_tokens=500):
         # Remove non-alphanumeric characters, except periods and commas
         text = re.sub(r"[^\w\s.,]", "", text)
         # Replace multiple spaces with a single space
         text = re.sub(r"\s{2,}", " ", text)
         # Remove line breaks
         text = re.sub(r"\n", " ", text)
         return text
     def save_audio_to_s3(audio):
+        try:
+            # Create an instance of the S3 client
+            s3 = boto3.client('s3',
+                              aws_access_key_id=AWS_ACCESS_KEY_ID,
+                              aws_secret_access_key=AWS_SECRET_ACCESS_KEY)
+            # Full path of the file in the bucket
+            s3_key = "public/" + s3_save_as
+            # Upload the audio file to the S3 bucket
+            s3.upload_fileobj(audio, S3_BUCKET_NAME, s3_key)
+        Exception:
+            print("Error al guardar")
     def save_text_to_speech(text, speaker=None):
         # Preprocess text and recortar
         text = cut_text(text, max_tokens=500)
+        # Divide el texto en segmentos de 30 palabras
         palabras = text.split()
+        segmentos = [' '.join(palabras[i:i+30]) for i in range(0, len(palabras), 30)]
+        # Generar audio para cada segmento y combinarlos
+        audio_segments = []
+        for segment in segmentos:
+            inputs = processor(text=segment, return_tensors="pt").to(device)
             if speaker is not None:
+                speaker_embeddings = torch.tensor(embeddings_dataset[speaker]["xvector"]).unsqueeze(0).to(device)
             else:
                 speaker_embeddings = torch.randn((1, 512)).to(device)
+            speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+            audio_segments.append(speech)
+        combined_audio = torch.cat(audio_segments, dim=0)
+        # Crear objeto BytesIO para almacenar el audio
+        audio_buffer = BytesIO()
+        sf.write(audio_buffer, combined_audio.cpu().numpy(), samplerate=16000, format='WAV')
+        audio_buffer.seek(0)
+        # Guardar el audio combinado en S3
+        save_audio_to_s3(audio_buffer)
     save_text_to_speech(text_to_audio, 2271)
     return s3_save_as
         filename = os.path.splitext(filename_ext)[0]
         s3audio = 'public/%s.wav' % filename
         if check_if_exist(S3_BUCKET_NAME, s3audio):
             print('Audio %s already exists!' % s3audio)
         else:
             response = s3_client.get_object(Bucket=S3_BUCKET_NAME, Key=KEY)
             content = response['Body'].read().decode('utf-8')
             if (len(content)):
                 generateAudio(content, filename, AWS_ACCESS_KEY_ID)
                 print("SUCCESS " + filename + ".wap")