Spaces:

kavlab
/

urfu-pe

Build error

App Files Files Community

Kuznetsov AV commited on Nov 14, 2023

Commit

6feeeab

1 Parent(s): c910ab2

text-to-speech module completed

Browse files

Files changed (6) hide show

kuznetsov_av/__init__.py +0 -0
kuznetsov_av/kuznetsov_av.py +0 -23
kuznetsov_av/requirements.txt +0 -4
kuznetsov_av/text_to_speech_converter.py +41 -0
requirements.txt +3 -2
run.py +9 -1

kuznetsov_av/__init__.py ADDED Viewed

File without changes

kuznetsov_av/kuznetsov_av.py DELETED Viewed

@@ -1,23 +0,0 @@
-from transformers import pipeline
-from datasets import load_dataset
-import torch
-import streamlit as st
-@st.cache_resource
-def load_model():
-    synthesiser = pipeline("text-to-speech", "microsoft/speecht5_tts")
-    embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-    speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
-    return synthesiser, speaker_embedding
-synthesiser, speaker_embedding = load_model()
-text = st.text_area('Enter English text here')
-st.write(f'You wrote {len(text)} characters.')
-if st.button('Speech'):
-    speech = synthesiser(text, forward_params={"speaker_embeddings": speaker_embedding})
-    st.audio(speech['audio'], sample_rate=speech['sampling_rate'])

kuznetsov_av/requirements.txt DELETED Viewed

@@ -1,4 +0,0 @@
-datasets==2.14.6
-streamlit==1.28.1
-torch==2.1.0
-transformers==4.35.0

kuznetsov_av/text_to_speech_converter.py ADDED Viewed

	@@ -0,0 +1,41 @@

+from transformers import pipeline
+import transformers.pipelines.text_to_audio
+from datasets import load_dataset
+import datasets.arrow_dataset
+import torch
+import numpy as np
+def load_model() -> transformers.pipelines.text_to_audio.TextToAudioPipeline:
+    """
+    Подгрузка модели преобразования текста в речь
+    :return: class TextToAudioPipeline
+    """
+    return pipeline("text-to-speech", "microsoft/speecht5_tts")
+def load_speaker_dataset() -> datasets.arrow_dataset.Dataset:
+    """
+    Подгрузка датасета для озвучивания текста
+    :return: class Dataset
+    """
+    return load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+def text_to_speech(
+        text: str,
+        synthesiser: transformers.pipelines.text_to_audio.TextToAudioPipeline,
+        embeddings_dataset: datasets.arrow_dataset.Dataset
+        ) -> (np.ndarray, int):
+    """
+    Преобразование текста в речь
+    :param text: Текст
+    :param synthesiser: pipeline для озвучивания текста
+    :param embeddings_dataset: dataset для озвучивания текста
+    :return: tuple (audio data, sampling rate)
+    """
+    speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
+    speech = synthesiser(text, forward_params={"speaker_embeddings": speaker_embedding})
+    return speech['audio'], speech['sampling_rate']

requirements.txt CHANGED Viewed

@@ -1,6 +1,7 @@
 datasets==2.14.6
 streamlit==1.28.1
 torch==2.1.0
 transformers==4.35.0
-sentencepiece=0.1.99
-sacremoses=0.1.1

 datasets==2.14.6
+numpy==1.26.2
 streamlit==1.28.1
 torch==2.1.0
 transformers==4.35.0
+sentencepiece==0.1.99
+sacremoses==0.1.1

run.py CHANGED Viewed

@@ -2,9 +2,12 @@ import streamlit as st
 from mulyavin_aa import langdetector
 from mulyavin_aa import translator
 LANG_DETECTOR = "LANG_DETECTOR"
 TRANSLATOR = "TRANSLATOR"
 @st.cache_resource
@@ -16,6 +19,8 @@ def load_models() -> dict:
     models = dict()
     models[LANG_DETECTOR] = langdetector.load_text_detection_model()
     models[TRANSLATOR] = translator.load_text_translator_model()
     return models
@@ -49,7 +54,10 @@ def main_app():
         tab1, tab2, tab3 = st.tabs(['Озвученный текст', 'Таб 2', 'Таб 3'])
         with tab1:
             st.header("Озвученный текст на английском языке")
-            # st.audio()
         with tab2:
             st.header("Таб 2")

 from mulyavin_aa import langdetector
 from mulyavin_aa import translator
+from kuznetsov_av import text_to_speech_converter
 LANG_DETECTOR = "LANG_DETECTOR"
 TRANSLATOR = "TRANSLATOR"
+TEXT_TO_SPEECH = "TEXT_TO_SPEECH"
+SPEAKER_DATASET = "SPEAKER_DATASET"
 @st.cache_resource
     models = dict()
     models[LANG_DETECTOR] = langdetector.load_text_detection_model()
     models[TRANSLATOR] = translator.load_text_translator_model()
+    models[TEXT_TO_SPEECH] = text_to_speech_converter.load_model()
+    models[SPEAKER_DATASET] = text_to_speech_converter.load_speaker_dataset()
     return models
         tab1, tab2, tab3 = st.tabs(['Озвученный текст', 'Таб 2', 'Таб 3'])
         with tab1:
             st.header("Озвученный текст на английском языке")
+            # Преобразование текста в речь
+            audio_data, sampling_rate = text_to_speech_converter.text_to_speech(
+                input_text, models[TEXT_TO_SPEECH], models[SPEAKER_DATASET])
+            st.audio(data=audio_data, sample_rate=sampling_rate)
         with tab2:
             st.header("Таб 2")