Spaces:

kavlab
/

urfu-pe

Build error

App Files Files Community

Aleksandr Mulyavin commited on Nov 14, 2023

Commit

c910ab2

unverified ·

2 Parent(s): 092b169 df5edad

Merge pull request #1 from kavlab/mulyavin_aa

Browse files

Files changed (7) hide show

.gitignore +148 -0
README.md +8 -1
mulyavin_aa/__init__.py +0 -0
mulyavin_aa/langdetector.py +34 -0
mulyavin_aa/translator.py +24 -0
requirements.txt +2 -0
run.py +50 -16

.gitignore ADDED Viewed

	@@ -0,0 +1,148 @@

+### Example user template template
+### Example user template
+# IntelliJ project files
+.idea
+*.iml
+out
+gen
+### Python template
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+cover/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+.pybuilder/
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+#   For a library or package, you might want to ignore these files since the code is
+#   intended to run in multiple environments; otherwise, check them in:
+# .python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow
+__pypackages__/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+# pytype static type analyzer
+.pytype/
+# Cython debug symbols
+cython_debug/

README.md CHANGED Viewed

	@@ -1 +1,8 @@
1	- # Программная инженерия. Практическое задание №2

+# Программная инженерия. Практическое задание №2
+## Используемые модели
+- Определение языка текста - [papluca/xlm-roberta-base-language-detection](https://huggingface.co/papluca/xlm-roberta-base-language-detection)
+- Перевод текста с языка Ru на En - [Helsinki-NLP/opus-mt-ru-en](https://huggingface.co/Helsinki-NLP/opus-mt-ru-en)

mulyavin_aa/__init__.py ADDED Viewed

File without changes

mulyavin_aa/langdetector.py ADDED Viewed

	@@ -0,0 +1,34 @@

+# Модуль определения языка
+import transformers.pipelines.base
+from transformers import pipeline
+def load_text_detection_model() -> transformers.pipelines.base.Pipeline:
+    """
+    Подгрузка модели детектора языка
+    :return: Класс пайплайна для модели детектора языка
+    """
+    return pipeline("text-classification", model="papluca/xlm-roberta-base-language-detection")
+def lang_detect(text: str, langdetector: transformers.pipelines.base.Pipeline) -> str | None:
+    """
+    Определение языка для введенного текста
+    :param text: Текст
+    :param langdetector: Пайплайн для модели детектора языка
+    :return: Код определенного языка (если определен)
+    """
+    text_langs = list(langdetector(text, ))
+    if not text_langs:
+        return None
+    for i in range(3):
+        if i > len(text_langs) - 1:
+            break
+        print(text_langs[i])
+        if text_langs[i]['label'] in ['ru', 'en']:
+            return text_langs[i]['label']
+    return None

mulyavin_aa/translator.py ADDED Viewed

	@@ -0,0 +1,24 @@

+# Модуль перевода языка
+import transformers.pipelines.base
+from transformers import pipeline
+def load_text_translator_model() -> transformers.pipelines.base.Pipeline:
+    """
+    Подгрузка модели переводчика языка
+    :return: Класс пайплайна для модели переводчика языка
+    """
+    return pipeline("translation", model=f'Helsinki-NLP/opus-mt-ru-en')
+def translate_to_en(text: str, translator: transformers.pipelines.base.Pipeline) -> str:
+    """
+    Перевод текста с русского на английский
+    :param text: Текст
+    :param translator: Пайплайна для модели переводчика языка
+    :return: Переведенный текст
+    """
+    text = translator(text)[0]['translation_text']
+    print(text)
+    return text

requirements.txt CHANGED Viewed

@@ -2,3 +2,5 @@ datasets==2.14.6
 streamlit==1.28.1
 torch==2.1.0
 transformers==4.35.0

 streamlit==1.28.1
 torch==2.1.0
 transformers==4.35.0
+sentencepiece=0.1.99
+sacremoses=0.1.1

run.py CHANGED Viewed

@@ -1,27 +1,61 @@
-from transformers import pipeline
-from datasets import load_dataset
-import torch
 import streamlit as st
 @st.cache_resource
-def load_speech_model():
-    synthesiser = pipeline("text-to-speech", "microsoft/speecht5_tts")
-    embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-    speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
-    return synthesiser, speaker_embedding
-def speech_elements():
-    synthesiser, speaker_embedding = load_speech_model()
-    text = st.text_area('Enter English text here')
-    st.write(f'You wrote {len(text)} characters.')
-    if st.button('Speech'):
-        speech = synthesiser(text, forward_params={"speaker_embeddings": speaker_embedding})
-        st.audio(speech['audio'], sample_rate=speech['sampling_rate'])
-speech_elements()

 import streamlit as st
+from mulyavin_aa import langdetector
+from mulyavin_aa import translator
+LANG_DETECTOR = "LANG_DETECTOR"
+TRANSLATOR = "TRANSLATOR"
 @st.cache_resource
+def load_models() -> dict:
+    """
+    Получение справочника моделей
+    :return: Справочник моделей
+    """
+    models = dict()
+    models[LANG_DETECTOR] = langdetector.load_text_detection_model()
+    models[TRANSLATOR] = translator.load_text_translator_model()
+    return models
+def main_app():
+    """
+    Основная программа
+    """
+    models = load_models()
+    st.title = 'Домашнее задание'
+    # Оформление заголовка
+    st.header('Домашнее задание', divider='gray')
+    input_text = st.text_area(
+        'Введите текст на русском или английском языке и нажмите кнопку генератора:')
+    if st.button('Генерировать!!!'):
+        # Определение языка
+        text_lang = langdetector.lang_detect(input_text, models[LANG_DETECTOR])
+        if text_lang not in ['ru', 'en']:
+            st.error('Язык текста не может быть определен')
+            return
+        # Перевод языка если не en
+        if text_lang in ['ru']:
+            input_text = translator.translate_to_en(input_text, models[TRANSLATOR])
+        tab1, tab2, tab3 = st.tabs(['Озвученный текст', 'Таб 2', 'Таб 3'])
+        with tab1:
+            st.header("Озвученный текст на английском языке")
+            # st.audio()
+        with tab2:
+            st.header("Таб 2")
+        with tab3:
+            st.header("Таб 3")
+main_app()