Spaces:

Altnbek
/

translate_audio_eng_ru

Runtime error

App Files Files Community

Altnbek commited on Jan 10

Commit

30e4e32

verified ·

1 Parent(s): c093dec

Upload 2 files

Browse files

Files changed (2) hide show

app.py +172 -0
requirements.txt +13 -0

app.py ADDED Viewed

	@@ -0,0 +1,172 @@

+# app.py - Переводчик аудио (Английский -> Русский) с качественным TTS
+import torch
+import gradio as gr
+import numpy as np
+import soundfile as sf
+import librosa
+import tempfile
+import os
+from transformers import (
+    WhisperProcessor,
+    WhisperForConditionalGeneration,
+    pipeline  # Для модели перевода
+)
+print("🔄 Загружаю модели...")
+# === 1. WHISPER: ТРАНСКРИПЦИЯ АНГЛИЙСКОЙ РЕЧИ ===
+print("1. Загружаю Whisper для транскрипции...")
+whisper_processor = WhisperProcessor.from_pretrained("openai/whisper-small")
+whisper_model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")
+whisper_model.config.forced_decoder_ids = whisper_processor.get_decoder_prompt_ids(
+    language="english",
+    task="transcribe"
+)
+# === 2. МОДЕЛЬ ПЕРЕВОДА: АНГЛИЙСКИЙ -> РУССКИЙ ===
+print("2. Загружаю модель перевода Helsinki-NLP/opus-mt-en-ru...")
+translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-ru")
+print("✅ Все модели загружены!")
+def translate_english_audio(audio_file):
+    """Основная функция: транскрибирует английское аудио и переводит текст"""
+    try:
+        if audio_file is None:
+            return None, "Загрузите аудиофайл"
+        print("\n" + "="*50)
+        print("🎤 Начинаю обработку...")
+        # ШАГ 1: Транскрибируем аудио в английский текст
+        print("1. Транскрибирую аудио (Whisper)...")
+        audio_data, sample_rate = sf.read(audio_file)
+        if len(audio_data.shape) > 1:
+            audio_data = audio_data.mean(axis=1)
+        if sample_rate != 16000:
+            audio_data = librosa.resample(audio_data, orig_sr=sample_rate, target_sr=16000)
+            sample_rate = 16000
+        input_features = whisper_processor(
+            audio_data,
+            sampling_rate=sample_rate,
+            return_tensors="pt"
+        ).input_features
+        with torch.no_grad():
+            predicted_ids = whisper_model.generate(
+                input_features,
+                language="english",
+                task="transcribe",
+                max_length=448
+            )
+        english_text = whisper_processor.batch_decode(predicted_ids, skip_special_tokens=True)[0].strip()
+        print(f"   Английский текст: '{english_text}'")
+        if not english_text:
+            return None, "Не удалось распознать речь"
+        # ШАГ 2: Переводим текст на русский
+        print("2. Перевожу текст (opus-mt-en-ru)...")
+        translation_result = translator(english_text[:512])
+        russian_text = translation_result[0]['translation_text'].strip()
+        print(f"   Русский текст: '{russian_text}'")
+        if not russian_text:
+            return None, "Ошибка перевода"
+        # ШАГ 3: Синтезируем русскую речь с помощью Silero TTS
+        print("3. Синтезирую русскую речь (Silero TTS)...")
+        # Загружаем модель Silero
+        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+        model, example_text = torch.hub.load(repo_or_dir='snakers4/silero-models',
+                                             model='silero_tts',
+                                             language='ru',
+                                             speaker='ru_v3')
+        model.to(device)
+        # Выбираем голос (можно изменить: aidar, baya, kseniya, xenia, random)
+        speaker = 'aidar'
+        # Генерируем речь
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
+            audio_path = f.name
+            model.save_wav(text=russian_text,
+                          speaker=speaker,
+                          sample_rate=48000,
+                          audio_path=audio_path)
+        print("✅ Обработка завершена!")
+        print("="*50)
+        # Возвращаем путь к аудиофайлу и переведённый текст
+        return audio_path, f"EN: {english_text}\n\nRU: {russian_text}"
+    except Exception as e:
+        print(f"❌ Ошибка: {str(e)}")
+        import traceback
+        traceback.print_exc()
+        return None, f"Ошибка: {str(e)}"
+# === ИНТЕРФЕЙС GRADIO ===
+print("Создаю интерфейс...")
+with gr.Blocks(title="🎙️ Переводчик аудио EN->RU", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 🎙️ Переводчик аудио (Англи��ский → Русский)")
+    gr.Markdown("Загрузите аудио с английской речью → Получите перевод на русском с качественным синтезом речи")
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(
+                label="🎤 Загрузите аудио на английском",
+                type="filepath",
+                sources=["upload"]
+            )
+            process_btn = gr.Button(
+                "🚀 Перевести аудио",
+                variant="primary",
+                size="lg"
+            )
+        with gr.Column():
+            audio_output = gr.Audio(
+                label="🔊 Результат на русском (Silero TTS)",
+                type="filepath"
+            )
+            text_output = gr.Textbox(
+                label="📝 Текст перевода",
+                lines=5,
+                interactive=False
+            )
+    # Информация
+    gr.Markdown("---")
+    gr.Markdown("""
+    ### 🔧 Технологии:
+    - **Распознавание речи:** Whisper (OpenAI)
+    - **Перевод текста:** Helsinki-NLP/opus-mt-en-ru
+    - **Синтез речи:** Silero TTS (высокое качество для русского)
+    ### 💡 Советы:
+    - Используйте аудио с чёткой английской речью
+    - Оптимальная длина: 5-30 секунд
+    - Поддерживаемые форматы: WAV, MP3, FLAC
+    """)
+    # Обработчик
+    process_btn.click(
+        fn=translate_english_audio,
+        inputs=[audio_input],
+        outputs=[audio_output, text_output]
+    )
+# === ЗАПУСК ===
+print("Запускаю приложение...")
+try:
+    demo.launch(debug=True, share=True)
+except Exception as e:
+    print(f"Ошибка при запуске: {e}")
+    demo.launch(debug=True, share=False)

requirements.txt ADDED Viewed

	@@ -0,0 +1,13 @@

+# Основные библиотеки
+torch>=2.0.0
+torchaudio>=2.0.0
+gradio>=4.0.0
+# Обработка аудио и ML
+transformers>=4.30.0
+soundfile>=0.12.0
+librosa>=0.10.0
+numpy>=1.21.0
+# Для Silero TTS
+gdown>=4.7.0  # Может потребоваться для загрузки моделей