readyfinal

Sleeping

App Files Files Community

tester1hf commited on Feb 19, 2025

Commit

01769ef

verified ·

1 Parent(s): 0c396ff

Update app.py

Browse files

Files changed (1) hide show

app.py +85 -32

app.py CHANGED Viewed

@@ -6,11 +6,11 @@ import soundfile as sf
 from openvoice_cli.__main__ import tune_one
 import os
 import uuid
-import zipfile
 import logging
 import numpy as np
 from concurrent.futures import ThreadPoolExecutor
 import threading
 # Configure logging
 logging.basicConfig(level=logging.INFO)
@@ -22,7 +22,6 @@ client = Client()
 # Silero TTS configuration
 language = 'ru'
 model_id = 'ru_v3'
-speaker = 'baya'  # Russian voice
 sample_rate = 48000  # Sample rate for Russian model
 device = torch.device('cpu')
@@ -34,6 +33,12 @@ model, _ = torch.hub.load(repo_or_dir='snakers4/silero-models',
 model.to(device)
 tts_lock = threading.Lock()  # Lock for TTS model thread safety
 def get_task(prompt):
     return f'''Ты генерируешь скрипт продолжения прямой линии с Владимиром Владимировичем Путиным. Вопросы телезрителей передаёт Киселёв - он максимально подобострастен, поддерживает Путина и Россию. Пиши в духе пропаганды пророссийской. Каждая реплика - не менее 150-200 символов. Английские названия при необходимости всегда транскрибируй кириллицей. Числительные также записывай кириллицей. Пиши в стиле кремлёвской пропаганды. Пиши в стереотипном стиле. Киселёв задаёт вопросы, обрашается к Путину как "Владимир Владимирович" или "Господин Президент". Путин отвечает. Всё максимально аутентично. Фразы Киселёва: {{"Киселёв":"фраза"}} Фразы Путина: {{"Путин":"фраза"}} Ответ дай в формате JSON без дополнительных символов: [{{"Киселёв":"фраза"}}, {{"Путин":"фраза"}} . . . ].
 Вопрос от пользователя поступил: "{prompt}"'''
@@ -82,6 +87,10 @@ def generate_audio(text, speaker_name):
     """Generate audio with thread-safe splitting and synthesis"""
     logger.info(f"Generating audio for {speaker_name} ({len(text)} chars)")
     chunks = split_text(text)
     audio_arrays = []
@@ -89,7 +98,7 @@ def generate_audio(text, speaker_name):
         with tts_lock:  # Ensure thread-safe TTS operations
             audio = model.apply_tts(
                 ssml_text=f"<speak>{chunk}</speak>",
-                speaker=speaker,
                 sample_rate=sample_rate,
                 put_accent=True,
                 put_yo=True
@@ -149,39 +158,83 @@ def process_line(args):
             if f and os.path.exists(f):
                 os.remove(f)
 def process_prompt(prompt):
     """Main processing pipeline with parallel execution"""
     logger.info(f"Starting processing for prompt: {prompt}")
-    # Generate script
-    script = generate_text(prompt)
-    script_data = json.loads(script)
-    # Prepare tasks for parallel processing
-    tasks = [(idx, speaker, text)
-             for idx, item in enumerate(script_data)
-             for speaker, text in item.items()]
-    # Process lines in parallel
-    audio_files = []
-    with ThreadPoolExecutor(max_workers=4) as executor:  # Optimal for CPU-bound tasks
-        futures = [executor.submit(process_line, task) for task in tasks]
-        for future in futures:
-            result = future.result()
-            if result:
-                audio_files.append(result)
-    # Package results
-    zip_filename = "output_audio_files.zip"
-    with zipfile.ZipFile(zip_filename, 'w') as zipf:
         for file in audio_files:
-            zipf.write(file)
-    # Cleanup working files
-    for file in audio_files:
-        os.remove(file)
-    return zip_filename
 # Gradio interface
 examples = [
@@ -201,7 +254,7 @@ with gr.Blocks() as demo:
         )
     generate_btn = gr.Button("Generate", variant="primary")
-    output = gr.File(label="Generated Audio Files")
     gr.Examples(
         examples=examples,

 from openvoice_cli.__main__ import tune_one
 import os
 import uuid
 import logging
 import numpy as np
 from concurrent.futures import ThreadPoolExecutor
 import threading
+from moviepy.editor import AudioFileClip, VideoFileClip, concatenate_videoclips
 # Configure logging
 logging.basicConfig(level=logging.INFO)
 # Silero TTS configuration
 language = 'ru'
 model_id = 'ru_v3'
 sample_rate = 48000  # Sample rate for Russian model
 device = torch.device('cpu')
 model.to(device)
 tts_lock = threading.Lock()  # Lock for TTS model thread safety
+# GIF mappings
+GIF_MAPPING = {
+    "Киселёв": "kisel.gif",
+    "Путин": "putin.gif"
+}
 def get_task(prompt):
     return f'''Ты генерируешь скрипт продолжения прямой линии с Владимиром Владимировичем Путиным. Вопросы телезрителей передаёт Киселёв - он максимально подобострастен, поддерживает Путина и Россию. Пиши в духе пропаганды пророссийской. Каждая реплика - не менее 150-200 символов. Английские названия при необходимости всегда транскрибируй кириллицей. Числительные также записывай кириллицей. Пиши в стиле кремлёвской пропаганды. Пиши в стереотипном стиле. Киселёв задаёт вопросы, обрашается к Путину как "Владимир Владимирович" или "Господин Президент". Путин отвечает. Всё максимально аутентично. Фразы Киселёва: {{"Киселёв":"фраза"}} Фразы Путина: {{"Путин":"фраза"}} Ответ дай в формате JSON без дополнительных символов: [{{"Киселёв":"фраза"}}, {{"Путин":"фраза"}} . . . ].
 Вопрос от пользователя поступил: "{prompt}"'''
     """Generate audio with thread-safe splitting and synthesis"""
     logger.info(f"Generating audio for {speaker_name} ({len(text)} chars)")
+    # Switch between speakers
+    silero_speaker = 'aidar' if speaker_name == 'Киселёв' else 'baya'
+    logger.debug(f"Using Silero speaker: {silero_speaker} for {speaker_name}")
     chunks = split_text(text)
     audio_arrays = []
         with tts_lock:  # Ensure thread-safe TTS operations
             audio = model.apply_tts(
                 ssml_text=f"<speak>{chunk}</speak>",
+                speaker=silero_speaker,
                 sample_rate=sample_rate,
                 put_accent=True,
                 put_yo=True
             if f and os.path.exists(f):
                 os.remove(f)
+def create_video(audio_files):
+    """Create final video from processed audio files"""
+    logger.info("Starting video creation process")
+    try:
+        # Sort audio files by their numerical index
+        audio_files.sort(key=lambda x: int(x.split('t')[1].split('-')[0]))
+        clips = []
+        for audio_file in audio_files:
+            speaker = audio_file.split('-')[1].split('.')[0]
+            gif_file = GIF_MAPPING.get(speaker)
+            if not gif_file or not os.path.exists(gif_file):
+                logger.error(f"Missing GIF file for {speaker}")
+                continue
+            logger.info(f"Processing {audio_file} with {gif_file}")
+            audio_clip = AudioFileClip(audio_file)
+            gif_clip = VideoFileClip(gif_file).loop(duration=audio_clip.duration)
+            gif_clip = gif_clip.set_audio(audio_clip)
+            clips.append(gif_clip)
+        if not clips:
+            raise ValueError("No valid video clips created")
+        final_video = concatenate_videoclips(clips)
+        video_filename = f"output_{uuid.uuid4().hex[:8]}.mp4"
+        final_video.write_videofile(video_filename, codec='libx264', audio_codec='aac', logger='bar' if logger.level == logging.DEBUG else None)
+        logger.info(f"Successfully created video: {video_filename}")
+        return video_filename
+    except Exception as e:
+        logger.error(f"Video creation failed: {str(e)}", exc_info=True)
+        raise
 def process_prompt(prompt):
     """Main processing pipeline with parallel execution"""
     logger.info(f"Starting processing for prompt: {prompt}")
+    try:
+        # Generate script
+        script = generate_text(prompt)
+        script_data = json.loads(script)
+        # Prepare tasks for parallel processing
+        tasks = [(idx, speaker, text)
+                 for idx, item in enumerate(script_data)
+                 for speaker, text in item.items()]
+        # Process lines in parallel
+        audio_files = []
+        with ThreadPoolExecutor(max_workers=4) as executor:
+            futures = [executor.submit(process_line, task) for task in tasks]
+            for future in futures:
+                result = future.result()
+                if result:
+                    audio_files.append(result)
+        # Create final video
+        if not audio_files:
+            raise ValueError("No audio files generated")
+        video_filename = create_video(audio_files)
+        return video_filename
+    except Exception as e:
+        logger.error(f"Processing failed: {str(e)}", exc_info=True)
+        return None
+    finally:
+        # Cleanup audio files after video creation
         for file in audio_files:
+            if os.path.exists(file):
+                os.remove(file)
 # Gradio interface
 examples = [
         )
     generate_btn = gr.Button("Generate", variant="primary")
+    output = gr.Video(label="Generated Video", format="mp4")
     gr.Examples(
         examples=examples,