Spaces:

Opera8
/

Geminidub1

Sleeping

App Files Files Community

Opera8 commited on Feb 23

Commit

5d44f84

verified ·

1 Parent(s): ada416e

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -35

app.py CHANGED Viewed

@@ -15,7 +15,6 @@ from google.genai import types
 # ==========================================
 def download_youtube_video(url, output_path):
-    """دانلود ویدیو از یوتیوب"""
     ydl_opts = {
         'format': 'bestvideo[ext=mp4]+bestaudio[ext=m4a]/best[ext=mp4]/best',
         'outtmpl': output_path,
@@ -27,7 +26,6 @@ def download_youtube_video(url, output_path):
     return output_path
 def extract_audio_from_video(video_path, audio_path):
-    """استخراج صدای اصلی از ویدیو برای ارسال به جیمینای"""
     command = [
         'ffmpeg', '-i', video_path,
         '-vn', '-acodec', 'mp3', '-ar', '16000', '-ac', '1',
@@ -37,7 +35,6 @@ def extract_audio_from_video(video_path, audio_path):
     return audio_path
 def get_video_duration(video_path):
-    """دریافت زمان کل ویدیو"""
     result = subprocess.run([
         'ffprobe', '-v', 'error', '-show_entries', 'format=duration',
         '-of', 'default=noprint_wrappers=1:nokey=1', video_path
@@ -45,7 +42,6 @@ def get_video_duration(video_path):
     return float(result.stdout.strip())
 def adjust_audio_speed_ffmpeg(input_wav, output_wav, target_duration):
-    """تنظیم دقیق سرعت فایل صوتی با استفاده از فیلتر atempo در ffmpeg برای سینک بودن با لب و دهان"""
     try:
         audio = AudioSegment.from_file(input_wav)
         original_duration = len(audio) / 1000.0
@@ -56,8 +52,6 @@ def adjust_audio_speed_ffmpeg(input_wav, output_wav, target_duration):
         speed_factor = original_duration / target_duration
-        # محدود کردن سرعت بین 0.5 تا 2.0 (محدودیت پیش‌فرض atempo)
-        # اگر نیاز به سرعت بیشتر/کمتر باشد، فیلترها را زنجیره‌ای می‌کنیم
         atempo_filters = []
         current_factor = speed_factor
@@ -85,7 +79,6 @@ def adjust_audio_speed_ffmpeg(input_wav, output_wav, target_duration):
         subprocess.run(command, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL, check=True)
     except Exception as e:
         print(f"Error in speed adjustment: {e}")
-        # در صورت خطا، فایل اصلی را کپی کن تا پروسه متوقف نشود
         shutil.copy(input_wav, output_wav)
 # ==========================================
@@ -102,7 +95,6 @@ def process_dubbing(api_key, video_file, youtube_url, target_lang, progress=gr.P
     temp_dir = tempfile.mkdtemp()
     try:
-        # مقداردهی کلاینت جدید جیمینای
         client = genai.Client(api_key=api_key)
         video_path = os.path.join(temp_dir, "input_video.mp4")
@@ -114,7 +106,6 @@ def process_dubbing(api_key, video_file, youtube_url, target_lang, progress=gr.P
         if youtube_url:
             download_youtube_video(youtube_url, video_path)
         else:
-            # رفع خطای Gradio: دریافت مسیر فایل از String
             source_path = video_file.name if hasattr(video_file, 'name') else str(video_file)
             shutil.copy(source_path, video_path)
@@ -124,11 +115,10 @@ def process_dubbing(api_key, video_file, youtube_url, target_lang, progress=gr.P
         progress(0.1, desc="در حال استخراج صدای ویدیو...")
         extract_audio_from_video(video_path, audio_path)
-        # 3. ارسال به Gemini 2.5 Flash برای استخراج و ترجمه (تولید JSON)
-        progress(0.2, desc=f"در حال پردازش هوش مصنوعی (تشخیص و ترجمه به {target_lang})...")
         gemini_audio_file = client.files.upload(file=audio_path)
         prompt = f"""
         Listen to the speech in this audio file.
         1. Transcribe the speech.
@@ -137,7 +127,6 @@ def process_dubbing(api_key, video_file, youtube_url, target_lang, progress=gr.P
         4. Each object must have exactly three keys: 'start' (float, start time in seconds), 'end' (float, end time in seconds), and 'text' (string, the translated text).
         """
-        # استفاده از JSON Schema برای دریافت خروجی 100% تمیز و بدون خطا
         transcription_response = client.models.generate_content(
             model='gemini-2.5-flash',
             contents=[gemini_audio_file, prompt],
@@ -146,27 +135,27 @@ def process_dubbing(api_key, video_file, youtube_url, target_lang, progress=gr.P
             )
         )
-        # پاک کردن فایل از سرور گوگل برای امنیت و فضای خالی
         try:
             client.files.delete(name=gemini_audio_file.name)
         except:
             pass
-        # استخراج JSON از خروجی مدل
         response_text = transcription_response.text.strip()
         try:
             subtitles = json.loads(response_text)
-        except json.JSONDecodeError:
-            raise gr.Error(f"خطا در تجزیه خروجی مدل. لطفاً دوباره تلاش کنید.\nخروجی خام: {response_text[:100]}")
         # 4. تولید صدا با Gemini Native Audio برای هر سگمنت
-        # ایجاد یک فایل صوتی سکوت (Canvas) به اندازه کل ویدیو
         final_audio_track = AudioSegment.silent(duration=int(video_duration * 1000))
         total_subs = len(subtitles)
         for i, sub in enumerate(subtitles):
-            progress(0.3 + (0.5 * (i / total_subs)), desc=f"تولید صدا و هماهنگ‌سازی (سینک) بخش {i+1} از {total_subs}...")
             text = sub.get('text', '')
             start_time = float(sub.get('start', 0))
@@ -176,7 +165,6 @@ def process_dubbing(api_key, video_file, youtube_url, target_lang, progress=gr.P
             if not text or target_duration <= 0:
                 continue
-            # درخواست تولید صدا از Native Audio
             tts_prompt = f"Speak the following text naturally, fluently, and with human-like emotion in {target_lang}. Text: {text}"
             try:
@@ -188,38 +176,64 @@ def process_dubbing(api_key, video_file, youtube_url, target_lang, progress=gr.P
                     )
                 )
-                # استخراج بایت‌های صدا از پاسخ
                 audio_bytes = None
                 for part in audio_response.candidates[0].content.parts:
                     if part.inline_data:
                         audio_bytes = part.inline_data.data
                         break
                 if audio_bytes:
-                    raw_audio_path = os.path.join(temp_dir, f"raw_tts_{i}.wav")
                     adjusted_audio_path = os.path.join(temp_dir, f"adj_tts_{i}.wav")
                     with open(raw_audio_path, "wb") as f:
                         f.write(audio_bytes)
-                    # تنظیم سرعت صدا برای هماهنگ شدن با لب و دهان (Lip-sync) بر اساس زمان start و end
-                    adjust_audio_speed_ffmpeg(raw_audio_path, adjusted_audio_path, target_duration)
-                    # قرار دادن صدای تنظیم شده در زمان مناسب روی Audio Canvas
-                    segment_audio = AudioSegment.from_file(adjusted_audio_path)
-                    position_ms = int(start_time * 1000)
-                    final_audio_track = final_audio_track.overlay(segment_audio, position=position_ms)
             except Exception as e:
-                print(f"Error generating audio for segment {i}: {e}")
                 continue
         # 5. ترکیب صدای نهایی با ویدیو
         progress(0.9, desc="در حال ترکیب صدا و تصویر (میکس نهایی)...")
         final_audio_path = os.path.join(temp_dir, "final_audio.wav")
         final_audio_track.export(final_audio_path, format="wav")
-        # جایگذاری صدای جدید به جای صدای اصلی ویدیو
         merge_cmd = [
             'ffmpeg', '-y',
             '-i', video_path,
@@ -241,7 +255,6 @@ def process_dubbing(api_key, video_file, youtube_url, target_lang, progress=gr.P
 # رابط کاربری (Gradio UI)
 # ==========================================
-# رفع هشدار Gradio 6: حذف theme از اینجا
 with gr.Blocks(title="AI Native Dubbing Studio (Gemini 2.5)") as app:
     gr.Markdown("""
     # 🎙️ استودیو دوبله خودکار با موتور Gemini 2.5 Native
@@ -270,7 +283,7 @@ with gr.Blocks(title="AI Native Dubbing Studio (Gemini 2.5)") as app:
         with gr.Column(scale=1):
             output_video = gr.Video(label="🎬 ویدیوی نهایی دوبله شده (دارای Lip-sync)")
-            output_logs = gr.Code(label="📜 زیرنویس و زمان‌بندی‌های اعمال شده (JSON)", language="json")
     run_btn.click(
         fn=process_dubbing,
@@ -279,5 +292,4 @@ with gr.Blocks(title="AI Native Dubbing Studio (Gemini 2.5)") as app:
     )
 if __name__ == "__main__":
-    # رفع هشدار Gradio 6: انتقال theme به متد launch
     app.launch(theme=gr.themes.Soft(), ssr_mode=False)

 # ==========================================
 def download_youtube_video(url, output_path):
     ydl_opts = {
         'format': 'bestvideo[ext=mp4]+bestaudio[ext=m4a]/best[ext=mp4]/best',
         'outtmpl': output_path,
     return output_path
 def extract_audio_from_video(video_path, audio_path):
     command = [
         'ffmpeg', '-i', video_path,
         '-vn', '-acodec', 'mp3', '-ar', '16000', '-ac', '1',
     return audio_path
 def get_video_duration(video_path):
     result = subprocess.run([
         'ffprobe', '-v', 'error', '-show_entries', 'format=duration',
         '-of', 'default=noprint_wrappers=1:nokey=1', video_path
     return float(result.stdout.strip())
 def adjust_audio_speed_ffmpeg(input_wav, output_wav, target_duration):
     try:
         audio = AudioSegment.from_file(input_wav)
         original_duration = len(audio) / 1000.0
         speed_factor = original_duration / target_duration
         atempo_filters = []
         current_factor = speed_factor
         subprocess.run(command, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL, check=True)
     except Exception as e:
         print(f"Error in speed adjustment: {e}")
         shutil.copy(input_wav, output_wav)
 # ==========================================
     temp_dir = tempfile.mkdtemp()
     try:
         client = genai.Client(api_key=api_key)
         video_path = os.path.join(temp_dir, "input_video.mp4")
         if youtube_url:
             download_youtube_video(youtube_url, video_path)
         else:
             source_path = video_file.name if hasattr(video_file, 'name') else str(video_file)
             shutil.copy(source_path, video_path)
         progress(0.1, desc="در حال استخراج صدای ویدیو...")
         extract_audio_from_video(video_path, audio_path)
+        # 3. ارسال به Gemini برای استخراج و ترجمه
+        progress(0.2, desc=f"در حال پردازش متن و ترجمه به {target_lang}...")
         gemini_audio_file = client.files.upload(file=audio_path)
         prompt = f"""
         Listen to the speech in this audio file.
         1. Transcribe the speech.
         4. Each object must have exactly three keys: 'start' (float, start time in seconds), 'end' (float, end time in seconds), and 'text' (string, the translated text).
         """
         transcription_response = client.models.generate_content(
             model='gemini-2.5-flash',
             contents=[gemini_audio_file, prompt],
             )
         )
         try:
             client.files.delete(name=gemini_audio_file.name)
         except:
             pass
         response_text = transcription_response.text.strip()
         try:
             subtitles = json.loads(response_text)
+            if not subtitles:
+                raise ValueError("لیست زیرنویس خالی است.")
+        except Exception as e:
+            raise gr.Error(f"خطا در تجزیه خروجی مدل (JSON نامعتبر). \nجزئیات: {str(e)}\nخروجی: {response_text[:100]}")
         # 4. تولید صدا با Gemini Native Audio برای هر سگمنت
         final_audio_track = AudioSegment.silent(duration=int(video_duration * 1000))
         total_subs = len(subtitles)
+        successful_segments = 0
+        errors_log = []
         for i, sub in enumerate(subtitles):
+            progress(0.3 + (0.5 * (i / total_subs)), desc=f"تولید صدا و سینک بخش {i+1} از {total_subs}...")
             text = sub.get('text', '')
             start_time = float(sub.get('start', 0))
             if not text or target_duration <= 0:
                 continue
             tts_prompt = f"Speak the following text naturally, fluently, and with human-like emotion in {target_lang}. Text: {text}"
             try:
                     )
                 )
                 audio_bytes = None
+                mime_type = None
                 for part in audio_response.candidates[0].content.parts:
                     if part.inline_data:
                         audio_bytes = part.inline_data.data
+                        mime_type = part.inline_data.mime_type
                         break
                 if audio_bytes:
+                    raw_audio_path = os.path.join(temp_dir, f"raw_tts_{i}.bin")
+                    wav_audio_path = os.path.join(temp_dir, f"raw_tts_{i}.wav")
                     adjusted_audio_path = os.path.join(temp_dir, f"adj_tts_{i}.wav")
+                    # اگر داده‌ها رشته (Base64) بودند دیکد کن
+                    if isinstance(audio_bytes, str):
+                        import base64
+                        audio_bytes = base64.b64decode(audio_bytes)
+                    # ذخیره بایت‌های خام
                     with open(raw_audio_path, "wb") as f:
                         f.write(audio_bytes)
+                    # 🔴 بخش کلیدی برای حل مشکل بی‌صدا بودن 🔴
+                    # جمینای معمولا PCM برمی‌گرداند. باید به WAV استاندارد تبدیل شود تا قابل خواندن باشد
+                    if mime_type and ("pcm" in mime_type.lower() or "raw" in mime_type.lower()):
+                        subprocess.run(['ffmpeg', '-y', '-f', 's16le', '-ar', '24000', '-ac', '1', '-i', raw_audio_path, wav_audio_path], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
+                    else:
+                        # تلاش برای تبدیل مستقیم در صورت فرمت‌های دیگر
+                        subprocess.run(['ffmpeg', '-y', '-i', raw_audio_path, wav_audio_path], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
+                    # حالا فایل WAV استاندارد را به تابع تنظیم سرعت می‌دهیم
+                    if os.path.exists(wav_audio_path):
+                        adjust_audio_speed_ffmpeg(wav_audio_path, adjusted_audio_path, target_duration)
+                        segment_audio = AudioSegment.from_file(adjusted_audio_path)
+                        position_ms = int(start_time * 1000)
+                        final_audio_track = final_audio_track.overlay(segment_audio, position=position_ms)
+                        successful_segments += 1
+                    else:
+                        errors_log.append(f"Segment {i+1}: Failed to create WAV file from raw bytes.")
+                else:
+                    errors_log.append(f"Segment {i+1}: Model returned empty audio bytes.")
             except Exception as e:
+                errors_log.append(f"Segment {i+1} Exception: {str(e)}")
                 continue
+        # بررسی اینکه آیا اصلاً صدایی تولید شد یا خیر
+        if successful_segments == 0:
+            raise gr.Error(f"شکست کامل در تولید صدا! هوش مصنوعی هیچ صدایی برنگرداند.\nلاگ خطاها:\n" + "\n".join(errors_log[:5]))
+        elif errors_log:
+            gr.Warning(f"فقط {successful_segments} بخش از {total_subs} بخش با موفقیت صداگذاری شد. برخی خطا داشتند.")
         # 5. ترکیب صدای نهایی با ویدیو
         progress(0.9, desc="در حال ترکیب صدا و تصویر (میکس نهایی)...")
         final_audio_path = os.path.join(temp_dir, "final_audio.wav")
         final_audio_track.export(final_audio_path, format="wav")
         merge_cmd = [
             'ffmpeg', '-y',
             '-i', video_path,
 # رابط کاربری (Gradio UI)
 # ==========================================
 with gr.Blocks(title="AI Native Dubbing Studio (Gemini 2.5)") as app:
     gr.Markdown("""
     # 🎙️ استودیو دوبله خودکار با موتور Gemini 2.5 Native
         with gr.Column(scale=1):
             output_video = gr.Video(label="🎬 ویدیوی نهایی دوبله شده (دارای Lip-sync)")
+            output_logs = gr.Code(label="📜 لاگ عملیات و زمان‌بندی (JSON)", language="json")
     run_btn.click(
         fn=process_dubbing,
     )
 if __name__ == "__main__":
     app.launch(theme=gr.themes.Soft(), ssr_mode=False)