Spaces:

Ricky01anjay
/

dubbingAI

Paused

App Files Files Community

Ricky01anjay commited on Mar 5

Commit

38dbb96

verified ·

1 Parent(s): 911b297

Update app.py

Browse files

Files changed (1) hide show

app.py +139 -164

app.py CHANGED Viewed

@@ -5,12 +5,8 @@ import asyncio
 import requests
 import json
 import time
 from flask import Flask, request, jsonify, render_template_string, send_from_directory
-# Import MoviePy dengan cara yang lebih aman untuk menghindari ImportError
-import moviepy.editor as mp
-from moviepy.editor import VideoFileClip, AudioFileClip, CompositeAudioClip
 import whisper
 import edge_tts
@@ -29,48 +25,41 @@ VOICE_MAP = {
 print("Loading Whisper Model...")
 whisper_model = whisper.load_model("base")
-def translate_segments_llm(segments, custom_prompt, max_retries=3):
     instruction = custom_prompt if custom_prompt else "Terjemahkan teks dalam JSON ini ke bahasa target. Balas HANYA dengan JSON array yang valid."
-    # Ambil data esensial saja untuk menghemat token
     input_data = [{"id": i, "text": s['text']} for i, s in enumerate(segments)]
     full_prompt = f"{instruction}\n\nFormat Output: [{{'id': 0, 'text': 'hasil terjemahan'}}, ...]\n\nData:\n{json.dumps(input_data)}"
     url = "https://www.puruboy.kozow.com/api/ai/notegpt"
-    payload = {
-        "prompt": full_prompt,
-        "model": "gemini-3-flash-preview",
-        "chat_mode": "standard"
-    }
-    for attempt in range(max_retries):
-        try:
-            response = requests.post(url, json=payload, timeout=60)
-            full_response = ""
-            for line in response.iter_lines():
-                if line:
-                    decoded = line.decode('utf-8')
-                    if decoded.startswith("data: "):
-                        try:
-                            data = json.loads(decoded[6:])
-                            full_response += data.get("text", "")
-                        except: continue
-            # Ekstrak JSON Array
-            start_idx = full_response.find('[')
-            end_idx = full_response.rfind(']') + 1
-            if start_idx != -1 and end_idx != -1:
-                translated_list = json.loads(full_response[start_idx:end_idx])
-                # Mapping kembali ke segments asli
-                for item in translated_list:
-                    segments[item['id']]['translated_text'] = item['text']
-                return segments
-        except Exception as e:
-            print(f"Retry {attempt+1} translation error: {e}")
-            time.sleep(2)
-    # Fallback: gunakan teks asli jika gagal
-    for s in segments: s['translated_text'] = s['text']
     return segments
 async def generate_tts(text, voice, path):
@@ -79,82 +68,93 @@ async def generate_tts(text, voice, path):
 def process_dubbing(task_id, video_path, target_voice, custom_prompt):
     try:
-        tasks[task_id]['status'] = 'Transkripsi Video...'
-        video = VideoFileClip(video_path)
-        if video.duration > 120.0:
-            raise Exception("Durasi maksimal 2 menit.")
-        audio_temp = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_temp.wav")
-        video.audio.write_audiofile(audio_temp, logger=None)
-        # 1. Whisper Transcription
-        result = whisper_model.transcribe(audio_temp)
         segments = result['segments']
-        # 2. AI Translation
-        tasks[task_id]['status'] = 'Menerjemahkan Teks...'
         translated_segments = translate_segments_llm(segments, custom_prompt)
-        # 3. TTS & Syncing
-        tasks[task_id]['status'] = 'Sinkronisasi Suara...'
-        dubbing_clips = []
-        # Simpan timestamp untuk ducking
-        speech_intervals = []
         for i, seg in enumerate(translated_segments):
             start_t = seg['start']
             end_t = seg['end']
             duration_orig = end_t - start_t
             text = seg.get('translated_text', seg['text'])
             if not text.strip(): continue
-            seg_path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_seg_{i}.mp3")
-            voice = VOICE_MAP.get(target_voice, 'id-ID-ArdiNeural')
-            asyncio.run(generate_tts(text, voice, seg_path))
-            # Load audio hasil TTS
-            tts_audio = AudioFileClip(seg_path)
-            # HITUNG SINKRONISASI KECEPATAN
-            # Jika TTS terlalu panjang, percepat agar muat di durasi aslinya
-            if tts_audio.duration > duration_orig:
-                speed_factor = tts_audio.duration / duration_orig
-                # Batas maksimal percepat 1.8x agar tetap terdengar manusiawi
-                speed_factor = min(speed_factor, 1.8)
-                tts_audio = tts_audio.fx(mp.vfx.speedx, speed_factor)
-            # Atur posisi audio
-            tts_audio = tts_audio.set_start(start_t).set_duration(duration_orig)
-            dubbing_clips.append(tts_audio)
-            speech_intervals.append((start_t, end_t))
-        # 4. AUDIO MIXING (DYNAMIC DUCKING)
-        # Kita buat fungsi volume untuk mengecilkan suara asli saat dubbing menyala
-        def volume_filter(t):
-            for start, end in speech_intervals:
-                if start <= t <= end:
-                    return 0.1  # Kecilkan ke 10% saat ada dubbing
-            return 1.0  # Normal 100% saat tidak ada dubbing
-        original_audio = video.audio.fl_audio(lambda get_frame, t: volume_filter(t) * get_frame(t))
-        # Gabungkan suara asli yang sudah di-ducking dengan semua clip dubbing
-        final_audio = CompositeAudioClip([original_audio] + dubbing_clips)
-        # 5. RENDER
-        tasks[task_id]['status'] = 'Rendering Video...'
-        final_video = video.set_audio(final_audio)
-        output_path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_output.mp4")
-        final_video.write_videofile(output_path, codec='libx264', audio_codec='aac', logger=None)
         # Cleanup
-        video.close()
         for f in os.listdir(app.config['UPLOAD_FOLDER']):
-            if f.startswith(f"{task_id}_seg_") or f.endswith("_temp.wav"):
                 try: os.remove(os.path.join(app.config['UPLOAD_FOLDER'], f))
                 except: pass
@@ -162,11 +162,11 @@ def process_dubbing(task_id, video_path, target_voice, custom_prompt):
         tasks[task_id]['result_video'] = f"/download/{task_id}_output.mp4"
     except Exception as e:
-        print(f"Error detail: {e}")
         tasks[task_id]['status'] = 'Error'
         tasks[task_id]['error_message'] = str(e)
-# --- ROUTES ---
 @app.route('/')
 def index():
@@ -193,88 +193,63 @@ def download(f):
 HTML_TEMPLATE = """
 <!DOCTYPE html>
-<html lang="id">
 <head>
-    <meta charset="UTF-8">
-    <meta name="viewport" content="width=device-width, initial-scale=1.0">
-    <title>AI Dubbing Sync</title>
     <link href="https://cdn.jsdelivr.net/npm/bootstrap@5.3.0/dist/css/bootstrap.min.css" rel="stylesheet">
-    <style>
-        body { background: #f8f9fa; font-family: sans-serif; }
-        .main-card { max-width: 500px; margin: 50px auto; border-radius: 20px; box-shadow: 0 10px 30px rgba(0,0,0,0.1); }
-    </style>
 </head>
 <body>
-    <div class="container">
-        <div class="card main-card p-4">
-            <h3 class="text-center mb-4">🎙️ AI Dubbing Pro</h3>
-            <p class="text-muted text-center small">Video asli tetap ada, suara disinkronkan otomatis.</p>
-            <form id="upForm">
-                <div class="mb-3">
-                    <label class="form-label">Pilih Video (Max 2 Menit)</label>
-                    <input type="file" id="vid" class="form-control" accept="video/*" required>
-                </div>
-                <div class="mb-3">
-                    <label class="form-label">Bahasa Tujuan</label>
-                    <select id="vc" class="form-select">
-                        <option value="id-ID">Indonesia 🇮🇩</option>
-                        <option value="en-US">English 🇺🇸</option>
-                        <option value="ja-JP">Japanese 🇯🇵</option>
-                    </select>
-                </div>
-                <div class="mb-3">
-                    <label class="form-label">Instruksi Tambahan (Opsional)</label>
-                    <textarea id="pt" class="form-control" rows="2" placeholder="Contoh: Terjemahkan dengan gaya bahasa santai..."></textarea>
-                </div>
-                <button type="submit" id="btn" class="btn btn-primary w-100 py-2">Mulai Proses Dubbing</button>
-            </form>
-            <div id="loading" class="mt-4 d-none text-center">
-                <div class="spinner-grow text-primary" role="status"></div>
-                <p id="stText" class="mt-2 fw-bold text-primary">Menyiapkan...</p>
-            </div>
-            <div id="resBox" class="mt-4 d-none">
-                <video id="vRes" controls class="w-100 rounded shadow-sm"></video>
-                <a id="dBtn" href="#" class="btn btn-success w-100 mt-3" download>Simpan Video</a>
             </div>
         </div>
     </div>
     <script>
-        const form = document.getElementById('upForm');
         form.onsubmit = async (e) => {
             e.preventDefault();
             const fd = new FormData();
-            fd.append('video', document.getElementById('vid').files[0]);
-            fd.append('voice', document.getElementById('vc').value);
-            fd.append('prompt', document.getElementById('pt').value);
             document.getElementById('btn').disabled = true;
-            document.getElementById('loading').classList.remove('d-none');
-            document.getElementById('resBox').classList.add('d-none');
-            const res = await fetch('/generate', {method: 'POST', body: fd});
             const data = await res.json();
-            const timer = setInterval(async () => {
-                const sRes = await fetch('/status?task_id=' + data.task_id);
-                const sData = await sRes.json();
-                document.getElementById('stText').innerText = sData.status;
-                if (sData.status === 'Selesai') {
-                    clearInterval(timer);
-                    document.getElementById('loading').classList.add('d-none');
-                    document.getElementById('resBox').classList.remove('d-none');
-                    document.getElementById('vRes').src = sData.result_video;
-                    document.getElementById('dBtn').href = sData.result_video;
                     document.getElementById('btn').disabled = false;
-                } else if (sData.status === 'Error') {
-                    clearInterval(timer);
-                    alert("Error: " + sData.error_message);
-                    location.reload();
                 }
-            }, 2500);
         };
     </script>
 </body>

 import requests
 import json
 import time
+import subprocess
 from flask import Flask, request, jsonify, render_template_string, send_from_directory
 import whisper
 import edge_tts
 print("Loading Whisper Model...")
 whisper_model = whisper.load_model("base")
+def get_audio_duration(file_path):
+    """Mendapatkan durasi audio menggunakan ffprobe"""
+    cmd = [
+        'ffprobe', '-v', 'error', '-show_entries', 'format=duration',
+        '-of', 'default=noprint_wrappers=1:nokey=1', file_path
+    ]
+    result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.STDOUT)
+    return float(result.stdout)
+def translate_segments_llm(segments, custom_prompt):
+    """Menerjemahkan segmen menggunakan AI LLM"""
     instruction = custom_prompt if custom_prompt else "Terjemahkan teks dalam JSON ini ke bahasa target. Balas HANYA dengan JSON array yang valid."
     input_data = [{"id": i, "text": s['text']} for i, s in enumerate(segments)]
     full_prompt = f"{instruction}\n\nFormat Output: [{{'id': 0, 'text': 'hasil terjemahan'}}, ...]\n\nData:\n{json.dumps(input_data)}"
     url = "https://www.puruboy.kozow.com/api/ai/notegpt"
+    payload = {"prompt": full_prompt, "model": "gemini-3-flash-preview", "chat_mode": "standard"}
+    try:
+        response = requests.post(url, json=payload, timeout=60)
+        full_text = ""
+        for line in response.iter_lines():
+            if line:
+                decoded = line.decode('utf-8')
+                if decoded.startswith("data: "):
+                    data = json.loads(decoded[6:])
+                    full_text += data.get("text", "")
+        start_idx = full_text.find('[')
+        end_idx = full_text.rfind(']') + 1
+        translated_list = json.loads(full_text[start_idx:end_idx])
+        for item in translated_list:
+            segments[item['id']]['translated_text'] = item['text']
+    except:
+        for s in segments: s['translated_text'] = s['text'] # Fallback
     return segments
 async def generate_tts(text, voice, path):
 def process_dubbing(task_id, video_path, target_voice, custom_prompt):
     try:
+        tasks[task_id]['status'] = 'Mengekstrak Audio...'
+        orig_audio = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_orig.wav")
+        # Extract audio original
+        subprocess.run(['ffmpeg', '-y', '-i', video_path, '-vn', '-acodec', 'pcm_s16le', '-ar', '44100', '-ac', '2', orig_audio], check=True)
+        tasks[task_id]['status'] = 'Transkripsi Whisper...'
+        result = whisper_model.transcribe(orig_audio)
         segments = result['segments']
+        tasks[task_id]['status'] = 'Translasi AI...'
         translated_segments = translate_segments_llm(segments, custom_prompt)
+        tasks[task_id]['status'] = 'Pemrosesan Segmen Audio...'
+        processed_audio_files = []
+        ducking_filters = []
         for i, seg in enumerate(translated_segments):
             start_t = seg['start']
             end_t = seg['end']
             duration_orig = end_t - start_t
             text = seg.get('translated_text', seg['text'])
             if not text.strip(): continue
+            raw_tts = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_raw_{i}.mp3")
+            sync_tts = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_sync_{i}.wav")
+            # 1. Generate TTS
+            asyncio.run(generate_tts(text, VOICE_MAP.get(target_voice, 'id-ID-ArdiNeural'), raw_tts))
+            # 2. Sync Speed (FFmpeg atempo)
+            tts_dur = get_audio_duration(raw_tts)
+            speed = 1.0
+            if tts_dur > duration_orig:
+                speed = tts_dur / duration_orig
+                speed = min(speed, 2.0) # Maksimal 2x cepat
+            # Gunakan FFmpeg untuk atur speed dan format wav
+            subprocess.run([
+                'ffmpeg', '-y', '-i', raw_tts,
+                '-filter:a', f'atempo={speed}',
+                '-ar', '44100', sync_tts
+            ], check=True)
+            processed_audio_files.append({
+                'path': sync_tts,
+                'start': start_t,
+                'duration': duration_orig
+            })
+            # 3. Catat interval untuk Ducking (volume 10%)
+            ducking_filters.append(f"volume=enable='between(t,{start_t},{end_t})':volume=0.1")
+        # --- FINAL MIXING DENGAN FFMPEG COMPLEX FILTER ---
+        tasks[task_id]['status'] = 'Mixing & Rendering...'
+        # Build Complex Filter
+        # a) Ducking Suara Asli
+        filter_complex = f"[0:a]{','.join(ducking_filters)}[bg];"
+        # b) Overlaying Dubbing Clips
+        inputs_cmd = ['ffmpeg', '-y', '-i', video_path]
+        for item in processed_audio_files:
+            inputs_cmd.extend(['-i', item['path']])
+        amix_inputs = ""
+        for i in range(len(processed_audio_files)):
+            idx = i + 1
+            start_ms = int(processed_audio_files[i]['start'] * 1000)
+            filter_complex += f"[{idx}:a]adelay={start_ms}|{start_ms}[dub{idx}];"
+            amix_inputs += f"[dub{idx}]"
+        filter_complex += f"[bg]{amix_inputs}amix=inputs={len(processed_audio_files)+1}:duration=first[outa]"
+        output_video = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_output.mp4")
+        final_cmd = inputs_cmd + [
+            '-filter_complex', filter_complex,
+            '-map', '0:v', '-map', '[outa]',
+            '-c:v', 'libx264', '-preset', 'ultrafast', '-c:a', 'aac', '-b:a', '192k',
+            output_video
+        ]
+        subprocess.run(final_cmd, check=True)
         # Cleanup
         for f in os.listdir(app.config['UPLOAD_FOLDER']):
+            if task_id in f and "_output.mp4" not in f:
                 try: os.remove(os.path.join(app.config['UPLOAD_FOLDER'], f))
                 except: pass
         tasks[task_id]['result_video'] = f"/download/{task_id}_output.mp4"
     except Exception as e:
+        print(f"Error: {e}")
         tasks[task_id]['status'] = 'Error'
         tasks[task_id]['error_message'] = str(e)
+# --- ROUTES & UI (Flask) ---
 @app.route('/')
 def index():
 HTML_TEMPLATE = """
 <!DOCTYPE html>
+<html>
 <head>
+    <title>AI Dubbing FFMPEG</title>
     <link href="https://cdn.jsdelivr.net/npm/bootstrap@5.3.0/dist/css/bootstrap.min.css" rel="stylesheet">
+    <style> body { background:#f4f4f9; padding:20px; } .card { max-width:500px; margin:auto; border-radius:15px; } </style>
 </head>
 <body>
+    <div class="card shadow p-4">
+        <h3 class="text-center mb-4">🎙️ AI Dubbing Sync</h3>
+        <form id="uForm">
+            <div class="mb-3"><label>Video (MP4)</label><input type="file" id="v" class="form-control" required></div>
+            <div class="mb-3"><label>Target Suara</label>
+                <select id="s" class="form-select">
+                    <option value="id-ID">Indonesia</option>
+                    <option value="en-US">English</option>
+                    <option value="ja-JP">Japanese</option>
+                </select>
             </div>
+            <div class="mb-3"><label>Custom Prompt</label><textarea id="p" class="form-control"></textarea></div>
+            <button type="submit" id="btn" class="btn btn-primary w-100">Proses Sekarang</button>
+        </form>
+        <div id="ld" class="mt-4 d-none text-center">
+            <div class="spinner-border text-primary"></div>
+            <p id="st" class="mt-2 fw-bold">Processing...</p>
+        </div>
+        <div id="rs" class="mt-4 d-none">
+            <video id="vd" controls class="w-100 rounded"></video>
+            <a id="dl" href="#" class="btn btn-success w-100 mt-2" download>Download</a>
         </div>
     </div>
     <script>
+        const form = document.getElementById('uForm');
         form.onsubmit = async (e) => {
             e.preventDefault();
             const fd = new FormData();
+            fd.append('video', document.getElementById('v').files[0]);
+            fd.append('voice', document.getElementById('s').value);
+            fd.append('prompt', document.getElementById('p').value);
             document.getElementById('btn').disabled = true;
+            document.getElementById('ld').classList.remove('d-none');
+            const res = await fetch('/generate', {method:'POST', body:fd});
             const data = await res.json();
+            const pol = setInterval(async () => {
+                const r = await fetch('/status?task_id=' + data.task_id);
+                const d = await r.json();
+                document.getElementById('st').innerText = d.status;
+                if(d.status === 'Selesai'){
+                    clearInterval(pol);
+                    document.getElementById('ld').classList.add('d-none');
+                    document.getElementById('rs').classList.remove('d-none');
+                    document.getElementById('vd').src = d.result_video;
+                    document.getElementById('dl').href = d.result_video;
                     document.getElementById('btn').disabled = false;
+                } else if(d.status === 'Error'){
+                    alert(d.error_message); location.reload();
                 }
+            }, 2000);
         };
     </script>
 </body>