Spaces:

Ricky01anjay
/

dubbingAI

Paused

App Files Files Community

Ricky01anjay commited on Mar 5

Commit

5d5777e

verified ·

1 Parent(s): 77b30b8

Update app.py

Browse files

Files changed (1) hide show

app.py +169 -131

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import json
 import time
 from flask import Flask, request, jsonify, render_template_string, send_from_directory
 import moviepy.editor as mp
 import whisper
 import edge_tts
@@ -25,9 +26,14 @@ VOICE_MAP = {
 print("Loading Whisper Model...")
 whisper_model = whisper.load_model("base")
-def translate_with_llm(text, custom_prompt, max_retries=3):
-    instruction = custom_prompt if custom_prompt else "Terjemahkan teks berikut. Hanya berikan hasil terjemahannya saja tanpa penjelasan tambahan."
-    full_prompt = f"{instruction}\n\nTeks asli:\n{text}"
     url = "https://www.puruboy.kozow.com/api/ai/notegpt"
     payload = {
@@ -35,170 +41,224 @@ def translate_with_llm(text, custom_prompt, max_retries=3):
         "model": "gemini-3-flash-preview",
         "chat_mode": "standard"
     }
-    headers = {"Content-Type": "application/json"}
     for attempt in range(max_retries):
         try:
-            response = requests.post(url, json=payload, headers=headers, stream=True)
-            response.raise_for_status()
-            translated_text = ""
             for line in response.iter_lines():
                 if line:
-                    decoded_line = line.decode('utf-8')
-                    if decoded_line.startswith("data: "):
-                        json_str = decoded_line[len("data: "):]
                         try:
-                            data = json.loads(json_str)
-                            if "text" in data:
-                                translated_text += data["text"]
-                        except json.JSONDecodeError:
-                            continue
-            translated_text = translated_text.strip()
-            if translated_text:
-                return translated_text
-        except Exception:
-            pass
-        time.sleep(2 ** attempt)
-    raise Exception("Gagal mendapatkan terjemahan dari AI.")
 def process_dubbing(task_id, video_path, target_voice, custom_prompt):
     try:
-        tasks[task_id]['status'] = 'Mengekstrak audio...'
         video = mp.VideoFileClip(video_path)
         if video.duration > 120.0:
-            video.close()
-            os.remove(video_path)
-            raise Exception("Durasi video maksimal 2 menit.")
-        audio_path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}.wav")
-        if video.audio is None:
-            raise Exception("Video tidak memiliki audio.")
-        video.audio.write_audiofile(audio_path, logger=None)
-        tasks[task_id]['status'] = 'Transkripsi...'
-        result = whisper_model.transcribe(audio_path)
-        original_text = result['text']
-        if not original_text.strip():
-            raise Exception("Suara tidak terdeteksi.")
-        tasks[task_id]['status'] = 'Translasi AI...'
-        translated_text = translate_with_llm(original_text, custom_prompt)
-        tasks[task_id]['status'] = 'Generasi Suara AI...'
-        ai_audio_path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_ai.mp3")
-        voice = VOICE_MAP.get(target_voice, 'id-ID-ArdiNeural')
-        async def generate_tts():
-            communicate = edge_tts.Communicate(translated_text, voice)
-            await communicate.save(ai_audio_path)
-        asyncio.run(generate_tts())
-        tasks[task_id]['status'] = 'Merging Video...'
         output_video_path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_output.mp4")
-        new_audio = mp.AudioFileClip(ai_audio_path)
-        final_video = video.set_audio(new_audio)
         final_video.write_videofile(output_video_path, codec='libx264', audio_codec='aac', logger=None)
         video.close()
-        new_audio.close()
-        os.remove(audio_path)
-        os.remove(ai_audio_path)
         tasks[task_id]['status'] = 'Selesai'
         tasks[task_id]['result_video'] = f"/download/{task_id}_output.mp4"
     except Exception as e:
         tasks[task_id]['status'] = 'Error'
         tasks[task_id]['error_message'] = str(e)
 HTML_TEMPLATE = """
 <!DOCTYPE html>
 <html>
 <head>
-    <meta charset="UTF-8">
-    <meta name="viewport" content="width=device-width, initial-scale=1.0">
-    <title>AI Dubbing</title>
     <link href="https://cdn.jsdelivr.net/npm/bootstrap@5.3.0/dist/css/bootstrap.min.css" rel="stylesheet">
-    <style>
-        body { background:#f4f7f6; }
-        .container { max-width: 500px; margin-top: 50px; }
-        .card { border-radius: 15px; border: none; box-shadow: 0 10px 20px rgba(0,0,0,0.05); }
-    </style>
 </head>
-<body>
-    <div class="container">
-        <div class="card p-4">
-            <h4 class="text-center mb-4">🎙️ Video Dubbing AI</h4>
-            <form id="uploadForm">
-                <div class="mb-3">
-                    <label class="form-label">Video (MP4, Max 2 Min)</label>
-                    <input class="form-control" type="file" id="videoFile" accept="video/*" required>
-                </div>
-                <div class="mb-3">
-                    <label class="form-label">Suara Target</label>
-                    <select class="form-select" id="targetVoice">
-                        <option value="id-ID">Indonesia</option>
-                        <option value="en-US">English</option>
-                        <option value="ja-JP">Japanese</option>
-                    </select>
                 </div>
-                <div class="mb-3">
-                    <label class="form-label">Custom Prompt (Opsional)</label>
-                    <textarea class="form-control" id="customPrompt" rows="2"></textarea>
                 </div>
-                <button type="submit" class="btn btn-primary w-100" id="btnSubmit">Proses</button>
-            </form>
-            <div id="statusSection" class="mt-4 d-none text-center">
-                <div class="spinner-border text-primary mb-2"></div>
-                <p id="statusTxt"></p>
-            </div>
-            <div id="resultSection" class="mt-4 d-none">
-                <video id="resVid" controls class="w-100 rounded mb-3"></video>
-                <a id="dlBtn" href="#" class="btn btn-success w-100" download>Download</a>
             </div>
         </div>
     </div>
     <script>
         const form = document.getElementById('uploadForm');
         form.onsubmit = async (e) => {
             e.preventDefault();
-            const file = document.getElementById('videoFile').files[0];
-            const v = document.createElement('video');
-            v.preload = 'metadata';
-            v.src = URL.createObjectURL(file);
-            v.onloadedmetadata = () => {
-                if(v.duration > 120) return alert('Max 2 Menit!');
-                sendData();
-            };
-        };
-        async function sendData(){
             const fd = new FormData();
             fd.append('video', document.getElementById('videoFile').files[0]);
             fd.append('voice', document.getElementById('targetVoice').value);
             fd.append('prompt', document.getElementById('customPrompt').value);
             document.getElementById('btnSubmit').disabled = true;
-            document.getElementById('statusSection').classList.remove('d-none');
             const res = await fetch('/generate', {method:'POST', body:fd});
             const data = await res.json();
-            poll(data.task_id);
-        }
-        function poll(id){
             const itv = setInterval(async () => {
-                const res = await fetch('/status?task_id='+id);
                 const data = await res.json();
                 document.getElementById('statusTxt').innerText = data.status;
-                if(data.status === 'Selesai'){
                     clearInterval(itv);
-                    document.getElementById('statusSection').classList.add('d-none');
-                    document.getElementById('resultSection').classList.remove('d-none');
                     document.getElementById('resVid').src = data.result_video;
                     document.getElementById('dlBtn').href = data.result_video;
                     document.getElementById('btnSubmit').disabled = false;
-                } else if(data.status === 'Error'){
                     clearInterval(itv);
-                    alert(data.error_message);
                     location.reload();
                 }
             }, 2000);
@@ -208,27 +268,5 @@ HTML_TEMPLATE = """
 </html>
 """
-@app.route('/')
-def index():
-    return render_template_string(HTML_TEMPLATE)
-@app.route('/generate', methods=['POST'])
-def generate():
-    file = request.files['video']
-    task_id = str(uuid.uuid4())
-    path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}.mp4")
-    file.save(path)
-    tasks[task_id] = {'status': 'Queued', 'result_video': None, 'error_message': None}
-    threading.Thread(target=process_dubbing, args=(task_id, path, request.form.get('voice'), request.form.get('prompt'))).start()
-    return jsonify({'task_id': task_id})
-@app.route('/status')
-def status():
-    return jsonify(tasks.get(request.args.get('task_id'), {}))
-@app.route('/download/<f>')
-def download(f):
-    return send_from_directory(app.config['UPLOAD_FOLDER'], f)
 if __name__ == '__main__':
     app.run(host='0.0.0.0', port=7860)

 import time
 from flask import Flask, request, jsonify, render_template_string, send_from_directory
 import moviepy.editor as mp
+from moviepy.audio.fx.all import volumex, time_stretch
 import whisper
 import edge_tts
 print("Loading Whisper Model...")
 whisper_model = whisper.load_model("base")
+def translate_segments_llm(segments, custom_prompt, max_retries=3):
+    """Mengirim segmen ke AI untuk diterjemahkan dalam format JSON"""
+    instruction = custom_prompt if custom_prompt else "Terjemahkan teks dalam JSON ini ke bahasa target. Tetap pertahankan format JSON, jangan ubah nilai 'start' dan 'end'."
+    # Sederhanakan input untuk AI agar hemat token dan akurat
+    input_data = [{"start": s['start'], "end": s['end'], "text": s['text']} for s in segments]
+    full_prompt = f"{instruction}\n\nFormat Output harus valid JSON Array:\n{json.dumps(input_data)}"
     url = "https://www.puruboy.kozow.com/api/ai/notegpt"
     payload = {
         "model": "gemini-3-flash-preview",
         "chat_mode": "standard"
     }
     for attempt in range(max_retries):
         try:
+            response = requests.post(url, json=payload, timeout=60)
+            # Karena API ini menggunakan streaming data:, kita perlu parse manual
+            full_response = ""
             for line in response.iter_lines():
                 if line:
+                    decoded = line.decode('utf-8')
+                    if decoded.startswith("data: "):
                         try:
+                            data = json.loads(decoded[6:])
+                            full_response += data.get("text", "")
+                        except: continue
+            # Cari bagian JSON di dalam response
+            start_idx = full_response.find('[')
+            end_idx = full_response.rfind(']') + 1
+            if start_idx != -1 and end_idx != -1:
+                return json.loads(full_response[start_idx:end_idx])
+        except Exception as e:
+            print(f"Retry {attempt}: {e}")
+            time.sleep(2)
+    return input_data # Fallback ke data asli jika gagal
+async def generate_segment_tts(text, voice, output_path):
+    communicate = edge_tts.Communicate(text, voice)
+    await communicate.save(output_path)
 def process_dubbing(task_id, video_path, target_voice, custom_prompt):
     try:
+        tasks[task_id]['status'] = 'Menganalisis Suara (Whisper)...'
         video = mp.VideoFileClip(video_path)
         if video.duration > 120.0:
+            raise Exception("Durasi maksimal 2 menit.")
+        # 1. Transkripsi dengan Timestamp
+        audio_temp_path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_temp.wav")
+        video.audio.write_audiofile(audio_temp_path, logger=None)
+        result = whisper_model.transcribe(audio_temp_path, verbose=False)
+        segments = result['segments'] # Mendapatkan list dengan start, end, text
+        tasks[task_id]['status'] = 'Menerjemahkan per Segmen...'
+        translated_segments = translate_segments_llm(segments, custom_prompt)
+        tasks[task_id]['status'] = 'Memproses Dubbing & Sinkronisasi...'
+        dubbed_clips = []
+        # Kita akan membuat overlay audio
+        original_audio = video.audio
+        # Buat background audio yang volumenya 10%
+        # Tapi kita ingin ducking dinamis, jadi sementara kita siapkan list audio baru
+        for i, seg in enumerate(translated_segments):
+            start_t = seg['start']
+            end_t = seg['end']
+            duration_target = end_t - start_t
+            if duration_target <= 0 or not seg['text'].strip():
+                continue
+            seg_audio_path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_seg_{i}.mp3")
+            voice = VOICE_MAP.get(target_voice, 'id-ID-ArdiNeural')
+            # Generate TTS
+            asyncio.run(generate_segment_tts(seg['text'], voice, seg_audio_path))
+            # Load audio segment
+            gen_audio = mp.AudioFileClip(seg_audio_path)
+            # HITUNG KECEPATAN (Time Stretch)
+            # Jika audio TTS lebih panjang dari durasi video asli, percepat.
+            speed_factor = gen_audio.duration / duration_target
+            if speed_factor > 1.0:
+                # Maksimal percepat 2x agar tidak rusak suaranya
+                speed_factor = min(speed_factor, 2.0)
+                gen_audio = gen_audio.fx(time_stretch, speed_factor)
+            # Set posisi audio di timestamp yang benar
+            gen_audio = gen_audio.set_start(start_t).set_duration(duration_target)
+            dubbed_clips.append(gen_audio)
+        # 2. AUDIO MIXING (DUCKING)
+        # Turunkan volume asli ke 10%
+        bg_audio = original_audio.fx(volumex, 0.1)
+        # Gabungkan semua dubbing ke satu track
+        final_dub_audio = mp.CompositeAudioClip([bg_audio] + dubbed_clips)
+        # 3. MERGE KE VIDEO
+        final_video = video.set_audio(final_dub_audio)
         output_video_path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_output.mp4")
         final_video.write_videofile(output_video_path, codec='libx264', audio_codec='aac', logger=None)
+        # Cleanup
         video.close()
+        for f in os.listdir(app.config['UPLOAD_FOLDER']):
+            if f.startswith(f"{task_id}_seg_") or f.endswith("_temp.wav"):
+                try: os.remove(os.path.join(app.config['UPLOAD_FOLDER'], f))
+                except: pass
         tasks[task_id]['status'] = 'Selesai'
         tasks[task_id]['result_video'] = f"/download/{task_id}_output.mp4"
     except Exception as e:
+        print(f"Error: {str(e)}")
         tasks[task_id]['status'] = 'Error'
         tasks[task_id]['error_message'] = str(e)
+# --- UI & Routes (Sama dengan sebelumnya namun dengan penyesuaian) ---
+@app.route('/')
+def index():
+    return render_template_string(HTML_TEMPLATE)
+@app.route('/generate', methods=['POST'])
+def generate():
+    if 'video' not in request.files: return jsonify({'error': 'No file'})
+    file = request.files['video']
+    task_id = str(uuid.uuid4())
+    path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}.mp4")
+    file.save(path)
+    tasks[task_id] = {'status': 'Queued', 'result_video': None, 'error_message': None}
+    threading.Thread(target=process_dubbing, args=(task_id, path, request.form.get('voice'), request.form.get('prompt'))).start()
+    return jsonify({'task_id': task_id})
+@app.route('/status')
+def status():
+    return jsonify(tasks.get(request.args.get('task_id'), {}))
+@app.route('/download/<f>')
+def download(f):
+    return send_from_directory(app.config['UPLOAD_FOLDER'], f)
 HTML_TEMPLATE = """
 <!DOCTYPE html>
 <html>
 <head>
+    <title>AI Sync Dubbing</title>
+    <meta name="viewport" content="width=device-width, initial-scale=1">
     <link href="https://cdn.jsdelivr.net/npm/bootstrap@5.3.0/dist/css/bootstrap.min.css" rel="stylesheet">
 </head>
+<body class="bg-light">
+    <div class="container py-5">
+        <div class="card mx-auto shadow" style="max-width: 500px;">
+            <div class="card-body">
+                <h4 class="text-center mb-4">🎙️ AI Dubbing Sync (Ducking On)</h4>
+                <form id="uploadForm">
+                    <div class="mb-3">
+                        <label class="form-label">Video (Max 2 Menit)</label>
+                        <input type="file" id="videoFile" class="form-control" accept="video/*" required>
+                    </div>
+                    <div class="mb-3">
+                        <label class="form-label">Bahasa Target</label>
+                        <select id="targetVoice" class="form-select">
+                            <option value="id-ID">Indonesia</option>
+                            <option value="en-US">English</option>
+                            <option value="ja-JP">Japanese</option>
+                        </select>
+                    </div>
+                    <div class="mb-3">
+                        <label class="form-label">Instruksi AI (Opsional)</label>
+                        <textarea id="customPrompt" class="form-control" placeholder="Contoh: Gunakan bahasa gaul..."></textarea>
+                    </div>
+                    <button type="submit" id="btnSubmit" class="btn btn-primary w-100">Mulai Proses</button>
+                </form>
+                <div id="loader" class="mt-4 d-none text-center">
+                    <div class="spinner-border text-primary mb-2"></div>
+                    <p id="statusTxt">Mengunggah...</p>
                 </div>
+                <div id="result" class="mt-4 d-none">
+                    <video id="resVid" controls class="w-100 rounded"></video>
+                    <a id="dlBtn" href="#" class="btn btn-success w-100 mt-2" download>Download Video</a>
                 </div>
             </div>
         </div>
     </div>
     <script>
         const form = document.getElementById('uploadForm');
         form.onsubmit = async (e) => {
             e.preventDefault();
             const fd = new FormData();
             fd.append('video', document.getElementById('videoFile').files[0]);
             fd.append('voice', document.getElementById('targetVoice').value);
             fd.append('prompt', document.getElementById('customPrompt').value);
             document.getElementById('btnSubmit').disabled = true;
+            document.getElementById('loader').classList.remove('d-none');
             const res = await fetch('/generate', {method:'POST', body:fd});
             const data = await res.json();
+            pollStatus(data.task_id);
+        };
+        async function pollStatus(id) {
             const itv = setInterval(async () => {
+                const res = await fetch('/status?task_id=' + id);
                 const data = await res.json();
                 document.getElementById('statusTxt').innerText = data.status;
+                if(data.status === 'Selesai') {
                     clearInterval(itv);
+                    document.getElementById('loader').classList.add('d-none');
+                    document.getElementById('result').classList.remove('d-none');
                     document.getElementById('resVid').src = data.result_video;
                     document.getElementById('dlBtn').href = data.result_video;
                     document.getElementById('btnSubmit').disabled = false;
+                } else if(data.status === 'Error') {
                     clearInterval(itv);
+                    alert("Gagal: " + data.error_message);
                     location.reload();
                 }
             }, 2000);
 </html>
 """
 if __name__ == '__main__':
     app.run(host='0.0.0.0', port=7860)