Spaces:

Ricky01anjay
/

dubbingAI

Paused

App Files Files Community

Ricky01anjay commited on Mar 5

Commit

85f08bf

verified ·

1 Parent(s): 355e25c

Update app.py

Browse files

Files changed (1) hide show

app.py +113 -75

app.py CHANGED Viewed

@@ -7,13 +7,20 @@ import json
 import time
 import subprocess
 import logging
 import numpy as np
 from flask import Flask, request, jsonify, render_template_string, send_from_directory
 import whisper
 import edge_tts
 # --- KONFIGURASI SILENT LOGS ---
 os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
 logging.getLogger('werkzeug').setLevel(logging.ERROR)
 app = Flask(__name__)
@@ -31,78 +38,100 @@ VOICE_MAP = {
     'ja-JP': {'Male': 'ja-JP-KeitaNeural', 'Female': 'ja-JP-NanamiNeural'}
 }
-# Mapping Bahasa untuk Prompt AI
 LANG_MAP = {
     'id-ID': 'Indonesia',
     'en-US': 'Inggris',
     'ja-JP': 'Jepang'
 }
-# Load Whisper (CPU Friendly, FP16 Fixed)
 whisper_model = whisper.load_model("base")
-def get_audio_duration(file_path):
-    cmd = [
-        'ffprobe', '-v', 'error', '-show_entries', 'format=duration',
-        '-of', 'default=noprint_wrappers=1:nokey=1', file_path
-    ]
-    result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.DEVNULL)
-    try:
-        return float(result.stdout)
-    except:
-        return 0.0
-def analyze_gender_and_pitch(audio_path):
-    """Menganalisis potongan audio untuk menentukan gender dan variasi pitch."""
-    try:
-        import librosa
-        # Load audio dengan sample rate standard
-        y, sr = librosa.load(audio_path, sr=22050)
-        if len(y) == 0: return "Male", "+0Hz"
-        # Deteksi Fundamental Frequency (F0)
-        f0 = librosa.yin(y, fmin=65, fmax=300)
-        valid_f0 = f0[~np.isnan(f0)]
-        if len(valid_f0) > 0:
-            mean_f0 = np.mean(valid_f0)
-            # Threshold umum: > 165Hz = Perempuan, < 165Hz = Laki-laki
-            gender = "Female" if mean_f0 >= 165 else "Male"
-            # Hitung variasi pitch (agar tiap orang suaranya beda)
-            # Normal cowok ~120Hz, cewek ~210Hz. Dibagi 2 agar tidak terlalu ekstrem
-            base_f0 = 210.0 if gender == "Female" else 120.0
-            pitch_shift = int((mean_f0 - base_f0) / 2)
-            # Batasi modifikasi pitch Edge TTS agar tidak rusak (antara -20Hz s/d +20Hz)
-            pitch_shift = max(-20, min(20, pitch_shift))
-            pitch_str = f"+{pitch_shift}Hz" if pitch_shift >= 0 else f"{pitch_shift}Hz"
-            return gender, pitch_str
-    except Exception as e:
-        print(f"Pitch analysis warning: {e}")
-    return "Male", "+0Hz" # Default fallback
 def translate_segments_llm(segments, custom_prompt, target_voice):
     target_lang = LANG_MAP.get(target_voice, 'Indonesia')
-    # PERBAIKAN: Memasukkan bahasa target secara paksa ke dalam prompt
-    if custom_prompt:
-        instruction = f"{custom_prompt}\n\nPENTING: Terjemahkan SEMUA teks ke dalam bahasa {target_lang}."
-    else:
-        instruction = f"Terjemahkan teks dalam JSON ini ke bahasa {target_lang} dengan akurat. Balas HANYA dengan JSON array."
     input_data = [{"id": i, "text": s['text']} for i, s in enumerate(segments)]
     full_prompt = f"{instruction}\n\nFormat: [{{'id': 0, 'text': '...'}}]\n\nData:\n{json.dumps(input_data)}"
-    url = "https://www.puruboy.kozow.com/api/ai/notegpt"
-    payload = {"prompt": full_prompt, "model": "gemini-3-flash-preview", "chat_mode": "standard"}
     try:
         response = requests.post(url, json=payload, timeout=60)
         full_text = ""
         for line in response.iter_lines():
             if line:
@@ -117,47 +146,50 @@ def translate_segments_llm(segments, custom_prompt, target_voice):
         for item in translated_list:
             segments[item['id']]['translated_text'] = item['text']
     except Exception as e:
-        print(f"Translation Error: {e}")
         for s in segments: s['translated_text'] = s['text']
     return segments
-# PERBAIKAN: Menambahkan parameter pitch
-async def generate_tts(text, voice, path, pitch_str="+0Hz"):
-    communicate = edge_tts.Communicate(text, voice, pitch=pitch_str)
     await communicate.save(path)
 def process_dubbing(task_id, video_path, target_voice, custom_prompt):
     try:
         tasks[task_id]['status'] = 'Mengekstrak Audio...'
         orig_audio = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_orig.wav")
-        subprocess.run(['ffmpeg', '-loglevel', 'quiet', '-y', '-i', video_path, '-vn', '-acodec', 'pcm_s16le', '-ar', '44100', orig_audio], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
         tasks[task_id]['status'] = 'Transkripsi...'
         result = whisper_model.transcribe(orig_audio, verbose=False, fp16=False)
         segments = result['segments']
         tasks[task_id]['status'] = f'Translasi AI ({LANG_MAP.get(target_voice, target_voice)})...'
-        # Pass target_voice ke translator
         translated_segments = translate_segments_llm(segments, custom_prompt, target_voice)
-        tasks[task_id]['status'] = 'Menganalisis Suara & Dubbing...'
         processed_audio_files = []
         for i, seg in enumerate(translated_segments):
             start_t = seg['start']
             end_t = seg['end']
             duration_orig = end_t - start_t
-            text = seg.get('translated_text', seg['text'])
-            if not text.strip(): continue
-            # Potong audio asli khusus untuk segmen ini guna deteksi suara
-            chunk_wav = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_chunk_{i}.wav")
-            subprocess.run(['ffmpeg', '-loglevel', 'quiet', '-y', '-i', orig_audio, '-ss', str(start_t), '-t', str(duration_orig), chunk_wav], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
-            # Deteksi Cewek/Cowok dan variasi pitch
-            gender, pitch_str = analyze_gender_and_pitch(chunk_wav)
-            # Pilih Voice ID yang sesuai berdasarkan bahasa dan gender
             selected_voice = VOICE_MAP.get(target_voice, VOICE_MAP['id-ID'])[gender]
             raw_tts = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_raw_{i}.mp3")
@@ -166,6 +198,7 @@ def process_dubbing(task_id, video_path, target_voice, custom_prompt):
             # Generate TTS dengan pitch modifier
             asyncio.run(generate_tts(text, selected_voice, raw_tts, pitch_str))
             tts_dur = get_audio_duration(raw_tts)
             speed = min(max(tts_dur / duration_orig, 0.7), 1.8) if duration_orig > 0 else 1.0
@@ -176,8 +209,8 @@ def process_dubbing(task_id, video_path, target_voice, custom_prompt):
         output_filename = f"{task_id}_output.mp4"
         output_path = os.path.join(app.config['UPLOAD_FOLDER'], output_filename)
-        # LOGIKA AUDIO BARU:
-        filter_complex = "[0:a]equalizer=f=1000:width_type=o:w=2:g=-15,volume=0.4[bg];"
         inputs_cmd = ['ffmpeg', '-loglevel', 'quiet', '-y', '-i', video_path]
         amix_inputs = "[bg]"
@@ -224,7 +257,7 @@ def generate():
     task_id = str(uuid.uuid4())
     path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}.mp4")
     file.save(path)
-    tasks[task_id] = {'status': 'Queued', 'result_video': None, 'error_message': None}
     threading.Thread(target=process_dubbing, args=(task_id, path, request.form.get('voice'), request.form.get('prompt'))).start()
     return jsonify({'task_id': task_id})
@@ -236,6 +269,7 @@ def status():
 def download(f):
     return send_from_directory(app.config['UPLOAD_FOLDER'], f)
 # --- HTML DENGAN TAILWIND CSS ---
 HTML_TEMPLATE = """
 <!DOCTYPE html>
@@ -248,8 +282,13 @@ HTML_TEMPLATE = """
 </head>
 <body class="bg-gray-900 text-gray-100 min-h-screen flex items-center justify-center p-4 font-sans">
-    <div class="bg-gray-800 rounded-2xl shadow-2xl p-8 w-full max-w-md border border-gray-700">
-        <h2 class="text-2xl font-bold text-center mb-2 text-white">🎙️ Dubbing Sync Pro</h2>
         <p class="text-sm text-center text-gray-400 mb-6">Deteksi Gender & Multi-Speaker Auto-Pitch</p>
         <form id="uploadForm" class="space-y-4">
@@ -270,12 +309,12 @@ HTML_TEMPLATE = """
             <div>
                 <label class="block text-sm font-medium text-gray-300 mb-1">Custom Prompt AI (Opsional)</label>
-                <textarea id="customPrompt" rows="2" placeholder="Gaya bahasa santai, dll..."
                     class="w-full bg-gray-700 border border-gray-600 rounded-lg p-2.5 text-white focus:ring-2 focus:ring-blue-500 focus:outline-none resize-none"></textarea>
             </div>
             <button type="submit" id="btnSubmit"
-                class="w-full bg-blue-600 hover:bg-blue-700 text-white font-bold py-3 px-4 rounded-lg transition duration-200 shadow-lg shadow-blue-500/30">
                 Mulai Dubbing
             </button>
         </form>
@@ -330,7 +369,6 @@ HTML_TEMPLATE = """
                     document.getElementById('resVideo').src = sData.result_video;
                     document.getElementById('dlBtn').href = sData.result_video;
-                    // Reset button
                     document.getElementById('btnSubmit').disabled = false;
                     document.getElementById('btnSubmit').classList.remove('opacity-50', 'cursor-not-allowed');
                 } else if (sData.status === 'Error') {

 import time
 import subprocess
 import logging
+import warnings
 import numpy as np
+import librosa
+import soundfile as sf
 from flask import Flask, request, jsonify, render_template_string, send_from_directory
 import whisper
 import edge_tts
+# --- TAMBAHAN AI UNTUK GENDER DETECTION ---
+from transformers import pipeline
 # --- KONFIGURASI SILENT LOGS ---
 os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
+warnings.filterwarnings('ignore')
 logging.getLogger('werkzeug').setLevel(logging.ERROR)
 app = Flask(__name__)
     'ja-JP': {'Male': 'ja-JP-KeitaNeural', 'Female': 'ja-JP-NanamiNeural'}
 }
 LANG_MAP = {
     'id-ID': 'Indonesia',
     'en-US': 'Inggris',
     'ja-JP': 'Jepang'
 }
+# 1. Load Whisper
+print("Memuat Model Whisper...")
 whisper_model = whisper.load_model("base")
+# 2. Load AI Gender Classifier (Transformers)
+print("Memuat Model AI Gender Recognition...")
+try:
+    gender_classifier = pipeline("audio-classification", model="alefiury/wav2vec2-large-xlsr-53-gender-recognition-osmr", device="cpu")
+    print("Berhasil memuat AI Gender Model!")
+except Exception as e:
+    print(f"Peringatan: Gagal memuat AI Gender, akan menggunakan Fallback Librosa. Error: {e}")
+    gender_classifier = None
+def get_audio_duration(file_path):
+    cmd = ['ffprobe', '-v', 'error', '-show_entries', 'format=duration', '-of', 'default=noprint_wrappers=1:nokey=1', file_path]
+    result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.DEVNULL)
+    try: return float(result.stdout)
+    except: return 0.0
+def analyze_audio_chunk(y_chunk, sr):
+    """Menganalisis array audio untuk Gender (AI + P-YIN) & Pitch secara komprehensif"""
+    if len(y_chunk) == 0: return "Male", "+0%"
+    # 1. Ekstraksi Pitch dengan pYIN (Probabilistic YIN - Sangat Akurat)
+    f0, voiced_flag, _ = librosa.pyin(
+        y_chunk,
+        fmin=librosa.note_to_hz('C2'), # ~65 Hz
+        fmax=librosa.note_to_hz('C6'), # ~1046 Hz
+        sr=sr
+    )
+    valid_f0 = f0[voiced_flag]
+    mean_f0 = np.median(valid_f0) if len(valid_f0) > 0 else 0
+    gender = None
+    # 2. Klasifikasi Gender Menggunakan Model AI HuggingFace (Jika tersedia)
+    if gender_classifier is not None and len(y_chunk) > (sr * 0.3): # Butuh minimal 0.3 detik audio
+        try:
+            # Resample ke 16kHz karena model Wav2Vec2 mewajibkan 16kHz
+            y_16k = librosa.resample(y_chunk, orig_sr=sr, target_sr=16000)
+            ai_result = gender_classifier(y_16k)
+            best_label = ai_result[0]['label'].lower()
+            gender = "Female" if "female" in best_label else "Male"
+        except Exception as e:
+            print(f"AI Model Error, fallback... {e}")
+    # 3. Fallback: Klasifikasi Gender Cerdas dengan Librosa (Pitch + Timbre)
+    if not gender:
+        if mean_f0 > 175:
+            gender = "Female"
+        elif mean_f0 > 0 and mean_f0 < 155:
+            gender = "Male"
+        else:
+            # Jika di zona abu-abu (155-175Hz), cek Kecerahan Suara (Spectral Centroid)
+            cent = librosa.feature.spectral_centroid(y=y_chunk, sr=sr)
+            mean_cent = np.median(cent)
+            gender = "Female" if mean_cent > 1600 else "Male"
+    # 4. Dinamis Pitch Shift (Persentase)
+    # Target frekuensi rata-rata: Pria ~120Hz, Wanita ~210Hz
+    base_f0 = 210.0 if gender == "Female" else 120.0
+    if mean_f0 > 0:
+        # Menghitung selisih persentase antara suara asli dan target
+        pitch_shift_pct = ((mean_f0 - base_f0) / base_f0) * 100
+        # Batasi perubahan maksimal 12% agar suara AI tidak rusak/chipmunk
+        pitch_shift_pct = max(-12, min(12, pitch_shift_pct))
+    else:
+        pitch_shift_pct = 0
+    pitch_str = f"{int(pitch_shift_pct):+d}%"
+    return gender, pitch_str
 def translate_segments_llm(segments, custom_prompt, target_voice):
     target_lang = LANG_MAP.get(target_voice, 'Indonesia')
+    if custom_prompt: instruction = f"{custom_prompt}\n\nPENTING: Terjemahkan SEMUA teks ke dalam bahasa {target_lang}."
+    else: instruction = f"Terjemahkan teks dalam JSON ini ke bahasa {target_lang} dengan akurat. Balas HANYA dengan JSON array."
     input_data = [{"id": i, "text": s['text']} for i, s in enumerate(segments)]
     full_prompt = f"{instruction}\n\nFormat: [{{'id': 0, 'text': '...'}}]\n\nData:\n{json.dumps(input_data)}"
     try:
+        url = "https://www.puruboy.kozow.com/api/ai/notegpt"
+        payload = {"prompt": full_prompt, "model": "gemini-3-flash-preview", "chat_mode": "standard"}
         response = requests.post(url, json=payload, timeout=60)
         full_text = ""
         for line in response.iter_lines():
             if line:
         for item in translated_list:
             segments[item['id']]['translated_text'] = item['text']
     except Exception as e:
+        print(f"Translation API Error: {e}, using original text.")
         for s in segments: s['translated_text'] = s['text']
     return segments
+async def generate_tts(text, voice, path, pitch_str="+0%"):
+    # Edge TTS mendukung persentase (contoh: +5%, -10%)
+    communicate = edge_tts.Communicate(text, voice, rate="+0%", pitch=pitch_str)
     await communicate.save(path)
 def process_dubbing(task_id, video_path, target_voice, custom_prompt):
     try:
         tasks[task_id]['status'] = 'Mengekstrak Audio...'
         orig_audio = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_orig.wav")
+        subprocess.run(['ffmpeg', '-loglevel', 'quiet', '-y', '-i', video_path, '-vn', '-acodec', 'pcm_s16le', '-ar', '22050', orig_audio], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
+        # Muat audio secara utuh ke memori (Sangat mempercepat proses analisis!)
+        tasks[task_id]['status'] = 'Analisis Audio Utama...'
+        y_full, sr_full = librosa.load(orig_audio, sr=22050)
         tasks[task_id]['status'] = 'Transkripsi...'
         result = whisper_model.transcribe(orig_audio, verbose=False, fp16=False)
         segments = result['segments']
         tasks[task_id]['status'] = f'Translasi AI ({LANG_MAP.get(target_voice, target_voice)})...'
         translated_segments = translate_segments_llm(segments, custom_prompt, target_voice)
+        tasks[task_id]['status'] = 'Mendeteksi Gender & Dubbing...'
         processed_audio_files = []
         for i, seg in enumerate(translated_segments):
             start_t = seg['start']
             end_t = seg['end']
             duration_orig = end_t - start_t
+            text = seg.get('translated_text', seg['text']).strip()
+            if not text: continue
+            # Potong audio langsung dari RAM (Tidak perlu FFmpeg)
+            start_sample = int(start_t * sr_full)
+            end_sample = int(end_t * sr_full)
+            y_chunk = y_full[start_sample:end_sample]
+            # Gunakan AI & Matematika Akustik untuk tentukan Gender & Variasi Pitch
+            gender, pitch_str = analyze_audio_chunk(y_chunk, sr_full)
             selected_voice = VOICE_MAP.get(target_voice, VOICE_MAP['id-ID'])[gender]
             raw_tts = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}_raw_{i}.mp3")
             # Generate TTS dengan pitch modifier
             asyncio.run(generate_tts(text, selected_voice, raw_tts, pitch_str))
+            # Sinkronisasi durasi TTS dengan audio original
             tts_dur = get_audio_duration(raw_tts)
             speed = min(max(tts_dur / duration_orig, 0.7), 1.8) if duration_orig > 0 else 1.0
         output_filename = f"{task_id}_output.mp4"
         output_path = os.path.join(app.config['UPLOAD_FOLDER'], output_filename)
+        # Auto-Ducking: Audio asli diredupkan (volume=0.3), dubbing dibesarkan (volume=3.0)
+        filter_complex = "[0:a]equalizer=f=1000:width_type=o:w=2:g=-15,volume=0.3[bg];"
         inputs_cmd = ['ffmpeg', '-loglevel', 'quiet', '-y', '-i', video_path]
         amix_inputs = "[bg]"
     task_id = str(uuid.uuid4())
     path = os.path.join(app.config['UPLOAD_FOLDER'], f"{task_id}.mp4")
     file.save(path)
+    tasks[task_id] = {'status': 'Antri...', 'result_video': None, 'error_message': None}
     threading.Thread(target=process_dubbing, args=(task_id, path, request.form.get('voice'), request.form.get('prompt'))).start()
     return jsonify({'task_id': task_id})
 def download(f):
     return send_from_directory(app.config['UPLOAD_FOLDER'], f)
 # --- HTML DENGAN TAILWIND CSS ---
 HTML_TEMPLATE = """
 <!DOCTYPE html>
 </head>
 <body class="bg-gray-900 text-gray-100 min-h-screen flex items-center justify-center p-4 font-sans">
+    <div class="bg-gray-800 rounded-2xl shadow-2xl p-8 w-full max-w-md border border-gray-700 relative overflow-hidden">
+        <!-- AI Badge -->
+        <div class="absolute top-0 right-0 bg-purple-600 text-xs font-bold px-3 py-1 rounded-bl-lg shadow-lg">
+            ✨ Advanced AI Engine
+        </div>
+        <h2 class="text-2xl font-bold text-center mb-2 text-white mt-2">🎙️ Dubbing Sync Pro</h2>
         <p class="text-sm text-center text-gray-400 mb-6">Deteksi Gender & Multi-Speaker Auto-Pitch</p>
         <form id="uploadForm" class="space-y-4">
             <div>
                 <label class="block text-sm font-medium text-gray-300 mb-1">Custom Prompt AI (Opsional)</label>
+                <textarea id="customPrompt" rows="2" placeholder="Contoh: Terjemahkan dengan gaya bahasa santai..."
                     class="w-full bg-gray-700 border border-gray-600 rounded-lg p-2.5 text-white focus:ring-2 focus:ring-blue-500 focus:outline-none resize-none"></textarea>
             </div>
             <button type="submit" id="btnSubmit"
+                class="w-full bg-blue-600 hover:bg-blue-700 text-white font-bold py-3 px-4 rounded-lg transition duration-200 shadow-lg shadow-blue-500/30 flex justify-center items-center gap-2">
                 Mulai Dubbing
             </button>
         </form>
                     document.getElementById('resVideo').src = sData.result_video;
                     document.getElementById('dlBtn').href = sData.result_video;
                     document.getElementById('btnSubmit').disabled = false;
                     document.getElementById('btnSubmit').classList.remove('opacity-50', 'cursor-not-allowed');
                 } else if (sData.status === 'Error') {