Spaces:

almfz
/

voice

Runtime error

App Files Files Community

almfz commited on Nov 8, 2025

Commit

1a2f7a1

verified ·

1 Parent(s): 9b06b18

Update app.py

Browse files

Files changed (1) hide show

app.py +124 -193

app.py CHANGED Viewed

@@ -1,217 +1,148 @@
 import streamlit as st
-import torch
-import os
-import librosa
 import numpy as np
-import re
-from speechbrain.inference.speaker import SpeakerRecognition
-from transformers import pipeline
-# --- KONFIGURASI APLIKASI ---
-st.set_page_config(page_title="Verifikasi Suara HF", layout="centered")
-st.title("🔐 Sistem Verifikasi Perintah Suara (Full HF)")
-st.write("Aplikasi ini menggunakan ASR (Whisper) untuk deteksi perintah dan Verifikasi Suara (SpeechBrain) untuk otentikasi.")
-# --- PATH & PENGATURAN MODEL ---
 APP_DIR = os.path.dirname(os.path.abspath(__file__))
-# === PASTIKAN NAMA FOLDER INI SUDAH BENAR ===
-PATH_ANDA = os.path.join(APP_DIR, "enroll", "v_ilham")
-PATH_TEMAN = os.path.join(APP_DIR, "enroll", "v_danendra")
-# ============================================
-THRESHOLD = 0.85  # Sesuaikan ini jika perlu
-# --- FUNGSI BANTUAN MODEL (SpeechBrain - Verifikasi Suara) ---
-def get_embedding(audio_source, model_sv):
-    """Menerima file path (str) ATAU file-like object."""
     try:
-        embedding = model_sv.encode_file(audio_source)
-        return embedding.squeeze()
     except Exception as e:
-        st.error(f"Error processing audio source for SV: {e}")
         return None
-def get_similarity(emb1, emb2, model_sv):
-    emb1_batch = emb1.unsqueeze(0)
-    emb2_batch = emb2.unsqueeze(0)
-    score = model_sv.similarity(emb1_batch, emb2_batch)
-    return score.item()
-def create_master_voiceprint(directory_path, model_sv):
-    embeddings = []
-    if not os.path.isdir(directory_path):
-        st.warning(f"Direktori pendaftaran tidak ditemukan: {directory_path}")
-        return None
-    files_found = 0
-    for file_name in os.listdir(directory_path):
-        if file_name.endswith(".wav"):
-            files_found += 1
-            file_path = os.path.join(directory_path, file_name)
-            emb = get_embedding(file_path, model_sv)
-            if emb is not None:
-                embeddings.append(emb)
-    if files_found == 0:
-        st.error(f"Tidak ada file .wav ditemukan di {directory_path}")
-        return None
-    if not embeddings:
-        st.error(f"Gagal memproses file .wav di {directory_path}.")
-        return None
-    master_voiceprint = torch.mean(torch.stack(embeddings), dim=0)
-    return master_voiceprint
-# --- LOADING MODEL (DENGAN CACHE) ---
-@st.cache_resource
-def load_model_sv():
-    st.info("Memuat Model Verifikasi Suara (SpeechBrain)...")
     try:
-        # === PERBAIKAN: Menyederhanakan Panggilan ===
-        # Kita TIDAK akan meneruskan argumen 'token' atau 'use_auth_token'.
-        # Kita biarkan library 'huggingface_hub' secara otomatis
-        # menemukan HF_TOKEN Anda dari environment secrets.
-        # 1. Pastikan token ada (untuk debug)
-        hf_token = os.environ.get("HF_TOKEN")
-        if hf_token is None:
-            st.warning("HF_TOKEN secret tidak ditemukan. Unduhan mungkin gagal.")
         else:
-            st.info("HF_TOKEN ditemukan. Melanjutkan dengan autentikasi...")
-        # 2. Panggil model TANPA argumen token.
-        # Kita kembali ke model 'ecapa-tdnn' yang asli (yang Gated).
-        model = SpeakerRecognition.from_hparams(
-            source="speechbrain/spkrec-ecapa-tdnn",
-            savedir="pretrained_models/spkrec-ecapa-tdnn"
-            # Perhatikan: TIDAK ADA 'token=hf_token' di sini.
-        )
-        # =============================================
-        st.success("Model Verifikasi Suara siap.")
-        return model
     except Exception as e:
-        st.exception(e)
-        st.error("Gagal memuat model SpeechBrain.")
         return None
-# ... sisa kode Anda (load_model_asr, dll. biarkan apa adanya) ...
-@st.cache_resource
-def load_model_asr():
-    st.info("Memuat Model ASR (Whisper - Hugging Face)...")
-    try:
-        asr_pipeline = pipeline(
-            "automatic-speech-recognition",
-            model="openai/whisper-tiny"
-        )
-        st.success("Model ASR (Whisper) siap.")
-        return asr_pipeline
-    except Exception as e:
-        st.exception(e)
-        st.error("Gagal memuat model ASR.")
-        return None
-@st.cache_resource
-def load_voiceprints(_model_sv):
-    st.info("Membuat master voiceprint...")
-    if _model_sv is None:
-        st.error("Model SV (SpeechBrain) gagal di-load, tidak bisa membuat voiceprint.")
-        return None
-    voiceprints = {}
-    vp_a = create_master_voiceprint(PATH_ANDA, _model_sv)
-    if vp_a is not None:
-        voiceprints["anda"] = vp_a
-        st.success("Voiceprint 'anda' dibuat.")
-    vp_b = create_master_voiceprint(PATH_TEMAN, _model_sv)
-    if vp_b is not None:
-        voiceprints["teman"] = vp_b
-        st.success("Voiceprint 'teman' dibuat.")
-    if not voiceprints:
-        st.error("Gagal membuat voiceprint.")
-        return None
-    return voiceprints
-# --- FUNGSI PIPELINE UTAMA ---
-def transkripsi_audio(audio_source, asr_pipeline):
-    st.info("Mentranskripsi audio (ASR)...")
-    try:
-        audio_data, sr = librosa.load(audio_source, sr=16000)
-        hasil = asr_pipeline(audio_data)
-        teks = hasil["text"].strip().lower()
-        teks_bersih = re.sub(r'[^\w\s]', '', teks).strip()
-        st.info(f"Teks terdeteksi: **'{teks}'** (Dibersihkan: **'{teks_bersih}'**)")
-        return teks_bersih
-    except Exception as e:
-        st.exception(e)
-        st.error("Gagal mentranskripsi audio.")
-        return None
-def verifikasi_suara(audio_source, model_sv, voiceprints, threshold):
-    test_embedding = get_embedding(audio_source, model_sv)
-    if test_embedding is None:
-        return False, 0.0, "Gagal buat embedding"
-    best_score = -1.0
-    best_match = "None"
-    for name, master_vp in voiceprints.items():
-        score = get_similarity(test_embedding, master_vp, model_sv)
-        if score > best_score:
-            best_score = score
-            best_match = name
-    if best_score >= threshold:
-        return True, best_score, best_match
-    else:
-        return False, best_score, "None"
-# --- MAIN APP ---
-model_sv = load_model_sv()
-model_asr = load_model_asr()
-voiceprints = load_voiceprints(model_sv)
-if not all([model_sv, model_asr, voiceprints]):
-    st.error("Gagal memuat semua model/voiceprint. Aplikasi tidak bisa berjalan. Cek error di atas.")
-else:
-    st.header("Upload Audio Perintah (.wav)")
-    uploaded_file = st.file_uploader("Pilih file audio...", type=["wav"])
-    if uploaded_file is not None:
-        st.audio(uploaded_file, format="audio/wav")
-    if st.button("Proses Perintah", disabled=(uploaded_file is None)):
-        with st.spinner("Menganalisis audio..."):
-            st.subheader("Hasil Model 1: Deteksi Kata Kunci (ASR)")
-            kata_kunci = transkripsi_audio(uploaded_file, model_asr)
-            if kata_kunci in ["buka", "tutup"]:
-                st.success(f"Kata kunci terdeteksi: **{kata_kunci.upper()}**")
-                st.subheader("Hasil Model 2: Verifikasi Suara (SpeechBrain)")
-                terverifikasi, skor, nama = verifikasi_suara(
-                    uploaded_file, model_sv, voiceprints, THRESHOLD
-                )
-                st.info(f"Skor kemiripan tertinggi: **{skor:.2%}** (dengan '{nama}')")
-                st.header("Keputusan Akhir")
-                if terverifikasi:
-                    st.success(f"✅ DITERIMA. Suara terverifikasi sebagai '{nama}'. Perintah **{kata_kunci.upper()}** dijalankan.")
                 else:
-                    st.error(f"❌ DITOLAK. Suara tidak dikenal. Perintah **{kata_kunci.upper()}** dibatalkan.")
-            elif kata_kunci is None:
-                st.error("Terjadi error saat memproses kata kunci (ASR).")
             else:
-                st.header("Keputusan Akhir")
-                st.warning(f"❌ DITOLAK. Perintah tidak dikenal (terdeteksi sebagai: '{kata_kunci}').")

 import streamlit as st
 import numpy as np
+import librosa
+import os
+from sklearn.metrics.pairwise import cosine_similarity
+# Tidak perlu import soundfile, librosa akan menggunakannya secara otomatis
+# --- PATH KONFIGURASI ---
+# Menggunakan path absolut untuk menemukan folder 'enroll'
 APP_DIR = os.path.dirname(os.path.abspath(__file__))
+ENROLL_DIR = os.path.join(APP_DIR, "enroll")
+# ------------------------------
+# Ekstraksi fitur suara (MFCC)
+# ------------------------------
+def extract_features(audio_source):
+    """
+    Kombinasi: Fungsi ini dari skrip Anda,
+    tapi dimodifikasi untuk menerima 'audio_source' (file-like object)
+    agar kita tidak perlu file temporer.
+    """
     try:
+        # librosa.load bisa membaca file-like object dari st.uploader
+        y, sr = librosa.load(audio_source, sr=None)
+        mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=20)
+        return np.mean(mfcc.T, axis=0)
     except Exception as e:
+        st.error(f"Gagal ekstrak fitur: {e}")
         return None
+# ------------------------------
+# Verifikasi identitas pengguna
+# ------------------------------
+def verify_user(audio_source, enroll_dir):
+    """
+    Logika dari skrip Anda, dikombinasikan dengan path yang lebih
+    kuat (ENROLL_DIR) dan fungsi 'extract_features' yang
+    sudah dimodifikasi.
+    """
+    test_feat = extract_features(audio_source)
+    if test_feat is None:
+        return None, 0.0
+    similarities = {}
+    if not os.path.isdir(enroll_dir):
+        st.error(f"Folder 'enroll' tidak ditemukan di: {enroll_dir}")
+        return None, 0.0
+    for user in os.listdir(enroll_dir):
+        user_dir = os.path.join(enroll_dir, user)
+        if not os.path.isdir(user_dir):
+            continue
+        scores = []
+        for file in os.listdir(user_dir):
+            if file.endswith(".wav"):
+                # Untuk file pendaftaran, kita gunakan file path (str)
+                file_path = os.path.join(user_dir, file)
+                feat = extract_features(file_path)
+                if feat is not None:
+                    # Logika 'cosine_similarity' Anda
+                    sim = cosine_similarity([test_feat], [feat])[0][0]
+                    scores.append(sim)
+        if scores:
+            similarities[user] = np.mean(scores)
+    if not similarities:
+        st.error("Tidak ada data pendaftaran (enroll) yang ditemukan/diproses.")
+        return None, 0.0
+    best_user = max(similarities, key=similarities.get)
+    best_score = similarities[best_user]
+    return best_user, best_score
+# ------------------------------
+# Deteksi kata kunci (buka/tutup) - Logika Anda
+# ------------------------------
+def detect_command(audio_source):
+    """
+    Ini adalah fungsi 'dummy' dari skrip Anda.
+    Logikanya (berdasarkan durasi) dipertahankan.
+    """
     try:
+        y, sr = librosa.load(audio_source, sr=None)
+        duration = librosa.get_duration(y=y, sr=sr)
+        # Logika placeholder dari kode Anda:
+        if duration < 1.0:
+            text = "buka"
         else:
+            text = "tutup"
+        return text
     except Exception as e:
+        # Kita sertakan nama file dalam error untuk debug
+        st.error(f"Gagal deteksi perintah: {e}")
         return None
+# ------------------------------
+# UI Streamlit
+# ------------------------------
+st.title("🔐 Sistem Verifikasi Suara - Perintah Buka/Tutup")
+st.caption("Hanya pengguna terdaftar yang dapat memberikan perintah suara 'buka' atau 'tutup'.")
+st.warning(
+    """PERHATIAN: Deteksi perintah ('buka'/'tutup') saat ini
+    hanyalah **placeholder** berdasarkan durasi audio (audio pendek = 'buka',
+    audio panjang = 'tutup') dan **tidak akurat**.""",
+    icon="⚠️"
+)
+uploaded_file = st.file_uploader("🎙️ Unggah suara (.wav)", type=["wav"])
+if uploaded_file is not None:
+    # Kombinasi: Kita HAPUS 'tempfile' dan 'os.remove'.
+    # Kita gunakan 'uploaded_file' secara langsung.
+    st.audio(uploaded_file, format="audio/wav")
+    if st.button("Mulai Verifikasi"):
+        with st.spinner("Menganalisis suara..."):
+            # PANGGILAN PERTAMA (memindahkan cursor ke akhir)
+            user, score = verify_user(uploaded_file, ENROLL_DIR)
+            # Logika UI Anda
+            if user and score > 0.85:
+                st.success(f"✅ Pengguna terdeteksi: **{user}** (skor {score:.2f})")
+                # === PERBAIKAN ===
+                # Kembalikan cursor file ke awal sebelum membacanya lagi
+                uploaded_file.seek(0)
+                # =================
+                # PANGGILAN KEDUA (sekarang berhasil)
+                cmd = detect_command(uploaded_file)
+                if cmd == "buka":
+                    st.success("🟢 Perintah terdeteksi: **BUKA** — Sistem terbuka.")
+                elif cmd == "tutup":
+                    st.warning("🔴 Perintah terdeteksi: **TUTUP** — Sistem tertutup.")
                 else:
+                    st.info("⚠️ Tidak dapat mengenali perintah.")
             else:
+                st.error("🚫 Akses ditolak! Suara tidak dikenali.")
+# Tidak ada 'os.remove()' lagi karena tidak ada file temporer