Spaces:

ftiiii
/

oto

Build error

App Files Files Community

ftiiii commited on Aug 3, 2025

Commit

3ba478f

verified ·

1 Parent(s): 8d5612b

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -70

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import gradio as gr
 import numpy as np
 import librosa
 import librosa.display
@@ -13,7 +13,6 @@ import tempfile
 from PIL import Image
 from tensorflow.keras.models import load_model
 from sklearn.preprocessing import StandardScaler
-from scipy.signal import butter, lfilter
 SAMPLE_RATE = 22050
 MAX_DURATION = 5
@@ -41,20 +40,9 @@ def denoise_wavelet(signal, wavelet='db8', level=4):
     coeffs = pywt.wavedec(signal, wavelet, level=level)
     sigma = np.median(np.abs(coeffs[-1])) / 0.6745
     uthresh = sigma * np.sqrt(2 * np.log(len(signal)))
-    coeffs_denoised = [pywt.threshold(c, value=uthresh, mode='soft') if i > 0 else c for i, c in enumerate(coeffs)]
     return pywt.waverec(coeffs_denoised, wavelet)
-def normalize_volume(signal):
-    max_amp = np.max(np.abs(signal))
-    return signal / max_amp if max_amp > 0 else signal
-def bandpass_filter(signal, sr, lowcut=50, highcut=3000, order=5):
-    nyquist = 0.5 * sr
-    low = lowcut / nyquist
-    high = highcut / nyquist
-    b, a = butter(order, [low, high], btype='band')
-    return lfilter(b, a, signal)
 def create_sequences(mfcc, time_steps=20):
     return np.array([mfcc[i:i+time_steps] for i in range(len(mfcc) - time_steps)])
@@ -70,53 +58,65 @@ def tao_anh_mel(file_path):
     S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
     S_dB = librosa.power_to_db(S, ref=np.max)
     fig, ax = plt.subplots(figsize=(6, 3))
-    img = librosa.display.specshow(S_dB, sr=sr, x_axis='time', y_axis='mel', ax=ax)
-    ax.set(title='Mel Spectrogram')
-    plt.colorbar(img, ax=ax, format='%+2.0f dB')
-    buf = tempfile.NamedTemporaryFile(suffix=".png", delete=False)
-    plt.savefig(buf.name, bbox_inches='tight', pad_inches=0.1)
-    plt.close(fig)
-    return buf.name
-def tao_anh_wavelet(file_path):
     y, sr = librosa.load(file_path, sr=None, mono=True)
     y = cat_2s_ngau_nhien(y, sr)
-    coef, freqs = pywt.cwt(y, np.arange(1, 129), 'morl')
     fig, ax = plt.subplots(figsize=(6, 3))
-    img = ax.imshow(np.abs(coef), extent=[0, len(y)/sr, 1, 128], cmap='viridis', aspect='auto', vmax=np.abs(coef).max(), vmin=0)
-    ax.set_title("Wavelet Transform")
-    ax.set_ylabel("Scale")
-    ax.set_xlabel("Time (s)")
-    plt.colorbar(img, ax=ax)
-    buf = tempfile.NamedTemporaryFile(suffix=".png", delete=False)
-    plt.savefig(buf.name, bbox_inches='tight', pad_inches=0.1)
-    plt.close(fig)
-    return buf.name
-def tao_anh_waveform(file_path):
-    y, sr = librosa.load(file_path, sr=None)
-    fig, ax = plt.subplots(figsize=(6, 2))
-    librosa.display.waveshow(y, sr=sr, ax=ax)
-    ax.set(title='Waveform')
-    buf = tempfile.NamedTemporaryFile(suffix=".png", delete=False)
-    plt.savefig(buf.name, bbox_inches='tight')
-    plt.close(fig)
-    return buf.name
 def du_doan(file_path):
     if not file_path:
         return "<b style='color:red;'>❌ Chưa có âm thanh.</b>"
     signal, sr = librosa.load(file_path, sr=SAMPLE_RATE, mono=True)
-    signal, _ = librosa.effects.trim(signal, top_db=30)
-    signal = normalize_volume(signal)
-    signal = bandpass_filter(signal, sr)
-    rms = np.sqrt(np.mean(signal**2))
-    if rms < 0.001:
-        return "<b style='color:red;'>⚠️ Âm lượng quá thấp. Ghi âm gần động cơ hơn.</b>"
     signal = librosa.util.fix_length(signal, size=SAMPLE_RATE * MAX_DURATION)
     if USE_DENOISE:
         signal = denoise_wavelet(signal)
@@ -131,11 +131,7 @@ def du_doan(file_path):
     avg_probs = np.mean(y_preds, axis=0)
     pred_index = np.argmax(avg_probs)
     confidence = avg_probs[pred_index] * 100
-    if confidence < 60:
-        return "<b style='color:red;'>⚠️ Không nhận dạng được rõ ràng. Vui lòng ghi âm lại với ít nhiễu hơn.</b>"
-    pred_label = index_to_label[pred_index]
     html = f"""<div style='background:#f0faff;color:#000;padding:10px;border-radius:10px'>
 <b style='color:#000'>📋 Kết Quả:</b><br>
@@ -148,18 +144,6 @@ def du_doan(file_path):
     html += "</div>"
     return html
-def bao_san_sang(file_path):
-    if file_path:
-        return "<b style='color:green;'>✅ Âm thanh đã sẵn sàng. Nhấn kiểm tra ngay!</b>"
-    else:
-        return ""
-def sinh_anh(file_path):
-    if file_path:
-        return tao_anh_mel(file_path), tao_anh_wavelet(file_path), tao_anh_waveform(file_path)
-    else:
-        return None, None, None
 def reset_output():
     return "", None, None, None, ""
@@ -208,7 +192,7 @@ with gr.Blocks(css="""
     """)
     with gr.Row():
-        audio_file = gr.Audio(type="filepath", label="📂 Tải File Âm Thanh", sources=["upload"], interactive=True)
         audio_mic = gr.Audio(type="filepath", label="🎤 Ghi Âm", sources=["microphone"], interactive=True)
     thong_bao_ready = gr.HTML()
@@ -245,4 +229,4 @@ with gr.Blocks(css="""
         output_html
     ])
-demo.launch()

+import gradio as gr
 import numpy as np
 import librosa
 import librosa.display
 from PIL import Image
 from tensorflow.keras.models import load_model
 from sklearn.preprocessing import StandardScaler
 SAMPLE_RATE = 22050
 MAX_DURATION = 5
     coeffs = pywt.wavedec(signal, wavelet, level=level)
     sigma = np.median(np.abs(coeffs[-1])) / 0.6745
     uthresh = sigma * np.sqrt(2 * np.log(len(signal)))
+    coeffs_denoised = [pywt.threshold(c, value=uthresh, mode='soft') for c in coeffs]
     return pywt.waverec(coeffs_denoised, wavelet)
 def create_sequences(mfcc, time_steps=20):
     return np.array([mfcc[i:i+time_steps] for i in range(len(mfcc) - time_steps)])
     S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
     S_dB = librosa.power_to_db(S, ref=np.max)
     fig, ax = plt.subplots(figsize=(6, 3))
+    img = librosa.display.specshow(S_dB, sr=sr, x_axis='time', y_axis='mel', ax=ax, cmap='magma')
+    ax.set_title("Phổ tần Mel", fontsize=10)
+    fig.colorbar(img, ax=ax)
+    plt.tight_layout()
+    path = os.path.join(tempfile.gettempdir(), "mel.png")
+    fig.savefig(path, dpi=80)
+    plt.close()
+    return Image.open(path)
+def tao_wavelet_transform(file_path):
     y, sr = librosa.load(file_path, sr=None, mono=True)
     y = cat_2s_ngau_nhien(y, sr)
+    coef, _ = pywt.cwt(y, scales=np.arange(1, 128), wavelet='morl', sampling_period=1/sr)
     fig, ax = plt.subplots(figsize=(6, 3))
+    ax.imshow(np.abs(coef), extent=[0, len(y)/sr, 1, 128], cmap='plasma', aspect='auto', origin='lower')
+    ax.set_title("Phổ sóng con (Wavelet)")
+    ax.set_xlabel("Thời gian (s)")
+    ax.set_ylabel("Tần số (scale)")
+    plt.tight_layout()
+    path = os.path.join(tempfile.gettempdir(), "wavelet.png")
+    fig.savefig(path, dpi=80)
+    plt.close()
+    return Image.open(path)
+def tao_waveform_image(file_path):
+    y, sr = librosa.load(file_path, sr=None, mono=True)
+    y = cat_2s_ngau_nhien(y, sr)
+    fig, ax = plt.subplots(figsize=(6, 2.5))
+    librosa.display.waveshow(y, sr=sr, ax=ax, color='steelblue')
+    ax.set_title("Biểu đồ Sóng Âm (Waveform)")
+    ax.set_xlabel("Thời gian (s)")
+    ax.set_ylabel("Biên độ")
+    plt.tight_layout()
+    path = os.path.join(tempfile.gettempdir(), "waveform.png")
+    fig.savefig(path, dpi=80)
+    plt.close()
+    return Image.open(path)
+def bao_san_sang(file_path):
+    if not file_path:
+        return ""
+    return "<b style='color:green;'>✅ Âm thanh đã sẵn sàng. Nhấn kiểm tra ngay!</b>"
+def sinh_anh(file_path):
+    if not file_path:
+        return None, None, None
+    mel_img = tao_anh_mel(file_path)
+    wavelet_img = tao_wavelet_transform(file_path)
+    waveform_img = tao_waveform_image(file_path)
+    return mel_img, wavelet_img, waveform_img
 def du_doan(file_path):
     if not file_path:
         return "<b style='color:red;'>❌ Chưa có âm thanh.</b>"
     signal, sr = librosa.load(file_path, sr=SAMPLE_RATE, mono=True)
+    signal, _ = librosa.effects.trim(signal)
     signal = librosa.util.fix_length(signal, size=SAMPLE_RATE * MAX_DURATION)
     if USE_DENOISE:
         signal = denoise_wavelet(signal)
     avg_probs = np.mean(y_preds, axis=0)
     pred_index = np.argmax(avg_probs)
     confidence = avg_probs[pred_index] * 100
+    pred_label = "HƯ HỎNG KHÁC" if confidence < 60 else index_to_label[pred_index]
     html = f"""<div style='background:#f0faff;color:#000;padding:10px;border-radius:10px'>
 <b style='color:#000'>📋 Kết Quả:</b><br>
     html += "</div>"
     return html
 def reset_output():
     return "", None, None, None, ""
     """)
     with gr.Row():
+        audio_file = gr.Audio(type="filepath", label="📂 Tải File Âm Thanh", interactive=True)
         audio_mic = gr.Audio(type="filepath", label="🎤 Ghi Âm", sources=["microphone"], interactive=True)
     thong_bao_ready = gr.HTML()
         output_html
     ])
+demo.launch()