Spaces:

tachiwin
/

classifier

Running

App Files Files Community

Luis J Camargo commited on 4 days ago

Commit

a22ea4f

1 Parent(s): 90f1441

feat: Add detailed logging for audio processing and inference, remove unused imports, and adjust Gradio launch configuration.

Browse files

Files changed (2) hide show

app.py +29 -3
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import gradio as gr
 import torch
 import numpy as np
@@ -80,15 +81,27 @@ model.eval()
 print("Model loaded successfully!")
 # === INFERENCE FUNCTION ===
 def predict_language(audio):
     if audio is None:
         return "⚠️ No audio provided", "", ""
     sample_rate, audio_array = audio
     audio_len_sec = len(audio_array) / sample_rate
     print(f"\n--- [LOG] New Request ---")
-    print(f"[LOG] Audio length: {audio_len_sec:.2f}s, SR: {sample_rate}")
     # Normalization
     print("[LOG] Step 1: Normalizing audio...")
@@ -96,12 +109,15 @@ def predict_language(audio):
         audio_array = audio_array.astype(np.float32) / 32768.0
     elif audio_array.dtype == np.int32:
         audio_array = audio_array.astype(np.float32) / 2147483648.0
     # Resampling
     if sample_rate != 16000:
         print(f"[LOG] Step 2: Resampling {sample_rate}Hz -> 16000Hz...")
         import librosa
         audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=16000)
     # Preprocessing
     print("[LOG] Step 3: Extracting features...")
@@ -110,12 +126,21 @@ def predict_language(audio):
         sampling_rate=16000,
         return_tensors="pt"
     )
     # Inference
-    print("[LOG] Step 4: Running model inference (CPU intensive)...")
     with torch.no_grad():
         outputs = model(input_features=inputs.input_features)
     # Post-processing
     print("[LOG] Step 5: Post-processing results...")
     fam_probs = torch.softmax(outputs["fam_logits"], dim=-1)
@@ -130,7 +155,7 @@ def predict_language(audio):
     super_conf = super_probs[0, super_idx].item()
     code_conf = code_probs[0, code_idx].item()
-    print(f"[LOG] Prediction successful: Family {fam_idx}")
     print(f"--- [LOG] Request Finished ---\n")
     # Formatting results
@@ -140,6 +165,7 @@ def predict_language(audio):
         {f"{code_idx}": code_conf}
     )
 # === UI COMPONENTS ===
 with gr.Blocks() as demo:
     gr.HTML(

+import os
 import gradio as gr
 import torch
 import numpy as np
 print("Model loaded successfully!")
+import psutil
+import gc
+def get_mem_usage():
+    process = psutil.Process(os.getpid())
+    return process.memory_info().rss / (1024 ** 2)  # In MB
 # === INFERENCE FUNCTION ===
 def predict_language(audio):
     if audio is None:
         return "⚠️ No audio provided", "", ""
+    gc.collect() # Start clean
+    start_mem = get_mem_usage()
     sample_rate, audio_array = audio
     audio_len_sec = len(audio_array) / sample_rate
     print(f"\n--- [LOG] New Request ---")
+    print(f"[LOG] Start Memory: {start_mem:.2f} MB")
+    print(f"[LOG] Audio duration: {audio_len_sec:.2f}s, SR: {sample_rate}")
     # Normalization
     print("[LOG] Step 1: Normalizing audio...")
         audio_array = audio_array.astype(np.float32) / 32768.0
     elif audio_array.dtype == np.int32:
         audio_array = audio_array.astype(np.float32) / 2147483648.0
+    print(f"[LOG] Memory after normalization: {get_mem_usage():.2f} MB")
     # Resampling
     if sample_rate != 16000:
         print(f"[LOG] Step 2: Resampling {sample_rate}Hz -> 16000Hz...")
         import librosa
+        # Use res_type="kaiser_fast" to save memory/cpu if needed, but default is usually fine
         audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=16000)
+        print(f"[LOG] Memory after resampling: {get_mem_usage():.2f} MB")
     # Preprocessing
     print("[LOG] Step 3: Extracting features...")
         sampling_rate=16000,
         return_tensors="pt"
     )
+    # Delete raw audio array immediately as it's now in 'inputs'
+    del audio_array
+    gc.collect()
+    print(f"[LOG] Memory after preprocessing: {get_mem_usage():.2f} MB")
     # Inference
+    print("[LOG] Step 4: Running model inference...")
     with torch.no_grad():
         outputs = model(input_features=inputs.input_features)
+    # Cleanup inputs
+    del inputs
+    gc.collect()
+    print(f"[LOG] Memory after inference: {get_mem_usage():.2f} MB")
     # Post-processing
     print("[LOG] Step 5: Post-processing results...")
     fam_probs = torch.softmax(outputs["fam_logits"], dim=-1)
     super_conf = super_probs[0, super_idx].item()
     code_conf = code_probs[0, code_idx].item()
+    print(f"[LOG] Final Memory: {get_mem_usage():.2f} MB")
     print(f"--- [LOG] Request Finished ---\n")
     # Formatting results
         {f"{code_idx}": code_conf}
     )
 # === UI COMPONENTS ===
 with gr.Blocks() as demo:
     gr.HTML(

requirements.txt CHANGED Viewed

@@ -4,4 +4,5 @@ transformers
 numpy
 librosa
 huggingface_hub
-safetensors

 numpy
 librosa
 huggingface_hub
+safetensors
+psutil