Spaces:

Layer7
/

Simple-KWS

Sleeping

App Files Files Community

IvanLayer7 commited on Oct 18, 2025

Commit

97c892c

verified ·

1 Parent(s): 7e8036f

Upload 5 files

Browse files

Files changed (4) hide show

.gitattributes +34 -35
app.py +57 -17
requirements.txt +1 -3
whisper_classifier.py +15 -50

.gitattributes CHANGED Viewed

@@ -1,35 +1,34 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -12,7 +12,7 @@ import warnings
 # Import our custom modules
 from audio_processor import AudioProcessor
-from whisper_classifier import HybridKeywordSpotter
 warnings.filterwarnings("ignore")
@@ -20,16 +20,27 @@ warnings.filterwarnings("ignore")
 class KeywordSpottingApp:
     """Main application class for the keyword spotting interface."""
-    def __init__(self):
         """Initialize the application components."""
         print("Initializing Keyword Spotting App for Hugging Face...")
         # Initialize components
         self.audio_processor = AudioProcessor(target_sample_rate=48000, max_duration=30.0)
-        self.classifier = HybridKeywordSpotter()
         print("App initialized successfully!")
     def process_audio_and_classify(
         self,
         audio_input: Optional[Tuple[int, np.ndarray]],
@@ -144,14 +155,21 @@ class KeywordSpottingApp:
 def create_gradio_interface():
     """Create and configure the Gradio interface for Hugging Face."""
-    # Initialize the app
-    app = KeywordSpottingApp()
-    def classify_audio(audio_input, audio_file, keywords):
         """Wrapper function for Gradio interface."""
         results, status = app.process_audio_and_classify(audio_input, audio_file, keywords)
         formatted_results = app.format_results_for_display(results)
-        return formatted_results, status
     # Create the interface
     with gr.Blocks(
@@ -173,13 +191,14 @@ def create_gradio_interface():
         gr.Markdown("""
         # 🎯 Zero-Shot Audio Keyword Spotting
-        Detect keywords in Spanish audio using AI **without prior training**.
-        Uses Whisper + CLAP models for accurate keyword detection.
         ## 📋 Instructions:
-        1. **Enter keywords** you want to detect (comma-separated)
-        2. **Record audio** using microphone OR **upload audio file**
-        3. **Click "Analyze Audio"** to get probability results
         ### 💡 Example Keywords:
         `hola, gracias, adiós, sí, no, por favor`
@@ -187,6 +206,14 @@ def create_gradio_interface():
         with gr.Row():
             with gr.Column(scale=1):
                 gr.Markdown("### 🔤 Keywords")
                 gr.Markdown("*Example: hola, gracias, adiós*")
                 keywords_input = gr.Textbox(
@@ -233,12 +260,19 @@ def create_gradio_interface():
                     interactive=False,
                     elem_classes=["status-box"]
                 )
         # Event handlers
         analyze_btn.click(
             fn=classify_audio,
-            inputs=[audio_input, audio_file, keywords_input],
-            outputs=[results_output, status_output]
         )
         # Examples section
@@ -259,10 +293,16 @@ def create_gradio_interface():
         - Works best with common Spanish words
         ## 🔧 Technical Details:
-        - **Models**: Whisper (transcription) + CLAP (audio-text similarity)
-        - **Languages**: Optimized for Spanish, works with others
         - **Processing**: Up to 30 seconds, 48kHz sampling rate
-        - **Approach**: Hybrid zero-shot classification
         """)
     return interface

 # Import our custom modules
 from audio_processor import AudioProcessor
+from whisper_classifier import WhisperKeywordSpotter
 warnings.filterwarnings("ignore")
 class KeywordSpottingApp:
     """Main application class for the keyword spotting interface."""
+    def __init__(self, model_size: str = "base"):
         """Initialize the application components."""
         print("Initializing Keyword Spotting App for Hugging Face...")
         # Initialize components
         self.audio_processor = AudioProcessor(target_sample_rate=48000, max_duration=30.0)
+        self.classifier = WhisperKeywordSpotter(model_size=model_size)
         print("App initialized successfully!")
+    def change_model(self, new_model_size: str) -> str:
+        """Change the Whisper model size."""
+        try:
+            success = self.classifier.change_model(new_model_size)
+            if success:
+                return f"✅ Successfully changed to {new_model_size} model"
+            else:
+                return f"❌ Failed to change to {new_model_size} model"
+        except Exception as e:
+            return f"❌ Error changing model: {str(e)}"
     def process_audio_and_classify(
         self,
         audio_input: Optional[Tuple[int, np.ndarray]],
 def create_gradio_interface():
     """Create and configure the Gradio interface for Hugging Face."""
+    # Initialize the app with default model
+    app = KeywordSpottingApp(model_size="base")
+    def classify_audio(audio_input, audio_file, keywords, model_size):
         """Wrapper function for Gradio interface."""
+        # Change model if needed
+        model_change_msg = app.change_model(model_size)
         results, status = app.process_audio_and_classify(audio_input, audio_file, keywords)
         formatted_results = app.format_results_for_display(results)
+        # Add model info to status
+        status_with_model = f"{status} | Model: {model_size}"
+        return formatted_results, status_with_model, model_change_msg
     # Create the interface
     with gr.Blocks(
         gr.Markdown("""
         # 🎯 Zero-Shot Audio Keyword Spotting
+        Detect keywords in Spanish audio using **Whisper AI** without prior training.
+        Transcribes audio and matches keywords with high accuracy.
         ## 📋 Instructions:
+        1. **Select Whisper model** (tiny=fastest, medium=most accurate)
+        2. **Enter keywords** you want to detect (comma-separated)
+        3. **Record audio** using microphone OR **upload audio file**
+        4. **Click "Analyze Audio"** to get results
         ### 💡 Example Keywords:
         `hola, gracias, adiós, sí, no, por favor`
         with gr.Row():
             with gr.Column(scale=1):
+                gr.Markdown("### 🤖 Model Selection")
+                model_selector = gr.Dropdown(
+                    choices=["tiny", "base", "small", "medium"],
+                    value="base",
+                    label="Whisper Model",
+                    info="tiny=fastest, base=balanced, small=better accuracy, medium=best accuracy"
+                )
                 gr.Markdown("### 🔤 Keywords")
                 gr.Markdown("*Example: hola, gracias, adiós*")
                 keywords_input = gr.Textbox(
                     interactive=False,
                     elem_classes=["status-box"]
                 )
+                model_status_output = gr.Textbox(
+                    label="Model Status",
+                    value="Current model: base",
+                    interactive=False,
+                    elem_classes=["status-box"]
+                )
         # Event handlers
         analyze_btn.click(
             fn=classify_audio,
+            inputs=[audio_input, audio_file, keywords_input, model_selector],
+            outputs=[results_output, status_output, model_status_output]
         )
         # Examples section
         - Works best with common Spanish words
         ## 🔧 Technical Details:
+        - **Model**: OpenAI Whisper (speech transcription)
+        - **Languages**: Optimized for Spanish, works with others
         - **Processing**: Up to 30 seconds, 48kHz sampling rate
+        - **Approach**: Transcription + text matching
+        ## 🤖 Model Comparison:
+        - **tiny**: Fastest, basic accuracy (72MB)
+        - **base**: Balanced speed/accuracy (139MB)
+        - **small**: Better accuracy, slower (461MB)
+        - **medium**: Best accuracy, slowest (1.46GB)
         """)
     return interface

requirements.txt CHANGED Viewed

@@ -1,9 +1,7 @@
-# Optimized requirements for Hugging Face Spaces
 gradio==4.44.0
 torch>=2.0.0
-transformers>=4.30.0
 librosa>=0.10.0
 numpy>=1.21.0
 soundfile>=0.12.0
 openai-whisper>=20231117
-scipy>=1.7.0

+# Optimized requirements for Hugging Face Spaces - Whisper only
 gradio==4.44.0
 torch>=2.0.0
 librosa>=0.10.0
 numpy>=1.21.0
 soundfile>=0.12.0
 openai-whisper>=20231117

whisper_classifier.py CHANGED Viewed

@@ -1,6 +1,6 @@
 """
-Alternative keyword spotter using Whisper for transcription + text matching.
-This approach transcribes the audio first, then matches keywords in the text.
 """
 import torch
@@ -61,7 +61,7 @@ class WhisperKeywordSpotter:
         Transcribe audio using Whisper.
         Args:
-            audio_tensor: Audio tensor (should be 16kHz for Whisper)
         Returns:
             Transcribed text
@@ -174,57 +174,22 @@ class WhisperKeywordSpotter:
             error_msg = f"Classification error: {str(e)}"
             print(error_msg)
             return {"error": error_msg}
-class HybridKeywordSpotter:
-    """Hybrid approach combining multiple methods."""
-    def __init__(self):
-        """Initialize hybrid classifier."""
-        self.whisper_spotter = None
-        self.clap_spotter = None
-        # Try to initialize Whisper
-        try:
-            if WHISPER_AVAILABLE:
-                self.whisper_spotter = WhisperKeywordSpotter("base")
-        except Exception as e:
-            print(f"⚠️ Could not initialize Whisper: {e}")
-        # Try to initialize CLAP as fallback
-        try:
-            from improved_classifier import ImprovedZeroShotKeywordSpotter
-            self.clap_spotter = ImprovedZeroShotKeywordSpotter()
-        except Exception as e:
-            print(f"⚠️ Could not initialize CLAP: {e}")
-    def classify_keywords(self, audio_tensor: torch.Tensor, keywords: str) -> Dict[str, float]:
         """
-        Classify using the best available method.
         Args:
-            audio_tensor: Preprocessed audio tensor
-            keywords: Comma-separated keywords string
-        Returns:
-            Dictionary mapping keywords to probability scores
         """
-        # Try Whisper first (usually more accurate for speech)
-        if self.whisper_spotter:
             try:
-                results = self.whisper_spotter.classify_keywords(audio_tensor, keywords)
-                if "error" not in results:
-                    return results
             except Exception as e:
-                print(f"Whisper failed: {e}")
-        # Fallback to CLAP
-        if self.clap_spotter:
-            try:
-                return self.clap_spotter.classify_keywords_simple(audio_tensor, keywords)
-            except Exception as e:
-                print(f"CLAP failed: {e}")
-        # If all else fails
-        keyword_list = keywords.split(",")
-        return {kw.strip(): 0.0 for kw in keyword_list if kw.strip()}

 """
+Whisper-only keyword spotter for zero-shot audio keyword detection.
+Uses Whisper transcription + text matching without CLAP dependencies.
 """
 import torch
         Transcribe audio using Whisper.
         Args:
+            audio_tensor: Audio tensor (will be resampled for Whisper)
         Returns:
             Transcribed text
             error_msg = f"Classification error: {str(e)}"
             print(error_msg)
             return {"error": error_msg}
+    def change_model(self, new_model_size: str):
         """
+        Change the Whisper model size.
         Args:
+            new_model_size: New model size to load
         """
+        if new_model_size != self.model_size:
+            print(f"Changing model from {self.model_size} to {new_model_size}")
+            self.model_size = new_model_size
             try:
+                self.model = whisper.load_model(new_model_size, device=self.device)
+                print(f"Successfully loaded {new_model_size} model!")
+                return True
             except Exception as e:
+                print(f"Error loading {new_model_size} model: {e}")
+                return False
+        return True