Spaces:

Cyberlace
/

api-swara-audio-analysis

Paused

fariedalfarizi commited on 29 days ago

Commit

6dc05e5

1 Parent(s): 60be371

feat: Unified articulation analysis with dual-mode (PER + Clarity)

- Add unified ArticulationService supporting WITH/WITHOUT reference text
- WITH reference: PER (40%) + Clarity (30%) + Stability (20%) + Energy (10%)
- WITHOUT reference: Clarity (50%) + Stability (30%) + Energy (20%)
- Add separate FillerWordsService for filler word detection
- Filler words included as bonus info in articulation (not in scoring)
- Fix audio_processor parameter from transcribed_text to transcript
- Add protobuf==3.20.3 to fix Wav2Vec2 compatibility
- Use HF_HOME environment variable for cache directory
- Model: indonesian-nlp/wav2vec2-indonesian-javanese-sundanese

Files changed (2) hide show

app/services/articulation.py +8 -2
app/services/audio_processor.py +4 -5

app/services/articulation.py CHANGED Viewed

@@ -21,10 +21,16 @@ class ArticulationService:
         # Load Wav2Vec2 Indonesian model untuk phoneme detection
         model_name = "indonesian-nlp/wav2vec2-indonesian-javanese-sundanese"
         try:
             print(f"📦 Loading Wav2Vec2 model: {model_name}")
-            self.processor = Wav2Vec2Processor.from_pretrained(model_name, cache_dir="/.cache")
-            self.model = Wav2Vec2ForCTC.from_pretrained(model_name, cache_dir="/.cache")
             self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
             self.model.to(self.device)
             self.model_loaded = True

         # Load Wav2Vec2 Indonesian model untuk phoneme detection
         model_name = "indonesian-nlp/wav2vec2-indonesian-javanese-sundanese"
+        # Set cache directory (production: /.cache, local: default)
+        import os
+        cache_dir = os.environ.get('HF_HOME', '/.cache')
         try:
             print(f"📦 Loading Wav2Vec2 model: {model_name}")
+            print(f"📁 Cache directory: {cache_dir}")
+            self.processor = Wav2Vec2Processor.from_pretrained(model_name, cache_dir=cache_dir)
+            self.model = Wav2Vec2ForCTC.from_pretrained(model_name, cache_dir=cache_dir)
             self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
             self.model.to(self.device)
             self.model_loaded = True

app/services/audio_processor.py CHANGED Viewed

@@ -131,15 +131,14 @@ class AudioProcessor:
             print(f"✅ Tempo score: {results['tempo']['score']}/5\n")
         # 3. Articulation Analysis
-        if analyze_articulation and reference_text:
             print("🗣️  Step 3/6: Analyzing articulation...")
             results['articulation'] = self.articulation_service.analyze(
-                transcribed_text=transcript,
-                reference_text=reference_text
             )
             print(f"✅ Articulation score: {results['articulation']['score']}/5\n")
-        elif analyze_articulation:
-            print("⚠️  Step 3/6: Skipping articulation (no reference text)\n")
         # 4. Structure Analysis
         if analyze_structure:

             print(f"✅ Tempo score: {results['tempo']['score']}/5\n")
         # 3. Articulation Analysis
+        if analyze_articulation:
             print("🗣️  Step 3/6: Analyzing articulation...")
             results['articulation'] = self.articulation_service.analyze(
+                audio_path=audio_path,
+                transcript=transcript,
+                reference_text=reference_text if reference_text else None
             )
             print(f"✅ Articulation score: {results['articulation']['score']}/5\n")
         # 4. Structure Analysis
         if analyze_structure: