mazesmazes
/

tiny-audio

Automatic Speech Recognition

feature-extraction

speech-recognition

Model card Files Files and versions

mazesmazes commited on 6 days ago

Commit

ff71b8e

·

verified ·

1 Parent(s): 47b112b

Training in progress - step 1500

Files changed (2) hide show

asr_config.py +1 -1
asr_pipeline.py +1 -4

asr_config.py CHANGED Viewed

@@ -71,7 +71,7 @@ class ASRConfig(transformers.PretrainedConfig):
             "min_new_tokens": 0,
             "repetition_penalty": 1.0,
             "length_penalty": 1.0,
-            "no_repeat_ngram_size": 3,  # Prevent repeating 3-grams like "so so so"
             "use_cache": True,
         }

             "min_new_tokens": 0,
             "repetition_penalty": 1.0,
             "length_penalty": 1.0,
+            "no_repeat_ngram_size": 0,
             "use_cache": True,
         }

asr_pipeline.py CHANGED Viewed

@@ -486,7 +486,6 @@ class ASRPipeline(transformers.AutomaticSpeechRecognitionPipeline):
             return ""
         original_len = len(text.split())
-        original_text = text  # Keep for debug
         # 1. LOWERCASE
         text = text.lower()
@@ -506,10 +505,8 @@ class ASRPipeline(transformers.AutomaticSpeechRecognitionPipeline):
                 words = words[: idx + n]
                 text = " ".join(words)
                 print(
-                    f"[POSTPROCESS] Truncated repetition: {original_len} -> {len(words)} words (n={n}, repeats={repeat_count})"
                 )
-                print(f"[POSTPROCESS] Before: {original_text[:100]}...")
-                print(f"[POSTPROCESS] After: {text[:100]}...")
                 break
         # 3. COMBINE ACRONYMS

             return ""
         original_len = len(text.split())
         # 1. LOWERCASE
         text = text.lower()
                 words = words[: idx + n]
                 text = " ".join(words)
                 print(
+                    f"[DEBUG] Truncated repetition: {original_len} -> {len(words)} words (n={n}, repeats={repeat_count})"
                 )
                 break
         # 3. COMBINE ACRONYMS