mazesmazes
/

tiny-audio

Automatic Speech Recognition

feature-extraction

speech-recognition

Model card Files Files and versions

mazesmazes commited on Nov 19, 2025

Commit

e1f4524

·

verified ·

1 Parent(s): cbe00af

Update custom model files, README, and requirements

Files changed (3) hide show

asr_modeling.py +0 -8
asr_pipeline.py +0 -4
requirements.txt +5 -9

asr_modeling.py CHANGED Viewed

@@ -629,8 +629,6 @@ class ASRModel(PreTrainedModel):
         if audio_inputs is None:
             raise ValueError("input_values or input_features must be provided for generation")
-        # Debug: Check audio inputs
         audio_embeds = self._encode_audio(audio_inputs)
         batch_size = audio_embeds.shape[0]
         device = audio_embeds.device
@@ -673,12 +671,6 @@ class ASRModel(PreTrainedModel):
         num_audio_tokens = audio_embeds.shape[1]
         expanded_prompt_ids = self._expand_audio_tokens(prompt_ids, num_audio_tokens)
-        # Debug: Show what prompt we built
-        import sys
-        prompt_text = self.tokenizer.decode(expanded_prompt_ids[0], skip_special_tokens=False)
-        print(f"DEBUG generate: Built prompt: {prompt_text[:200]}", file=sys.stderr)
         inputs_embeds = self._prepare_audio_inputs_embeds(expanded_prompt_ids, audio_embeds)
         total_seq_len = inputs_embeds.shape[1]
         attention_mask = torch.ones(batch_size, total_seq_len, dtype=torch.long, device=device)

         if audio_inputs is None:
             raise ValueError("input_values or input_features must be provided for generation")
         audio_embeds = self._encode_audio(audio_inputs)
         batch_size = audio_embeds.shape[0]
         device = audio_embeds.device
         num_audio_tokens = audio_embeds.shape[1]
         expanded_prompt_ids = self._expand_audio_tokens(prompt_ids, num_audio_tokens)
         inputs_embeds = self._prepare_audio_inputs_embeds(expanded_prompt_ids, audio_embeds)
         total_seq_len = inputs_embeds.shape[1]
         attention_mask = torch.ones(batch_size, total_seq_len, dtype=torch.long, device=device)

asr_pipeline.py CHANGED Viewed

@@ -219,10 +219,6 @@ class ASRPipeline(transformers.AutomaticSpeechRecognitionPipeline):
         generate_kwargs.setdefault("eos_token_id", im_end_id)
         generate_kwargs.setdefault("max_new_tokens", self.model.config.max_new_tokens)
-        # Debug: Log what we're passing to generate
-        import sys
-        print(f"DEBUG _forward: task={task}, system_prompt={self.model.config.system_prompt}", file=sys.stderr)
         # Pass the appropriate input type to generate
         if is_whisper:
             # Whisper model - use input_features

         generate_kwargs.setdefault("eos_token_id", im_end_id)
         generate_kwargs.setdefault("max_new_tokens", self.model.config.max_new_tokens)
         # Pass the appropriate input type to generate
         if is_whisper:
             # Whisper model - use input_features

requirements.txt CHANGED Viewed

@@ -1,9 +1,5 @@
-# Use latest compatible versions
-gradio
-transformers>=4.57.1
-torch
-torchaudio
-torchcodec
-peft
-truecase
-nltk

+# Core dependencies for tiny-audio model inference
+# This file is pushed to HuggingFace for model repository
+# Transformers - main library for model loading and inference
+transformers>=4.57.0