mazesmazes
/

tiny-audio-multitask

Feature Extraction

Generated from Trainer

Model card Files Files and versions

mazesmazes commited on Jan 24

Commit

8f52147

·

verified ·

1 Parent(s): 8be1490

Training in progress - step 1000

Files changed (1) hide show

asr_modeling.py +3 -2

asr_modeling.py CHANGED Viewed

@@ -145,10 +145,12 @@ class ASRModel(PreTrainedModel, GenerationMixin):
         self.generation_config.length_penalty = config.length_penalty
         self.generation_config.repetition_penalty = config.repetition_penalty
         self.generation_config.no_repeat_ngram_size = config.no_repeat_ngram_size
-        self.generation_config.eos_token_id = [
             self.tokenizer.convert_tokens_to_ids("<|im_end|>"),
             self.tokenizer.convert_tokens_to_ids("<|endoftext|>"),
         ]
         self.generation_config.pad_token_id = self.tokenizer.pad_token_id
         # Feature extractor for audio preprocessing
@@ -233,7 +235,6 @@ class ASRModel(PreTrainedModel, GenerationMixin):
         decoder_kwargs = {
             "attn_implementation": config.attn_implementation,
             "trust_remote_code": True,
-            "tie_word_embeddings": False,
             "low_cpu_mem_usage": True,
             "dtype": dtype,
         }

         self.generation_config.length_penalty = config.length_penalty
         self.generation_config.repetition_penalty = config.repetition_penalty
         self.generation_config.no_repeat_ngram_size = config.no_repeat_ngram_size
+        # Set EOS tokens, filtering out any that don't exist in the tokenizer
+        eos_candidates = [
             self.tokenizer.convert_tokens_to_ids("<|im_end|>"),
             self.tokenizer.convert_tokens_to_ids("<|endoftext|>"),
         ]
+        self.generation_config.eos_token_id = [t for t in eos_candidates if t is not None]
         self.generation_config.pad_token_id = self.tokenizer.pad_token_id
         # Feature extractor for audio preprocessing
         decoder_kwargs = {
             "attn_implementation": config.attn_implementation,
             "trust_remote_code": True,
             "low_cpu_mem_usage": True,
             "dtype": dtype,
         }