NbAiLab
/

whisper

Model card Files Files and versions

xet

Community

pere commited on Nov 15, 2022

Commit

d234eb9

1 Parent(s): bdb2ded

fixed bug

Browse files

Files changed (2) hide show

run_test.sh +1 -1
run_whisper_finetuning.py +30 -30

run_test.sh CHANGED Viewed

@@ -4,7 +4,7 @@
 python run_whisper_finetuning.py \
 	--model_name_or_path="openai/whisper-small" \
-	--output_dir="../whisper-test-delete2" \
 	--overwrite_output_dir=True \
 	--language="Norwegian" \
 	--task="transcribe" \

 python run_whisper_finetuning.py \
 	--model_name_or_path="openai/whisper-small" \
+	--output_dir="../whisper-test-delete3" \
 	--overwrite_output_dir=True \
 	--language="Norwegian" \
 	--task="transcribe" \

run_whisper_finetuning.py CHANGED Viewed

@@ -92,7 +92,7 @@ class Seq2SeqTrainingArguments(TrainingArguments):
             )
         },
     )
-    xla: bool = field(default=False, metadata={"help": "Whether to activate the XLA compilation or not"})
 @dataclass
 class ModelArguments:
@@ -340,10 +340,6 @@ def main():
     parser = HfArgumentParser(
         (ModelArguments, DataTrainingArguments, Seq2SeqTrainingArguments))
     model_args, data_args, training_args = parser.parse_args_into_dataclasses()
-    #Debug
-    import torch_xla.debug.metrics as met
-    print(met.metrics_report())
     # Metrics
@@ -390,14 +386,14 @@ def main():
         feats[new_name] = feats.pop(old_name)
         ds.info.features = feats
         return ds
     def remove_columns(ds, column_name):
-        feats = ds.info.features
-        ds = ds.remove_columns(column_name)
-        feats.pop(column_name)
-        ds.info.features = feats
-        return ds
     # Print training arguments
     if data_args.print_training_arguments:
         print_training_arguments(model_args, data_args, training_args)
@@ -409,12 +405,12 @@ def main():
     # Rename columns
     if data_args.audio_column_name != "audio":
-        train_dataset = rename_column(train_dataset,data_args.audio_column_name, "audio")
-        eval_dataset = rename_column(eval_dataset,data_args.audio_column_name, "audio")
     if data_args.text_column_name != "sentence":
-        train_dataset = rename_column(train_dataset,data_args.text_column_name, "sentence")
-        eval_dataset = rename_column(eval_dataset,data_args.text_column_name, "sentence")
     # Initialise
@@ -429,23 +425,27 @@ def main():
     # Saving the processor and the tokenizer
     processor.save_pretrained(training_args.output_dir)
     tokenizer.save_pretrained(training_args.output_dir)
-    # Prepare data
-    train_dataset = train_dataset.cast_column("audio", Audio(sampling_rate=16000))
-    eval_dataset = eval_dataset.cast_column("audio", Audio(sampling_rate=16000))
-    # Remove non needed columns
-    column_names=[x for x in train_dataset.info.features]
-    for c in column_names:
-        if c not in ["audio", "sentence"]:
-            print(f"removing {c}")
-            train_dataset = remove_columns(train_dataset, c)
-            eval_dataset = remove_columns(eval_dataset, c)
-    # Prepare dataset
     train_dataset = train_dataset.map(prepare_dataset)
     eval_dataset = eval_dataset.map(prepare_dataset)
@@ -502,7 +502,7 @@ def main():
         # Instantaneous batch size per device = 48
-        # TODO Add option for constant learning rate
         trainer = Seq2SeqTrainer(
             args=training_args,
             model=model,

             )
         },
     )
 @dataclass
 class ModelArguments:
     parser = HfArgumentParser(
         (ModelArguments, DataTrainingArguments, Seq2SeqTrainingArguments))
     model_args, data_args, training_args = parser.parse_args_into_dataclasses()
     # Metrics
         feats[new_name] = feats.pop(old_name)
         ds.info.features = feats
         return ds
     def remove_columns(ds, column_name):
+       feats = ds.info.features
+       ds = ds.remove_columns(column_name)
+       feats.pop(column_name)
+       ds.info.features = feats
+       return ds
     # Print training arguments
     if data_args.print_training_arguments:
         print_training_arguments(model_args, data_args, training_args)
     # Rename columns
     if data_args.audio_column_name != "audio":
+        train_dataset = train_dataset.rename_column(data_args.audio_column_name, "audio")
+        eval_dataset = eval_dataset.rename_column(data_args.audio_column_name, "audio")
     if data_args.text_column_name != "sentence":
+        train_dataset = train_dataset.rename_column(data_args.text_column_name, "sentence")
+        eval_dataset = eval_dataset.rename_column(data_args.text_column_name, "sentence")
     # Initialise
     # Saving the processor and the tokenizer
     processor.save_pretrained(training_args.output_dir)
     tokenizer.save_pretrained(training_args.output_dir)
+    # Prepare data
+    # TODO The casting of the  not working on the NPSC in 48K. It seems to be working for Common Voice
+    # The issue is that the dataset features returns None. But for me thay seem to have been set correctly
+    # In our case this is not needed, since the datasets already is available as 16K. But it would be great to solve this bug
+    # train_dataset = train_dataset.cast_column("audio", Audio(sampling_rate=16000))
+    # eval_dataset = eval_dataset.cast_column("audio", Audio(sampling_rate=16000))
+    # Remove non needed columns
+    #column_names=[x for x in train_dataset.info.features]
+    #for c in column_names:
+    #    if c not in ["audio", "text"]:
+    #        train_dataset = remove_columns(train_dataset, c)
+    #        eval_dataset = remove_columns(eval_dataset, c)
+    # TODO I would really like to remove the non needed columns here. At least this cleans up the output.
+    # I am unable to figure out how to do this Streaming mode. Can not find a way to list columns.
+    # train_data = train_data.map(prepare_dataset, remove_columns=train_data.column_names, num_proc=1)
     train_dataset = train_dataset.map(prepare_dataset)
     eval_dataset = eval_dataset.map(prepare_dataset)
         # Instantaneous batch size per device = 48
         trainer = Seq2SeqTrainer(
             args=training_args,
             model=model,