NbAiLab
/

whisper-flaxtest

pere commited on Mar 1, 2023

Commit

75676fa

1 Parent(s): a9ed39d

test

Files changed (1) hide show

run_flax_speech_recognition_seq2seq_streaming_v3_pere.py CHANGED Viewed

@@ -710,17 +710,18 @@ def main():
     def write_stats(eval_metrics, pred_ids, label_ids):
         import pandas as pd
         df = pd.DataFrame(columns=['source', 'prediction'])
-        breakpoint()
         for pred,label in zip(pred_ids,label_ids):
-            pred_text = tokenizer.decode(pred_ids)
-            label_text = tokenizer.decode(label_ids)
             df = df.append({'source': label_text, 'column2': pred_text}, ignore_index=True)
         print("Writing stats")
-        breakpoint()
     # 9. Save feature extractor, tokenizer and config
     feature_extractor.save_pretrained(training_args.output_dir)

     def write_stats(eval_metrics, pred_ids, label_ids):
         import pandas as pd
         df = pd.DataFrame(columns=['source', 'prediction'])
         for pred,label in zip(pred_ids,label_ids):
+            pred_text = tokenizer.decode(pred,skip_special_tokens=True)
+            label_text = tokenizer.decode(label,skip_special_tokens=True)
             df = df.append({'source': label_text, 'column2': pred_text}, ignore_index=True)
+        breakpoint()
         print("Writing stats")
     # 9. Save feature extractor, tokenizer and config
     feature_extractor.save_pretrained(training_args.output_dir)