marinone94
/

whisper-tiny-sv

@@ -387,6 +387,7 @@ def main():
     raw_datasets = IterableDatasetDict() if data_args.streaming else DatasetDict()
     if training_args.do_train:
         raw_datasets["train"] = load_maybe_streaming_dataset(
             data_args.dataset_name,
             data_args.dataset_config_name,
@@ -394,8 +395,10 @@ def main():
             use_auth_token=True if model_args.use_auth_token else None,
             streaming=data_args.streaming,
         )
     if training_args.do_eval:
         raw_datasets["eval"] = load_maybe_streaming_dataset(
             data_args.dataset_name,
             data_args.dataset_config_name,
@@ -403,6 +406,7 @@ def main():
             use_auth_token=True if model_args.use_auth_token else None,
             streaming=data_args.streaming,
         )
     raw_datasets_features = list(next(iter(raw_datasets.values())).features.keys())
@@ -602,8 +606,12 @@ def main():
         callbacks=[ShuffleCallback()] if data_args.streaming else None,
     )
     # 12. Training
     if training_args.do_train:
         checkpoint = None
         if training_args.resume_from_checkpoint is not None:
             checkpoint = training_args.resume_from_checkpoint
@@ -651,6 +659,7 @@ def main():
         if model_args.model_index_name is not None:
             kwargs["model_name"] = model_args.model_index_name
     if training_args.push_to_hub:
         trainer.push_to_hub(**kwargs)
     else:

     raw_datasets = IterableDatasetDict() if data_args.streaming else DatasetDict()
     if training_args.do_train:
+        logger.info("Loading training dataset")
         raw_datasets["train"] = load_maybe_streaming_dataset(
             data_args.dataset_name,
             data_args.dataset_config_name,
             use_auth_token=True if model_args.use_auth_token else None,
             streaming=data_args.streaming,
         )
+        logger.info("Loaded training dataset")
     if training_args.do_eval:
+        logger.info("Loading evaluation dataset")
         raw_datasets["eval"] = load_maybe_streaming_dataset(
             data_args.dataset_name,
             data_args.dataset_config_name,
             use_auth_token=True if model_args.use_auth_token else None,
             streaming=data_args.streaming,
         )
+        logger.info("Loaded evaluation dataset")
     raw_datasets_features = list(next(iter(raw_datasets.values())).features.keys())
         callbacks=[ShuffleCallback()] if data_args.streaming else None,
     )
+    push_to_hub = training_args.push_to_hub
+    training_args.push_to_hub = False
     # 12. Training
     if training_args.do_train:
+        logger.info("*** Train ***")
         checkpoint = None
         if training_args.resume_from_checkpoint is not None:
             checkpoint = training_args.resume_from_checkpoint
         if model_args.model_index_name is not None:
             kwargs["model_name"] = model_args.model_index_name
+    training_args.push_to_hub = push_to_hub
     if training_args.push_to_hub:
         trainer.push_to_hub(**kwargs)
     else: