NbAiLab
/

roberta_jan_128_ncc

@@ -19,6 +19,7 @@ python run_mlm_flax.py \
     --logging_steps="1000" \
     --save_steps="1000" \
     --eval_steps="1000" \
     --do_train \
     --do_eval \
     --dtype="bfloat16" \

     --logging_steps="1000" \
     --save_steps="1000" \
     --eval_steps="1000" \
+    --auth_token="True" \
     --do_train \
     --do_eval \
     --dtype="bfloat16" \

run_mlm_flax.py CHANGED Viewed

@@ -224,6 +224,10 @@ class DataTrainingArguments:
         default=False,
         metadata={"help": "Whether distinct lines of text in the dataset are to be handled as distinct sequences."},
     )
     def __post_init__(self):
         if self.dataset_name is None and self.train_file is None and self.validation_file is None:
@@ -376,14 +380,14 @@ def main():
     set_seed(training_args.seed)
     # Handle the repository creation
-    if training_args.push_to_hub:
-        if training_args.hub_model_id is None:
-            repo_name = get_full_repo_name(
-                Path(training_args.output_dir).absolute().name, token=training_args.hub_token
-            )
-        else:
-            repo_name = training_args.hub_model_id
-        repo = Repository(training_args.output_dir, clone_from=repo_name)
     # Get the datasets: you can either provide your own CSV/JSON/TXT training and evaluation files (see below)
     # or just provide the name of one of the public datasets available on the hub at https://huggingface.co/datasets/
@@ -396,7 +400,7 @@ def main():
     # download the dataset.
     if data_args.dataset_name is not None:
         # Downloading and loading a dataset from the hub.
-        datasets = load_dataset(data_args.dataset_name, data_args.dataset_config_name, cache_dir=model_args.cache_dir)
         if "validation" not in datasets.keys():
             datasets["validation"] = load_dataset(
@@ -404,12 +408,14 @@ def main():
                 data_args.dataset_config_name,
                 split=f"train[:{data_args.validation_split_percentage}%]",
                 cache_dir=model_args.cache_dir,
             )
             datasets["train"] = load_dataset(
                 data_args.dataset_name,
                 data_args.dataset_config_name,
                 split=f"train[{data_args.validation_split_percentage}%:]",
                 cache_dir=model_args.cache_dir,
             )
     else:
         data_files = {}

         default=False,
         metadata={"help": "Whether distinct lines of text in the dataset are to be handled as distinct sequences."},
     )
+    auth_token: bool = field(
+        default=False, metadata={"help": "Use authorisation token"}
+    )
     def __post_init__(self):
         if self.dataset_name is None and self.train_file is None and self.validation_file is None:
     set_seed(training_args.seed)
     # Handle the repository creation
+    # if training_args.push_to_hub:
+    #    if training_args.hub_model_id is None:
+    #        repo_name = get_full_repo_name(
+    #            Path(training_args.output_dir).absolute().name, token=training_args.hub_token
+    #        )
+    #    else:
+    #        repo_name = training_args.hub_model_id
+    #    repo = Repository(training_args.output_dir, clone_from=repo_name)
     # Get the datasets: you can either provide your own CSV/JSON/TXT training and evaluation files (see below)
     # or just provide the name of one of the public datasets available on the hub at https://huggingface.co/datasets/
     # download the dataset.
     if data_args.dataset_name is not None:
         # Downloading and loading a dataset from the hub.
+        datasets = load_dataset(data_args.dataset_name, data_args.dataset_config_name, use_auth_token=data_args.auth_token, cache_dir=model_args.cache_dir)
         if "validation" not in datasets.keys():
             datasets["validation"] = load_dataset(
                 data_args.dataset_config_name,
                 split=f"train[:{data_args.validation_split_percentage}%]",
                 cache_dir=model_args.cache_dir,
+                use_auth_token=data_args.auth_token,
             )
             datasets["train"] = load_dataset(
                 data_args.dataset_name,
                 data_args.dataset_config_name,
                 split=f"train[{data_args.validation_split_percentage}%:]",
                 cache_dir=model_args.cache_dir,
+                use_auth_token=data_args.auth_token,
             )
     else:
         data_files = {}