Anwaarma commited on May 11, 2025

Commit

bdc081d

verified ·

1 Parent(s): e3514a4

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +4 -0
config.json +35 -0
model.safetensors +3 -0
run-0/checkpoint-3032/config.json +35 -0
run-0/checkpoint-3032/model.safetensors +3 -0
run-0/checkpoint-3032/optimizer.pt +3 -0
run-0/checkpoint-3032/rng_state.pth +3 -0
run-0/checkpoint-3032/scaler.pt +3 -0
run-0/checkpoint-3032/scheduler.pt +3 -0
run-0/checkpoint-3032/sentencepiece.bpe.model +3 -0
run-0/checkpoint-3032/special_tokens_map.json +15 -0
run-0/checkpoint-3032/tokenizer.json +3 -0
run-0/checkpoint-3032/tokenizer_config.json +55 -0
run-0/checkpoint-3032/trainer_state.json +64 -0
run-0/checkpoint-3032/training_args.bin +3 -0
run-12/checkpoint-500/config.json +27 -0
run-12/checkpoint-500/model.safetensors +3 -0
run-12/checkpoint-500/optimizer.pt +3 -0
run-12/checkpoint-500/rng_state.pth +3 -0
run-12/checkpoint-500/scaler.pt +3 -0
run-12/checkpoint-500/scheduler.pt +3 -0
run-12/checkpoint-500/sentencepiece.bpe.model +3 -0
run-12/checkpoint-500/special_tokens_map.json +15 -0
run-12/checkpoint-500/tokenizer.json +3 -0
run-12/checkpoint-500/tokenizer_config.json +55 -0
run-12/checkpoint-500/trainer_state.json +208 -0
run-12/checkpoint-500/training_args.bin +3 -0
run-2/checkpoint-500/config.json +35 -0
run-2/checkpoint-500/model.safetensors +3 -0
run-2/checkpoint-500/optimizer.pt +3 -0
run-2/checkpoint-500/rng_state.pth +3 -0
run-2/checkpoint-500/scaler.pt +3 -0
run-2/checkpoint-500/scheduler.pt +3 -0
run-2/checkpoint-500/sentencepiece.bpe.model +3 -0
run-2/checkpoint-500/special_tokens_map.json +15 -0
run-2/checkpoint-500/tokenizer.json +3 -0
run-2/checkpoint-500/tokenizer_config.json +55 -0
run-2/checkpoint-500/trainer_state.json +208 -0
run-2/checkpoint-500/training_args.bin +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944563.falcon-02.556678.0 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944615.falcon-02.556678.1 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944739.falcon-02.556678.2 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944791.falcon-02.556678.3 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944868.falcon-02.556678.4 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944977.falcon-02.556678.5 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945041.falcon-02.556678.6 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945058.falcon-02.556678.7 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945074.falcon-02.556678.8 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945088.falcon-02.556678.9 +3 -0
runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945104.falcon-02.556678.10 +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,7 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+run-0/checkpoint-3032/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+run-12/checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+run-2/checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "not sexist",
+    "1": "sexist"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "not sexist": 0,
+    "sexist": 1
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cc03c5173b360ca67ebd2dcab9a11b585688af8205dcaadbc304aeb34e07b2b
+size 2239618672

run-0/checkpoint-3032/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "not sexist",
+    "1": "sexist"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "not sexist": 0,
+    "sexist": 1
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

run-0/checkpoint-3032/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cc03c5173b360ca67ebd2dcab9a11b585688af8205dcaadbc304aeb34e07b2b
+size 2239618672

run-0/checkpoint-3032/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:462e34503d7ef75f6b00a1bbce572f5085a1c9b2a53a68173d8a2df1d49dc7fa
+size 4352331

run-0/checkpoint-3032/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43573145e13dc140110e6eab09890508e8b3cb7b8e476824893201bf02519e7c
+size 14645

run-0/checkpoint-3032/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32721d3593cfb1ca3bdeee455f8bca855bf389eeeb500ad3da6bf1df546d6f0f
+size 1383

run-0/checkpoint-3032/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a57d356c1a53e074e2470da1ef03af144caf6a442b86cdf421fb45dcd0dc87f3
+size 1465

run-0/checkpoint-3032/sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

run-0/checkpoint-3032/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

run-0/checkpoint-3032/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c7a0e0871aad3996728f46860ee352dd6ec57264dae6319c75acba465f93d55
+size 17082999

run-0/checkpoint-3032/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

run-0/checkpoint-3032/trainer_state.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "best_global_step": 3032,
+  "best_metric": 0.33899504600141545,
+  "best_model_checkpoint": "./xlm-all/run-0/checkpoint-3032",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 3032,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 9.779642105102539,
+      "learning_rate": 1.8643519897391662e-05,
+      "loss": 0.7018,
+      "step": 3032
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.33899504600141545,
+      "eval_loss": 0.7100579142570496,
+      "eval_runtime": 10.182,
+      "eval_samples_per_second": 183.46,
+      "eval_steps_per_second": 45.865,
+      "step": 3032
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 24256,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4238423840415744.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 2.1300858155022713e-05,
+    "num_train_epochs": 8,
+    "per_device_train_batch_size": 1,
+    "weight_decay": 0.01912682401845879
+  }
+}

run-0/checkpoint-3032/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:363fa8cab07af263bfe2ce4fc5547f865fc88e22d75a7d7f77858446d6d2fdb9
+size 5713

run-12/checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

run-12/checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd0bb97a408c6e2bc59d600861bab0584cdd19abfef5783fbaf60e1d06cb4d43
+size 2239618672

run-12/checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f5b929d3708018d81a4ec578e1e32e6aad9658e6202f07047478cc4e36f1a98
+size 4479478370

run-12/checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f224bd7745d146fc6fd23dd483ea1bbc47ebe0edc32b876a06e77a6f6958544
+size 14645

run-12/checkpoint-500/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fbfec9c1604d855c11bf7fee15bf45b9bde326223f67131018d8f94ee0c4416
+size 1383

run-12/checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cba22734b9c47917b883d00be31ed32bbdea045ddbcb206acccd37ff1e77108
+size 1465

run-12/checkpoint-500/sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

run-12/checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

run-12/checkpoint-500/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c7a0e0871aad3996728f46860ee352dd6ec57264dae6319c75acba465f93d55
+size 17082999

run-12/checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

run-12/checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "best_global_step": 450,
+  "best_metric": 0.8391053291622452,
+  "best_model_checkpoint": null,
+  "epoch": 0.32981530343007914,
+  "eval_steps": 50,
+  "global_step": 500,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.032981530343007916,
+      "grad_norm": 15.073063850402832,
+      "learning_rate": 1.0481442147752927e-05,
+      "loss": 0.7017,
+      "step": 50
+    },
+    {
+      "epoch": 0.032981530343007916,
+      "eval_f1": 0.5537185581303228,
+      "eval_loss": 0.6697196364402771,
+      "eval_runtime": 4.8576,
+      "eval_samples_per_second": 384.551,
+      "eval_steps_per_second": 24.086,
+      "step": 50
+    },
+    {
+      "epoch": 0.06596306068601583,
+      "grad_norm": 12.232400894165039,
+      "learning_rate": 1.0367361591280272e-05,
+      "loss": 0.6578,
+      "step": 100
+    },
+    {
+      "epoch": 0.06596306068601583,
+      "eval_f1": 0.6990423298725792,
+      "eval_loss": 0.6165490746498108,
+      "eval_runtime": 4.8456,
+      "eval_samples_per_second": 385.501,
+      "eval_steps_per_second": 24.145,
+      "step": 100
+    },
+    {
+      "epoch": 0.09894459102902374,
+      "grad_norm": 3.7829582691192627,
+      "learning_rate": 1.0250952860185725e-05,
+      "loss": 0.6224,
+      "step": 150
+    },
+    {
+      "epoch": 0.09894459102902374,
+      "eval_f1": 0.7200410324019838,
+      "eval_loss": 0.5773984789848328,
+      "eval_runtime": 4.846,
+      "eval_samples_per_second": 385.472,
+      "eval_steps_per_second": 24.144,
+      "step": 150
+    },
+    {
+      "epoch": 0.13192612137203166,
+      "grad_norm": 10.99559497833252,
+      "learning_rate": 1.013687230371307e-05,
+      "loss": 0.5958,
+      "step": 200
+    },
+    {
+      "epoch": 0.13192612137203166,
+      "eval_f1": 0.7867794893545026,
+      "eval_loss": 0.5273851156234741,
+      "eval_runtime": 4.8539,
+      "eval_samples_per_second": 384.841,
+      "eval_steps_per_second": 24.104,
+      "step": 200
+    },
+    {
+      "epoch": 0.16490765171503957,
+      "grad_norm": 89.5782699584961,
+      "learning_rate": 1.0020463572618525e-05,
+      "loss": 0.5523,
+      "step": 250
+    },
+    {
+      "epoch": 0.16490765171503957,
+      "eval_f1": 0.8000186185067958,
+      "eval_loss": 0.5776695609092712,
+      "eval_runtime": 4.8517,
+      "eval_samples_per_second": 385.021,
+      "eval_steps_per_second": 24.115,
+      "step": 250
+    },
+    {
+      "epoch": 0.19788918205804748,
+      "grad_norm": 25.763916015625,
+      "learning_rate": 9.906383016145868e-06,
+      "loss": 0.5392,
+      "step": 300
+    },
+    {
+      "epoch": 0.19788918205804748,
+      "eval_f1": 0.7131010817115004,
+      "eval_loss": 0.67691570520401,
+      "eval_runtime": 4.8697,
+      "eval_samples_per_second": 383.594,
+      "eval_steps_per_second": 24.026,
+      "step": 300
+    },
+    {
+      "epoch": 0.23087071240105542,
+      "grad_norm": 15.219924926757812,
+      "learning_rate": 9.789974285051322e-06,
+      "loss": 0.5264,
+      "step": 350
+    },
+    {
+      "epoch": 0.23087071240105542,
+      "eval_f1": 0.8238222304011777,
+      "eval_loss": 0.47358641028404236,
+      "eval_runtime": 4.8732,
+      "eval_samples_per_second": 383.324,
+      "eval_steps_per_second": 24.009,
+      "step": 350
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "grad_norm": 86.06718444824219,
+      "learning_rate": 9.673565553956777e-06,
+      "loss": 0.5024,
+      "step": 400
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "eval_f1": 0.8296470392671125,
+      "eval_loss": 0.5718086957931519,
+      "eval_runtime": 4.8555,
+      "eval_samples_per_second": 384.715,
+      "eval_steps_per_second": 24.096,
+      "step": 400
+    },
+    {
+      "epoch": 0.29683377308707126,
+      "grad_norm": 33.91449737548828,
+      "learning_rate": 9.55715682286223e-06,
+      "loss": 0.4662,
+      "step": 450
+    },
+    {
+      "epoch": 0.29683377308707126,
+      "eval_f1": 0.8391053291622452,
+      "eval_loss": 0.46681010723114014,
+      "eval_runtime": 4.8544,
+      "eval_samples_per_second": 384.808,
+      "eval_steps_per_second": 24.102,
+      "step": 450
+    },
+    {
+      "epoch": 0.32981530343007914,
+      "grad_norm": 24.058568954467773,
+      "learning_rate": 9.440748091767686e-06,
+      "loss": 0.5321,
+      "step": 500
+    },
+    {
+      "epoch": 0.32981530343007914,
+      "eval_f1": 0.8283790177730616,
+      "eval_loss": 0.5165355801582336,
+      "eval_runtime": 4.8573,
+      "eval_samples_per_second": 384.579,
+      "eval_steps_per_second": 24.088,
+      "step": 500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 4548,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 1
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1397897044992000.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.0588538180359909e-05,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 8,
+    "weight_decay": 0.03407948058217602
+  }
+}

run-12/checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c296ab74dc3a225baa76195c87e77c70aae20136b09890596615bc64e19d627b
+size 5777

run-2/checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "not sexist",
+    "1": "sexist"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "not sexist": 0,
+    "sexist": 1
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

run-2/checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ba112cc745e854908f362f7faefca7bd4d18007615f73561aa079c7f25e633a
+size 2239618672

run-2/checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9806e18df9460573a9240fd2f85d6ac4b6eb35cf9b67a11fee6f3c79f63706b
+size 4352331

run-2/checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1942a5da586c2a0a19239d8e57166a2c72fbc86a5216d92c1a8d0b7c4ff84f05
+size 14645

run-2/checkpoint-500/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a5fcc66c7adcba5cfe142542fca6035ccc365bbdf901ef681e6536d85dfc96f
+size 1383

run-2/checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb025a871a3d3dcf6babe0c13b54c8746095bcb99f3cc26ae245f44033cf777e
+size 1465

run-2/checkpoint-500/sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

run-2/checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

run-2/checkpoint-500/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a56def25aa40facc030ea8b0b87f3688e4b3c39eb8b45d5702b3a1300fe2a20
+size 17082734

run-2/checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

run-2/checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "best_global_step": 500,
+  "best_metric": 0.8490071509894094,
+  "best_model_checkpoint": "./xlm-all/run-2/checkpoint-500",
+  "epoch": 0.6596306068601583,
+  "eval_steps": 50,
+  "global_step": 500,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06596306068601583,
+      "grad_norm": 10.362518310546875,
+      "learning_rate": 1.4492402520151846e-05,
+      "loss": 0.694,
+      "step": 50
+    },
+    {
+      "epoch": 0.06596306068601583,
+      "eval_f1": 0.4743595515735446,
+      "eval_loss": 0.6772196888923645,
+      "eval_runtime": 37.1764,
+      "eval_samples_per_second": 50.247,
+      "eval_steps_per_second": 50.247,
+      "step": 50
+    },
+    {
+      "epoch": 0.13192612137203166,
+      "grad_norm": 8.178845405578613,
+      "learning_rate": 1.4389725720009073e-05,
+      "loss": 0.6465,
+      "step": 100
+    },
+    {
+      "epoch": 0.13192612137203166,
+      "eval_f1": 0.7500369139904024,
+      "eval_loss": 0.5915173292160034,
+      "eval_runtime": 37.3774,
+      "eval_samples_per_second": 49.977,
+      "eval_steps_per_second": 49.977,
+      "step": 100
+    },
+    {
+      "epoch": 0.19788918205804748,
+      "grad_norm": 15.20943546295166,
+      "learning_rate": 1.428277071986035e-05,
+      "loss": 0.6062,
+      "step": 150
+    },
+    {
+      "epoch": 0.19788918205804748,
+      "eval_f1": 0.8016847838630017,
+      "eval_loss": 0.5473856329917908,
+      "eval_runtime": 37.4663,
+      "eval_samples_per_second": 49.858,
+      "eval_steps_per_second": 49.858,
+      "step": 150
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "grad_norm": 125.6336898803711,
+      "learning_rate": 1.4175815719711629e-05,
+      "loss": 0.5423,
+      "step": 200
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "eval_f1": 0.8237314037413463,
+      "eval_loss": 0.4995958209037781,
+      "eval_runtime": 37.5101,
+      "eval_samples_per_second": 49.8,
+      "eval_steps_per_second": 49.8,
+      "step": 200
+    },
+    {
+      "epoch": 0.32981530343007914,
+      "grad_norm": 14.32999038696289,
+      "learning_rate": 1.4073138919568856e-05,
+      "loss": 0.5334,
+      "step": 250
+    },
+    {
+      "epoch": 0.32981530343007914,
+      "eval_f1": 0.8198898071625345,
+      "eval_loss": 0.49298107624053955,
+      "eval_runtime": 37.1619,
+      "eval_samples_per_second": 50.266,
+      "eval_steps_per_second": 50.266,
+      "step": 250
+    },
+    {
+      "epoch": 0.39577836411609496,
+      "grad_norm": 27.561870574951172,
+      "learning_rate": 1.3966183919420133e-05,
+      "loss": 0.5223,
+      "step": 300
+    },
+    {
+      "epoch": 0.39577836411609496,
+      "eval_f1": 0.8261666781553733,
+      "eval_loss": 0.4933040738105774,
+      "eval_runtime": 37.2817,
+      "eval_samples_per_second": 50.105,
+      "eval_steps_per_second": 50.105,
+      "step": 300
+    },
+    {
+      "epoch": 0.46174142480211083,
+      "grad_norm": 17.7518253326416,
+      "learning_rate": 1.3859228919271411e-05,
+      "loss": 0.5568,
+      "step": 350
+    },
+    {
+      "epoch": 0.46174142480211083,
+      "eval_f1": 0.7932735150594417,
+      "eval_loss": 0.5218016505241394,
+      "eval_runtime": 37.2531,
+      "eval_samples_per_second": 50.143,
+      "eval_steps_per_second": 50.143,
+      "step": 350
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "grad_norm": 8.947376251220703,
+      "learning_rate": 1.375227391912269e-05,
+      "loss": 0.4753,
+      "step": 400
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "eval_f1": 0.8261835490810062,
+      "eval_loss": 0.46639615297317505,
+      "eval_runtime": 36.9348,
+      "eval_samples_per_second": 50.576,
+      "eval_steps_per_second": 50.576,
+      "step": 400
+    },
+    {
+      "epoch": 0.5936675461741425,
+      "grad_norm": 9.670042991638184,
+      "learning_rate": 1.3645318918973967e-05,
+      "loss": 0.5012,
+      "step": 450
+    },
+    {
+      "epoch": 0.5936675461741425,
+      "eval_f1": 0.8392116896888902,
+      "eval_loss": 0.45583826303482056,
+      "eval_runtime": 37.4674,
+      "eval_samples_per_second": 49.857,
+      "eval_steps_per_second": 49.857,
+      "step": 450
+    },
+    {
+      "epoch": 0.6596306068601583,
+      "grad_norm": 33.995361328125,
+      "learning_rate": 1.3538363918825243e-05,
+      "loss": 0.4731,
+      "step": 500
+    },
+    {
+      "epoch": 0.6596306068601583,
+      "eval_f1": 0.8490071509894094,
+      "eval_loss": 0.4522168040275574,
+      "eval_runtime": 37.674,
+      "eval_samples_per_second": 49.583,
+      "eval_steps_per_second": 49.583,
+      "step": 500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 6822,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2795794089984000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.4592940220291645e-05,
+    "num_train_epochs": 9,
+    "per_device_train_batch_size": 4,
+    "weight_decay": 0.07364830079588867
+  }
+}

run-2/checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c223988c5a783e1bdd88ad218a1ff0ba50cc8d55b49d745846b9ced8975099f
+size 5713

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944563.falcon-02.556678.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c14b07978a57838667a2b4ed9ef1cedb8f34aeb2dd775ef3c22a638d39b4dc7
+size 7463

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944615.falcon-02.556678.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08301bb5ec677a547173970f4b0459ad7b00df17330e7e2177326fbe8c93335e
+size 9575

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944739.falcon-02.556678.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7036470b244ba7f5d9eccc364e3e1f5c699d7ddf27a00ef6f071dba867ba3966
+size 7462

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944791.falcon-02.556678.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc7bb8817033713426ab136781d6aaeb6421ebdf5b251ec00e53779b8e769dc7
+size 8519

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944868.falcon-02.556678.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5a055dbace1a809bafe43279671e8618fb3548386732a7cc5fd92fd0bde3676
+size 9047

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746944977.falcon-02.556678.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f46e5dc315e376f75ef509bfee2340a1696f32eaafe9dd5a14b19123cde1353b
+size 7990

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945041.falcon-02.556678.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:409c2f24effb3ae5182391f3a5e4a51e90efe804e52b8636e83a7e5f37ac1381
+size 5534

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945058.falcon-02.556678.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94b5366f3b763ea753b0ceab57b76df6d9b832d0e61f1d2883f9f2c07a5346a1
+size 5536

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945074.falcon-02.556678.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6571247dd9621d4a1eee48042a633a324fc213d210a3d943fd81b8ffe63da9e4
+size 5534

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945088.falcon-02.556678.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:670b986206c0eb565d4df77f7e557c5e1d45dd0ab785a26e29ae437e74bb7565
+size 5536

runs/May11_07-22-34_falcon-02/events.out.tfevents.1746945104.falcon-02.556678.10 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98d4c2653f6162f2d4fce58bd34893462bb60d530ce50eedc3ef7719e6fbea2f
+size 5534