J7B commited on 14 days ago

Commit

c38e2f4

verified ·

1 Parent(s): 8ba70c8

Upload folder using huggingface_hub

Browse files

Files changed (26) hide show

.gitattributes +3 -0
checkpoint-322/config.json +31 -0
checkpoint-322/model.safetensors +3 -0
checkpoint-322/optimizer.pt +3 -0
checkpoint-322/rng_state.pth +3 -0
checkpoint-322/scaler.pt +3 -0
checkpoint-322/scheduler.pt +3 -0
checkpoint-322/tokenizer.json +3 -0
checkpoint-322/tokenizer_config.json +14 -0
checkpoint-322/trainer_state.json +266 -0
checkpoint-322/training_args.bin +3 -0
checkpoint-644/config.json +31 -0
checkpoint-644/model.safetensors +3 -0
checkpoint-644/optimizer.pt +3 -0
checkpoint-644/rng_state.pth +3 -0
checkpoint-644/scaler.pt +3 -0
checkpoint-644/scheduler.pt +3 -0
checkpoint-644/tokenizer.json +3 -0
checkpoint-644/tokenizer_config.json +14 -0
checkpoint-644/trainer_state.json +498 -0
checkpoint-644/training_args.bin +3 -0
config.json +31 -0
model.safetensors +3 -0
tokenizer.json +3 -0
tokenizer_config.json +14 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -39,3 +39,6 @@ xlmr_spam_final/checkpoint-2814/tokenizer.json filter=lfs diff=lfs merge=lfs -te
 xlmr_v1/checkpoint-322/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 xlmr_v1/checkpoint-644/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 xlmr_v1/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 xlmr_v1/checkpoint-322/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 xlmr_v1/checkpoint-644/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 xlmr_v1/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-322/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-644/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoint-322/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.1.0",
+  "type_vocab_size": 1,
+  "use_cache": false,
+  "vocab_size": 250002
+}

checkpoint-322/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f741b4925aca4d07257786c0c16d8dd1ab6d8d96730995f7b753f94e423a87bb
+size 1112204984

checkpoint-322/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4942b5a303e11c1e12f1ec3e38cb77f52d813c2a3b6c36af6914aa4b1fbf311e
+size 2224529658

checkpoint-322/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d04f779af80b021b161268ac30c9b56ff5d34fbece9bc553e4ff656cfe52ffdd
+size 14244

checkpoint-322/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2725633a61db79106970482748454641c9161b5d2d378c0df56fe53a583e772d
+size 988

checkpoint-322/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c9d0bfb7e7c3b9b19e70bb550549ae06f83a172d04342c9f707356c25a12f99
+size 1064

checkpoint-322/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2464f9721707cb3d5edcf9a3d73454b13e8a7b3bb8fdba94b3de3d843f30e946
+size 16781584

checkpoint-322/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "add_prefix_space": true,
+  "backend": "tokenizers",
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "is_local": true,
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-322/trainer_state.json ADDED Viewed

	@@ -0,0 +1,266 @@

+{
+  "best_global_step": 322,
+  "best_metric": 0.18244007229804993,
+  "best_model_checkpoint": "D:\\Major Project\\SpamX\\ml\\xlmr\\xlmr_v1\\checkpoint-322",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 322,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03108003108003108,
+      "grad_norm": 29.43787956237793,
+      "learning_rate": 4.945652173913044e-06,
+      "loss": 1.2356471061706542,
+      "step": 10
+    },
+    {
+      "epoch": 0.06216006216006216,
+      "grad_norm": 36.178550720214844,
+      "learning_rate": 4.875776397515528e-06,
+      "loss": 1.1817050933837892,
+      "step": 20
+    },
+    {
+      "epoch": 0.09324009324009325,
+      "grad_norm": 29.694974899291992,
+      "learning_rate": 4.798136645962733e-06,
+      "loss": 1.0811898231506347,
+      "step": 30
+    },
+    {
+      "epoch": 0.12432012432012432,
+      "grad_norm": 8.485957145690918,
+      "learning_rate": 4.7204968944099384e-06,
+      "loss": 0.876597785949707,
+      "step": 40
+    },
+    {
+      "epoch": 0.1554001554001554,
+      "grad_norm": 21.316192626953125,
+      "learning_rate": 4.642857142857144e-06,
+      "loss": 0.9505236625671387,
+      "step": 50
+    },
+    {
+      "epoch": 0.1864801864801865,
+      "grad_norm": 34.35721969604492,
+      "learning_rate": 4.565217391304348e-06,
+      "loss": 1.1337352752685548,
+      "step": 60
+    },
+    {
+      "epoch": 0.21756021756021757,
+      "grad_norm": 48.13325881958008,
+      "learning_rate": 4.487577639751553e-06,
+      "loss": 1.063378143310547,
+      "step": 70
+    },
+    {
+      "epoch": 0.24864024864024864,
+      "grad_norm": 38.45956802368164,
+      "learning_rate": 4.4177018633540375e-06,
+      "loss": 1.1818448066711427,
+      "step": 80
+    },
+    {
+      "epoch": 0.27972027972027974,
+      "grad_norm": 18.295886993408203,
+      "learning_rate": 4.340062111801243e-06,
+      "loss": 0.91037015914917,
+      "step": 90
+    },
+    {
+      "epoch": 0.3108003108003108,
+      "grad_norm": 13.219426155090332,
+      "learning_rate": 4.262422360248447e-06,
+      "loss": 0.9483179092407227,
+      "step": 100
+    },
+    {
+      "epoch": 0.3418803418803419,
+      "grad_norm": 23.118179321289062,
+      "learning_rate": 4.184782608695653e-06,
+      "loss": 0.992742919921875,
+      "step": 110
+    },
+    {
+      "epoch": 0.372960372960373,
+      "grad_norm": 13.910191535949707,
+      "learning_rate": 4.107142857142857e-06,
+      "loss": 0.8459652900695801,
+      "step": 120
+    },
+    {
+      "epoch": 0.40404040404040403,
+      "grad_norm": 124.82660675048828,
+      "learning_rate": 4.0295031055900625e-06,
+      "loss": 0.9497438430786133,
+      "step": 130
+    },
+    {
+      "epoch": 0.43512043512043513,
+      "grad_norm": 46.57713317871094,
+      "learning_rate": 3.951863354037268e-06,
+      "loss": 1.1179959297180175,
+      "step": 140
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "grad_norm": 17.421274185180664,
+      "learning_rate": 3.874223602484472e-06,
+      "loss": 0.7715085983276367,
+      "step": 150
+    },
+    {
+      "epoch": 0.4972804972804973,
+      "grad_norm": 16.492841720581055,
+      "learning_rate": 3.7965838509316772e-06,
+      "loss": 0.9310503959655761,
+      "step": 160
+    },
+    {
+      "epoch": 0.5283605283605284,
+      "grad_norm": 38.246829986572266,
+      "learning_rate": 3.718944099378882e-06,
+      "loss": 0.89602632522583,
+      "step": 170
+    },
+    {
+      "epoch": 0.5594405594405595,
+      "grad_norm": 28.985132217407227,
+      "learning_rate": 3.6413043478260875e-06,
+      "loss": 0.8126945495605469,
+      "step": 180
+    },
+    {
+      "epoch": 0.5905205905205905,
+      "grad_norm": 14.60274600982666,
+      "learning_rate": 3.5636645962732924e-06,
+      "loss": 0.7371460914611816,
+      "step": 190
+    },
+    {
+      "epoch": 0.6216006216006216,
+      "grad_norm": 30.11294937133789,
+      "learning_rate": 3.486024844720497e-06,
+      "loss": 1.0865836143493652,
+      "step": 200
+    },
+    {
+      "epoch": 0.6526806526806527,
+      "grad_norm": 17.661558151245117,
+      "learning_rate": 3.4083850931677022e-06,
+      "loss": 1.0465456008911134,
+      "step": 210
+    },
+    {
+      "epoch": 0.6837606837606838,
+      "grad_norm": 34.937503814697266,
+      "learning_rate": 3.3385093167701865e-06,
+      "loss": 0.8159684181213379,
+      "step": 220
+    },
+    {
+      "epoch": 0.7148407148407149,
+      "grad_norm": 58.97747802734375,
+      "learning_rate": 3.2608695652173914e-06,
+      "loss": 0.820067310333252,
+      "step": 230
+    },
+    {
+      "epoch": 0.745920745920746,
+      "grad_norm": 41.07950973510742,
+      "learning_rate": 3.1832298136645968e-06,
+      "loss": 1.0034560203552245,
+      "step": 240
+    },
+    {
+      "epoch": 0.777000777000777,
+      "grad_norm": 31.760068893432617,
+      "learning_rate": 3.1055900621118013e-06,
+      "loss": 0.7825074672698975,
+      "step": 250
+    },
+    {
+      "epoch": 0.8080808080808081,
+      "grad_norm": 29.330337524414062,
+      "learning_rate": 3.027950310559006e-06,
+      "loss": 0.8985923767089844,
+      "step": 260
+    },
+    {
+      "epoch": 0.8391608391608392,
+      "grad_norm": 28.913965225219727,
+      "learning_rate": 2.9503105590062115e-06,
+      "loss": 0.8792219161987305,
+      "step": 270
+    },
+    {
+      "epoch": 0.8702408702408703,
+      "grad_norm": 17.811166763305664,
+      "learning_rate": 2.8726708074534164e-06,
+      "loss": 0.8635202407836914,
+      "step": 280
+    },
+    {
+      "epoch": 0.9013209013209014,
+      "grad_norm": 19.338523864746094,
+      "learning_rate": 2.795031055900621e-06,
+      "loss": 0.890287208557129,
+      "step": 290
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "grad_norm": 18.355663299560547,
+      "learning_rate": 2.7173913043478263e-06,
+      "loss": 0.9401198387145996,
+      "step": 300
+    },
+    {
+      "epoch": 0.9634809634809635,
+      "grad_norm": 20.48928451538086,
+      "learning_rate": 2.639751552795031e-06,
+      "loss": 0.831356430053711,
+      "step": 310
+    },
+    {
+      "epoch": 0.9945609945609946,
+      "grad_norm": 59.57387161254883,
+      "learning_rate": 2.5621118012422365e-06,
+      "loss": 0.7133886814117432,
+      "step": 320
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.18244007229804993,
+      "eval_runtime": 4.4097,
+      "eval_samples_per_second": 259.426,
+      "eval_steps_per_second": 32.428,
+      "step": 322
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 644,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 391300611531000.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-322/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a44da1fe3b83e5bc0b568a24f212da51163e6e6058c33c08f7252f28612d3574
+size 4792

checkpoint-644/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.1.0",
+  "type_vocab_size": 1,
+  "use_cache": false,
+  "vocab_size": 250002
+}

checkpoint-644/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bd8036f3652c5248472577c5be1472e4d09695a46c48a475306888f0ced9d4a
+size 1112204984

checkpoint-644/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a21b7921622201f092ce3cdd38b18e9b48040089269df7f65cd969de677f95e
+size 2224529658

checkpoint-644/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:743aba1687c315dec910b7953f281e6820bd8053009788bfba4856f84534632f
+size 14244

checkpoint-644/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab3be0a5d421e6ee0417ca0578aea14899255b1cd05eb21ef8852f72ca9dee77
+size 988

checkpoint-644/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1184452503e1d36a2645049020c04efce12f9872de36ec791c90dbf0159c4a6d
+size 1064

checkpoint-644/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2464f9721707cb3d5edcf9a3d73454b13e8a7b3bb8fdba94b3de3d843f30e946
+size 16781584

checkpoint-644/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "add_prefix_space": true,
+  "backend": "tokenizers",
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "is_local": true,
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-644/trainer_state.json ADDED Viewed

	@@ -0,0 +1,498 @@

+{
+  "best_global_step": 644,
+  "best_metric": 0.17823560535907745,
+  "best_model_checkpoint": "D:\\Major Project\\SpamX\\ml\\xlmr\\xlmr_v1\\checkpoint-644",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 644,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03108003108003108,
+      "grad_norm": 29.43787956237793,
+      "learning_rate": 4.945652173913044e-06,
+      "loss": 1.2356471061706542,
+      "step": 10
+    },
+    {
+      "epoch": 0.06216006216006216,
+      "grad_norm": 36.178550720214844,
+      "learning_rate": 4.875776397515528e-06,
+      "loss": 1.1817050933837892,
+      "step": 20
+    },
+    {
+      "epoch": 0.09324009324009325,
+      "grad_norm": 29.694974899291992,
+      "learning_rate": 4.798136645962733e-06,
+      "loss": 1.0811898231506347,
+      "step": 30
+    },
+    {
+      "epoch": 0.12432012432012432,
+      "grad_norm": 8.485957145690918,
+      "learning_rate": 4.7204968944099384e-06,
+      "loss": 0.876597785949707,
+      "step": 40
+    },
+    {
+      "epoch": 0.1554001554001554,
+      "grad_norm": 21.316192626953125,
+      "learning_rate": 4.642857142857144e-06,
+      "loss": 0.9505236625671387,
+      "step": 50
+    },
+    {
+      "epoch": 0.1864801864801865,
+      "grad_norm": 34.35721969604492,
+      "learning_rate": 4.565217391304348e-06,
+      "loss": 1.1337352752685548,
+      "step": 60
+    },
+    {
+      "epoch": 0.21756021756021757,
+      "grad_norm": 48.13325881958008,
+      "learning_rate": 4.487577639751553e-06,
+      "loss": 1.063378143310547,
+      "step": 70
+    },
+    {
+      "epoch": 0.24864024864024864,
+      "grad_norm": 38.45956802368164,
+      "learning_rate": 4.4177018633540375e-06,
+      "loss": 1.1818448066711427,
+      "step": 80
+    },
+    {
+      "epoch": 0.27972027972027974,
+      "grad_norm": 18.295886993408203,
+      "learning_rate": 4.340062111801243e-06,
+      "loss": 0.91037015914917,
+      "step": 90
+    },
+    {
+      "epoch": 0.3108003108003108,
+      "grad_norm": 13.219426155090332,
+      "learning_rate": 4.262422360248447e-06,
+      "loss": 0.9483179092407227,
+      "step": 100
+    },
+    {
+      "epoch": 0.3418803418803419,
+      "grad_norm": 23.118179321289062,
+      "learning_rate": 4.184782608695653e-06,
+      "loss": 0.992742919921875,
+      "step": 110
+    },
+    {
+      "epoch": 0.372960372960373,
+      "grad_norm": 13.910191535949707,
+      "learning_rate": 4.107142857142857e-06,
+      "loss": 0.8459652900695801,
+      "step": 120
+    },
+    {
+      "epoch": 0.40404040404040403,
+      "grad_norm": 124.82660675048828,
+      "learning_rate": 4.0295031055900625e-06,
+      "loss": 0.9497438430786133,
+      "step": 130
+    },
+    {
+      "epoch": 0.43512043512043513,
+      "grad_norm": 46.57713317871094,
+      "learning_rate": 3.951863354037268e-06,
+      "loss": 1.1179959297180175,
+      "step": 140
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "grad_norm": 17.421274185180664,
+      "learning_rate": 3.874223602484472e-06,
+      "loss": 0.7715085983276367,
+      "step": 150
+    },
+    {
+      "epoch": 0.4972804972804973,
+      "grad_norm": 16.492841720581055,
+      "learning_rate": 3.7965838509316772e-06,
+      "loss": 0.9310503959655761,
+      "step": 160
+    },
+    {
+      "epoch": 0.5283605283605284,
+      "grad_norm": 38.246829986572266,
+      "learning_rate": 3.718944099378882e-06,
+      "loss": 0.89602632522583,
+      "step": 170
+    },
+    {
+      "epoch": 0.5594405594405595,
+      "grad_norm": 28.985132217407227,
+      "learning_rate": 3.6413043478260875e-06,
+      "loss": 0.8126945495605469,
+      "step": 180
+    },
+    {
+      "epoch": 0.5905205905205905,
+      "grad_norm": 14.60274600982666,
+      "learning_rate": 3.5636645962732924e-06,
+      "loss": 0.7371460914611816,
+      "step": 190
+    },
+    {
+      "epoch": 0.6216006216006216,
+      "grad_norm": 30.11294937133789,
+      "learning_rate": 3.486024844720497e-06,
+      "loss": 1.0865836143493652,
+      "step": 200
+    },
+    {
+      "epoch": 0.6526806526806527,
+      "grad_norm": 17.661558151245117,
+      "learning_rate": 3.4083850931677022e-06,
+      "loss": 1.0465456008911134,
+      "step": 210
+    },
+    {
+      "epoch": 0.6837606837606838,
+      "grad_norm": 34.937503814697266,
+      "learning_rate": 3.3385093167701865e-06,
+      "loss": 0.8159684181213379,
+      "step": 220
+    },
+    {
+      "epoch": 0.7148407148407149,
+      "grad_norm": 58.97747802734375,
+      "learning_rate": 3.2608695652173914e-06,
+      "loss": 0.820067310333252,
+      "step": 230
+    },
+    {
+      "epoch": 0.745920745920746,
+      "grad_norm": 41.07950973510742,
+      "learning_rate": 3.1832298136645968e-06,
+      "loss": 1.0034560203552245,
+      "step": 240
+    },
+    {
+      "epoch": 0.777000777000777,
+      "grad_norm": 31.760068893432617,
+      "learning_rate": 3.1055900621118013e-06,
+      "loss": 0.7825074672698975,
+      "step": 250
+    },
+    {
+      "epoch": 0.8080808080808081,
+      "grad_norm": 29.330337524414062,
+      "learning_rate": 3.027950310559006e-06,
+      "loss": 0.8985923767089844,
+      "step": 260
+    },
+    {
+      "epoch": 0.8391608391608392,
+      "grad_norm": 28.913965225219727,
+      "learning_rate": 2.9503105590062115e-06,
+      "loss": 0.8792219161987305,
+      "step": 270
+    },
+    {
+      "epoch": 0.8702408702408703,
+      "grad_norm": 17.811166763305664,
+      "learning_rate": 2.8726708074534164e-06,
+      "loss": 0.8635202407836914,
+      "step": 280
+    },
+    {
+      "epoch": 0.9013209013209014,
+      "grad_norm": 19.338523864746094,
+      "learning_rate": 2.795031055900621e-06,
+      "loss": 0.890287208557129,
+      "step": 290
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "grad_norm": 18.355663299560547,
+      "learning_rate": 2.7173913043478263e-06,
+      "loss": 0.9401198387145996,
+      "step": 300
+    },
+    {
+      "epoch": 0.9634809634809635,
+      "grad_norm": 20.48928451538086,
+      "learning_rate": 2.639751552795031e-06,
+      "loss": 0.831356430053711,
+      "step": 310
+    },
+    {
+      "epoch": 0.9945609945609946,
+      "grad_norm": 59.57387161254883,
+      "learning_rate": 2.5621118012422365e-06,
+      "loss": 0.7133886814117432,
+      "step": 320
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.18244007229804993,
+      "eval_runtime": 4.4097,
+      "eval_samples_per_second": 259.426,
+      "eval_steps_per_second": 32.428,
+      "step": 322
+    },
+    {
+      "epoch": 1.0248640248640248,
+      "grad_norm": 39.35393524169922,
+      "learning_rate": 2.484472049689441e-06,
+      "loss": 0.7849094867706299,
+      "step": 330
+    },
+    {
+      "epoch": 1.055944055944056,
+      "grad_norm": 39.5618896484375,
+      "learning_rate": 2.4068322981366464e-06,
+      "loss": 0.5631073474884033,
+      "step": 340
+    },
+    {
+      "epoch": 1.087024087024087,
+      "grad_norm": 27.039840698242188,
+      "learning_rate": 2.3291925465838513e-06,
+      "loss": 0.8551163673400879,
+      "step": 350
+    },
+    {
+      "epoch": 1.118104118104118,
+      "grad_norm": 31.069948196411133,
+      "learning_rate": 2.251552795031056e-06,
+      "loss": 0.940975284576416,
+      "step": 360
+    },
+    {
+      "epoch": 1.1491841491841492,
+      "grad_norm": 34.83683776855469,
+      "learning_rate": 2.173913043478261e-06,
+      "loss": 0.8859931945800781,
+      "step": 370
+    },
+    {
+      "epoch": 1.1802641802641802,
+      "grad_norm": 43.3201789855957,
+      "learning_rate": 2.096273291925466e-06,
+      "loss": 0.6784295558929443,
+      "step": 380
+    },
+    {
+      "epoch": 1.2113442113442114,
+      "grad_norm": 26.327808380126953,
+      "learning_rate": 2.018633540372671e-06,
+      "loss": 0.7212324619293213,
+      "step": 390
+    },
+    {
+      "epoch": 1.2424242424242424,
+      "grad_norm": 22.891172409057617,
+      "learning_rate": 1.940993788819876e-06,
+      "loss": 0.8333398818969726,
+      "step": 400
+    },
+    {
+      "epoch": 1.2735042735042734,
+      "grad_norm": 56.2291374206543,
+      "learning_rate": 1.8633540372670808e-06,
+      "loss": 1.0169650077819825,
+      "step": 410
+    },
+    {
+      "epoch": 1.3045843045843046,
+      "grad_norm": 38.48230743408203,
+      "learning_rate": 1.7857142857142859e-06,
+      "loss": 0.7382871627807617,
+      "step": 420
+    },
+    {
+      "epoch": 1.3356643356643356,
+      "grad_norm": 38.05250549316406,
+      "learning_rate": 1.7080745341614908e-06,
+      "loss": 0.8073366165161133,
+      "step": 430
+    },
+    {
+      "epoch": 1.3667443667443666,
+      "grad_norm": 30.15036392211914,
+      "learning_rate": 1.6304347826086957e-06,
+      "loss": 0.8878802299499512,
+      "step": 440
+    },
+    {
+      "epoch": 1.3978243978243978,
+      "grad_norm": 35.91055679321289,
+      "learning_rate": 1.5527950310559006e-06,
+      "loss": 0.5926938533782959,
+      "step": 450
+    },
+    {
+      "epoch": 1.428904428904429,
+      "grad_norm": 18.346158981323242,
+      "learning_rate": 1.4751552795031058e-06,
+      "loss": 0.590770959854126,
+      "step": 460
+    },
+    {
+      "epoch": 1.45998445998446,
+      "grad_norm": 31.250991821289062,
+      "learning_rate": 1.3975155279503105e-06,
+      "loss": 0.7174652099609375,
+      "step": 470
+    },
+    {
+      "epoch": 1.491064491064491,
+      "grad_norm": 35.001522064208984,
+      "learning_rate": 1.3198757763975156e-06,
+      "loss": 0.8534024238586426,
+      "step": 480
+    },
+    {
+      "epoch": 1.5221445221445222,
+      "grad_norm": 32.24079513549805,
+      "learning_rate": 1.2422360248447205e-06,
+      "loss": 0.8570188522338867,
+      "step": 490
+    },
+    {
+      "epoch": 1.5532245532245532,
+      "grad_norm": 19.8613224029541,
+      "learning_rate": 1.1645962732919256e-06,
+      "loss": 0.6434041023254394,
+      "step": 500
+    },
+    {
+      "epoch": 1.5843045843045842,
+      "grad_norm": 46.252769470214844,
+      "learning_rate": 1.0869565217391306e-06,
+      "loss": 0.5186689376831055,
+      "step": 510
+    },
+    {
+      "epoch": 1.6153846153846154,
+      "grad_norm": 20.27726936340332,
+      "learning_rate": 1.0093167701863355e-06,
+      "loss": 1.0002134323120118,
+      "step": 520
+    },
+    {
+      "epoch": 1.6464646464646466,
+      "grad_norm": 22.71544075012207,
+      "learning_rate": 9.316770186335404e-07,
+      "loss": 0.6581085681915283,
+      "step": 530
+    },
+    {
+      "epoch": 1.6775446775446774,
+      "grad_norm": 34.64213180541992,
+      "learning_rate": 8.540372670807454e-07,
+      "loss": 1.042281150817871,
+      "step": 540
+    },
+    {
+      "epoch": 1.7086247086247086,
+      "grad_norm": 17.567914962768555,
+      "learning_rate": 7.763975155279503e-07,
+      "loss": 0.7002626419067383,
+      "step": 550
+    },
+    {
+      "epoch": 1.7397047397047398,
+      "grad_norm": 31.270509719848633,
+      "learning_rate": 6.987577639751552e-07,
+      "loss": 0.7479125022888183,
+      "step": 560
+    },
+    {
+      "epoch": 1.7707847707847708,
+      "grad_norm": 33.94447708129883,
+      "learning_rate": 6.211180124223603e-07,
+      "loss": 0.6186141014099121,
+      "step": 570
+    },
+    {
+      "epoch": 1.8018648018648018,
+      "grad_norm": 18.601036071777344,
+      "learning_rate": 5.434782608695653e-07,
+      "loss": 0.6978522777557373,
+      "step": 580
+    },
+    {
+      "epoch": 1.832944832944833,
+      "grad_norm": 29.79970359802246,
+      "learning_rate": 4.658385093167702e-07,
+      "loss": 0.838288402557373,
+      "step": 590
+    },
+    {
+      "epoch": 1.864024864024864,
+      "grad_norm": 15.155320167541504,
+      "learning_rate": 3.8819875776397516e-07,
+      "loss": 0.4178286552429199,
+      "step": 600
+    },
+    {
+      "epoch": 1.895104895104895,
+      "grad_norm": 32.92871856689453,
+      "learning_rate": 3.1055900621118013e-07,
+      "loss": 0.8897994041442872,
+      "step": 610
+    },
+    {
+      "epoch": 1.9261849261849262,
+      "grad_norm": 6.8692827224731445,
+      "learning_rate": 2.329192546583851e-07,
+      "loss": 0.6488828659057617,
+      "step": 620
+    },
+    {
+      "epoch": 1.9572649572649574,
+      "grad_norm": 54.483192443847656,
+      "learning_rate": 1.5527950310559006e-07,
+      "loss": 1.0308164596557616,
+      "step": 630
+    },
+    {
+      "epoch": 1.9883449883449882,
+      "grad_norm": 30.52878761291504,
+      "learning_rate": 7.763975155279503e-08,
+      "loss": 0.7207555294036865,
+      "step": 640
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.17823560535907745,
+      "eval_runtime": 5.6175,
+      "eval_samples_per_second": 203.648,
+      "eval_steps_per_second": 25.456,
+      "step": 644
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 644,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 777428418602520.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-644/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a44da1fe3b83e5bc0b568a24f212da51163e6e6058c33c08f7252f28612d3574
+size 4792

config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.1.0",
+  "type_vocab_size": 1,
+  "use_cache": false,
+  "vocab_size": 250002
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bd8036f3652c5248472577c5be1472e4d09695a46c48a475306888f0ced9d4a
+size 1112204984

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2464f9721707cb3d5edcf9a3d73454b13e8a7b3bb8fdba94b3de3d843f30e946
+size 16781584

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "add_prefix_space": true,
+  "backend": "tokenizers",
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "is_local": true,
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a44da1fe3b83e5bc0b568a24f212da51163e6e6058c33c08f7252f28612d3574
+size 4792