batoulnn commited on Jul 25, 2025

Commit

586ae4d

verified ·

1 Parent(s): 820704c

Upload folder using huggingface_hub

Browse files

Files changed (24) hide show

checkpoint-16000/config.json +70 -0
checkpoint-16000/model.safetensors +3 -0
checkpoint-16000/optimizer.pt +3 -0
checkpoint-16000/rng_state.pth +3 -0
checkpoint-16000/scaler.pt +3 -0
checkpoint-16000/scheduler.pt +3 -0
checkpoint-16000/special_tokens_map.json +37 -0
checkpoint-16000/tokenizer.json +0 -0
checkpoint-16000/tokenizer_config.json +339 -0
checkpoint-16000/trainer_state.json +738 -0
checkpoint-16000/training_args.bin +3 -0
checkpoint-16000/vocab.txt +0 -0
checkpoint-16472/config.json +70 -0
checkpoint-16472/model.safetensors +3 -0
checkpoint-16472/optimizer.pt +3 -0
checkpoint-16472/rng_state.pth +3 -0
checkpoint-16472/scaler.pt +3 -0
checkpoint-16472/scheduler.pt +3 -0
checkpoint-16472/special_tokens_map.json +37 -0
checkpoint-16472/tokenizer.json +0 -0
checkpoint-16472/tokenizer_config.json +339 -0
checkpoint-16472/trainer_state.json +738 -0
checkpoint-16472/training_args.bin +3 -0
checkpoint-16472/vocab.txt +0 -0

checkpoint-16000/config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "architectures": [
+    "CustomAraBERTClassifier"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 64000
+}

checkpoint-16000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1cfe95ae476ebae01eb7cb5ecf8f37846b67859ba0267859299a2cdf714b399
+size 542010628

checkpoint-16000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb00b19400d02fee8a13cc4c0810fa0ed7324349f319747ecf0063b5cce893c7
+size 1084144011

checkpoint-16000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1fe1f75f395a62e73d8b166c6ec1537bb14584fa1c11d15f4d58a52f9e3dbdc
+size 14645

checkpoint-16000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa0485828c43c408a2a183a8b6c2b05da427f0d417234a937d21bbc2ea20946f
+size 1383

checkpoint-16000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b773be15703f8be28eaa65dec9520074661c7dfc1d7a97bef0b882c2b56b0f4
+size 1465

checkpoint-16000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-16000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-16000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,339 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "+ا",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "1": {
+      "content": "+ك",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "2": {
+      "content": "ب+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "3": {
+      "content": "+هم",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "4": {
+      "content": "+ات",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "5": {
+      "content": "+ي",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "6": {
+      "content": "ل+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "7": {
+      "content": "+هما",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "8": {
+      "content": "+نا",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "9": {
+      "content": "+ن",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "10": {
+      "content": "+ها",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "11": {
+      "content": "+كما",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "12": {
+      "content": "+ة",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "13": {
+      "content": "ف+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "14": {
+      "content": "+كم",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "15": {
+      "content": "+كن",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "16": {
+      "content": "+ت",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "17": {
+      "content": "[بريد]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "18": {
+      "content": "[مستخدم]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "19": {
+      "content": "لل+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "20": {
+      "content": "ال+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "21": {
+      "content": "[رابط]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "22": {
+      "content": "س+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "23": {
+      "content": "+ان",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "24": {
+      "content": "+وا",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "25": {
+      "content": "+ه",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "26": {
+      "content": "+ون",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "27": {
+      "content": "+هن",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "28": {
+      "content": "+ين",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "29": {
+      "content": "��+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "30": {
+      "content": "ك+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "31": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "33": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "34": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "35": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_len": 512,
+  "model_max_length": 512,
+  "never_split": [
+    "+ك",
+    "+كما",
+    "ك+",
+    "+وا",
+    "+ين",
+    "و+",
+    "+كن",
+    "+ان",
+    "+هم",
+    "+ة",
+    "[بريد]",
+    "لل+",
+    "+ي",
+    "+ت",
+    "+ن",
+    "س+",
+    "ل+",
+    "[مستخدم]",
+    "+كم",
+    "+ا",
+    "ب+",
+    "ف+",
+    "+نا",
+    "+ها",
+    "+ون",
+    "+هما",
+    "ال+",
+    "+ه",
+    "+هن",
+    "+ات",
+    "[رابط]"
+  ],
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-16000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,738 @@

+{
+  "best_global_step": 16000,
+  "best_metric": 0.8388668685961359,
+  "best_model_checkpoint": "./arabert_author_model/checkpoint-16000",
+  "epoch": 3.885381253035454,
+  "eval_steps": 500,
+  "global_step": 16000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12141816415735794,
+      "grad_norm": 13.817139625549316,
+      "learning_rate": 2.393203883495146e-05,
+      "loss": 2.8517,
+      "step": 500
+    },
+    {
+      "epoch": 0.12141816415735794,
+      "eval_accuracy": 0.3591532355063748,
+      "eval_f1_macro": 0.2494861292218586,
+      "eval_f1_micro": 0.3591532355063748,
+      "eval_loss": 2.5372836589813232,
+      "eval_precision_macro": 0.3073920888476956,
+      "eval_precision_micro": 0.3591532355063748,
+      "eval_recall_macro": 0.32410028025019516,
+      "eval_recall_micro": 0.3591532355063748,
+      "eval_runtime": 10.9588,
+      "eval_samples_per_second": 379.329,
+      "eval_steps_per_second": 47.45,
+      "step": 500
+    },
+    {
+      "epoch": 0.24283632831471588,
+      "grad_norm": 10.415640830993652,
+      "learning_rate": 4.820388349514564e-05,
+      "loss": 2.0655,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24283632831471588,
+      "eval_accuracy": 0.5850372865046909,
+      "eval_f1_macro": 0.4679769319113009,
+      "eval_f1_micro": 0.5850372865046909,
+      "eval_loss": 1.5222690105438232,
+      "eval_precision_macro": 0.4891684038963785,
+      "eval_precision_micro": 0.5850372865046909,
+      "eval_recall_macro": 0.5299334368933829,
+      "eval_recall_micro": 0.5850372865046909,
+      "eval_runtime": 10.9419,
+      "eval_samples_per_second": 379.914,
+      "eval_steps_per_second": 47.524,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3642544924720738,
+      "grad_norm": 33.21428298950195,
+      "learning_rate": 7.242718446601942e-05,
+      "loss": 1.3532,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3642544924720738,
+      "eval_accuracy": 0.6062063988453211,
+      "eval_f1_macro": 0.5024409338775493,
+      "eval_f1_micro": 0.6062063988453211,
+      "eval_loss": 1.3000067472457886,
+      "eval_precision_macro": 0.5832350200281127,
+      "eval_precision_micro": 0.6062063988453211,
+      "eval_recall_macro": 0.556062953023934,
+      "eval_recall_micro": 0.6062063988453211,
+      "eval_runtime": 10.9618,
+      "eval_samples_per_second": 379.226,
+      "eval_steps_per_second": 47.437,
+      "step": 1500
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "grad_norm": 9.017403602600098,
+      "learning_rate": 7.989375134121083e-05,
+      "loss": 1.0573,
+      "step": 2000
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "eval_accuracy": 0.743565070964638,
+      "eval_f1_macro": 0.661667124930605,
+      "eval_f1_micro": 0.743565070964638,
+      "eval_loss": 0.9593473672866821,
+      "eval_precision_macro": 0.7070223201821213,
+      "eval_precision_micro": 0.743565070964638,
+      "eval_recall_macro": 0.6703159859068994,
+      "eval_recall_micro": 0.743565070964638,
+      "eval_runtime": 10.9878,
+      "eval_samples_per_second": 378.329,
+      "eval_steps_per_second": 47.325,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6070908207867897,
+      "grad_norm": 39.439300537109375,
+      "learning_rate": 7.936184577251333e-05,
+      "loss": 0.8902,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6070908207867897,
+      "eval_accuracy": 0.708684147221554,
+      "eval_f1_macro": 0.641807588675107,
+      "eval_f1_micro": 0.708684147221554,
+      "eval_loss": 1.1672111749649048,
+      "eval_precision_macro": 0.6949846119015083,
+      "eval_precision_micro": 0.708684147221554,
+      "eval_recall_macro": 0.6660911023131998,
+      "eval_recall_micro": 0.708684147221554,
+      "eval_runtime": 10.9685,
+      "eval_samples_per_second": 378.994,
+      "eval_steps_per_second": 47.408,
+      "step": 2500
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "grad_norm": 15.976033210754395,
+      "learning_rate": 7.838839212672895e-05,
+      "loss": 0.7722,
+      "step": 3000
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "eval_accuracy": 0.7815732499398604,
+      "eval_f1_macro": 0.6805898322013341,
+      "eval_f1_micro": 0.7815732499398604,
+      "eval_loss": 0.9774621725082397,
+      "eval_precision_macro": 0.681933497297422,
+      "eval_precision_micro": 0.7815732499398604,
+      "eval_recall_macro": 0.7037130745741084,
+      "eval_recall_micro": 0.7815732499398604,
+      "eval_runtime": 10.9775,
+      "eval_samples_per_second": 378.682,
+      "eval_steps_per_second": 47.369,
+      "step": 3000
+    },
+    {
+      "epoch": 0.8499271491015056,
+      "grad_norm": 13.439892768859863,
+      "learning_rate": 7.698431028266403e-05,
+      "loss": 0.6605,
+      "step": 3500
+    },
+    {
+      "epoch": 0.8499271491015056,
+      "eval_accuracy": 0.7654558575896079,
+      "eval_f1_macro": 0.6894780822997445,
+      "eval_f1_micro": 0.7654558575896079,
+      "eval_loss": 1.0220192670822144,
+      "eval_precision_macro": 0.7076718505110567,
+      "eval_precision_micro": 0.7654558575896079,
+      "eval_recall_macro": 0.7260098939240385,
+      "eval_recall_micro": 0.7654558575896079,
+      "eval_runtime": 10.9731,
+      "eval_samples_per_second": 378.836,
+      "eval_steps_per_second": 47.389,
+      "step": 3500
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "grad_norm": 20.09202766418457,
+      "learning_rate": 7.516535076283984e-05,
+      "loss": 0.628,
+      "step": 4000
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "eval_accuracy": 0.7916766899206158,
+      "eval_f1_macro": 0.6778803267216764,
+      "eval_f1_micro": 0.7916766899206158,
+      "eval_loss": 0.9702656269073486,
+      "eval_precision_macro": 0.7151431879177634,
+      "eval_precision_micro": 0.7916766899206158,
+      "eval_recall_macro": 0.7011458309909235,
+      "eval_recall_micro": 0.7916766899206158,
+      "eval_runtime": 10.9658,
+      "eval_samples_per_second": 379.088,
+      "eval_steps_per_second": 47.42,
+      "step": 4000
+    },
+    {
+      "epoch": 1.0927634774162214,
+      "grad_norm": 172.94845581054688,
+      "learning_rate": 7.295672280620509e-05,
+      "loss": 0.5502,
+      "step": 4500
+    },
+    {
+      "epoch": 1.0927634774162214,
+      "eval_accuracy": 0.7919172480153958,
+      "eval_f1_macro": 0.6957819662499832,
+      "eval_f1_micro": 0.7919172480153958,
+      "eval_loss": 1.2892016172409058,
+      "eval_precision_macro": 0.7464054287468073,
+      "eval_precision_micro": 0.7919172480153958,
+      "eval_recall_macro": 0.7183926804593861,
+      "eval_recall_micro": 0.7919172480153958,
+      "eval_runtime": 10.9635,
+      "eval_samples_per_second": 379.169,
+      "eval_steps_per_second": 47.43,
+      "step": 4500
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "grad_norm": 203.87509155273438,
+      "learning_rate": 7.037435815032454e-05,
+      "loss": 0.4406,
+      "step": 5000
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "eval_accuracy": 0.7570363242723117,
+      "eval_f1_macro": 0.6814189298571549,
+      "eval_f1_micro": 0.7570363242723117,
+      "eval_loss": 1.303400993347168,
+      "eval_precision_macro": 0.6973642430073081,
+      "eval_precision_micro": 0.7570363242723117,
+      "eval_recall_macro": 0.7124908812551407,
+      "eval_recall_micro": 0.7570363242723117,
+      "eval_runtime": 11.0017,
+      "eval_samples_per_second": 377.851,
+      "eval_steps_per_second": 47.265,
+      "step": 5000
+    },
+    {
+      "epoch": 1.3355998057309373,
+      "grad_norm": 0.6460123062133789,
+      "learning_rate": 6.74512640603739e-05,
+      "loss": 0.519,
+      "step": 5500
+    },
+    {
+      "epoch": 1.3355998057309373,
+      "eval_accuracy": 0.7827760404137599,
+      "eval_f1_macro": 0.7094534682279328,
+      "eval_f1_micro": 0.7827760404137599,
+      "eval_loss": 1.209078073501587,
+      "eval_precision_macro": 0.7201329832289568,
+      "eval_precision_micro": 0.7827760404137599,
+      "eval_recall_macro": 0.736328566738048,
+      "eval_recall_micro": 0.7827760404137599,
+      "eval_runtime": 10.9557,
+      "eval_samples_per_second": 379.437,
+      "eval_steps_per_second": 47.464,
+      "step": 5500
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "grad_norm": 31.10455894470215,
+      "learning_rate": 6.42202308323677e-05,
+      "loss": 0.4404,
+      "step": 6000
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "eval_accuracy": 0.8219870098628819,
+      "eval_f1_macro": 0.7542030095306345,
+      "eval_f1_micro": 0.8219870098628819,
+      "eval_loss": 1.026336908340454,
+      "eval_precision_macro": 0.7576623753992426,
+      "eval_precision_micro": 0.8219870098628819,
+      "eval_recall_macro": 0.7925456800333246,
+      "eval_recall_micro": 0.8219870098628819,
+      "eval_runtime": 10.9685,
+      "eval_samples_per_second": 378.993,
+      "eval_steps_per_second": 47.408,
+      "step": 6000
+    },
+    {
+      "epoch": 1.5784361340456532,
+      "grad_norm": 1.794871211051941,
+      "learning_rate": 6.0717503121017445e-05,
+      "loss": 0.3789,
+      "step": 6500
+    },
+    {
+      "epoch": 1.5784361340456532,
+      "eval_accuracy": 0.8542217945633871,
+      "eval_f1_macro": 0.7787297552725382,
+      "eval_f1_micro": 0.8542217945633871,
+      "eval_loss": 0.8210395574569702,
+      "eval_precision_macro": 0.8034809592650944,
+      "eval_precision_micro": 0.8542217945633871,
+      "eval_recall_macro": 0.7731802437378531,
+      "eval_recall_micro": 0.8542217945633871,
+      "eval_runtime": 10.9547,
+      "eval_samples_per_second": 379.473,
+      "eval_steps_per_second": 47.468,
+      "step": 6500
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "grad_norm": 34.32925033569336,
+      "learning_rate": 5.69823733592655e-05,
+      "loss": 0.3734,
+      "step": 7000
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "eval_accuracy": 0.7806110175607409,
+      "eval_f1_macro": 0.699900993601756,
+      "eval_f1_micro": 0.7806110175607409,
+      "eval_loss": 1.3878446817398071,
+      "eval_precision_macro": 0.7723533425562882,
+      "eval_precision_micro": 0.7806110175607409,
+      "eval_recall_macro": 0.6948437817490168,
+      "eval_recall_micro": 0.7806110175607409,
+      "eval_runtime": 10.9677,
+      "eval_samples_per_second": 379.023,
+      "eval_steps_per_second": 47.412,
+      "step": 7000
+    },
+    {
+      "epoch": 1.821272462360369,
+      "grad_norm": 0.0333857387304306,
+      "learning_rate": 5.305674098885817e-05,
+      "loss": 0.3417,
+      "step": 7500
+    },
+    {
+      "epoch": 1.821272462360369,
+      "eval_accuracy": 0.8414722155400529,
+      "eval_f1_macro": 0.752167782578507,
+      "eval_f1_micro": 0.8414722155400529,
+      "eval_loss": 0.9198834896087646,
+      "eval_precision_macro": 0.7597509711251361,
+      "eval_precision_micro": 0.8414722155400529,
+      "eval_recall_macro": 0.7664744721724374,
+      "eval_recall_micro": 0.8414722155400529,
+      "eval_runtime": 10.9665,
+      "eval_samples_per_second": 379.065,
+      "eval_steps_per_second": 47.417,
+      "step": 7500
+    },
+    {
+      "epoch": 1.942690626517727,
+      "grad_norm": 0.03518730029463768,
+      "learning_rate": 4.8984642446361996e-05,
+      "loss": 0.342,
+      "step": 8000
+    },
+    {
+      "epoch": 1.942690626517727,
+      "eval_accuracy": 0.821746451768102,
+      "eval_f1_macro": 0.738186135147291,
+      "eval_f1_micro": 0.821746451768102,
+      "eval_loss": 1.0331408977508545,
+      "eval_precision_macro": 0.7592295903512796,
+      "eval_precision_micro": 0.821746451768102,
+      "eval_recall_macro": 0.7439263957407788,
+      "eval_recall_micro": 0.821746451768102,
+      "eval_runtime": 11.0024,
+      "eval_samples_per_second": 377.826,
+      "eval_steps_per_second": 47.262,
+      "step": 8000
+    },
+    {
+      "epoch": 2.064108790675085,
+      "grad_norm": 0.18279767036437988,
+      "learning_rate": 4.481175717708393e-05,
+      "loss": 0.2898,
+      "step": 8500
+    },
+    {
+      "epoch": 2.064108790675085,
+      "eval_accuracy": 0.8203031031994227,
+      "eval_f1_macro": 0.7478170717551785,
+      "eval_f1_micro": 0.8203031031994227,
+      "eval_loss": 1.1277570724487305,
+      "eval_precision_macro": 0.7730855406484367,
+      "eval_precision_micro": 0.8203031031994227,
+      "eval_recall_macro": 0.7543267040014913,
+      "eval_recall_micro": 0.8203031031994227,
+      "eval_runtime": 10.9448,
+      "eval_samples_per_second": 379.815,
+      "eval_steps_per_second": 47.511,
+      "step": 8500
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "grad_norm": 0.01960030198097229,
+      "learning_rate": 4.058489521826674e-05,
+      "loss": 0.1742,
+      "step": 9000
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "eval_accuracy": 0.8419533317296127,
+      "eval_f1_macro": 0.7694964141590861,
+      "eval_f1_micro": 0.8419533317296127,
+      "eval_loss": 1.0578076839447021,
+      "eval_precision_macro": 0.7655705311822759,
+      "eval_precision_micro": 0.8419533317296127,
+      "eval_recall_macro": 0.7997867857803433,
+      "eval_recall_micro": 0.8419533317296127,
+      "eval_runtime": 11.1045,
+      "eval_samples_per_second": 374.354,
+      "eval_steps_per_second": 46.828,
+      "step": 9000
+    },
+    {
+      "epoch": 2.306945118989801,
+      "grad_norm": 1.8985679149627686,
+      "learning_rate": 3.635147209968037e-05,
+      "loss": 0.2277,
+      "step": 9500
+    },
+    {
+      "epoch": 2.306945118989801,
+      "eval_accuracy": 0.8551840269425066,
+      "eval_f1_macro": 0.8010324516227308,
+      "eval_f1_micro": 0.8551840269425066,
+      "eval_loss": 0.95162034034729,
+      "eval_precision_macro": 0.7994379036468637,
+      "eval_precision_micro": 0.8551840269425066,
+      "eval_recall_macro": 0.8284130356636192,
+      "eval_recall_micro": 0.8551840269425066,
+      "eval_runtime": 10.9658,
+      "eval_samples_per_second": 379.089,
+      "eval_steps_per_second": 47.42,
+      "step": 9500
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "grad_norm": 0.08672552555799484,
+      "learning_rate": 3.215897695200002e-05,
+      "loss": 0.1459,
+      "step": 10000
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "eval_accuracy": 0.8580707240798653,
+      "eval_f1_macro": 0.7735650259965305,
+      "eval_f1_micro": 0.8580707240798653,
+      "eval_loss": 0.9313622713088989,
+      "eval_precision_macro": 0.8197415932054871,
+      "eval_precision_micro": 0.8580707240798653,
+      "eval_recall_macro": 0.774173537961469,
+      "eval_recall_micro": 0.8580707240798653,
+      "eval_runtime": 11.0033,
+      "eval_samples_per_second": 377.797,
+      "eval_steps_per_second": 47.259,
+      "step": 10000
+    },
+    {
+      "epoch": 2.549781447304517,
+      "grad_norm": 0.010399931110441685,
+      "learning_rate": 2.8062530261954673e-05,
+      "loss": 0.1634,
+      "step": 10500
+    },
+    {
+      "epoch": 2.549781447304517,
+      "eval_accuracy": 0.8443589126774116,
+      "eval_f1_macro": 0.7537922358196677,
+      "eval_f1_micro": 0.8443589126774116,
+      "eval_loss": 1.0135008096694946,
+      "eval_precision_macro": 0.8301941849742014,
+      "eval_precision_micro": 0.8443589126774116,
+      "eval_recall_macro": 0.7457995267519847,
+      "eval_recall_micro": 0.8443589126774116,
+      "eval_runtime": 11.0399,
+      "eval_samples_per_second": 376.542,
+      "eval_steps_per_second": 47.102,
+      "step": 10500
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "grad_norm": 0.012511692009866238,
+      "learning_rate": 2.409168137642188e-05,
+      "loss": 0.151,
+      "step": 11000
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "eval_accuracy": 0.8794803945152755,
+      "eval_f1_macro": 0.8238485237925146,
+      "eval_f1_micro": 0.8794803945152755,
+      "eval_loss": 0.798862636089325,
+      "eval_precision_macro": 0.8338077165115332,
+      "eval_precision_micro": 0.8794803945152755,
+      "eval_recall_macro": 0.8296556196318619,
+      "eval_recall_micro": 0.8794803945152755,
+      "eval_runtime": 11.0936,
+      "eval_samples_per_second": 374.72,
+      "eval_steps_per_second": 46.874,
+      "step": 11000
+    },
+    {
+      "epoch": 2.7926177756192327,
+      "grad_norm": 0.5942862033843994,
+      "learning_rate": 2.0299286711215096e-05,
+      "loss": 0.1627,
+      "step": 11500
+    },
+    {
+      "epoch": 2.7926177756192327,
+      "eval_accuracy": 0.8833293240317537,
+      "eval_f1_macro": 0.8258632320077727,
+      "eval_f1_micro": 0.8833293240317537,
+      "eval_loss": 0.7369428873062134,
+      "eval_precision_macro": 0.8208617314770252,
+      "eval_precision_micro": 0.8833293240317537,
+      "eval_recall_macro": 0.842352557212921,
+      "eval_recall_micro": 0.8833293240317537,
+      "eval_runtime": 11.0093,
+      "eval_samples_per_second": 377.589,
+      "eval_steps_per_second": 47.233,
+      "step": 11500
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "grad_norm": 0.1483508050441742,
+      "learning_rate": 1.672788808669644e-05,
+      "loss": 0.1147,
+      "step": 12000
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "eval_accuracy": 0.8607168631224441,
+      "eval_f1_macro": 0.8148434050055327,
+      "eval_f1_micro": 0.8607168631224441,
+      "eval_loss": 0.9235690236091614,
+      "eval_precision_macro": 0.8216220364551388,
+      "eval_precision_micro": 0.8607168631224441,
+      "eval_recall_macro": 0.8206810147792551,
+      "eval_recall_micro": 0.8607168631224441,
+      "eval_runtime": 10.9967,
+      "eval_samples_per_second": 378.023,
+      "eval_steps_per_second": 47.287,
+      "step": 12000
+    },
+    {
+      "epoch": 3.0354541039339487,
+      "grad_norm": 0.015476622618734837,
+      "learning_rate": 1.3417548263242596e-05,
+      "loss": 0.1495,
+      "step": 12500
+    },
+    {
+      "epoch": 3.0354541039339487,
+      "eval_accuracy": 0.8857349049795525,
+      "eval_f1_macro": 0.8348811939709606,
+      "eval_f1_micro": 0.8857349049795525,
+      "eval_loss": 0.7240191102027893,
+      "eval_precision_macro": 0.8269436011383359,
+      "eval_precision_micro": 0.8857349049795525,
+      "eval_recall_macro": 0.8585739727750367,
+      "eval_recall_micro": 0.8857349049795525,
+      "eval_runtime": 10.9994,
+      "eval_samples_per_second": 377.931,
+      "eval_steps_per_second": 47.275,
+      "step": 12500
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "grad_norm": 0.003895299741998315,
+      "learning_rate": 1.040540153054102e-05,
+      "loss": 0.0428,
+      "step": 13000
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "eval_accuracy": 0.8886216021169112,
+      "eval_f1_macro": 0.8320140900627028,
+      "eval_f1_micro": 0.8886216021169112,
+      "eval_loss": 0.7417625188827515,
+      "eval_precision_macro": 0.8215695976609916,
+      "eval_precision_micro": 0.8886216021169112,
+      "eval_recall_macro": 0.8562463713090399,
+      "eval_recall_micro": 0.8886216021169112,
+      "eval_runtime": 10.993,
+      "eval_samples_per_second": 378.15,
+      "eval_steps_per_second": 47.303,
+      "step": 13000
+    },
+    {
+      "epoch": 3.2782904322486646,
+      "grad_norm": 0.009999997913837433,
+      "learning_rate": 7.725237147495241e-06,
+      "loss": 0.0674,
+      "step": 13500
+    },
+    {
+      "epoch": 3.2782904322486646,
+      "eval_accuracy": 0.863122444070243,
+      "eval_f1_macro": 0.8141275248610652,
+      "eval_f1_micro": 0.863122444070243,
+      "eval_loss": 0.9269203543663025,
+      "eval_precision_macro": 0.8155994650555717,
+      "eval_precision_micro": 0.863122444070243,
+      "eval_recall_macro": 0.831120303176534,
+      "eval_recall_micro": 0.863122444070243,
+      "eval_runtime": 11.0377,
+      "eval_samples_per_second": 376.619,
+      "eval_steps_per_second": 47.111,
+      "step": 13500
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "grad_norm": 0.002102572238072753,
+      "learning_rate": 5.411377224960022e-06,
+      "loss": 0.0348,
+      "step": 14000
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "eval_accuracy": 0.8864565792638922,
+      "eval_f1_macro": 0.8278883555316573,
+      "eval_f1_micro": 0.8864565792638922,
+      "eval_loss": 0.7893477082252502,
+      "eval_precision_macro": 0.8234196007036506,
+      "eval_precision_micro": 0.8864565792638922,
+      "eval_recall_macro": 0.8436628954935477,
+      "eval_recall_micro": 0.8864565792638922,
+      "eval_runtime": 10.991,
+      "eval_samples_per_second": 378.217,
+      "eval_steps_per_second": 47.311,
+      "step": 14000
+    },
+    {
+      "epoch": 3.52112676056338,
+      "grad_norm": 0.0026018042117357254,
+      "learning_rate": 3.4805125817474373e-06,
+      "loss": 0.0429,
+      "step": 14500
+    },
+    {
+      "epoch": 3.52112676056338,
+      "eval_accuracy": 0.8883810440221314,
+      "eval_f1_macro": 0.8359878499067832,
+      "eval_f1_micro": 0.8883810440221314,
+      "eval_loss": 0.7969309091567993,
+      "eval_precision_macro": 0.8351453883280561,
+      "eval_precision_micro": 0.8883810440221314,
+      "eval_recall_macro": 0.8493998324444691,
+      "eval_recall_micro": 0.8883810440221314,
+      "eval_runtime": 10.9595,
+      "eval_samples_per_second": 379.305,
+      "eval_steps_per_second": 47.447,
+      "step": 14500
+    },
+    {
+      "epoch": 3.642544924720738,
+      "grad_norm": 0.005027813836932182,
+      "learning_rate": 1.9619328163448515e-06,
+      "loss": 0.0472,
+      "step": 15000
+    },
+    {
+      "epoch": 3.642544924720738,
+      "eval_accuracy": 0.8871782535482319,
+      "eval_f1_macro": 0.8293197008433407,
+      "eval_f1_micro": 0.8871782535482319,
+      "eval_loss": 0.7746603488922119,
+      "eval_precision_macro": 0.8285879613227065,
+      "eval_precision_micro": 0.8871782535482319,
+      "eval_recall_macro": 0.843758966912644,
+      "eval_recall_micro": 0.8871782535482319,
+      "eval_runtime": 10.9555,
+      "eval_samples_per_second": 379.444,
+      "eval_steps_per_second": 47.465,
+      "step": 15000
+    },
+    {
+      "epoch": 3.7639630888780964,
+      "grad_norm": 0.001474579912610352,
+      "learning_rate": 8.665920662387894e-07,
+      "loss": 0.0654,
+      "step": 15500
+    },
+    {
+      "epoch": 3.7639630888780964,
+      "eval_accuracy": 0.8878999278325715,
+      "eval_f1_macro": 0.8333706258627294,
+      "eval_f1_micro": 0.8878999278325715,
+      "eval_loss": 0.7646775841712952,
+      "eval_precision_macro": 0.8323851081178661,
+      "eval_precision_micro": 0.8878999278325715,
+      "eval_recall_macro": 0.8465412634330337,
+      "eval_recall_micro": 0.8878999278325715,
+      "eval_runtime": 11.0797,
+      "eval_samples_per_second": 375.191,
+      "eval_steps_per_second": 46.933,
+      "step": 15500
+    },
+    {
+      "epoch": 3.885381253035454,
+      "grad_norm": 0.02036176808178425,
+      "learning_rate": 2.1023685362179913e-07,
+      "loss": 0.0519,
+      "step": 16000
+    },
+    {
+      "epoch": 3.885381253035454,
+      "eval_accuracy": 0.8910271830647102,
+      "eval_f1_macro": 0.8388668685961359,
+      "eval_f1_micro": 0.8910271830647102,
+      "eval_loss": 0.7371587753295898,
+      "eval_precision_macro": 0.8351964171775984,
+      "eval_precision_micro": 0.8910271830647102,
+      "eval_recall_macro": 0.8528710223600782,
+      "eval_recall_micro": 0.8910271830647102,
+      "eval_runtime": 10.9604,
+      "eval_samples_per_second": 379.273,
+      "eval_steps_per_second": 47.443,
+      "step": 16000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 16472,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.3794528238314496e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-16000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:733beefefbbbe74f348894313550142320fa88d841d14225798e6321192444dd
+size 5713

checkpoint-16000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-16472/config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "architectures": [
+    "CustomAraBERTClassifier"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 64000
+}

checkpoint-16472/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ec236a778e11c71808f8f382bbea564dc251689138f26a86a51633def93684f
+size 542010628

checkpoint-16472/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c535f7d717589689e599f9e767016cd85570f1f3f1db42999901719fa1ce0806
+size 1084144011

checkpoint-16472/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0d2ab663d81d3221a8e31be1f7659d5f23c2b1d8964f3d4bf7cceef63104150
+size 14645

checkpoint-16472/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc3da17bd085ed88c7ee60d15d27b7c3a39ca3eef71ef397340bae898a312171
+size 1383

checkpoint-16472/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b3d7f8e7d240acd0b69140807523f5f3689ad5dc47bdbdc66da735019a3419b
+size 1465

checkpoint-16472/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-16472/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-16472/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,339 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "+ا",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "1": {
+      "content": "+ك",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "2": {
+      "content": "ب+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "3": {
+      "content": "+هم",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "4": {
+      "content": "+ات",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "5": {
+      "content": "+ي",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "6": {
+      "content": "ل+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "7": {
+      "content": "+هما",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "8": {
+      "content": "+نا",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "9": {
+      "content": "+ن",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "10": {
+      "content": "+ها",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "11": {
+      "content": "+كما",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "12": {
+      "content": "+ة",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "13": {
+      "content": "ف+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "14": {
+      "content": "+كم",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "15": {
+      "content": "+كن",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "16": {
+      "content": "+ت",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "17": {
+      "content": "[بريد]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "18": {
+      "content": "[مستخدم]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "19": {
+      "content": "لل+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "20": {
+      "content": "ال+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "21": {
+      "content": "[رابط]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "22": {
+      "content": "س+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "23": {
+      "content": "+ان",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "24": {
+      "content": "+وا",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "25": {
+      "content": "+ه",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "26": {
+      "content": "+ون",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "27": {
+      "content": "+هن",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "28": {
+      "content": "+ين",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "29": {
+      "content": "��+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "30": {
+      "content": "ك+",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "31": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "33": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "34": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "35": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_len": 512,
+  "model_max_length": 512,
+  "never_split": [
+    "+ك",
+    "+كما",
+    "ك+",
+    "+وا",
+    "+ين",
+    "و+",
+    "+كن",
+    "+ان",
+    "+هم",
+    "+ة",
+    "[بريد]",
+    "لل+",
+    "+ي",
+    "+ت",
+    "+ن",
+    "س+",
+    "ل+",
+    "[مستخدم]",
+    "+كم",
+    "+ا",
+    "ب+",
+    "ف+",
+    "+نا",
+    "+ها",
+    "+ون",
+    "+هما",
+    "ال+",
+    "+ه",
+    "+هن",
+    "+ات",
+    "[رابط]"
+  ],
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-16472/trainer_state.json ADDED Viewed

	@@ -0,0 +1,738 @@

+{
+  "best_global_step": 16000,
+  "best_metric": 0.8388668685961359,
+  "best_model_checkpoint": "./arabert_author_model/checkpoint-16000",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 16472,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12141816415735794,
+      "grad_norm": 13.817139625549316,
+      "learning_rate": 2.393203883495146e-05,
+      "loss": 2.8517,
+      "step": 500
+    },
+    {
+      "epoch": 0.12141816415735794,
+      "eval_accuracy": 0.3591532355063748,
+      "eval_f1_macro": 0.2494861292218586,
+      "eval_f1_micro": 0.3591532355063748,
+      "eval_loss": 2.5372836589813232,
+      "eval_precision_macro": 0.3073920888476956,
+      "eval_precision_micro": 0.3591532355063748,
+      "eval_recall_macro": 0.32410028025019516,
+      "eval_recall_micro": 0.3591532355063748,
+      "eval_runtime": 10.9588,
+      "eval_samples_per_second": 379.329,
+      "eval_steps_per_second": 47.45,
+      "step": 500
+    },
+    {
+      "epoch": 0.24283632831471588,
+      "grad_norm": 10.415640830993652,
+      "learning_rate": 4.820388349514564e-05,
+      "loss": 2.0655,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24283632831471588,
+      "eval_accuracy": 0.5850372865046909,
+      "eval_f1_macro": 0.4679769319113009,
+      "eval_f1_micro": 0.5850372865046909,
+      "eval_loss": 1.5222690105438232,
+      "eval_precision_macro": 0.4891684038963785,
+      "eval_precision_micro": 0.5850372865046909,
+      "eval_recall_macro": 0.5299334368933829,
+      "eval_recall_micro": 0.5850372865046909,
+      "eval_runtime": 10.9419,
+      "eval_samples_per_second": 379.914,
+      "eval_steps_per_second": 47.524,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3642544924720738,
+      "grad_norm": 33.21428298950195,
+      "learning_rate": 7.242718446601942e-05,
+      "loss": 1.3532,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3642544924720738,
+      "eval_accuracy": 0.6062063988453211,
+      "eval_f1_macro": 0.5024409338775493,
+      "eval_f1_micro": 0.6062063988453211,
+      "eval_loss": 1.3000067472457886,
+      "eval_precision_macro": 0.5832350200281127,
+      "eval_precision_micro": 0.6062063988453211,
+      "eval_recall_macro": 0.556062953023934,
+      "eval_recall_micro": 0.6062063988453211,
+      "eval_runtime": 10.9618,
+      "eval_samples_per_second": 379.226,
+      "eval_steps_per_second": 47.437,
+      "step": 1500
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "grad_norm": 9.017403602600098,
+      "learning_rate": 7.989375134121083e-05,
+      "loss": 1.0573,
+      "step": 2000
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "eval_accuracy": 0.743565070964638,
+      "eval_f1_macro": 0.661667124930605,
+      "eval_f1_micro": 0.743565070964638,
+      "eval_loss": 0.9593473672866821,
+      "eval_precision_macro": 0.7070223201821213,
+      "eval_precision_micro": 0.743565070964638,
+      "eval_recall_macro": 0.6703159859068994,
+      "eval_recall_micro": 0.743565070964638,
+      "eval_runtime": 10.9878,
+      "eval_samples_per_second": 378.329,
+      "eval_steps_per_second": 47.325,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6070908207867897,
+      "grad_norm": 39.439300537109375,
+      "learning_rate": 7.936184577251333e-05,
+      "loss": 0.8902,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6070908207867897,
+      "eval_accuracy": 0.708684147221554,
+      "eval_f1_macro": 0.641807588675107,
+      "eval_f1_micro": 0.708684147221554,
+      "eval_loss": 1.1672111749649048,
+      "eval_precision_macro": 0.6949846119015083,
+      "eval_precision_micro": 0.708684147221554,
+      "eval_recall_macro": 0.6660911023131998,
+      "eval_recall_micro": 0.708684147221554,
+      "eval_runtime": 10.9685,
+      "eval_samples_per_second": 378.994,
+      "eval_steps_per_second": 47.408,
+      "step": 2500
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "grad_norm": 15.976033210754395,
+      "learning_rate": 7.838839212672895e-05,
+      "loss": 0.7722,
+      "step": 3000
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "eval_accuracy": 0.7815732499398604,
+      "eval_f1_macro": 0.6805898322013341,
+      "eval_f1_micro": 0.7815732499398604,
+      "eval_loss": 0.9774621725082397,
+      "eval_precision_macro": 0.681933497297422,
+      "eval_precision_micro": 0.7815732499398604,
+      "eval_recall_macro": 0.7037130745741084,
+      "eval_recall_micro": 0.7815732499398604,
+      "eval_runtime": 10.9775,
+      "eval_samples_per_second": 378.682,
+      "eval_steps_per_second": 47.369,
+      "step": 3000
+    },
+    {
+      "epoch": 0.8499271491015056,
+      "grad_norm": 13.439892768859863,
+      "learning_rate": 7.698431028266403e-05,
+      "loss": 0.6605,
+      "step": 3500
+    },
+    {
+      "epoch": 0.8499271491015056,
+      "eval_accuracy": 0.7654558575896079,
+      "eval_f1_macro": 0.6894780822997445,
+      "eval_f1_micro": 0.7654558575896079,
+      "eval_loss": 1.0220192670822144,
+      "eval_precision_macro": 0.7076718505110567,
+      "eval_precision_micro": 0.7654558575896079,
+      "eval_recall_macro": 0.7260098939240385,
+      "eval_recall_micro": 0.7654558575896079,
+      "eval_runtime": 10.9731,
+      "eval_samples_per_second": 378.836,
+      "eval_steps_per_second": 47.389,
+      "step": 3500
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "grad_norm": 20.09202766418457,
+      "learning_rate": 7.516535076283984e-05,
+      "loss": 0.628,
+      "step": 4000
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "eval_accuracy": 0.7916766899206158,
+      "eval_f1_macro": 0.6778803267216764,
+      "eval_f1_micro": 0.7916766899206158,
+      "eval_loss": 0.9702656269073486,
+      "eval_precision_macro": 0.7151431879177634,
+      "eval_precision_micro": 0.7916766899206158,
+      "eval_recall_macro": 0.7011458309909235,
+      "eval_recall_micro": 0.7916766899206158,
+      "eval_runtime": 10.9658,
+      "eval_samples_per_second": 379.088,
+      "eval_steps_per_second": 47.42,
+      "step": 4000
+    },
+    {
+      "epoch": 1.0927634774162214,
+      "grad_norm": 172.94845581054688,
+      "learning_rate": 7.295672280620509e-05,
+      "loss": 0.5502,
+      "step": 4500
+    },
+    {
+      "epoch": 1.0927634774162214,
+      "eval_accuracy": 0.7919172480153958,
+      "eval_f1_macro": 0.6957819662499832,
+      "eval_f1_micro": 0.7919172480153958,
+      "eval_loss": 1.2892016172409058,
+      "eval_precision_macro": 0.7464054287468073,
+      "eval_precision_micro": 0.7919172480153958,
+      "eval_recall_macro": 0.7183926804593861,
+      "eval_recall_micro": 0.7919172480153958,
+      "eval_runtime": 10.9635,
+      "eval_samples_per_second": 379.169,
+      "eval_steps_per_second": 47.43,
+      "step": 4500
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "grad_norm": 203.87509155273438,
+      "learning_rate": 7.037435815032454e-05,
+      "loss": 0.4406,
+      "step": 5000
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "eval_accuracy": 0.7570363242723117,
+      "eval_f1_macro": 0.6814189298571549,
+      "eval_f1_micro": 0.7570363242723117,
+      "eval_loss": 1.303400993347168,
+      "eval_precision_macro": 0.6973642430073081,
+      "eval_precision_micro": 0.7570363242723117,
+      "eval_recall_macro": 0.7124908812551407,
+      "eval_recall_micro": 0.7570363242723117,
+      "eval_runtime": 11.0017,
+      "eval_samples_per_second": 377.851,
+      "eval_steps_per_second": 47.265,
+      "step": 5000
+    },
+    {
+      "epoch": 1.3355998057309373,
+      "grad_norm": 0.6460123062133789,
+      "learning_rate": 6.74512640603739e-05,
+      "loss": 0.519,
+      "step": 5500
+    },
+    {
+      "epoch": 1.3355998057309373,
+      "eval_accuracy": 0.7827760404137599,
+      "eval_f1_macro": 0.7094534682279328,
+      "eval_f1_micro": 0.7827760404137599,
+      "eval_loss": 1.209078073501587,
+      "eval_precision_macro": 0.7201329832289568,
+      "eval_precision_micro": 0.7827760404137599,
+      "eval_recall_macro": 0.736328566738048,
+      "eval_recall_micro": 0.7827760404137599,
+      "eval_runtime": 10.9557,
+      "eval_samples_per_second": 379.437,
+      "eval_steps_per_second": 47.464,
+      "step": 5500
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "grad_norm": 31.10455894470215,
+      "learning_rate": 6.42202308323677e-05,
+      "loss": 0.4404,
+      "step": 6000
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "eval_accuracy": 0.8219870098628819,
+      "eval_f1_macro": 0.7542030095306345,
+      "eval_f1_micro": 0.8219870098628819,
+      "eval_loss": 1.026336908340454,
+      "eval_precision_macro": 0.7576623753992426,
+      "eval_precision_micro": 0.8219870098628819,
+      "eval_recall_macro": 0.7925456800333246,
+      "eval_recall_micro": 0.8219870098628819,
+      "eval_runtime": 10.9685,
+      "eval_samples_per_second": 378.993,
+      "eval_steps_per_second": 47.408,
+      "step": 6000
+    },
+    {
+      "epoch": 1.5784361340456532,
+      "grad_norm": 1.794871211051941,
+      "learning_rate": 6.0717503121017445e-05,
+      "loss": 0.3789,
+      "step": 6500
+    },
+    {
+      "epoch": 1.5784361340456532,
+      "eval_accuracy": 0.8542217945633871,
+      "eval_f1_macro": 0.7787297552725382,
+      "eval_f1_micro": 0.8542217945633871,
+      "eval_loss": 0.8210395574569702,
+      "eval_precision_macro": 0.8034809592650944,
+      "eval_precision_micro": 0.8542217945633871,
+      "eval_recall_macro": 0.7731802437378531,
+      "eval_recall_micro": 0.8542217945633871,
+      "eval_runtime": 10.9547,
+      "eval_samples_per_second": 379.473,
+      "eval_steps_per_second": 47.468,
+      "step": 6500
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "grad_norm": 34.32925033569336,
+      "learning_rate": 5.69823733592655e-05,
+      "loss": 0.3734,
+      "step": 7000
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "eval_accuracy": 0.7806110175607409,
+      "eval_f1_macro": 0.699900993601756,
+      "eval_f1_micro": 0.7806110175607409,
+      "eval_loss": 1.3878446817398071,
+      "eval_precision_macro": 0.7723533425562882,
+      "eval_precision_micro": 0.7806110175607409,
+      "eval_recall_macro": 0.6948437817490168,
+      "eval_recall_micro": 0.7806110175607409,
+      "eval_runtime": 10.9677,
+      "eval_samples_per_second": 379.023,
+      "eval_steps_per_second": 47.412,
+      "step": 7000
+    },
+    {
+      "epoch": 1.821272462360369,
+      "grad_norm": 0.0333857387304306,
+      "learning_rate": 5.305674098885817e-05,
+      "loss": 0.3417,
+      "step": 7500
+    },
+    {
+      "epoch": 1.821272462360369,
+      "eval_accuracy": 0.8414722155400529,
+      "eval_f1_macro": 0.752167782578507,
+      "eval_f1_micro": 0.8414722155400529,
+      "eval_loss": 0.9198834896087646,
+      "eval_precision_macro": 0.7597509711251361,
+      "eval_precision_micro": 0.8414722155400529,
+      "eval_recall_macro": 0.7664744721724374,
+      "eval_recall_micro": 0.8414722155400529,
+      "eval_runtime": 10.9665,
+      "eval_samples_per_second": 379.065,
+      "eval_steps_per_second": 47.417,
+      "step": 7500
+    },
+    {
+      "epoch": 1.942690626517727,
+      "grad_norm": 0.03518730029463768,
+      "learning_rate": 4.8984642446361996e-05,
+      "loss": 0.342,
+      "step": 8000
+    },
+    {
+      "epoch": 1.942690626517727,
+      "eval_accuracy": 0.821746451768102,
+      "eval_f1_macro": 0.738186135147291,
+      "eval_f1_micro": 0.821746451768102,
+      "eval_loss": 1.0331408977508545,
+      "eval_precision_macro": 0.7592295903512796,
+      "eval_precision_micro": 0.821746451768102,
+      "eval_recall_macro": 0.7439263957407788,
+      "eval_recall_micro": 0.821746451768102,
+      "eval_runtime": 11.0024,
+      "eval_samples_per_second": 377.826,
+      "eval_steps_per_second": 47.262,
+      "step": 8000
+    },
+    {
+      "epoch": 2.064108790675085,
+      "grad_norm": 0.18279767036437988,
+      "learning_rate": 4.481175717708393e-05,
+      "loss": 0.2898,
+      "step": 8500
+    },
+    {
+      "epoch": 2.064108790675085,
+      "eval_accuracy": 0.8203031031994227,
+      "eval_f1_macro": 0.7478170717551785,
+      "eval_f1_micro": 0.8203031031994227,
+      "eval_loss": 1.1277570724487305,
+      "eval_precision_macro": 0.7730855406484367,
+      "eval_precision_micro": 0.8203031031994227,
+      "eval_recall_macro": 0.7543267040014913,
+      "eval_recall_micro": 0.8203031031994227,
+      "eval_runtime": 10.9448,
+      "eval_samples_per_second": 379.815,
+      "eval_steps_per_second": 47.511,
+      "step": 8500
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "grad_norm": 0.01960030198097229,
+      "learning_rate": 4.058489521826674e-05,
+      "loss": 0.1742,
+      "step": 9000
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "eval_accuracy": 0.8419533317296127,
+      "eval_f1_macro": 0.7694964141590861,
+      "eval_f1_micro": 0.8419533317296127,
+      "eval_loss": 1.0578076839447021,
+      "eval_precision_macro": 0.7655705311822759,
+      "eval_precision_micro": 0.8419533317296127,
+      "eval_recall_macro": 0.7997867857803433,
+      "eval_recall_micro": 0.8419533317296127,
+      "eval_runtime": 11.1045,
+      "eval_samples_per_second": 374.354,
+      "eval_steps_per_second": 46.828,
+      "step": 9000
+    },
+    {
+      "epoch": 2.306945118989801,
+      "grad_norm": 1.8985679149627686,
+      "learning_rate": 3.635147209968037e-05,
+      "loss": 0.2277,
+      "step": 9500
+    },
+    {
+      "epoch": 2.306945118989801,
+      "eval_accuracy": 0.8551840269425066,
+      "eval_f1_macro": 0.8010324516227308,
+      "eval_f1_micro": 0.8551840269425066,
+      "eval_loss": 0.95162034034729,
+      "eval_precision_macro": 0.7994379036468637,
+      "eval_precision_micro": 0.8551840269425066,
+      "eval_recall_macro": 0.8284130356636192,
+      "eval_recall_micro": 0.8551840269425066,
+      "eval_runtime": 10.9658,
+      "eval_samples_per_second": 379.089,
+      "eval_steps_per_second": 47.42,
+      "step": 9500
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "grad_norm": 0.08672552555799484,
+      "learning_rate": 3.215897695200002e-05,
+      "loss": 0.1459,
+      "step": 10000
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "eval_accuracy": 0.8580707240798653,
+      "eval_f1_macro": 0.7735650259965305,
+      "eval_f1_micro": 0.8580707240798653,
+      "eval_loss": 0.9313622713088989,
+      "eval_precision_macro": 0.8197415932054871,
+      "eval_precision_micro": 0.8580707240798653,
+      "eval_recall_macro": 0.774173537961469,
+      "eval_recall_micro": 0.8580707240798653,
+      "eval_runtime": 11.0033,
+      "eval_samples_per_second": 377.797,
+      "eval_steps_per_second": 47.259,
+      "step": 10000
+    },
+    {
+      "epoch": 2.549781447304517,
+      "grad_norm": 0.010399931110441685,
+      "learning_rate": 2.8062530261954673e-05,
+      "loss": 0.1634,
+      "step": 10500
+    },
+    {
+      "epoch": 2.549781447304517,
+      "eval_accuracy": 0.8443589126774116,
+      "eval_f1_macro": 0.7537922358196677,
+      "eval_f1_micro": 0.8443589126774116,
+      "eval_loss": 1.0135008096694946,
+      "eval_precision_macro": 0.8301941849742014,
+      "eval_precision_micro": 0.8443589126774116,
+      "eval_recall_macro": 0.7457995267519847,
+      "eval_recall_micro": 0.8443589126774116,
+      "eval_runtime": 11.0399,
+      "eval_samples_per_second": 376.542,
+      "eval_steps_per_second": 47.102,
+      "step": 10500
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "grad_norm": 0.012511692009866238,
+      "learning_rate": 2.409168137642188e-05,
+      "loss": 0.151,
+      "step": 11000
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "eval_accuracy": 0.8794803945152755,
+      "eval_f1_macro": 0.8238485237925146,
+      "eval_f1_micro": 0.8794803945152755,
+      "eval_loss": 0.798862636089325,
+      "eval_precision_macro": 0.8338077165115332,
+      "eval_precision_micro": 0.8794803945152755,
+      "eval_recall_macro": 0.8296556196318619,
+      "eval_recall_micro": 0.8794803945152755,
+      "eval_runtime": 11.0936,
+      "eval_samples_per_second": 374.72,
+      "eval_steps_per_second": 46.874,
+      "step": 11000
+    },
+    {
+      "epoch": 2.7926177756192327,
+      "grad_norm": 0.5942862033843994,
+      "learning_rate": 2.0299286711215096e-05,
+      "loss": 0.1627,
+      "step": 11500
+    },
+    {
+      "epoch": 2.7926177756192327,
+      "eval_accuracy": 0.8833293240317537,
+      "eval_f1_macro": 0.8258632320077727,
+      "eval_f1_micro": 0.8833293240317537,
+      "eval_loss": 0.7369428873062134,
+      "eval_precision_macro": 0.8208617314770252,
+      "eval_precision_micro": 0.8833293240317537,
+      "eval_recall_macro": 0.842352557212921,
+      "eval_recall_micro": 0.8833293240317537,
+      "eval_runtime": 11.0093,
+      "eval_samples_per_second": 377.589,
+      "eval_steps_per_second": 47.233,
+      "step": 11500
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "grad_norm": 0.1483508050441742,
+      "learning_rate": 1.672788808669644e-05,
+      "loss": 0.1147,
+      "step": 12000
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "eval_accuracy": 0.8607168631224441,
+      "eval_f1_macro": 0.8148434050055327,
+      "eval_f1_micro": 0.8607168631224441,
+      "eval_loss": 0.9235690236091614,
+      "eval_precision_macro": 0.8216220364551388,
+      "eval_precision_micro": 0.8607168631224441,
+      "eval_recall_macro": 0.8206810147792551,
+      "eval_recall_micro": 0.8607168631224441,
+      "eval_runtime": 10.9967,
+      "eval_samples_per_second": 378.023,
+      "eval_steps_per_second": 47.287,
+      "step": 12000
+    },
+    {
+      "epoch": 3.0354541039339487,
+      "grad_norm": 0.015476622618734837,
+      "learning_rate": 1.3417548263242596e-05,
+      "loss": 0.1495,
+      "step": 12500
+    },
+    {
+      "epoch": 3.0354541039339487,
+      "eval_accuracy": 0.8857349049795525,
+      "eval_f1_macro": 0.8348811939709606,
+      "eval_f1_micro": 0.8857349049795525,
+      "eval_loss": 0.7240191102027893,
+      "eval_precision_macro": 0.8269436011383359,
+      "eval_precision_micro": 0.8857349049795525,
+      "eval_recall_macro": 0.8585739727750367,
+      "eval_recall_micro": 0.8857349049795525,
+      "eval_runtime": 10.9994,
+      "eval_samples_per_second": 377.931,
+      "eval_steps_per_second": 47.275,
+      "step": 12500
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "grad_norm": 0.003895299741998315,
+      "learning_rate": 1.040540153054102e-05,
+      "loss": 0.0428,
+      "step": 13000
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "eval_accuracy": 0.8886216021169112,
+      "eval_f1_macro": 0.8320140900627028,
+      "eval_f1_micro": 0.8886216021169112,
+      "eval_loss": 0.7417625188827515,
+      "eval_precision_macro": 0.8215695976609916,
+      "eval_precision_micro": 0.8886216021169112,
+      "eval_recall_macro": 0.8562463713090399,
+      "eval_recall_micro": 0.8886216021169112,
+      "eval_runtime": 10.993,
+      "eval_samples_per_second": 378.15,
+      "eval_steps_per_second": 47.303,
+      "step": 13000
+    },
+    {
+      "epoch": 3.2782904322486646,
+      "grad_norm": 0.009999997913837433,
+      "learning_rate": 7.725237147495241e-06,
+      "loss": 0.0674,
+      "step": 13500
+    },
+    {
+      "epoch": 3.2782904322486646,
+      "eval_accuracy": 0.863122444070243,
+      "eval_f1_macro": 0.8141275248610652,
+      "eval_f1_micro": 0.863122444070243,
+      "eval_loss": 0.9269203543663025,
+      "eval_precision_macro": 0.8155994650555717,
+      "eval_precision_micro": 0.863122444070243,
+      "eval_recall_macro": 0.831120303176534,
+      "eval_recall_micro": 0.863122444070243,
+      "eval_runtime": 11.0377,
+      "eval_samples_per_second": 376.619,
+      "eval_steps_per_second": 47.111,
+      "step": 13500
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "grad_norm": 0.002102572238072753,
+      "learning_rate": 5.411377224960022e-06,
+      "loss": 0.0348,
+      "step": 14000
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "eval_accuracy": 0.8864565792638922,
+      "eval_f1_macro": 0.8278883555316573,
+      "eval_f1_micro": 0.8864565792638922,
+      "eval_loss": 0.7893477082252502,
+      "eval_precision_macro": 0.8234196007036506,
+      "eval_precision_micro": 0.8864565792638922,
+      "eval_recall_macro": 0.8436628954935477,
+      "eval_recall_micro": 0.8864565792638922,
+      "eval_runtime": 10.991,
+      "eval_samples_per_second": 378.217,
+      "eval_steps_per_second": 47.311,
+      "step": 14000
+    },
+    {
+      "epoch": 3.52112676056338,
+      "grad_norm": 0.0026018042117357254,
+      "learning_rate": 3.4805125817474373e-06,
+      "loss": 0.0429,
+      "step": 14500
+    },
+    {
+      "epoch": 3.52112676056338,
+      "eval_accuracy": 0.8883810440221314,
+      "eval_f1_macro": 0.8359878499067832,
+      "eval_f1_micro": 0.8883810440221314,
+      "eval_loss": 0.7969309091567993,
+      "eval_precision_macro": 0.8351453883280561,
+      "eval_precision_micro": 0.8883810440221314,
+      "eval_recall_macro": 0.8493998324444691,
+      "eval_recall_micro": 0.8883810440221314,
+      "eval_runtime": 10.9595,
+      "eval_samples_per_second": 379.305,
+      "eval_steps_per_second": 47.447,
+      "step": 14500
+    },
+    {
+      "epoch": 3.642544924720738,
+      "grad_norm": 0.005027813836932182,
+      "learning_rate": 1.9619328163448515e-06,
+      "loss": 0.0472,
+      "step": 15000
+    },
+    {
+      "epoch": 3.642544924720738,
+      "eval_accuracy": 0.8871782535482319,
+      "eval_f1_macro": 0.8293197008433407,
+      "eval_f1_micro": 0.8871782535482319,
+      "eval_loss": 0.7746603488922119,
+      "eval_precision_macro": 0.8285879613227065,
+      "eval_precision_micro": 0.8871782535482319,
+      "eval_recall_macro": 0.843758966912644,
+      "eval_recall_micro": 0.8871782535482319,
+      "eval_runtime": 10.9555,
+      "eval_samples_per_second": 379.444,
+      "eval_steps_per_second": 47.465,
+      "step": 15000
+    },
+    {
+      "epoch": 3.7639630888780964,
+      "grad_norm": 0.001474579912610352,
+      "learning_rate": 8.665920662387894e-07,
+      "loss": 0.0654,
+      "step": 15500
+    },
+    {
+      "epoch": 3.7639630888780964,
+      "eval_accuracy": 0.8878999278325715,
+      "eval_f1_macro": 0.8333706258627294,
+      "eval_f1_micro": 0.8878999278325715,
+      "eval_loss": 0.7646775841712952,
+      "eval_precision_macro": 0.8323851081178661,
+      "eval_precision_micro": 0.8878999278325715,
+      "eval_recall_macro": 0.8465412634330337,
+      "eval_recall_micro": 0.8878999278325715,
+      "eval_runtime": 11.0797,
+      "eval_samples_per_second": 375.191,
+      "eval_steps_per_second": 46.933,
+      "step": 15500
+    },
+    {
+      "epoch": 3.885381253035454,
+      "grad_norm": 0.02036176808178425,
+      "learning_rate": 2.1023685362179913e-07,
+      "loss": 0.0519,
+      "step": 16000
+    },
+    {
+      "epoch": 3.885381253035454,
+      "eval_accuracy": 0.8910271830647102,
+      "eval_f1_macro": 0.8388668685961359,
+      "eval_f1_micro": 0.8910271830647102,
+      "eval_loss": 0.7371587753295898,
+      "eval_precision_macro": 0.8351964171775984,
+      "eval_precision_micro": 0.8910271830647102,
+      "eval_recall_macro": 0.8528710223600782,
+      "eval_recall_micro": 0.8910271830647102,
+      "eval_runtime": 10.9604,
+      "eval_samples_per_second": 379.273,
+      "eval_steps_per_second": 47.443,
+      "step": 16000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 16472,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.4790744808566784e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-16472/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:733beefefbbbe74f348894313550142320fa88d841d14225798e6321192444dd
+size 5713

checkpoint-16472/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff