Updated model for regularization testing

Browse files

Files changed (9) hide show

config.json +25 -37
model.safetensors +3 -0
optimizer.pt +2 -2
rng_state.pth +2 -2
scheduler.pt +2 -2
tokenizer.json +10 -10
tokenizer_config.json +43 -2
trainer_state.json +901 -53
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -9,45 +9,33 @@
   "dropout": 0.1,
   "hidden_dim": 3072,
   "id2label": {
-    "0": "EVENT",
-    "1": "EVENT_Illness",
-    "2": "EVENT_Accident",
-    "3": "EVENT_Other",
-    "4": "CAUSE",
-    "5": "CAUSE_Just_Happens",
-    "6": "CAUSE_Material_Physical",
-    "7": "CAUSE_Spirits_Gods",
-    "8": "CAUSE_Witchcraft_Sorcery",
-    "9": "CAUSE_Rule_Violation_Taboo",
-    "10": "CAUSE_Jealousy_Evil_Eye",
-    "11": "ACTION",
-    "12": "ACTION_Physical_Material",
-    "13": "ACTION_Technical_Specialist",
-    "14": "ACTION_Divination",
-    "15": "ACTION_Shaman_Medium_Healer",
-    "16": "ACTION_Priest_High_Religion",
-    "17": "ACTION_Other"
   },
   "initializer_range": 0.02,
   "label2id": {
-    "ACTION": 11,
-    "ACTION_Divination": 14,
-    "ACTION_Other": 17,
-    "ACTION_Physical_Material": 12,
-    "ACTION_Priest_High_Religion": 16,
-    "ACTION_Shaman_Medium_Healer": 15,
-    "ACTION_Technical_Specialist": 13,
-    "CAUSE": 4,
-    "CAUSE_Jealousy_Evil_Eye": 10,
-    "CAUSE_Just_Happens": 5,
-    "CAUSE_Material_Physical": 6,
-    "CAUSE_Rule_Violation_Taboo": 9,
-    "CAUSE_Spirits_Gods": 7,
-    "CAUSE_Witchcraft_Sorcery": 8,
-    "EVENT": 0,
-    "EVENT_Accident": 2,
-    "EVENT_Illness": 1,
-    "EVENT_Other": 3
   },
   "max_position_embeddings": 512,
   "model_type": "distilbert",
@@ -60,6 +48,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.24.0",
   "vocab_size": 30522
 }

   "dropout": 0.1,
   "hidden_dim": 3072,
   "id2label": {
+    "0": "EVENT_Illness",
+    "1": "EVENT_Accident",
+    "2": "EVENT_Other",
+    "3": "CAUSE_Material_Physical",
+    "4": "CAUSE_Spirits_Gods",
+    "5": "CAUSE_Witchcraft_Sorcery",
+    "6": "CAUSE_Rule_Violation_Taboo",
+    "7": "ACTION_Physical_Material",
+    "8": "ACTION_Technical_Specialist",
+    "9": "ACTION_Divination",
+    "10": "ACTION_Shaman_Medium_Healer",
+    "11": "ACTION_Priest_High_Religion"
   },
   "initializer_range": 0.02,
   "label2id": {
+    "ACTION_Divination": 9,
+    "ACTION_Physical_Material": 7,
+    "ACTION_Priest_High_Religion": 11,
+    "ACTION_Shaman_Medium_Healer": 10,
+    "ACTION_Technical_Specialist": 8,
+    "CAUSE_Material_Physical": 3,
+    "CAUSE_Rule_Violation_Taboo": 6,
+    "CAUSE_Spirits_Gods": 4,
+    "CAUSE_Witchcraft_Sorcery": 5,
+    "EVENT_Accident": 1,
+    "EVENT_Illness": 0,
+    "EVENT_Other": 2
   },
   "max_position_embeddings": 512,
   "model_type": "distilbert",
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
   "vocab_size": 30522
 }

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:610010ff6d1820ecda9ccc984dc14b78e65a98750da221e9da71dd4100294c76
+size 267863328

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f74ba96451ae68674f8c03175ca529b0c9586d1c826d4ea4dc57f2cdcf9fe
-size 535796549

 version https://git-lfs.github.com/spec/v1
+oid sha256:097a9d2dbbb8bd734adf115a34b696de90b89b7e310a93e9fb3c58bd2e7ddceb
+size 535788730

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d6efb74f26f13ab44ac71a5b2839da2cb02076f78433571e42ff77df959c617
-size 13553

 version https://git-lfs.github.com/spec/v1
+oid sha256:88ff5bb36b8e29678107a9fe193a35ed023fde1c7b0d9c95341d37f70c2cdbea
+size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dceeccbae01744d839850b433e9e5d599a8543ba27144a7fc306eba118b0d12
-size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:10b3b185fea1205fbfcb56f550d303bc0b6cb7d325de973a2d3dc5d3e34c96cf
+size 1064

tokenizer.json CHANGED Viewed

@@ -10,48 +10,48 @@
   "added_tokens": [
     {
       "id": 0,
-      "special": true,
       "content": "[PAD]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 100,
-      "special": true,
       "content": "[UNK]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 101,
-      "special": true,
       "content": "[CLS]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 102,
-      "special": true,
       "content": "[SEP]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 103,
-      "special": true,
       "content": "[MASK]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     }
   ],
   "normalizer": {

   "added_tokens": [
     {
       "id": 0,
       "content": "[PAD]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 100,
       "content": "[UNK]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 101,
       "content": "[CLS]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 102,
       "content": "[SEP]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 103,
       "content": "[MASK]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": {

tokenizer_config.json CHANGED Viewed

@@ -1,12 +1,53 @@
 {
   "cls_token": "[CLS]",
   "do_lower_case": true,
   "mask_token": "[MASK]",
   "model_max_length": 512,
-  "name_or_path": "distilbert-base-uncased",
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
-  "special_tokens_map_file": null,
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "DistilBertTokenizer",

 {
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
   "cls_token": "[CLS]",
   "do_lower_case": true,
   "mask_token": "[MASK]",
   "model_max_length": 512,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "DistilBertTokenizer",

trainer_state.json CHANGED Viewed

@@ -1,77 +1,925 @@
 {
-  "best_metric": 0.7183271832718328,
-  "best_model_checkpoint": "HRAF_Model_MultiLabel_SubClasses/checkpoint-875",
-  "epoch": 5.0,
-  "global_step": 875,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.0,
-      "eval_f1": 0.667278849097031,
-      "eval_loss": 0.41065430641174316,
-      "eval_roc_auc": 0.7616334780182695,
-      "eval_runtime": 107.1579,
-      "eval_samples_per_second": 3.266,
-      "eval_steps_per_second": 0.411,
-      "step": 175
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.002857142857142857,
-      "eval_f1": 0.692448233861145,
-      "eval_loss": 0.38348057866096497,
-      "eval_roc_auc": 0.7780945131452475,
-      "eval_runtime": 90.7152,
-      "eval_samples_per_second": 3.858,
-      "eval_steps_per_second": 0.485,
-      "step": 350
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 8.571428571428571e-06,
-      "loss": 0.4077,
-      "step": 500
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.022857142857142857,
-      "eval_f1": 0.7051744885679904,
-      "eval_loss": 0.3677811026573181,
-      "eval_roc_auc": 0.7873223134208052,
-      "eval_runtime": 90.6425,
-      "eval_samples_per_second": 3.861,
-      "eval_steps_per_second": 0.485,
-      "step": 525
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.04857142857142857,
-      "eval_f1": 0.7114503816793892,
-      "eval_loss": 0.35647499561309814,
-      "eval_roc_auc": 0.7900212002732531,
-      "eval_runtime": 90.64,
-      "eval_samples_per_second": 3.861,
-      "eval_steps_per_second": 0.485,
-      "step": 700
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.05142857142857143,
-      "eval_f1": 0.7183271832718328,
-      "eval_loss": 0.3486453592777252,
-      "eval_roc_auc": 0.7937415018923373,
-      "eval_runtime": 90.5252,
-      "eval_samples_per_second": 3.866,
-      "eval_steps_per_second": 0.486,
-      "step": 875
     }
   ],
-  "max_steps": 875,
-  "num_train_epochs": 5,
-  "total_flos": 784104676533360.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.6474642162926313,
+  "best_model_checkpoint": "drive/MyDrive/NLP_HRAF//Models/HRAF_MultiLabel_SubClasses_Kfolds/Model_3_LearningRates/Learning_Rate_2e-05_fold_1/checkpoint-10790",
+  "epoch": 13.0,
+  "eval_steps": 500,
+  "global_step": 10790,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.12048192771084337,
+      "grad_norm": 0.7108750343322754,
+      "learning_rate": 1.9839357429718877e-05,
+      "loss": 0.4589,
+      "step": 100
+    },
+    {
+      "epoch": 0.24096385542168675,
+      "grad_norm": 0.7625552415847778,
+      "learning_rate": 1.967871485943775e-05,
+      "loss": 0.3592,
+      "step": 200
+    },
+    {
+      "epoch": 0.3614457831325301,
+      "grad_norm": 0.8666885495185852,
+      "learning_rate": 1.951807228915663e-05,
+      "loss": 0.3393,
+      "step": 300
+    },
+    {
+      "epoch": 0.4819277108433735,
+      "grad_norm": 0.9493631720542908,
+      "learning_rate": 1.9357429718875505e-05,
+      "loss": 0.3154,
+      "step": 400
+    },
+    {
+      "epoch": 0.6024096385542169,
+      "grad_norm": 0.8787522315979004,
+      "learning_rate": 1.9196787148594377e-05,
+      "loss": 0.3001,
+      "step": 500
+    },
+    {
+      "epoch": 0.7228915662650602,
+      "grad_norm": 0.9206348061561584,
+      "learning_rate": 1.9036144578313255e-05,
+      "loss": 0.2905,
+      "step": 600
+    },
+    {
+      "epoch": 0.8433734939759037,
+      "grad_norm": 1.008158564567566,
+      "learning_rate": 1.887550200803213e-05,
+      "loss": 0.2877,
+      "step": 700
+    },
+    {
+      "epoch": 0.963855421686747,
+      "grad_norm": 1.307525873184204,
+      "learning_rate": 1.8714859437751005e-05,
+      "loss": 0.2888,
+      "step": 800
+    },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.36347197106690776,
+      "eval_f1": 0.5040954832670255,
+      "eval_loss": 0.2610304355621338,
+      "eval_roc_auc": 0.67926006705383,
+      "eval_runtime": 20.823,
+      "eval_samples_per_second": 79.671,
+      "eval_steps_per_second": 9.989,
+      "step": 830
+    },
+    {
+      "epoch": 1.0843373493975903,
+      "grad_norm": 1.141208529472351,
+      "learning_rate": 1.855421686746988e-05,
+      "loss": 0.269,
+      "step": 900
+    },
+    {
+      "epoch": 1.2048192771084336,
+      "grad_norm": 0.8844193816184998,
+      "learning_rate": 1.8393574297188755e-05,
+      "loss": 0.2579,
+      "step": 1000
+    },
+    {
+      "epoch": 1.3253012048192772,
+      "grad_norm": 1.1616642475128174,
+      "learning_rate": 1.8232931726907634e-05,
+      "loss": 0.2549,
+      "step": 1100
+    },
+    {
+      "epoch": 1.4457831325301205,
+      "grad_norm": 1.3445640802383423,
+      "learning_rate": 1.807228915662651e-05,
+      "loss": 0.2551,
+      "step": 1200
+    },
+    {
+      "epoch": 1.5662650602409638,
+      "grad_norm": 1.131273865699768,
+      "learning_rate": 1.7911646586345384e-05,
+      "loss": 0.2672,
+      "step": 1300
+    },
+    {
+      "epoch": 1.6867469879518073,
+      "grad_norm": 1.3358525037765503,
+      "learning_rate": 1.775100401606426e-05,
+      "loss": 0.2454,
+      "step": 1400
+    },
+    {
+      "epoch": 1.8072289156626506,
+      "grad_norm": 1.2100324630737305,
+      "learning_rate": 1.7590361445783134e-05,
+      "loss": 0.2364,
+      "step": 1500
+    },
+    {
+      "epoch": 1.927710843373494,
+      "grad_norm": 1.2214767932891846,
+      "learning_rate": 1.742971887550201e-05,
+      "loss": 0.2409,
+      "step": 1600
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.3767329716696805,
+      "eval_f1": 0.6076237435994689,
+      "eval_loss": 0.24850943684577942,
+      "eval_roc_auc": 0.7578414834576195,
+      "eval_runtime": 21.0346,
+      "eval_samples_per_second": 78.87,
+      "eval_steps_per_second": 9.888,
+      "step": 1660
+    },
+    {
+      "epoch": 2.0481927710843375,
+      "grad_norm": 0.8881352543830872,
+      "learning_rate": 1.7269076305220884e-05,
+      "loss": 0.2341,
+      "step": 1700
+    },
+    {
+      "epoch": 2.1686746987951806,
+      "grad_norm": 1.4135143756866455,
+      "learning_rate": 1.710843373493976e-05,
+      "loss": 0.2119,
+      "step": 1800
+    },
+    {
+      "epoch": 2.289156626506024,
+      "grad_norm": 1.291266918182373,
+      "learning_rate": 1.6947791164658637e-05,
+      "loss": 0.2074,
+      "step": 1900
+    },
+    {
+      "epoch": 2.4096385542168672,
+      "grad_norm": 1.311950445175171,
+      "learning_rate": 1.6787148594377512e-05,
+      "loss": 0.2063,
+      "step": 2000
+    },
+    {
+      "epoch": 2.5301204819277108,
+      "grad_norm": 1.6564782857894897,
+      "learning_rate": 1.6626506024096387e-05,
+      "loss": 0.2169,
+      "step": 2100
+    },
+    {
+      "epoch": 2.6506024096385543,
+      "grad_norm": 2.071871757507324,
+      "learning_rate": 1.6465863453815262e-05,
+      "loss": 0.2041,
+      "step": 2200
+    },
+    {
+      "epoch": 2.7710843373493974,
+      "grad_norm": 1.6373318433761597,
+      "learning_rate": 1.6305220883534137e-05,
+      "loss": 0.2149,
+      "step": 2300
+    },
+    {
+      "epoch": 2.891566265060241,
+      "grad_norm": 1.5182716846466064,
+      "learning_rate": 1.6144578313253015e-05,
+      "loss": 0.2057,
+      "step": 2400
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.3821579264617239,
+      "eval_f1": 0.6133793367835921,
+      "eval_loss": 0.24218665063381195,
+      "eval_roc_auc": 0.7590708449600018,
+      "eval_runtime": 20.7829,
+      "eval_samples_per_second": 79.825,
+      "eval_steps_per_second": 10.008,
+      "step": 2490
+    },
+    {
+      "epoch": 3.0120481927710845,
+      "grad_norm": 1.7013568878173828,
+      "learning_rate": 1.5983935742971887e-05,
+      "loss": 0.202,
+      "step": 2500
+    },
+    {
+      "epoch": 3.1325301204819276,
+      "grad_norm": 1.2363818883895874,
+      "learning_rate": 1.5823293172690762e-05,
+      "loss": 0.1797,
+      "step": 2600
+    },
+    {
+      "epoch": 3.253012048192771,
+      "grad_norm": 2.084066390991211,
+      "learning_rate": 1.566265060240964e-05,
+      "loss": 0.1788,
+      "step": 2700
+    },
+    {
+      "epoch": 3.3734939759036147,
+      "grad_norm": 1.1712193489074707,
+      "learning_rate": 1.5502008032128516e-05,
+      "loss": 0.169,
+      "step": 2800
+    },
+    {
+      "epoch": 3.4939759036144578,
+      "grad_norm": 1.9433542490005493,
+      "learning_rate": 1.534136546184739e-05,
+      "loss": 0.1712,
+      "step": 2900
+    },
+    {
+      "epoch": 3.6144578313253013,
+      "grad_norm": 2.300347328186035,
+      "learning_rate": 1.5180722891566266e-05,
+      "loss": 0.1749,
+      "step": 3000
+    },
+    {
+      "epoch": 3.734939759036145,
+      "grad_norm": 1.4740608930587769,
+      "learning_rate": 1.5020080321285142e-05,
+      "loss": 0.1736,
+      "step": 3100
+    },
+    {
+      "epoch": 3.855421686746988,
+      "grad_norm": 1.7682331800460815,
+      "learning_rate": 1.4859437751004017e-05,
+      "loss": 0.1635,
+      "step": 3200
+    },
+    {
+      "epoch": 3.9759036144578315,
+      "grad_norm": 1.4352338314056396,
+      "learning_rate": 1.4698795180722894e-05,
+      "loss": 0.1587,
+      "step": 3300
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.38276069921639544,
+      "eval_f1": 0.6340291889894697,
+      "eval_loss": 0.2462325543165207,
+      "eval_roc_auc": 0.7771644800479557,
+      "eval_runtime": 21.0125,
+      "eval_samples_per_second": 78.953,
+      "eval_steps_per_second": 9.899,
+      "step": 3320
+    },
+    {
+      "epoch": 4.096385542168675,
+      "grad_norm": 3.4992010593414307,
+      "learning_rate": 1.4538152610441769e-05,
+      "loss": 0.148,
+      "step": 3400
+    },
+    {
+      "epoch": 4.216867469879518,
+      "grad_norm": 1.555429458618164,
+      "learning_rate": 1.4377510040160642e-05,
+      "loss": 0.1397,
+      "step": 3500
+    },
+    {
+      "epoch": 4.337349397590361,
+      "grad_norm": 2.655567169189453,
+      "learning_rate": 1.4216867469879519e-05,
+      "loss": 0.1412,
+      "step": 3600
+    },
+    {
+      "epoch": 4.457831325301205,
+      "grad_norm": 1.797630786895752,
+      "learning_rate": 1.4056224899598394e-05,
+      "loss": 0.1419,
+      "step": 3700
+    },
+    {
+      "epoch": 4.578313253012048,
+      "grad_norm": 1.2415262460708618,
+      "learning_rate": 1.3895582329317269e-05,
+      "loss": 0.1405,
+      "step": 3800
+    },
+    {
+      "epoch": 4.698795180722891,
+      "grad_norm": 1.4111042022705078,
+      "learning_rate": 1.3734939759036146e-05,
+      "loss": 0.1349,
+      "step": 3900
+    },
+    {
+      "epoch": 4.8192771084337345,
+      "grad_norm": 2.2596189975738525,
+      "learning_rate": 1.357429718875502e-05,
+      "loss": 0.1291,
+      "step": 4000
+    },
+    {
+      "epoch": 4.9397590361445785,
+      "grad_norm": 2.264066457748413,
+      "learning_rate": 1.3413654618473897e-05,
+      "loss": 0.1412,
+      "step": 4100
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.38637733574442434,
+      "eval_f1": 0.627102627102627,
+      "eval_loss": 0.25749197602272034,
+      "eval_roc_auc": 0.7690261217645041,
+      "eval_runtime": 20.8914,
+      "eval_samples_per_second": 79.411,
+      "eval_steps_per_second": 9.956,
+      "step": 4150
+    },
+    {
+      "epoch": 5.0602409638554215,
+      "grad_norm": 1.1299407482147217,
+      "learning_rate": 1.3253012048192772e-05,
+      "loss": 0.1223,
+      "step": 4200
+    },
+    {
+      "epoch": 5.180722891566265,
+      "grad_norm": 1.1912181377410889,
+      "learning_rate": 1.309236947791165e-05,
+      "loss": 0.1112,
+      "step": 4300
+    },
+    {
+      "epoch": 5.301204819277109,
+      "grad_norm": 2.00722074508667,
+      "learning_rate": 1.2931726907630524e-05,
+      "loss": 0.1035,
+      "step": 4400
+    },
+    {
+      "epoch": 5.421686746987952,
+      "grad_norm": 1.543757677078247,
+      "learning_rate": 1.2771084337349398e-05,
+      "loss": 0.1082,
+      "step": 4500
+    },
+    {
+      "epoch": 5.542168674698795,
+      "grad_norm": 1.6844489574432373,
+      "learning_rate": 1.2610441767068273e-05,
+      "loss": 0.1113,
+      "step": 4600
+    },
+    {
+      "epoch": 5.662650602409639,
+      "grad_norm": 2.3987362384796143,
+      "learning_rate": 1.244979919678715e-05,
+      "loss": 0.1054,
+      "step": 4700
+    },
+    {
+      "epoch": 5.783132530120482,
+      "grad_norm": 1.196558952331543,
+      "learning_rate": 1.2289156626506024e-05,
+      "loss": 0.1076,
+      "step": 4800
+    },
+    {
+      "epoch": 5.903614457831325,
+      "grad_norm": 1.7159672975540161,
+      "learning_rate": 1.2128514056224901e-05,
+      "loss": 0.1129,
+      "step": 4900
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.38396624472573837,
+      "eval_f1": 0.6401569186875892,
+      "eval_loss": 0.28615912795066833,
+      "eval_roc_auc": 0.7876849584660104,
+      "eval_runtime": 21.0174,
+      "eval_samples_per_second": 78.935,
+      "eval_steps_per_second": 9.897,
+      "step": 4980
+    },
+    {
+      "epoch": 6.024096385542169,
+      "grad_norm": 1.7499059438705444,
+      "learning_rate": 1.1967871485943776e-05,
+      "loss": 0.101,
+      "step": 5000
+    },
+    {
+      "epoch": 6.144578313253012,
+      "grad_norm": 1.2233022451400757,
+      "learning_rate": 1.1807228915662651e-05,
+      "loss": 0.0835,
+      "step": 5100
+    },
+    {
+      "epoch": 6.265060240963855,
+      "grad_norm": 1.219558596611023,
+      "learning_rate": 1.1646586345381528e-05,
+      "loss": 0.082,
+      "step": 5200
+    },
+    {
+      "epoch": 6.385542168674699,
+      "grad_norm": 2.4673707485198975,
+      "learning_rate": 1.1485943775100403e-05,
+      "loss": 0.0808,
+      "step": 5300
+    },
+    {
+      "epoch": 6.506024096385542,
+      "grad_norm": 2.749701738357544,
+      "learning_rate": 1.132530120481928e-05,
+      "loss": 0.0891,
+      "step": 5400
+    },
+    {
+      "epoch": 6.626506024096385,
+      "grad_norm": 2.653024196624756,
+      "learning_rate": 1.1164658634538153e-05,
+      "loss": 0.0895,
+      "step": 5500
+    },
+    {
+      "epoch": 6.746987951807229,
+      "grad_norm": 1.81606924533844,
+      "learning_rate": 1.1004016064257028e-05,
+      "loss": 0.0827,
+      "step": 5600
+    },
+    {
+      "epoch": 6.867469879518072,
+      "grad_norm": 2.775585174560547,
+      "learning_rate": 1.0843373493975904e-05,
+      "loss": 0.0872,
+      "step": 5700
+    },
+    {
+      "epoch": 6.9879518072289155,
+      "grad_norm": 3.0529415607452393,
+      "learning_rate": 1.068273092369478e-05,
+      "loss": 0.0754,
+      "step": 5800
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.3899939722724533,
+      "eval_f1": 0.6352293577981651,
+      "eval_loss": 0.30027899146080017,
+      "eval_roc_auc": 0.7791627807894616,
+      "eval_runtime": 20.9855,
+      "eval_samples_per_second": 79.054,
+      "eval_steps_per_second": 9.912,
+      "step": 5810
+    },
+    {
+      "epoch": 7.108433734939759,
+      "grad_norm": 1.6993205547332764,
+      "learning_rate": 1.0522088353413654e-05,
+      "loss": 0.0723,
+      "step": 5900
+    },
+    {
+      "epoch": 7.228915662650603,
+      "grad_norm": 2.1551597118377686,
+      "learning_rate": 1.0361445783132531e-05,
+      "loss": 0.0685,
+      "step": 6000
+    },
+    {
+      "epoch": 7.349397590361446,
+      "grad_norm": 1.4902188777923584,
+      "learning_rate": 1.0200803212851406e-05,
+      "loss": 0.0664,
+      "step": 6100
+    },
+    {
+      "epoch": 7.469879518072289,
+      "grad_norm": 0.829651951789856,
+      "learning_rate": 1.0040160642570283e-05,
+      "loss": 0.0662,
+      "step": 6200
+    },
+    {
+      "epoch": 7.590361445783133,
+      "grad_norm": 2.141355037689209,
+      "learning_rate": 9.879518072289156e-06,
+      "loss": 0.0654,
+      "step": 6300
+    },
+    {
+      "epoch": 7.710843373493976,
+      "grad_norm": 0.7993516325950623,
+      "learning_rate": 9.718875502008033e-06,
+      "loss": 0.0669,
+      "step": 6400
+    },
+    {
+      "epoch": 7.831325301204819,
+      "grad_norm": 0.8961694836616516,
+      "learning_rate": 9.558232931726908e-06,
+      "loss": 0.0677,
+      "step": 6500
+    },
+    {
+      "epoch": 7.951807228915663,
+      "grad_norm": 1.8866826295852661,
+      "learning_rate": 9.397590361445785e-06,
+      "loss": 0.058,
+      "step": 6600
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.3887884267631103,
+      "eval_f1": 0.6461868190748349,
+      "eval_loss": 0.3176693618297577,
+      "eval_roc_auc": 0.790825180731994,
+      "eval_runtime": 20.9796,
+      "eval_samples_per_second": 79.077,
+      "eval_steps_per_second": 9.914,
+      "step": 6640
+    },
+    {
+      "epoch": 8.072289156626505,
+      "grad_norm": 0.4812127947807312,
+      "learning_rate": 9.23694779116466e-06,
+      "loss": 0.0543,
+      "step": 6700
+    },
+    {
+      "epoch": 8.19277108433735,
+      "grad_norm": 1.1170074939727783,
+      "learning_rate": 9.076305220883535e-06,
+      "loss": 0.0534,
+      "step": 6800
+    },
+    {
+      "epoch": 8.313253012048193,
+      "grad_norm": 2.044552803039551,
+      "learning_rate": 8.91566265060241e-06,
+      "loss": 0.0541,
+      "step": 6900
+    },
+    {
+      "epoch": 8.433734939759036,
+      "grad_norm": 2.3580517768859863,
+      "learning_rate": 8.755020080321286e-06,
+      "loss": 0.046,
+      "step": 7000
+    },
+    {
+      "epoch": 8.55421686746988,
+      "grad_norm": 2.568995952606201,
+      "learning_rate": 8.594377510040161e-06,
+      "loss": 0.0516,
+      "step": 7100
+    },
+    {
+      "epoch": 8.674698795180722,
+      "grad_norm": 0.7591239213943481,
+      "learning_rate": 8.433734939759038e-06,
+      "loss": 0.0503,
+      "step": 7200
+    },
+    {
+      "epoch": 8.795180722891565,
+      "grad_norm": 1.0098503828048706,
+      "learning_rate": 8.273092369477911e-06,
+      "loss": 0.0452,
+      "step": 7300
+    },
+    {
+      "epoch": 8.91566265060241,
+      "grad_norm": 2.4211244583129883,
+      "learning_rate": 8.112449799196788e-06,
+      "loss": 0.0611,
+      "step": 7400
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.38396624472573837,
+      "eval_f1": 0.6377283414722372,
+      "eval_loss": 0.33842870593070984,
+      "eval_roc_auc": 0.783423869627736,
+      "eval_runtime": 20.9102,
+      "eval_samples_per_second": 79.339,
+      "eval_steps_per_second": 9.947,
+      "step": 7470
+    },
+    {
+      "epoch": 9.036144578313253,
+      "grad_norm": 1.7786929607391357,
+      "learning_rate": 7.951807228915663e-06,
+      "loss": 0.0467,
+      "step": 7500
+    },
+    {
+      "epoch": 9.156626506024097,
+      "grad_norm": 0.9288263916969299,
+      "learning_rate": 7.79116465863454e-06,
+      "loss": 0.0358,
+      "step": 7600
+    },
+    {
+      "epoch": 9.27710843373494,
+      "grad_norm": 1.6899335384368896,
+      "learning_rate": 7.630522088353415e-06,
+      "loss": 0.0403,
+      "step": 7700
+    },
+    {
+      "epoch": 9.397590361445783,
+      "grad_norm": 0.633351743221283,
+      "learning_rate": 7.469879518072289e-06,
+      "loss": 0.0409,
+      "step": 7800
+    },
+    {
+      "epoch": 9.518072289156626,
+      "grad_norm": 1.880730152130127,
+      "learning_rate": 7.309236947791165e-06,
+      "loss": 0.04,
+      "step": 7900
+    },
+    {
+      "epoch": 9.638554216867469,
+      "grad_norm": 0.7761407494544983,
+      "learning_rate": 7.148594377510041e-06,
+      "loss": 0.0416,
+      "step": 8000
+    },
+    {
+      "epoch": 9.759036144578314,
+      "grad_norm": 1.7540706396102905,
+      "learning_rate": 6.987951807228917e-06,
+      "loss": 0.0383,
+      "step": 8100
+    },
+    {
+      "epoch": 9.879518072289157,
+      "grad_norm": 1.621785044670105,
+      "learning_rate": 6.8273092369477925e-06,
+      "loss": 0.0399,
+      "step": 8200
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 4.052353382110596,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0418,
+      "step": 8300
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.38155515370705245,
+      "eval_f1": 0.6405322783672002,
+      "eval_loss": 0.3592796325683594,
+      "eval_roc_auc": 0.7861850408280293,
+      "eval_runtime": 20.9788,
+      "eval_samples_per_second": 79.08,
+      "eval_steps_per_second": 9.915,
+      "step": 8300
+    },
+    {
+      "epoch": 10.120481927710843,
+      "grad_norm": 2.524548053741455,
+      "learning_rate": 6.5060240963855425e-06,
+      "loss": 0.0327,
+      "step": 8400
+    },
+    {
+      "epoch": 10.240963855421686,
+      "grad_norm": 2.5789272785186768,
+      "learning_rate": 6.345381526104418e-06,
+      "loss": 0.0329,
+      "step": 8500
+    },
+    {
+      "epoch": 10.36144578313253,
+      "grad_norm": 1.6276124715805054,
+      "learning_rate": 6.184738955823294e-06,
+      "loss": 0.0327,
+      "step": 8600
+    },
+    {
+      "epoch": 10.481927710843374,
+      "grad_norm": 1.2820446491241455,
+      "learning_rate": 6.02409638554217e-06,
+      "loss": 0.0319,
+      "step": 8700
+    },
+    {
+      "epoch": 10.602409638554217,
+      "grad_norm": 0.8200409412384033,
+      "learning_rate": 5.863453815261044e-06,
+      "loss": 0.0338,
+      "step": 8800
+    },
+    {
+      "epoch": 10.72289156626506,
+      "grad_norm": 1.6061540842056274,
+      "learning_rate": 5.70281124497992e-06,
+      "loss": 0.0311,
+      "step": 8900
+    },
+    {
+      "epoch": 10.843373493975903,
+      "grad_norm": 2.1266753673553467,
+      "learning_rate": 5.542168674698796e-06,
+      "loss": 0.0309,
+      "step": 9000
+    },
+    {
+      "epoch": 10.963855421686747,
+      "grad_norm": 1.8387219905853271,
+      "learning_rate": 5.381526104417672e-06,
+      "loss": 0.0338,
+      "step": 9100
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.38155515370705245,
+      "eval_f1": 0.6427417907769604,
+      "eval_loss": 0.37010136246681213,
+      "eval_roc_auc": 0.787888262607272,
+      "eval_runtime": 20.9246,
+      "eval_samples_per_second": 79.285,
+      "eval_steps_per_second": 9.94,
+      "step": 9130
+    },
+    {
+      "epoch": 11.08433734939759,
+      "grad_norm": 1.1557573080062866,
+      "learning_rate": 5.220883534136547e-06,
+      "loss": 0.0261,
+      "step": 9200
+    },
+    {
+      "epoch": 11.204819277108435,
+      "grad_norm": 0.8962405920028687,
+      "learning_rate": 5.060240963855422e-06,
+      "loss": 0.0247,
+      "step": 9300
+    },
+    {
+      "epoch": 11.325301204819278,
+      "grad_norm": 0.8799346089363098,
+      "learning_rate": 4.899598393574298e-06,
+      "loss": 0.0255,
+      "step": 9400
+    },
+    {
+      "epoch": 11.44578313253012,
+      "grad_norm": 0.8840754628181458,
+      "learning_rate": 4.7389558232931736e-06,
+      "loss": 0.0266,
+      "step": 9500
+    },
+    {
+      "epoch": 11.566265060240964,
+      "grad_norm": 1.1683375835418701,
+      "learning_rate": 4.578313253012049e-06,
+      "loss": 0.0261,
+      "step": 9600
+    },
+    {
+      "epoch": 11.686746987951807,
+      "grad_norm": 0.885728120803833,
+      "learning_rate": 4.4176706827309244e-06,
+      "loss": 0.0257,
+      "step": 9700
+    },
+    {
+      "epoch": 11.80722891566265,
+      "grad_norm": 0.2890942394733429,
+      "learning_rate": 4.2570281124497995e-06,
+      "loss": 0.029,
+      "step": 9800
+    },
+    {
+      "epoch": 11.927710843373493,
+      "grad_norm": 2.2087390422821045,
+      "learning_rate": 4.096385542168675e-06,
+      "loss": 0.0255,
+      "step": 9900
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.3845690174804099,
+      "eval_f1": 0.6420863309352519,
+      "eval_loss": 0.3844664394855499,
+      "eval_roc_auc": 0.7870362182333409,
+      "eval_runtime": 20.95,
+      "eval_samples_per_second": 79.189,
+      "eval_steps_per_second": 9.928,
+      "step": 9960
+    },
+    {
+      "epoch": 12.048192771084338,
+      "grad_norm": 1.7163885831832886,
+      "learning_rate": 3.93574297188755e-06,
+      "loss": 0.0261,
+      "step": 10000
+    },
+    {
+      "epoch": 12.168674698795181,
+      "grad_norm": 1.0416496992111206,
+      "learning_rate": 3.7751004016064258e-06,
+      "loss": 0.0215,
+      "step": 10100
+    },
+    {
+      "epoch": 12.289156626506024,
+      "grad_norm": 1.3379343748092651,
+      "learning_rate": 3.6144578313253016e-06,
+      "loss": 0.0223,
+      "step": 10200
+    },
+    {
+      "epoch": 12.409638554216867,
+      "grad_norm": 0.658170759677887,
+      "learning_rate": 3.453815261044177e-06,
+      "loss": 0.0192,
+      "step": 10300
+    },
+    {
+      "epoch": 12.53012048192771,
+      "grad_norm": 0.9047495722770691,
+      "learning_rate": 3.2931726907630525e-06,
+      "loss": 0.0237,
+      "step": 10400
+    },
+    {
+      "epoch": 12.650602409638553,
+      "grad_norm": 1.0494842529296875,
+      "learning_rate": 3.132530120481928e-06,
+      "loss": 0.0193,
+      "step": 10500
+    },
+    {
+      "epoch": 12.771084337349398,
+      "grad_norm": 0.32704225182533264,
+      "learning_rate": 2.9718875502008034e-06,
+      "loss": 0.0208,
+      "step": 10600
+    },
+    {
+      "epoch": 12.891566265060241,
+      "grad_norm": 0.49072301387786865,
+      "learning_rate": 2.811244979919679e-06,
+      "loss": 0.0202,
+      "step": 10700
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.38095238095238093,
+      "eval_f1": 0.6474642162926313,
+      "eval_loss": 0.3947090208530426,
+      "eval_roc_auc": 0.7937935574323361,
+      "eval_runtime": 21.0756,
+      "eval_samples_per_second": 78.716,
+      "eval_steps_per_second": 9.869,
+      "step": 10790
     }
   ],
+  "logging_steps": 100,
+  "max_steps": 12450,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8035320180521232.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afc0e69c798b4630ee068a05dd4f1a9404d270ac23a1062f1e52f9348c3979b0
-size 3387

 version https://git-lfs.github.com/spec/v1
+oid sha256:90c00f8b7311babb09b5cfce1bf4c2db61f426d28c044e987c559cbb8c1af657
+size 5304