Training in progress, epoch 1, checkpoint

Browse files

Files changed (10) hide show

last-checkpoint/added_tokens.json +1 -0
last-checkpoint/config.json +1 -1
last-checkpoint/model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/special_tokens_map.json +14 -0
last-checkpoint/tokenizer_config.json +11 -1
last-checkpoint/trainer_state.json +337 -57
last-checkpoint/training_args.bin +1 -1

last-checkpoint/added_tokens.json CHANGED Viewed

@@ -2,6 +2,7 @@
   "<BH>": 32102,
   "<BN>": 32100,
   "<CH>": 32101,
   "<extra_id_0>": 32099,
   "<extra_id_10>": 32089,
   "<extra_id_11>": 32088,

   "<BH>": 32102,
   "<BN>": 32100,
   "<CH>": 32101,
+  "<SY>": 32103,
   "<extra_id_0>": 32099,
   "<extra_id_10>": 32089,
   "<extra_id_11>": 32088,

last-checkpoint/config.json CHANGED Viewed

@@ -28,5 +28,5 @@
   "tie_word_embeddings": false,
   "transformers_version": "4.57.1",
   "use_cache": true,
-  "vocab_size": 32103
 }

   "tie_word_embeddings": false,
   "transformers_version": "4.57.1",
   "use_cache": true,
+  "vocab_size": 32104
 }

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c4dbbd07ff37198e380878eb94bf5e5f99d2589a40d0e914b57f45927127f2e
-size 990191464

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe2a15bf99c0f458b2206d6f35220f4c958e95e187565eba49da4fb8564ae369
+size 990197608

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ce0547f9ddfa37097a60fda229647d24bb9e099009591e12b9f63d93c447f83
-size 1980557579

 version https://git-lfs.github.com/spec/v1
+oid sha256:c91c5b91e574bf8d32168fe23a0d8f97d2c0d7a1ad5ad3fe64951d9602e1bdc7
+size 1980569867

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fed951d50f20e88aed1c5d289b7872841507ec83be8fd1c47fabf58dc50ace96
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2276a80239d2bec0f27af2510173a92b0a5242a76a5b11dff11d2bba9784d26
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eeeaf3e3e3934f426458af741488045385cfffe6a8596ba5f06df4561656e614
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa9bf41974fd17e7e1e3fb4258cf1a9ed2a23fdde64d539be88a5a088f814ff5
 size 1465

last-checkpoint/special_tokens_map.json CHANGED Viewed

@@ -7,12 +7,26 @@
       "rstrip": false,
       "single_word": false
     },
     {
       "content": "<BH>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false
     }
   ],
   "eos_token": {

       "rstrip": false,
       "single_word": false
     },
+    {
+      "content": "<CH>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
     {
       "content": "<BH>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false
+    },
+    {
+      "content": "<SY>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
     }
   ],
   "eos_token": {

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -848,11 +848,21 @@
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "additional_special_tokens": [
     "<BN>",
-    "<BH>"
   ],
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",

       "rstrip": false,
       "single_word": false,
       "special": true
+    },
+    "32103": {
+      "content": "<SY>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "additional_special_tokens": [
     "<BN>",
+    "<CH>",
+    "<BH>",
+    "<SY>"
   ],
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -4,108 +4,388 @@
   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 1235,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.08097165991902834,
-      "grad_norm": NaN,
-      "learning_rate": 2.987975708502024e-05,
-      "loss": 0.0,
       "step": 100
     },
     {
-      "epoch": 0.16194331983805668,
-      "grad_norm": NaN,
-      "learning_rate": 2.9758299595141703e-05,
-      "loss": 0.0,
       "step": 200
     },
     {
-      "epoch": 0.242914979757085,
-      "grad_norm": NaN,
-      "learning_rate": 2.9636842105263158e-05,
-      "loss": 0.0,
       "step": 300
     },
     {
-      "epoch": 0.32388663967611336,
-      "grad_norm": NaN,
-      "learning_rate": 2.9515384615384617e-05,
-      "loss": 0.0,
       "step": 400
     },
     {
-      "epoch": 0.4048582995951417,
-      "grad_norm": NaN,
-      "learning_rate": 2.9393927125506075e-05,
-      "loss": 0.0,
       "step": 500
     },
     {
-      "epoch": 0.48582995951417,
-      "grad_norm": NaN,
-      "learning_rate": 2.927246963562753e-05,
-      "loss": 0.0,
       "step": 600
     },
     {
-      "epoch": 0.5668016194331984,
-      "grad_norm": NaN,
-      "learning_rate": 2.915101214574899e-05,
-      "loss": 0.0,
       "step": 700
     },
     {
-      "epoch": 0.6477732793522267,
-      "grad_norm": NaN,
-      "learning_rate": 2.9029554655870447e-05,
-      "loss": 0.0,
       "step": 800
     },
     {
-      "epoch": 0.728744939271255,
-      "grad_norm": NaN,
-      "learning_rate": 2.8908097165991902e-05,
-      "loss": 0.0,
       "step": 900
     },
     {
-      "epoch": 0.8097165991902834,
-      "grad_norm": NaN,
-      "learning_rate": 2.878663967611336e-05,
-      "loss": 0.0,
       "step": 1000
     },
     {
-      "epoch": 0.8906882591093117,
-      "grad_norm": NaN,
-      "learning_rate": 2.866518218623482e-05,
-      "loss": 0.0,
       "step": 1100
     },
     {
-      "epoch": 0.97165991902834,
-      "grad_norm": NaN,
-      "learning_rate": 2.8543724696356277e-05,
-      "loss": 0.0,
       "step": 1200
     },
     {
       "epoch": 1.0,
-      "eval_loss": NaN,
-      "eval_runtime": 27.9209,
-      "eval_samples_per_second": 48.243,
-      "eval_steps_per_second": 6.053,
-      "step": 1235
     }
   ],
   "logging_steps": 100,
-  "max_steps": 24700,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -119,7 +399,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3380013503741952.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 5241,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.019080328181644724,
+      "grad_norm": 3213.42529296875,
+      "learning_rate": 4.990555237550087e-05,
+      "loss": 15.0258,
       "step": 100
     },
     {
+      "epoch": 0.03816065636328945,
+      "grad_norm": 57.823360443115234,
+      "learning_rate": 4.981015073459264e-05,
+      "loss": 10.8207,
       "step": 200
     },
     {
+      "epoch": 0.057240984544934176,
+      "grad_norm": 21.06822967529297,
+      "learning_rate": 4.971474909368441e-05,
+      "loss": 8.1947,
       "step": 300
     },
     {
+      "epoch": 0.0763213127265789,
+      "grad_norm": 25.405773162841797,
+      "learning_rate": 4.9619347452776186e-05,
+      "loss": 6.9094,
       "step": 400
     },
     {
+      "epoch": 0.09540164090822362,
+      "grad_norm": 10.772579193115234,
+      "learning_rate": 4.9523945811867966e-05,
+      "loss": 6.1739,
       "step": 500
     },
     {
+      "epoch": 0.11448196908986835,
+      "grad_norm": 7.486720085144043,
+      "learning_rate": 4.9428544170959746e-05,
+      "loss": 5.7799,
       "step": 600
     },
     {
+      "epoch": 0.13356229727151306,
+      "grad_norm": 17.71492576599121,
+      "learning_rate": 4.933314253005152e-05,
+      "loss": 5.4888,
       "step": 700
     },
     {
+      "epoch": 0.1526426254531578,
+      "grad_norm": 7.538534164428711,
+      "learning_rate": 4.92377408891433e-05,
+      "loss": 5.1287,
       "step": 800
     },
     {
+      "epoch": 0.17172295363480253,
+      "grad_norm": 4.852605819702148,
+      "learning_rate": 4.914233924823507e-05,
+      "loss": 5.0529,
       "step": 900
     },
     {
+      "epoch": 0.19080328181644723,
+      "grad_norm": 13.604716300964355,
+      "learning_rate": 4.9046937607326846e-05,
+      "loss": 4.918,
       "step": 1000
     },
     {
+      "epoch": 0.20988360999809197,
+      "grad_norm": 7.916113376617432,
+      "learning_rate": 4.8951535966418626e-05,
+      "loss": 4.676,
       "step": 1100
     },
     {
+      "epoch": 0.2289639381797367,
+      "grad_norm": 9.100526809692383,
+      "learning_rate": 4.88561343255104e-05,
+      "loss": 4.5912,
       "step": 1200
     },
+    {
+      "epoch": 0.2480442663613814,
+      "grad_norm": 7.34255313873291,
+      "learning_rate": 4.876073268460218e-05,
+      "loss": 4.58,
+      "step": 1300
+    },
+    {
+      "epoch": 0.2671245945430261,
+      "grad_norm": 11.250228881835938,
+      "learning_rate": 4.866533104369395e-05,
+      "loss": 4.3254,
+      "step": 1400
+    },
+    {
+      "epoch": 0.28620492272467085,
+      "grad_norm": 10.732246398925781,
+      "learning_rate": 4.856992940278573e-05,
+      "loss": 4.2089,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3052852509063156,
+      "grad_norm": 5.343315124511719,
+      "learning_rate": 4.847452776187751e-05,
+      "loss": 4.2465,
+      "step": 1600
+    },
+    {
+      "epoch": 0.3243655790879603,
+      "grad_norm": 4.741443157196045,
+      "learning_rate": 4.837912612096928e-05,
+      "loss": 4.0806,
+      "step": 1700
+    },
+    {
+      "epoch": 0.34344590726960506,
+      "grad_norm": 5.156026363372803,
+      "learning_rate": 4.828372448006106e-05,
+      "loss": 3.9851,
+      "step": 1800
+    },
+    {
+      "epoch": 0.36252623545124973,
+      "grad_norm": 5.886138916015625,
+      "learning_rate": 4.818832283915283e-05,
+      "loss": 3.9438,
+      "step": 1900
+    },
+    {
+      "epoch": 0.38160656363289447,
+      "grad_norm": 8.471810340881348,
+      "learning_rate": 4.809292119824461e-05,
+      "loss": 3.9255,
+      "step": 2000
+    },
+    {
+      "epoch": 0.4006868918145392,
+      "grad_norm": 6.079995155334473,
+      "learning_rate": 4.799751955733639e-05,
+      "loss": 3.8405,
+      "step": 2100
+    },
+    {
+      "epoch": 0.41976721999618394,
+      "grad_norm": 8.389578819274902,
+      "learning_rate": 4.7902117916428164e-05,
+      "loss": 3.8096,
+      "step": 2200
+    },
+    {
+      "epoch": 0.4388475481778287,
+      "grad_norm": 5.557002544403076,
+      "learning_rate": 4.7806716275519944e-05,
+      "loss": 3.8691,
+      "step": 2300
+    },
+    {
+      "epoch": 0.4579278763594734,
+      "grad_norm": 22.748138427734375,
+      "learning_rate": 4.771131463461172e-05,
+      "loss": 3.8514,
+      "step": 2400
+    },
+    {
+      "epoch": 0.4770082045411181,
+      "grad_norm": 8.196257591247559,
+      "learning_rate": 4.761591299370349e-05,
+      "loss": 3.6942,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4960885327227628,
+      "grad_norm": 5.773292064666748,
+      "learning_rate": 4.752051135279527e-05,
+      "loss": 3.5213,
+      "step": 2600
+    },
+    {
+      "epoch": 0.5151688609044076,
+      "grad_norm": 8.48924446105957,
+      "learning_rate": 4.7425109711887044e-05,
+      "loss": 3.4898,
+      "step": 2700
+    },
+    {
+      "epoch": 0.5342491890860522,
+      "grad_norm": 4.775367736816406,
+      "learning_rate": 4.7329708070978824e-05,
+      "loss": 3.6168,
+      "step": 2800
+    },
+    {
+      "epoch": 0.553329517267697,
+      "grad_norm": 8.374899864196777,
+      "learning_rate": 4.7234306430070604e-05,
+      "loss": 3.3548,
+      "step": 2900
+    },
+    {
+      "epoch": 0.5724098454493417,
+      "grad_norm": 8.98188591003418,
+      "learning_rate": 4.713890478916238e-05,
+      "loss": 3.4166,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5914901736309864,
+      "grad_norm": 5.574390411376953,
+      "learning_rate": 4.704350314825415e-05,
+      "loss": 3.3954,
+      "step": 3100
+    },
+    {
+      "epoch": 0.6105705018126312,
+      "grad_norm": 6.005886554718018,
+      "learning_rate": 4.694810150734592e-05,
+      "loss": 3.3784,
+      "step": 3200
+    },
+    {
+      "epoch": 0.6296508299942759,
+      "grad_norm": 5.605027675628662,
+      "learning_rate": 4.68526998664377e-05,
+      "loss": 3.4084,
+      "step": 3300
+    },
+    {
+      "epoch": 0.6487311581759206,
+      "grad_norm": 6.774117946624756,
+      "learning_rate": 4.675729822552948e-05,
+      "loss": 3.2394,
+      "step": 3400
+    },
+    {
+      "epoch": 0.6678114863575654,
+      "grad_norm": 6.457028865814209,
+      "learning_rate": 4.6661896584621256e-05,
+      "loss": 3.1922,
+      "step": 3500
+    },
+    {
+      "epoch": 0.6868918145392101,
+      "grad_norm": 5.8072028160095215,
+      "learning_rate": 4.6566494943713036e-05,
+      "loss": 3.2006,
+      "step": 3600
+    },
+    {
+      "epoch": 0.7059721427208548,
+      "grad_norm": 5.757169723510742,
+      "learning_rate": 4.647109330280481e-05,
+      "loss": 3.2241,
+      "step": 3700
+    },
+    {
+      "epoch": 0.7250524709024995,
+      "grad_norm": 7.030402660369873,
+      "learning_rate": 4.637569166189659e-05,
+      "loss": 3.1935,
+      "step": 3800
+    },
+    {
+      "epoch": 0.7441327990841442,
+      "grad_norm": 5.983602523803711,
+      "learning_rate": 4.628029002098836e-05,
+      "loss": 3.2654,
+      "step": 3900
+    },
+    {
+      "epoch": 0.7632131272657889,
+      "grad_norm": 5.327564239501953,
+      "learning_rate": 4.6184888380080136e-05,
+      "loss": 3.1183,
+      "step": 4000
+    },
+    {
+      "epoch": 0.7822934554474337,
+      "grad_norm": 5.376145362854004,
+      "learning_rate": 4.6089486739171916e-05,
+      "loss": 2.9999,
+      "step": 4100
+    },
+    {
+      "epoch": 0.8013737836290784,
+      "grad_norm": 7.061012268066406,
+      "learning_rate": 4.5994085098263696e-05,
+      "loss": 2.9889,
+      "step": 4200
+    },
+    {
+      "epoch": 0.8204541118107231,
+      "grad_norm": 7.72469425201416,
+      "learning_rate": 4.589868345735547e-05,
+      "loss": 3.1113,
+      "step": 4300
+    },
+    {
+      "epoch": 0.8395344399923679,
+      "grad_norm": 7.000074863433838,
+      "learning_rate": 4.580328181644725e-05,
+      "loss": 3.0533,
+      "step": 4400
+    },
+    {
+      "epoch": 0.8586147681740126,
+      "grad_norm": 4.172057628631592,
+      "learning_rate": 4.570788017553902e-05,
+      "loss": 3.0605,
+      "step": 4500
+    },
+    {
+      "epoch": 0.8776950963556573,
+      "grad_norm": 7.515087604522705,
+      "learning_rate": 4.5612478534630795e-05,
+      "loss": 3.0591,
+      "step": 4600
+    },
+    {
+      "epoch": 0.8967754245373021,
+      "grad_norm": 5.259555339813232,
+      "learning_rate": 4.5517076893722575e-05,
+      "loss": 3.0083,
+      "step": 4700
+    },
+    {
+      "epoch": 0.9158557527189468,
+      "grad_norm": 6.854462146759033,
+      "learning_rate": 4.542167525281435e-05,
+      "loss": 2.8963,
+      "step": 4800
+    },
+    {
+      "epoch": 0.9349360809005914,
+      "grad_norm": 7.629165172576904,
+      "learning_rate": 4.532627361190613e-05,
+      "loss": 2.9848,
+      "step": 4900
+    },
+    {
+      "epoch": 0.9540164090822362,
+      "grad_norm": 7.160517692565918,
+      "learning_rate": 4.52308719709979e-05,
+      "loss": 2.989,
+      "step": 5000
+    },
+    {
+      "epoch": 0.9730967372638809,
+      "grad_norm": 5.499044895172119,
+      "learning_rate": 4.513547033008968e-05,
+      "loss": 2.8799,
+      "step": 5100
+    },
+    {
+      "epoch": 0.9921770654455256,
+      "grad_norm": 7.522376537322998,
+      "learning_rate": 4.504006868918146e-05,
+      "loss": 2.8484,
+      "step": 5200
+    },
     {
       "epoch": 1.0,
+      "eval_loss": 2.272996425628662,
+      "eval_runtime": 202.0635,
+      "eval_samples_per_second": 23.052,
+      "eval_steps_per_second": 2.885,
+      "step": 5241
     }
   ],
   "logging_steps": 100,
+  "max_steps": 52410,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.4352011987779584e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a161f8db15e46e0431c594288b65f83be576afa01d8659f92dff4ee62dad08cd
 size 5969

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2066df18aeb0fb38be2277456a18ddd60a6e6a650077f856b0bf30798baf0ae
 size 5969