Training in progress, epoch 0, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +179 -188
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "up_proj",
-    "gate_proj",
     "down_proj",
-    "v_proj",
     "o_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
+    "k_proj",
     "o_proj",
+    "gate_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:468b063969066b67543986fcdfd9612e1cf13bd6f9ed9c8cb089fa8deef7fbbd
 size 70430032

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c52e8f1a03ce2c954a7d92823200ce003f5d41ca43efc1a7ea8466f10a30f7a
 size 70430032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:802bb23f2e39ef6455fe99fb42b6fc5e3f5b93e4b39a391d6ac0d7800d92e4dd
 size 36135892

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb40e53669851a6edcbcb0a9a9ca0685636ac1ee03cf8aacc62c4c68e06b79c3
 size 36135892

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 2.1631815433502197,
-  "best_model_checkpoint": "miner_id_24/checkpoint-80",
   "epoch": 0.03385168729503861,
   "eval_steps": 20,
   "global_step": 80,
@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.0004231460911879826,
-      "grad_norm": 1.6116182804107666,
       "learning_rate": 2e-05,
       "loss": 2.4891,
       "step": 1
@@ -18,594 +18,594 @@
     {
       "epoch": 0.0004231460911879826,
       "eval_loss": 2.7103111743927,
-      "eval_runtime": 76.0744,
-      "eval_samples_per_second": 26.159,
-      "eval_steps_per_second": 6.546,
       "step": 1
     },
     {
       "epoch": 0.0008462921823759652,
-      "grad_norm": 1.6491059064865112,
       "learning_rate": 4e-05,
       "loss": 2.6718,
       "step": 2
     },
     {
       "epoch": 0.0012694382735639479,
-      "grad_norm": 1.6981528997421265,
       "learning_rate": 6e-05,
-      "loss": 2.647,
       "step": 3
     },
     {
       "epoch": 0.0016925843647519305,
-      "grad_norm": 1.639736294746399,
       "learning_rate": 8e-05,
-      "loss": 2.6702,
       "step": 4
     },
     {
       "epoch": 0.002115730455939913,
-      "grad_norm": 1.5359561443328857,
       "learning_rate": 0.0001,
-      "loss": 2.5932,
       "step": 5
     },
     {
       "epoch": 0.0025388765471278957,
-      "grad_norm": 1.455960750579834,
       "learning_rate": 0.00012,
-      "loss": 2.6167,
       "step": 6
     },
     {
       "epoch": 0.0029620226383158784,
-      "grad_norm": 1.323106050491333,
       "learning_rate": 0.00014,
-      "loss": 2.6387,
       "step": 7
     },
     {
       "epoch": 0.003385168729503861,
-      "grad_norm": 1.3717588186264038,
       "learning_rate": 0.00016,
-      "loss": 2.5911,
       "step": 8
     },
     {
       "epoch": 0.003808314820691844,
-      "grad_norm": 1.4253047704696655,
       "learning_rate": 0.00018,
-      "loss": 2.55,
       "step": 9
     },
     {
       "epoch": 0.004231460911879826,
-      "grad_norm": 1.5064291954040527,
       "learning_rate": 0.0002,
-      "loss": 2.5373,
       "step": 10
     },
     {
       "epoch": 0.004654607003067809,
-      "grad_norm": 1.5042705535888672,
       "learning_rate": 0.00019989930665413147,
-      "loss": 2.5484,
       "step": 11
     },
     {
       "epoch": 0.0050777530942557915,
-      "grad_norm": 1.4497551918029785,
       "learning_rate": 0.00019959742939952392,
-      "loss": 2.4952,
       "step": 12
     },
     {
       "epoch": 0.005500899185443774,
-      "grad_norm": 1.5038385391235352,
       "learning_rate": 0.00019909497617679348,
-      "loss": 2.3651,
       "step": 13
     },
     {
       "epoch": 0.005924045276631757,
-      "grad_norm": 1.4070632457733154,
       "learning_rate": 0.00019839295885986296,
-      "loss": 2.3963,
       "step": 14
     },
     {
       "epoch": 0.006347191367819739,
-      "grad_norm": 1.349345326423645,
       "learning_rate": 0.00019749279121818235,
-      "loss": 2.4433,
       "step": 15
     },
     {
       "epoch": 0.006770337459007722,
-      "grad_norm": 1.36220383644104,
       "learning_rate": 0.00019639628606958533,
-      "loss": 2.4385,
       "step": 16
     },
     {
       "epoch": 0.0071934835501957055,
-      "grad_norm": 1.3120527267456055,
       "learning_rate": 0.00019510565162951537,
-      "loss": 2.3923,
       "step": 17
     },
     {
       "epoch": 0.007616629641383688,
-      "grad_norm": 1.2771496772766113,
       "learning_rate": 0.00019362348706397373,
-      "loss": 2.3667,
       "step": 18
     },
     {
       "epoch": 0.00803977573257167,
-      "grad_norm": 1.2408928871154785,
       "learning_rate": 0.0001919527772551451,
-      "loss": 2.2521,
       "step": 19
     },
     {
       "epoch": 0.008462921823759652,
-      "grad_norm": 1.263331413269043,
       "learning_rate": 0.0001900968867902419,
-      "loss": 2.3208,
       "step": 20
     },
     {
       "epoch": 0.008462921823759652,
-      "eval_loss": 2.3450167179107666,
-      "eval_runtime": 59.4058,
-      "eval_samples_per_second": 33.498,
-      "eval_steps_per_second": 8.383,
       "step": 20
     },
     {
       "epoch": 0.008886067914947636,
-      "grad_norm": 1.3622525930404663,
       "learning_rate": 0.0001880595531856738,
-      "loss": 2.3444,
       "step": 21
     },
     {
       "epoch": 0.009309214006135618,
-      "grad_norm": 1.3455640077590942,
       "learning_rate": 0.00018584487936018661,
-      "loss": 2.4493,
       "step": 22
     },
     {
       "epoch": 0.009732360097323601,
-      "grad_norm": 1.4010404348373413,
       "learning_rate": 0.00018345732537213027,
-      "loss": 2.4324,
       "step": 23
     },
     {
       "epoch": 0.010155506188511583,
-      "grad_norm": 1.306706428527832,
       "learning_rate": 0.00018090169943749476,
-      "loss": 2.3131,
       "step": 24
     },
     {
       "epoch": 0.010578652279699566,
-      "grad_norm": 1.194472074508667,
       "learning_rate": 0.000178183148246803,
-      "loss": 2.3262,
       "step": 25
     },
     {
       "epoch": 0.011001798370887548,
-      "grad_norm": 1.2795559167861938,
       "learning_rate": 0.00017530714660036112,
-      "loss": 2.2353,
       "step": 26
     },
     {
       "epoch": 0.011424944462075532,
-      "grad_norm": 1.4027005434036255,
       "learning_rate": 0.00017227948638273916,
-      "loss": 2.2406,
       "step": 27
     },
     {
       "epoch": 0.011848090553263513,
-      "grad_norm": 1.3928605318069458,
       "learning_rate": 0.00016910626489868649,
-      "loss": 2.3127,
       "step": 28
     },
     {
       "epoch": 0.012271236644451497,
-      "grad_norm": 1.5246529579162598,
       "learning_rate": 0.00016579387259397127,
-      "loss": 2.3343,
       "step": 29
     },
     {
       "epoch": 0.012694382735639479,
-      "grad_norm": 1.4026535749435425,
       "learning_rate": 0.00016234898018587337,
-      "loss": 2.3008,
       "step": 30
     },
     {
       "epoch": 0.013117528826827462,
-      "grad_norm": 1.375996708869934,
       "learning_rate": 0.00015877852522924732,
-      "loss": 2.26,
       "step": 31
     },
     {
       "epoch": 0.013540674918015444,
-      "grad_norm": 1.3354617357254028,
       "learning_rate": 0.00015508969814521025,
-      "loss": 2.3904,
       "step": 32
     },
     {
       "epoch": 0.013963821009203427,
-      "grad_norm": 1.3204755783081055,
       "learning_rate": 0.00015128992774059063,
-      "loss": 2.2757,
       "step": 33
     },
     {
       "epoch": 0.014386967100391411,
-      "grad_norm": 1.7939963340759277,
       "learning_rate": 0.00014738686624729986,
-      "loss": 2.2381,
       "step": 34
     },
     {
       "epoch": 0.014810113191579393,
-      "grad_norm": 1.3174601793289185,
       "learning_rate": 0.00014338837391175582,
-      "loss": 2.1787,
       "step": 35
     },
     {
       "epoch": 0.015233259282767376,
-      "grad_norm": 1.3664051294326782,
       "learning_rate": 0.00013930250316539238,
-      "loss": 2.1824,
       "step": 36
     },
     {
       "epoch": 0.015656405373955358,
-      "grad_norm": 1.3687667846679688,
       "learning_rate": 0.0001351374824081343,
-      "loss": 2.2669,
       "step": 37
     },
     {
       "epoch": 0.01607955146514334,
-      "grad_norm": 1.2880141735076904,
       "learning_rate": 0.00013090169943749476,
-      "loss": 2.2264,
       "step": 38
     },
     {
       "epoch": 0.016502697556331325,
-      "grad_norm": 1.4410102367401123,
       "learning_rate": 0.00012660368455666752,
-      "loss": 2.217,
       "step": 39
     },
     {
       "epoch": 0.016925843647519305,
-      "grad_norm": 1.3260499238967896,
       "learning_rate": 0.00012225209339563145,
-      "loss": 2.1896,
       "step": 40
     },
     {
       "epoch": 0.016925843647519305,
-      "eval_loss": 2.213444709777832,
-      "eval_runtime": 76.1355,
-      "eval_samples_per_second": 26.138,
-      "eval_steps_per_second": 6.541,
       "step": 40
     },
     {
       "epoch": 0.01734898973870729,
-      "grad_norm": 1.311227798461914,
       "learning_rate": 0.00011785568947986367,
-      "loss": 2.2835,
       "step": 41
     },
     {
       "epoch": 0.017772135829895272,
-      "grad_norm": 5.271040916442871,
       "learning_rate": 0.00011342332658176555,
-      "loss": 2.3215,
       "step": 42
     },
     {
       "epoch": 0.018195281921083255,
-      "grad_norm": 1.3460105657577515,
       "learning_rate": 0.00010896393089034336,
-      "loss": 2.1808,
       "step": 43
     },
     {
       "epoch": 0.018618428012271235,
-      "grad_norm": 1.4446858167648315,
       "learning_rate": 0.00010448648303505151,
-      "loss": 2.2533,
       "step": 44
     },
     {
       "epoch": 0.01904157410345922,
-      "grad_norm": 1.5081716775894165,
       "learning_rate": 0.0001,
-      "loss": 2.1724,
       "step": 45
     },
     {
       "epoch": 0.019464720194647202,
-      "grad_norm": 1.2462027072906494,
       "learning_rate": 9.551351696494854e-05,
-      "loss": 2.1896,
       "step": 46
     },
     {
       "epoch": 0.019887866285835186,
-      "grad_norm": 1.4999518394470215,
       "learning_rate": 9.103606910965666e-05,
-      "loss": 2.3309,
       "step": 47
     },
     {
       "epoch": 0.020311012377023166,
-      "grad_norm": 1.250173807144165,
       "learning_rate": 8.657667341823448e-05,
-      "loss": 2.1242,
       "step": 48
     },
     {
       "epoch": 0.02073415846821115,
-      "grad_norm": 5.076053142547607,
       "learning_rate": 8.214431052013634e-05,
-      "loss": 2.3353,
       "step": 49
     },
     {
       "epoch": 0.021157304559399133,
-      "grad_norm": 1.4977030754089355,
       "learning_rate": 7.774790660436858e-05,
-      "loss": 2.3957,
       "step": 50
     },
     {
       "epoch": 0.021580450650587116,
-      "grad_norm": 1.3641694784164429,
       "learning_rate": 7.339631544333249e-05,
-      "loss": 2.1407,
       "step": 51
     },
     {
       "epoch": 0.022003596741775096,
-      "grad_norm": 1.596494197845459,
       "learning_rate": 6.909830056250527e-05,
-      "loss": 2.1233,
       "step": 52
     },
     {
       "epoch": 0.02242674283296308,
-      "grad_norm": 1.3014681339263916,
       "learning_rate": 6.486251759186572e-05,
-      "loss": 2.0812,
       "step": 53
     },
     {
       "epoch": 0.022849888924151063,
-      "grad_norm": 1.2006770372390747,
       "learning_rate": 6.069749683460765e-05,
-      "loss": 2.171,
       "step": 54
     },
     {
       "epoch": 0.023273035015339047,
-      "grad_norm": 1.1349421739578247,
       "learning_rate": 5.6611626088244194e-05,
-      "loss": 2.0624,
       "step": 55
     },
     {
       "epoch": 0.023696181106527027,
-      "grad_norm": 1.238204002380371,
       "learning_rate": 5.261313375270014e-05,
-      "loss": 2.2335,
       "step": 56
     },
     {
       "epoch": 0.02411932719771501,
-      "grad_norm": 1.2505645751953125,
       "learning_rate": 4.87100722594094e-05,
-      "loss": 2.2071,
       "step": 57
     },
     {
       "epoch": 0.024542473288902994,
-      "grad_norm": 1.2006800174713135,
       "learning_rate": 4.491030185478976e-05,
-      "loss": 2.0714,
       "step": 58
     },
     {
       "epoch": 0.024965619380090977,
-      "grad_norm": 1.3659069538116455,
       "learning_rate": 4.12214747707527e-05,
-      "loss": 2.1511,
       "step": 59
     },
     {
       "epoch": 0.025388765471278957,
-      "grad_norm": 1.116264820098877,
       "learning_rate": 3.7651019814126654e-05,
-      "loss": 2.1554,
       "step": 60
     },
     {
       "epoch": 0.025388765471278957,
-      "eval_loss": 2.1694796085357666,
-      "eval_runtime": 71.9131,
-      "eval_samples_per_second": 27.672,
-      "eval_steps_per_second": 6.925,
       "step": 60
     },
     {
       "epoch": 0.02581191156246694,
-      "grad_norm": 1.1517850160598755,
       "learning_rate": 3.4206127406028745e-05,
-      "loss": 2.2314,
       "step": 61
     },
     {
       "epoch": 0.026235057653654924,
-      "grad_norm": 1.0954445600509644,
       "learning_rate": 3.089373510131354e-05,
-      "loss": 2.1453,
       "step": 62
     },
     {
       "epoch": 0.026658203744842908,
-      "grad_norm": 1.129459261894226,
       "learning_rate": 2.7720513617260856e-05,
-      "loss": 2.1496,
       "step": 63
     },
     {
       "epoch": 0.027081349836030888,
-      "grad_norm": 1.2924052476882935,
       "learning_rate": 2.4692853399638917e-05,
-      "loss": 2.1504,
       "step": 64
     },
     {
       "epoch": 0.02750449592721887,
-      "grad_norm": 1.1182539463043213,
       "learning_rate": 2.181685175319702e-05,
       "loss": 2.0713,
       "step": 65
     },
     {
       "epoch": 0.027927642018406855,
-      "grad_norm": 1.2294206619262695,
       "learning_rate": 1.9098300562505266e-05,
-      "loss": 2.1622,
       "step": 66
     },
     {
       "epoch": 0.02835078810959484,
-      "grad_norm": 1.191117763519287,
       "learning_rate": 1.6542674627869737e-05,
-      "loss": 2.208,
       "step": 67
     },
     {
       "epoch": 0.028773934200782822,
-      "grad_norm": 1.1100726127624512,
       "learning_rate": 1.415512063981339e-05,
-      "loss": 2.1405,
       "step": 68
     },
     {
       "epoch": 0.029197080291970802,
-      "grad_norm": 1.0611038208007812,
       "learning_rate": 1.19404468143262e-05,
-      "loss": 2.1244,
       "step": 69
     },
     {
       "epoch": 0.029620226383158785,
-      "grad_norm": 1.193991780281067,
       "learning_rate": 9.903113209758096e-06,
-      "loss": 2.2719,
       "step": 70
     },
     {
       "epoch": 0.03004337247434677,
-      "grad_norm": 1.1647319793701172,
       "learning_rate": 8.047222744854943e-06,
-      "loss": 2.1554,
       "step": 71
     },
     {
       "epoch": 0.030466518565534752,
-      "grad_norm": 1.1668955087661743,
       "learning_rate": 6.37651293602628e-06,
-      "loss": 2.1259,
       "step": 72
     },
     {
       "epoch": 0.030889664656722732,
-      "grad_norm": 1.1693888902664185,
       "learning_rate": 4.8943483704846475e-06,
-      "loss": 2.2087,
       "step": 73
     },
     {
       "epoch": 0.031312810747910716,
-      "grad_norm": 1.1683961153030396,
       "learning_rate": 3.6037139304146762e-06,
-      "loss": 2.0883,
       "step": 74
     },
     {
       "epoch": 0.031735956839098696,
-      "grad_norm": 1.1831532716751099,
       "learning_rate": 2.5072087818176382e-06,
-      "loss": 2.1605,
       "step": 75
     },
     {
       "epoch": 0.03215910293028668,
-      "grad_norm": 1.237900972366333,
       "learning_rate": 1.6070411401370334e-06,
-      "loss": 2.1349,
       "step": 76
     },
     {
       "epoch": 0.03258224902147466,
-      "grad_norm": 1.3579156398773193,
       "learning_rate": 9.0502382320653e-07,
-      "loss": 2.166,
       "step": 77
     },
     {
       "epoch": 0.03300539511266265,
-      "grad_norm": 1.1819465160369873,
       "learning_rate": 4.025706004760932e-07,
-      "loss": 2.2146,
       "step": 78
     },
     {
       "epoch": 0.03342854120385063,
-      "grad_norm": 1.3723968267440796,
       "learning_rate": 1.0069334586854107e-07,
-      "loss": 2.2131,
       "step": 79
     },
     {
       "epoch": 0.03385168729503861,
-      "grad_norm": 1.183445930480957,
       "learning_rate": 0.0,
-      "loss": 2.266,
       "step": 80
     },
     {
       "epoch": 0.03385168729503861,
-      "eval_loss": 2.1631815433502197,
-      "eval_runtime": 63.4411,
-      "eval_samples_per_second": 31.368,
-      "eval_steps_per_second": 7.85,
       "step": 80
     }
   ],
@@ -613,17 +613,8 @@
   "max_steps": 80,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 20,
   "stateful_callbacks": {
-    "EarlyStoppingCallback": {
-      "args": {
-        "early_stopping_patience": 5,
-        "early_stopping_threshold": 0.0
-      },
-      "attributes": {
-        "early_stopping_patience_counter": 0
-      }
-    },
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,

 {
+  "best_metric": null,
+  "best_model_checkpoint": null,
   "epoch": 0.03385168729503861,
   "eval_steps": 20,
   "global_step": 80,
   "log_history": [
     {
       "epoch": 0.0004231460911879826,
+      "grad_norm": 1.6379058361053467,
       "learning_rate": 2e-05,
       "loss": 2.4891,
       "step": 1
     {
       "epoch": 0.0004231460911879826,
       "eval_loss": 2.7103111743927,
+      "eval_runtime": 63.2579,
+      "eval_samples_per_second": 31.459,
+      "eval_steps_per_second": 7.873,
       "step": 1
     },
     {
       "epoch": 0.0008462921823759652,
+      "grad_norm": 1.6534020900726318,
       "learning_rate": 4e-05,
       "loss": 2.6718,
       "step": 2
     },
     {
       "epoch": 0.0012694382735639479,
+      "grad_norm": 1.7026811838150024,
       "learning_rate": 6e-05,
+      "loss": 2.6471,
       "step": 3
     },
     {
       "epoch": 0.0016925843647519305,
+      "grad_norm": 1.6745214462280273,
       "learning_rate": 8e-05,
+      "loss": 2.6711,
       "step": 4
     },
     {
       "epoch": 0.002115730455939913,
+      "grad_norm": 1.5553100109100342,
       "learning_rate": 0.0001,
+      "loss": 2.5945,
       "step": 5
     },
     {
       "epoch": 0.0025388765471278957,
+      "grad_norm": 1.4465041160583496,
       "learning_rate": 0.00012,
+      "loss": 2.6169,
       "step": 6
     },
     {
       "epoch": 0.0029620226383158784,
+      "grad_norm": 1.3366378545761108,
       "learning_rate": 0.00014,
+      "loss": 2.6392,
       "step": 7
     },
     {
       "epoch": 0.003385168729503861,
+      "grad_norm": 1.3913536071777344,
       "learning_rate": 0.00016,
+      "loss": 2.5899,
       "step": 8
     },
     {
       "epoch": 0.003808314820691844,
+      "grad_norm": 1.4674654006958008,
       "learning_rate": 0.00018,
+      "loss": 2.5501,
       "step": 9
     },
     {
       "epoch": 0.004231460911879826,
+      "grad_norm": 1.5482183694839478,
       "learning_rate": 0.0002,
+      "loss": 2.5371,
       "step": 10
     },
     {
       "epoch": 0.004654607003067809,
+      "grad_norm": 1.5878816843032837,
       "learning_rate": 0.00019989930665413147,
+      "loss": 2.55,
       "step": 11
     },
     {
       "epoch": 0.0050777530942557915,
+      "grad_norm": 1.4205892086029053,
       "learning_rate": 0.00019959742939952392,
+      "loss": 2.4969,
       "step": 12
     },
     {
       "epoch": 0.005500899185443774,
+      "grad_norm": 1.4903907775878906,
       "learning_rate": 0.00019909497617679348,
+      "loss": 2.3645,
       "step": 13
     },
     {
       "epoch": 0.005924045276631757,
+      "grad_norm": 1.3923956155776978,
       "learning_rate": 0.00019839295885986296,
+      "loss": 2.3951,
       "step": 14
     },
     {
       "epoch": 0.006347191367819739,
+      "grad_norm": 1.3330631256103516,
       "learning_rate": 0.00019749279121818235,
+      "loss": 2.4397,
       "step": 15
     },
     {
       "epoch": 0.006770337459007722,
+      "grad_norm": 1.3482651710510254,
       "learning_rate": 0.00019639628606958533,
+      "loss": 2.4354,
       "step": 16
     },
     {
       "epoch": 0.0071934835501957055,
+      "grad_norm": 1.3089728355407715,
       "learning_rate": 0.00019510565162951537,
+      "loss": 2.3894,
       "step": 17
     },
     {
       "epoch": 0.007616629641383688,
+      "grad_norm": 1.2744436264038086,
       "learning_rate": 0.00019362348706397373,
+      "loss": 2.3651,
       "step": 18
     },
     {
       "epoch": 0.00803977573257167,
+      "grad_norm": 1.23836350440979,
       "learning_rate": 0.0001919527772551451,
+      "loss": 2.2486,
       "step": 19
     },
     {
       "epoch": 0.008462921823759652,
+      "grad_norm": 1.2774382829666138,
       "learning_rate": 0.0001900968867902419,
+      "loss": 2.3211,
       "step": 20
     },
     {
       "epoch": 0.008462921823759652,
+      "eval_loss": 2.3435285091400146,
+      "eval_runtime": 72.0517,
+      "eval_samples_per_second": 27.619,
+      "eval_steps_per_second": 6.912,
       "step": 20
     },
     {
       "epoch": 0.008886067914947636,
+      "grad_norm": 1.351232886314392,
       "learning_rate": 0.0001880595531856738,
+      "loss": 2.3451,
       "step": 21
     },
     {
       "epoch": 0.009309214006135618,
+      "grad_norm": 1.3749635219573975,
       "learning_rate": 0.00018584487936018661,
+      "loss": 2.4502,
       "step": 22
     },
     {
       "epoch": 0.009732360097323601,
+      "grad_norm": 1.4125924110412598,
       "learning_rate": 0.00018345732537213027,
+      "loss": 2.4342,
       "step": 23
     },
     {
       "epoch": 0.010155506188511583,
+      "grad_norm": 1.326550841331482,
       "learning_rate": 0.00018090169943749476,
+      "loss": 2.3139,
       "step": 24
     },
     {
       "epoch": 0.010578652279699566,
+      "grad_norm": 1.1940902471542358,
       "learning_rate": 0.000178183148246803,
+      "loss": 2.3268,
       "step": 25
     },
     {
       "epoch": 0.011001798370887548,
+      "grad_norm": 1.294498085975647,
       "learning_rate": 0.00017530714660036112,
+      "loss": 2.2343,
       "step": 26
     },
     {
       "epoch": 0.011424944462075532,
+      "grad_norm": 1.4341365098953247,
       "learning_rate": 0.00017227948638273916,
+      "loss": 2.2412,
       "step": 27
     },
     {
       "epoch": 0.011848090553263513,
+      "grad_norm": 1.4379862546920776,
       "learning_rate": 0.00016910626489868649,
+      "loss": 2.3088,
       "step": 28
     },
     {
       "epoch": 0.012271236644451497,
+      "grad_norm": 1.807862401008606,
       "learning_rate": 0.00016579387259397127,
+      "loss": 2.3386,
       "step": 29
     },
     {
       "epoch": 0.012694382735639479,
+      "grad_norm": 1.4435659646987915,
       "learning_rate": 0.00016234898018587337,
+      "loss": 2.2997,
       "step": 30
     },
     {
       "epoch": 0.013117528826827462,
+      "grad_norm": 1.380933403968811,
       "learning_rate": 0.00015877852522924732,
+      "loss": 2.2587,
       "step": 31
     },
     {
       "epoch": 0.013540674918015444,
+      "grad_norm": 1.3532695770263672,
       "learning_rate": 0.00015508969814521025,
+      "loss": 2.389,
       "step": 32
     },
     {
       "epoch": 0.013963821009203427,
+      "grad_norm": 1.3885740041732788,
       "learning_rate": 0.00015128992774059063,
+      "loss": 2.2765,
       "step": 33
     },
     {
       "epoch": 0.014386967100391411,
+      "grad_norm": 1.6315644979476929,
       "learning_rate": 0.00014738686624729986,
+      "loss": 2.2364,
       "step": 34
     },
     {
       "epoch": 0.014810113191579393,
+      "grad_norm": 1.5489228963851929,
       "learning_rate": 0.00014338837391175582,
+      "loss": 2.1861,
       "step": 35
     },
     {
       "epoch": 0.015233259282767376,
+      "grad_norm": 1.4338537454605103,
       "learning_rate": 0.00013930250316539238,
+      "loss": 2.1853,
       "step": 36
     },
     {
       "epoch": 0.015656405373955358,
+      "grad_norm": 1.3952263593673706,
       "learning_rate": 0.0001351374824081343,
+      "loss": 2.2732,
       "step": 37
     },
     {
       "epoch": 0.01607955146514334,
+      "grad_norm": 1.3308148384094238,
       "learning_rate": 0.00013090169943749476,
+      "loss": 2.2248,
       "step": 38
     },
     {
       "epoch": 0.016502697556331325,
+      "grad_norm": 1.477274775505066,
       "learning_rate": 0.00012660368455666752,
+      "loss": 2.2161,
       "step": 39
     },
     {
       "epoch": 0.016925843647519305,
+      "grad_norm": 1.3079551458358765,
       "learning_rate": 0.00012225209339563145,
+      "loss": 2.1925,
       "step": 40
     },
     {
       "epoch": 0.016925843647519305,
+      "eval_loss": 2.211884021759033,
+      "eval_runtime": 75.9809,
+      "eval_samples_per_second": 26.191,
+      "eval_steps_per_second": 6.554,
       "step": 40
     },
     {
       "epoch": 0.01734898973870729,
+      "grad_norm": 1.243667483329773,
       "learning_rate": 0.00011785568947986367,
+      "loss": 2.282,
       "step": 41
     },
     {
       "epoch": 0.017772135829895272,
+      "grad_norm": 5.15204381942749,
       "learning_rate": 0.00011342332658176555,
+      "loss": 2.3092,
       "step": 42
     },
     {
       "epoch": 0.018195281921083255,
+      "grad_norm": 1.3127551078796387,
       "learning_rate": 0.00010896393089034336,
+      "loss": 2.185,
       "step": 43
     },
     {
       "epoch": 0.018618428012271235,
+      "grad_norm": 1.3681222200393677,
       "learning_rate": 0.00010448648303505151,
+      "loss": 2.2499,
       "step": 44
     },
     {
       "epoch": 0.01904157410345922,
+      "grad_norm": 1.3882651329040527,
       "learning_rate": 0.0001,
+      "loss": 2.168,
       "step": 45
     },
     {
       "epoch": 0.019464720194647202,
+      "grad_norm": 1.2424044609069824,
       "learning_rate": 9.551351696494854e-05,
+      "loss": 2.1857,
       "step": 46
     },
     {
       "epoch": 0.019887866285835186,
+      "grad_norm": 1.449005365371704,
       "learning_rate": 9.103606910965666e-05,
+      "loss": 2.3204,
       "step": 47
     },
     {
       "epoch": 0.020311012377023166,
+      "grad_norm": 1.2062491178512573,
       "learning_rate": 8.657667341823448e-05,
+      "loss": 2.1174,
       "step": 48
     },
     {
       "epoch": 0.02073415846821115,
+      "grad_norm": 4.882323741912842,
       "learning_rate": 8.214431052013634e-05,
+      "loss": 2.3162,
       "step": 49
     },
     {
       "epoch": 0.021157304559399133,
+      "grad_norm": 1.4830926656723022,
       "learning_rate": 7.774790660436858e-05,
+      "loss": 2.4003,
       "step": 50
     },
     {
       "epoch": 0.021580450650587116,
+      "grad_norm": 1.2459235191345215,
       "learning_rate": 7.339631544333249e-05,
+      "loss": 2.1419,
       "step": 51
     },
     {
       "epoch": 0.022003596741775096,
+      "grad_norm": 1.3951412439346313,
       "learning_rate": 6.909830056250527e-05,
+      "loss": 2.114,
       "step": 52
     },
     {
       "epoch": 0.02242674283296308,
+      "grad_norm": 1.2715801000595093,
       "learning_rate": 6.486251759186572e-05,
+      "loss": 2.0807,
       "step": 53
     },
     {
       "epoch": 0.022849888924151063,
+      "grad_norm": 1.1952708959579468,
       "learning_rate": 6.069749683460765e-05,
+      "loss": 2.1682,
       "step": 54
     },
     {
       "epoch": 0.023273035015339047,
+      "grad_norm": 1.1247831583023071,
       "learning_rate": 5.6611626088244194e-05,
+      "loss": 2.062,
       "step": 55
     },
     {
       "epoch": 0.023696181106527027,
+      "grad_norm": 1.2911661863327026,
       "learning_rate": 5.261313375270014e-05,
+      "loss": 2.234,
       "step": 56
     },
     {
       "epoch": 0.02411932719771501,
+      "grad_norm": 1.1771955490112305,
       "learning_rate": 4.87100722594094e-05,
+      "loss": 2.2042,
       "step": 57
     },
     {
       "epoch": 0.024542473288902994,
+      "grad_norm": 1.1919941902160645,
       "learning_rate": 4.491030185478976e-05,
+      "loss": 2.0736,
       "step": 58
     },
     {
       "epoch": 0.024965619380090977,
+      "grad_norm": 1.3543719053268433,
       "learning_rate": 4.12214747707527e-05,
+      "loss": 2.1515,
       "step": 59
     },
     {
       "epoch": 0.025388765471278957,
+      "grad_norm": 1.123665452003479,
       "learning_rate": 3.7651019814126654e-05,
+      "loss": 2.1566,
       "step": 60
     },
     {
       "epoch": 0.025388765471278957,
+      "eval_loss": 2.16865873336792,
+      "eval_runtime": 25.383,
+      "eval_samples_per_second": 78.399,
+      "eval_steps_per_second": 19.619,
       "step": 60
     },
     {
       "epoch": 0.02581191156246694,
+      "grad_norm": 1.132775068283081,
       "learning_rate": 3.4206127406028745e-05,
+      "loss": 2.2303,
       "step": 61
     },
     {
       "epoch": 0.026235057653654924,
+      "grad_norm": 1.1115837097167969,
       "learning_rate": 3.089373510131354e-05,
+      "loss": 2.1469,
       "step": 62
     },
     {
       "epoch": 0.026658203744842908,
+      "grad_norm": 1.1179817914962769,
       "learning_rate": 2.7720513617260856e-05,
+      "loss": 2.1541,
       "step": 63
     },
     {
       "epoch": 0.027081349836030888,
+      "grad_norm": 1.3277086019515991,
       "learning_rate": 2.4692853399638917e-05,
+      "loss": 2.1514,
       "step": 64
     },
     {
       "epoch": 0.02750449592721887,
+      "grad_norm": 1.1748079061508179,
       "learning_rate": 2.181685175319702e-05,
       "loss": 2.0713,
       "step": 65
     },
     {
       "epoch": 0.027927642018406855,
+      "grad_norm": 1.210524559020996,
       "learning_rate": 1.9098300562505266e-05,
+      "loss": 2.1612,
       "step": 66
     },
     {
       "epoch": 0.02835078810959484,
+      "grad_norm": 1.1560407876968384,
       "learning_rate": 1.6542674627869737e-05,
+      "loss": 2.2039,
       "step": 67
     },
     {
       "epoch": 0.028773934200782822,
+      "grad_norm": 1.1386845111846924,
       "learning_rate": 1.415512063981339e-05,
+      "loss": 2.1411,
       "step": 68
     },
     {
       "epoch": 0.029197080291970802,
+      "grad_norm": 1.0700095891952515,
       "learning_rate": 1.19404468143262e-05,
+      "loss": 2.1263,
       "step": 69
     },
     {
       "epoch": 0.029620226383158785,
+      "grad_norm": 1.1910362243652344,
       "learning_rate": 9.903113209758096e-06,
+      "loss": 2.27,
       "step": 70
     },
     {
       "epoch": 0.03004337247434677,
+      "grad_norm": 1.1575465202331543,
       "learning_rate": 8.047222744854943e-06,
+      "loss": 2.156,
       "step": 71
     },
     {
       "epoch": 0.030466518565534752,
+      "grad_norm": 1.1447267532348633,
       "learning_rate": 6.37651293602628e-06,
+      "loss": 2.1257,
       "step": 72
     },
     {
       "epoch": 0.030889664656722732,
+      "grad_norm": 1.1838666200637817,
       "learning_rate": 4.8943483704846475e-06,
+      "loss": 2.2088,
       "step": 73
     },
     {
       "epoch": 0.031312810747910716,
+      "grad_norm": 1.1437898874282837,
       "learning_rate": 3.6037139304146762e-06,
+      "loss": 2.0872,
       "step": 74
     },
     {
       "epoch": 0.031735956839098696,
+      "grad_norm": 1.1745190620422363,
       "learning_rate": 2.5072087818176382e-06,
+      "loss": 2.1591,
       "step": 75
     },
     {
       "epoch": 0.03215910293028668,
+      "grad_norm": 1.2256075143814087,
       "learning_rate": 1.6070411401370334e-06,
+      "loss": 2.1358,
       "step": 76
     },
     {
       "epoch": 0.03258224902147466,
+      "grad_norm": 1.3967663049697876,
       "learning_rate": 9.0502382320653e-07,
+      "loss": 2.1687,
       "step": 77
     },
     {
       "epoch": 0.03300539511266265,
+      "grad_norm": 1.205739140510559,
       "learning_rate": 4.025706004760932e-07,
+      "loss": 2.2164,
       "step": 78
     },
     {
       "epoch": 0.03342854120385063,
+      "grad_norm": 1.2898608446121216,
       "learning_rate": 1.0069334586854107e-07,
+      "loss": 2.2109,
       "step": 79
     },
     {
       "epoch": 0.03385168729503861,
+      "grad_norm": 1.1767884492874146,
       "learning_rate": 0.0,
+      "loss": 2.2616,
       "step": 80
     },
     {
       "epoch": 0.03385168729503861,
+      "eval_loss": 2.162363290786743,
+      "eval_runtime": 25.534,
+      "eval_samples_per_second": 77.935,
+      "eval_steps_per_second": 19.503,
       "step": 80
     }
   ],
   "max_steps": 80,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36cfa28a6f86c549badab2f7c7fad8fc6532e38818f78a59f1cbd0cf0f8aa692
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ac4240e40fdb363a1e7a56a6e1d5a6e0b2e75612d81fb46e828164eba22a34a
 size 6776