Training in progress, step 7000, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/generation_config.json +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/config.json CHANGED Viewed

@@ -26,7 +26,7 @@
     "rope_type": "default"
   },
   "tie_word_embeddings": false,
-  "transformers_version": "5.8.0",
   "use_cache": false,
   "vocab_size": 50257
 }

     "rope_type": "default"
   },
   "tie_word_embeddings": false,
+  "transformers_version": "5.8.1",
   "use_cache": false,
   "vocab_size": 50257
 }

last-checkpoint/generation_config.json CHANGED Viewed

@@ -5,6 +5,6 @@
   "output_attentions": false,
   "output_hidden_states": false,
   "pad_token_id": 0,
-  "transformers_version": "5.8.0",
   "use_cache": true
 }

   "output_attentions": false,
   "output_hidden_states": false,
   "pad_token_id": 0,
+  "transformers_version": "5.8.1",
   "use_cache": true
 }

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f30fded0506f5abc758d4b29697667a6c05e1a95e6c9e0686c7f108dc11e49a0
 size 4523108832

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5357a9d40da12fb2def448cb62f5c3aed9fa0739e8f2c2c0ec7fec7354241c0
 size 4523108832

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62b7d9c7d41c6b73fcbd87de771044e3b905349cd837f4d94e3d38a8f1a95531
 size 2912179275

 version https://git-lfs.github.com/spec/v1
+oid sha256:107bb493c2caa0cd6fa40a129559390214dfd1f7e807e09d56c5d2aebb1c47e9
 size 2912179275

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd61fdcd042c7209212ed4986c4cd6aa5d57a730e78431a78580137d7a601038
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bbe17a5fe328cdb084ec10afd49d2cb7bb9035b6736206385c2c19bf9f66c41
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb083ebf35d0e4448f128a01dd67912abe022f1092025a85ebc3f0f8d0fcb3ba
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:1831663cfc396872c81aa655b9b01b2d24ce27a5ca47e7cf38d581dbb6adb922
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41630e2df6dcc25df36d789c3c5fa21ee69d78ee6210c7879940bab6e3977772
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:86a40e24c6251fa4890a76644fa4c014362ca533cd573d7139b9e226b18d8d04
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.0128,
   "eval_steps": 500,
-  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4558,6 +4558,356 @@
       "learning_rate": 7.004e-05,
       "loss": 0.030304345488548278,
       "step": 6500
     }
   ],
   "logging_steps": 10,
@@ -4577,7 +4927,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.501953492276101e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0188,
   "eval_steps": 500,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 7.004e-05,
       "loss": 0.030304345488548278,
       "step": 6500
+    },
+    {
+      "epoch": 1.001,
+      "grad_norm": 0.17337968945503235,
+      "learning_rate": 6.984000000000001e-05,
+      "loss": 0.04341032803058624,
+      "step": 6510
+    },
+    {
+      "epoch": 1.002,
+      "grad_norm": 0.14447154104709625,
+      "learning_rate": 6.964e-05,
+      "loss": 0.02765703499317169,
+      "step": 6520
+    },
+    {
+      "epoch": 1.003,
+      "grad_norm": 0.1359182447195053,
+      "learning_rate": 6.944e-05,
+      "loss": 0.027671322226524353,
+      "step": 6530
+    },
+    {
+      "epoch": 1.004,
+      "grad_norm": 0.1486900895833969,
+      "learning_rate": 6.924000000000001e-05,
+      "loss": 0.024222801625728606,
+      "step": 6540
+    },
+    {
+      "epoch": 1.005,
+      "grad_norm": 0.17833292484283447,
+      "learning_rate": 6.904e-05,
+      "loss": 0.024685877561569213,
+      "step": 6550
+    },
+    {
+      "epoch": 1.006,
+      "grad_norm": 0.1444295197725296,
+      "learning_rate": 6.884e-05,
+      "loss": 0.027162906527519227,
+      "step": 6560
+    },
+    {
+      "epoch": 1.007,
+      "grad_norm": 0.18214137852191925,
+      "learning_rate": 6.864000000000001e-05,
+      "loss": 0.02484011501073837,
+      "step": 6570
+    },
+    {
+      "epoch": 1.008,
+      "grad_norm": 0.16924667358398438,
+      "learning_rate": 6.844e-05,
+      "loss": 0.025604432821273802,
+      "step": 6580
+    },
+    {
+      "epoch": 1.009,
+      "grad_norm": 0.16066834330558777,
+      "learning_rate": 6.824e-05,
+      "loss": 0.025216665863990784,
+      "step": 6590
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 0.14215150475502014,
+      "learning_rate": 6.804e-05,
+      "loss": 0.024471497535705565,
+      "step": 6600
+    },
+    {
+      "epoch": 1.011,
+      "grad_norm": 0.128558948636055,
+      "learning_rate": 6.784e-05,
+      "loss": 0.02575332820415497,
+      "step": 6610
+    },
+    {
+      "epoch": 1.012,
+      "grad_norm": 0.33806535601615906,
+      "learning_rate": 6.764000000000001e-05,
+      "loss": 0.025676625967025756,
+      "step": 6620
+    },
+    {
+      "epoch": 1.013,
+      "grad_norm": 0.16000686585903168,
+      "learning_rate": 6.744e-05,
+      "loss": 0.025471991300582884,
+      "step": 6630
+    },
+    {
+      "epoch": 1.014,
+      "grad_norm": 0.19417209923267365,
+      "learning_rate": 6.724e-05,
+      "loss": 0.0291011780500412,
+      "step": 6640
+    },
+    {
+      "epoch": 1.015,
+      "grad_norm": 0.2124422937631607,
+      "learning_rate": 6.704000000000001e-05,
+      "loss": 0.02770865261554718,
+      "step": 6650
+    },
+    {
+      "epoch": 1.016,
+      "grad_norm": 0.16012416779994965,
+      "learning_rate": 6.684e-05,
+      "loss": 0.03058260679244995,
+      "step": 6660
+    },
+    {
+      "epoch": 1.017,
+      "grad_norm": 0.1718786507844925,
+      "learning_rate": 6.664e-05,
+      "loss": 0.02695387601852417,
+      "step": 6670
+    },
+    {
+      "epoch": 1.018,
+      "grad_norm": 0.18105700612068176,
+      "learning_rate": 6.644000000000001e-05,
+      "loss": 0.026461568474769593,
+      "step": 6680
+    },
+    {
+      "epoch": 1.019,
+      "grad_norm": 0.15785875916481018,
+      "learning_rate": 6.624e-05,
+      "loss": 0.02598581314086914,
+      "step": 6690
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 0.15605275332927704,
+      "learning_rate": 6.604e-05,
+      "loss": 0.026878923177719116,
+      "step": 6700
+    },
+    {
+      "epoch": 1.021,
+      "grad_norm": 0.1681290715932846,
+      "learning_rate": 6.584e-05,
+      "loss": 0.026533681154251098,
+      "step": 6710
+    },
+    {
+      "epoch": 1.022,
+      "grad_norm": 0.17714430391788483,
+      "learning_rate": 6.564e-05,
+      "loss": 0.026042383909225465,
+      "step": 6720
+    },
+    {
+      "epoch": 1.023,
+      "grad_norm": 0.17928007245063782,
+      "learning_rate": 6.544e-05,
+      "loss": 0.026147887110710144,
+      "step": 6730
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.21016575396060944,
+      "learning_rate": 6.524e-05,
+      "loss": 0.026558607816696167,
+      "step": 6740
+    },
+    {
+      "epoch": 1.025,
+      "grad_norm": 0.19502075016498566,
+      "learning_rate": 6.504e-05,
+      "loss": 0.02726261019706726,
+      "step": 6750
+    },
+    {
+      "epoch": 1.026,
+      "grad_norm": 0.1563853919506073,
+      "learning_rate": 6.484e-05,
+      "loss": 0.025972676277160645,
+      "step": 6760
+    },
+    {
+      "epoch": 1.027,
+      "grad_norm": 0.15548229217529297,
+      "learning_rate": 6.464e-05,
+      "loss": 0.027564069628715514,
+      "step": 6770
+    },
+    {
+      "epoch": 1.028,
+      "grad_norm": 0.18457072973251343,
+      "learning_rate": 6.444e-05,
+      "loss": 0.027495378255844118,
+      "step": 6780
+    },
+    {
+      "epoch": 1.029,
+      "grad_norm": 0.15842361748218536,
+      "learning_rate": 6.424e-05,
+      "loss": 0.026171448826789855,
+      "step": 6790
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 0.19476866722106934,
+      "learning_rate": 6.404e-05,
+      "loss": 0.031318637728691104,
+      "step": 6800
+    },
+    {
+      "epoch": 1.031,
+      "grad_norm": 0.1272721141576767,
+      "learning_rate": 6.384e-05,
+      "loss": 0.026132452487945556,
+      "step": 6810
+    },
+    {
+      "epoch": 2.0008,
+      "grad_norm": 0.14176732301712036,
+      "learning_rate": 6.364e-05,
+      "loss": 0.03041217029094696,
+      "step": 6820
+    },
+    {
+      "epoch": 2.0018,
+      "grad_norm": 0.14128795266151428,
+      "learning_rate": 6.344e-05,
+      "loss": 0.02396068423986435,
+      "step": 6830
+    },
+    {
+      "epoch": 2.0028,
+      "grad_norm": 0.14129574596881866,
+      "learning_rate": 6.324e-05,
+      "loss": 0.02366064041852951,
+      "step": 6840
+    },
+    {
+      "epoch": 2.0038,
+      "grad_norm": 0.1310533732175827,
+      "learning_rate": 6.303999999999999e-05,
+      "loss": 0.02287290096282959,
+      "step": 6850
+    },
+    {
+      "epoch": 2.0048,
+      "grad_norm": 0.11340674012899399,
+      "learning_rate": 6.284e-05,
+      "loss": 0.02178637236356735,
+      "step": 6860
+    },
+    {
+      "epoch": 2.0058,
+      "grad_norm": 0.10936598479747772,
+      "learning_rate": 6.264e-05,
+      "loss": 0.02486586421728134,
+      "step": 6870
+    },
+    {
+      "epoch": 2.0068,
+      "grad_norm": 0.14033988118171692,
+      "learning_rate": 6.244e-05,
+      "loss": 0.022671811282634735,
+      "step": 6880
+    },
+    {
+      "epoch": 2.0078,
+      "grad_norm": 0.1289263367652893,
+      "learning_rate": 6.224e-05,
+      "loss": 0.021725392341613768,
+      "step": 6890
+    },
+    {
+      "epoch": 2.0088,
+      "grad_norm": 0.13452701270580292,
+      "learning_rate": 6.204e-05,
+      "loss": 0.02472696304321289,
+      "step": 6900
+    },
+    {
+      "epoch": 2.0098,
+      "grad_norm": 0.14499792456626892,
+      "learning_rate": 6.184e-05,
+      "loss": 0.022322843968868255,
+      "step": 6910
+    },
+    {
+      "epoch": 2.0108,
+      "grad_norm": 0.1398196518421173,
+      "learning_rate": 6.164e-05,
+      "loss": 0.022544071078300476,
+      "step": 6920
+    },
+    {
+      "epoch": 2.0118,
+      "grad_norm": 0.1454416811466217,
+      "learning_rate": 6.144e-05,
+      "loss": 0.022087126970291138,
+      "step": 6930
+    },
+    {
+      "epoch": 2.0128,
+      "grad_norm": 0.12601584196090698,
+      "learning_rate": 6.124e-05,
+      "loss": 0.023739957809448244,
+      "step": 6940
+    },
+    {
+      "epoch": 2.0138,
+      "grad_norm": 0.13553965091705322,
+      "learning_rate": 6.104000000000001e-05,
+      "loss": 0.024189202487468718,
+      "step": 6950
+    },
+    {
+      "epoch": 2.0148,
+      "grad_norm": 0.17853738367557526,
+      "learning_rate": 6.084000000000001e-05,
+      "loss": 0.024137826263904573,
+      "step": 6960
+    },
+    {
+      "epoch": 2.0158,
+      "grad_norm": 0.1292908936738968,
+      "learning_rate": 6.064000000000001e-05,
+      "loss": 0.029603716731071473,
+      "step": 6970
+    },
+    {
+      "epoch": 2.0168,
+      "grad_norm": 0.13389606773853302,
+      "learning_rate": 6.044000000000001e-05,
+      "loss": 0.02270825654268265,
+      "step": 6980
+    },
+    {
+      "epoch": 2.0178,
+      "grad_norm": 0.10673966258764267,
+      "learning_rate": 6.0240000000000006e-05,
+      "loss": 0.0229933500289917,
+      "step": 6990
+    },
+    {
+      "epoch": 2.0188,
+      "grad_norm": 0.13245923817157745,
+      "learning_rate": 6.004000000000001e-05,
+      "loss": 0.02357790470123291,
+      "step": 7000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.92542131384107e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null