Training in progress, step 2100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +212 -2
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e3ce014c4ffdeb3ed2d1bb4f167ab2f28f0e06615589c0b4b8532fa2bda557a
 size 2558403928

 version https://git-lfs.github.com/spec/v1
+oid sha256:15f22026b9de091fea7c6677cc4018fa6aa370338d59d131114563939cf90b17
 size 2558403928

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6bbd954c177e56d9e20277125d9cf6754fff55e598bb9de9bdec4e2cbe1afd8
 size 1313638993

 version https://git-lfs.github.com/spec/v1
+oid sha256:d65b81af14a5a134ba9a873731d09629269da26fa8b87244dac0d9301cc842b1
 size 1313638993

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c51602986df284fcdbb1c3432b905ff86ef24e41fe8fb42533918ae0e10ec6f
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ac2c5f32acf6ee420ceadbd9ac0d52af52081eb0d8301506f11df8d08763b6e
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa0408efb69cab96d5bab9a1aaf44cedbc9fc8d34f4cef378d81605e5c026d5c
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc99556bf27209385963813e3570510732839e6002d61d657266050e280a33eb
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:020caa0fd59e7adabae53f0d39b914916a456345c07ea74ca27ee8ec408257e7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9206e9d78f9c7162a065f53b3bc585a6b187e23b8f10b603eff8a1391fd60fea
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.44,
   "eval_steps": 500,
-  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1275,6 +1275,216 @@
       "learning_rate": 3.9349485794441395e-05,
       "loss": 4.5401,
       "step": 1800
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.6800000000000002,
   "eval_steps": 500,
+  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.9349485794441395e-05,
       "loss": 4.5401,
       "step": 1800
+    },
+    {
+      "epoch": 1.448,
+      "grad_norm": 12.537016868591309,
+      "learning_rate": 3.831223489967025e-05,
+      "loss": 4.7768,
+      "step": 1810
+    },
+    {
+      "epoch": 1.456,
+      "grad_norm": 6.526289939880371,
+      "learning_rate": 3.728558920658868e-05,
+      "loss": 4.4916,
+      "step": 1820
+    },
+    {
+      "epoch": 1.464,
+      "grad_norm": 7.882378101348877,
+      "learning_rate": 3.6269725213479846e-05,
+      "loss": 4.5072,
+      "step": 1830
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 10.795116424560547,
+      "learning_rate": 3.526481756506498e-05,
+      "loss": 4.7454,
+      "step": 1840
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 9.107118606567383,
+      "learning_rate": 3.4271039022478694e-05,
+      "loss": 4.3667,
+      "step": 1850
+    },
+    {
+      "epoch": 1.488,
+      "grad_norm": 8.725346565246582,
+      "learning_rate": 3.328856043356837e-05,
+      "loss": 4.8818,
+      "step": 1860
+    },
+    {
+      "epoch": 1.496,
+      "grad_norm": 8.258055686950684,
+      "learning_rate": 3.231755070352249e-05,
+      "loss": 4.4017,
+      "step": 1870
+    },
+    {
+      "epoch": 1.504,
+      "grad_norm": 9.932522773742676,
+      "learning_rate": 3.1358176765832915e-05,
+      "loss": 4.3575,
+      "step": 1880
+    },
+    {
+      "epoch": 1.512,
+      "grad_norm": 7.825517654418945,
+      "learning_rate": 3.041060355359594e-05,
+      "loss": 4.2122,
+      "step": 1890
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 8.71921443939209,
+      "learning_rate": 2.9474993971157605e-05,
+      "loss": 4.4648,
+      "step": 1900
+    },
+    {
+      "epoch": 1.528,
+      "grad_norm": 9.51145076751709,
+      "learning_rate": 2.8551508866107514e-05,
+      "loss": 4.4388,
+      "step": 1910
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 6.032364845275879,
+      "learning_rate": 2.764030700162633e-05,
+      "loss": 4.6544,
+      "step": 1920
+    },
+    {
+      "epoch": 1.544,
+      "grad_norm": 6.442480564117432,
+      "learning_rate": 2.6741545029191674e-05,
+      "loss": 4.3281,
+      "step": 1930
+    },
+    {
+      "epoch": 1.552,
+      "grad_norm": 9.142407417297363,
+      "learning_rate": 2.5855377461646902e-05,
+      "loss": 4.7258,
+      "step": 1940
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 13.672632217407227,
+      "learning_rate": 2.4981956646637815e-05,
+      "loss": 4.076,
+      "step": 1950
+    },
+    {
+      "epoch": 1.568,
+      "grad_norm": 10.532658576965332,
+      "learning_rate": 2.412143274042129e-05,
+      "loss": 4.3765,
+      "step": 1960
+    },
+    {
+      "epoch": 1.576,
+      "grad_norm": 6.73195743560791,
+      "learning_rate": 2.327395368205084e-05,
+      "loss": 4.4419,
+      "step": 1970
+    },
+    {
+      "epoch": 1.584,
+      "grad_norm": 7.2371745109558105,
+      "learning_rate": 2.243966516794338e-05,
+      "loss": 4.5395,
+      "step": 1980
+    },
+    {
+      "epoch": 1.592,
+      "grad_norm": 9.002269744873047,
+      "learning_rate": 2.161871062683145e-05,
+      "loss": 4.5577,
+      "step": 1990
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 10.184229850769043,
+      "learning_rate": 2.0811231195105186e-05,
+      "loss": 4.3631,
+      "step": 2000
+    },
+    {
+      "epoch": 1.608,
+      "grad_norm": 7.962112903594971,
+      "learning_rate": 2.0017365692548717e-05,
+      "loss": 4.6822,
+      "step": 2010
+    },
+    {
+      "epoch": 1.616,
+      "grad_norm": 7.3697190284729,
+      "learning_rate": 1.9237250598474564e-05,
+      "loss": 4.1389,
+      "step": 2020
+    },
+    {
+      "epoch": 1.624,
+      "grad_norm": 8.01472282409668,
+      "learning_rate": 1.8471020028260368e-05,
+      "loss": 3.9598,
+      "step": 2030
+    },
+    {
+      "epoch": 1.6320000000000001,
+      "grad_norm": 5.376262187957764,
+      "learning_rate": 1.7718805710292208e-05,
+      "loss": 4.3192,
+      "step": 2040
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 10.927371978759766,
+      "learning_rate": 1.6980736963318177e-05,
+      "loss": 4.192,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6480000000000001,
+      "grad_norm": 6.14822244644165,
+      "learning_rate": 1.625694067421626e-05,
+      "loss": 4.4155,
+      "step": 2060
+    },
+    {
+      "epoch": 1.6560000000000001,
+      "grad_norm": 8.27953815460205,
+      "learning_rate": 1.554754127618019e-05,
+      "loss": 4.5526,
+      "step": 2070
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 6.160037517547607,
+      "learning_rate": 1.4852660727327361e-05,
+      "loss": 4.453,
+      "step": 2080
+    },
+    {
+      "epoch": 1.6720000000000002,
+      "grad_norm": 7.098100662231445,
+      "learning_rate": 1.4172418489731942e-05,
+      "loss": 4.4741,
+      "step": 2090
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 6.903653144836426,
+      "learning_rate": 1.3506931508887333e-05,
+      "loss": 4.0234,
+      "step": 2100
     }
   ],
   "logging_steps": 10,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55ca17433b5f6660ff524e613cd483a70dd34c9a3734b5a0b15911c69ef6f917
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a17f7b1f07b16a135d4efceeee23f79e5bdc7bac1dd2a6c7b4c904467dcccf1
 size 5905