Training in progress, step 12000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +283 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e74cac81df1d9f55b850794a03cd64fce4492c0c0da5d81e9909dae9911f943
 size 1520630616

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f4e60280352c486adbf497b3e2d22d1d2fda6e133edf6aa2462b19ddeb1e8fe
 size 1520630616

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bf3be67603d9aa1f5d666b6a508c045b0cbd46af1138c22216863f18d284cfb
 size 3041448587

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c5caef45bff34542930b3d8ec1dc1da634abc684197bb4717e1fd4356a90f57
 size 3041448587

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:592f06f7337b836b66cd80a06e6dc9e25ae533b97c6347eb9344f6ecddefa9aa
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d62a6477ae00126d4db2168c55367d80e8a6869ee2c0b32115e2f67ad7b45e3
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a081bc5da5ed0dc09d1d00741d1fe6bdeae12f8d58e5b4d44a7d78e0ad120f04
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:b778b133577e8a02dcdd3364fe347ed16d67e4165e95d771fc0e88a64c881d14
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0340327868852457,
   "eval_steps": 500,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1408,6 +1408,286 @@
       "learning_rate": 0.0002946479666971158,
       "loss": 1.8817,
       "step": 10000
     }
   ],
   "logging_steps": 50,
@@ -1427,7 +1707,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.347720296331739e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0182622950819673,
   "eval_steps": 500,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002946479666971158,
       "loss": 1.8817,
       "step": 10000
+    },
+    {
+      "epoch": 2.0345792349726777,
+      "grad_norm": 0.50390625,
+      "learning_rate": 0.0002945777330412184,
+      "loss": 1.9465,
+      "step": 10050
+    },
+    {
+      "epoch": 2.035125683060109,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.00029450705003439156,
+      "loss": 1.9628,
+      "step": 10100
+    },
+    {
+      "epoch": 2.035672131147541,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.0002944359178963198,
+      "loss": 1.9421,
+      "step": 10150
+    },
+    {
+      "epoch": 2.0362185792349727,
+      "grad_norm": 0.51171875,
+      "learning_rate": 0.00029436433684808336,
+      "loss": 1.953,
+      "step": 10200
+    },
+    {
+      "epoch": 2.0367650273224043,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.0002942923071121578,
+      "loss": 1.9499,
+      "step": 10250
+    },
+    {
+      "epoch": 2.0373114754098363,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.0002942198289124132,
+      "loss": 1.9522,
+      "step": 10300
+    },
+    {
+      "epoch": 3.000229508196721,
+      "grad_norm": 0.5078125,
+      "learning_rate": 0.00029414690247411346,
+      "loss": 1.9537,
+      "step": 10350
+    },
+    {
+      "epoch": 3.000775956284153,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.0002940735280239157,
+      "loss": 1.9224,
+      "step": 10400
+    },
+    {
+      "epoch": 3.0013224043715847,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.0002939997057898693,
+      "loss": 1.9165,
+      "step": 10450
+    },
+    {
+      "epoch": 3.0018688524590162,
+      "grad_norm": 0.490234375,
+      "learning_rate": 0.0002939254360014156,
+      "loss": 1.8814,
+      "step": 10500
+    },
+    {
+      "epoch": 3.0024153005464482,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.0002938507188893867,
+      "loss": 1.8547,
+      "step": 10550
+    },
+    {
+      "epoch": 3.0029617486338798,
+      "grad_norm": 0.8125,
+      "learning_rate": 0.00029377555468600516,
+      "loss": 1.9014,
+      "step": 10600
+    },
+    {
+      "epoch": 3.0035081967213113,
+      "grad_norm": 0.8125,
+      "learning_rate": 0.00029369994362488306,
+      "loss": 1.8837,
+      "step": 10650
+    },
+    {
+      "epoch": 3.0040546448087433,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.0002936238859410213,
+      "loss": 1.9095,
+      "step": 10700
+    },
+    {
+      "epoch": 3.004601092896175,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.0002935473818708089,
+      "loss": 1.8654,
+      "step": 10750
+    },
+    {
+      "epoch": 3.0051475409836064,
+      "grad_norm": 0.58203125,
+      "learning_rate": 0.00029347043165202233,
+      "loss": 1.9018,
+      "step": 10800
+    },
+    {
+      "epoch": 3.0056939890710384,
+      "grad_norm": 0.51171875,
+      "learning_rate": 0.0002933930355238246,
+      "loss": 1.895,
+      "step": 10850
+    },
+    {
+      "epoch": 3.00624043715847,
+      "grad_norm": 0.50390625,
+      "learning_rate": 0.0002933151937267647,
+      "loss": 1.8872,
+      "step": 10900
+    },
+    {
+      "epoch": 3.0067868852459014,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.0002932369065027767,
+      "loss": 1.8532,
+      "step": 10950
+    },
+    {
+      "epoch": 3.0073333333333334,
+      "grad_norm": 0.546875,
+      "learning_rate": 0.0002931581740951791,
+      "loss": 1.8935,
+      "step": 11000
+    },
+    {
+      "epoch": 3.007879781420765,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.00029307899674867405,
+      "loss": 1.8991,
+      "step": 11050
+    },
+    {
+      "epoch": 3.008426229508197,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.00029299937470934656,
+      "loss": 1.8784,
+      "step": 11100
+    },
+    {
+      "epoch": 3.0089726775956285,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.00029291930822466383,
+      "loss": 1.8775,
+      "step": 11150
+    },
+    {
+      "epoch": 3.00951912568306,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0002928387975434742,
+      "loss": 1.8874,
+      "step": 11200
+    },
+    {
+      "epoch": 3.010065573770492,
+      "grad_norm": 0.59765625,
+      "learning_rate": 0.00029275784291600684,
+      "loss": 1.9137,
+      "step": 11250
+    },
+    {
+      "epoch": 3.0106120218579235,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.0002926764445938705,
+      "loss": 1.8568,
+      "step": 11300
+    },
+    {
+      "epoch": 3.011158469945355,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.0002925946028300532,
+      "loss": 1.8578,
+      "step": 11350
+    },
+    {
+      "epoch": 3.011704918032787,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.0002925123178789209,
+      "loss": 1.9092,
+      "step": 11400
+    },
+    {
+      "epoch": 3.0122513661202186,
+      "grad_norm": 0.515625,
+      "learning_rate": 0.00029242958999621717,
+      "loss": 1.8663,
+      "step": 11450
+    },
+    {
+      "epoch": 3.01279781420765,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.00029234641943906223,
+      "loss": 1.862,
+      "step": 11500
+    },
+    {
+      "epoch": 3.013344262295082,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0002922628064659519,
+      "loss": 1.8594,
+      "step": 11550
+    },
+    {
+      "epoch": 3.0138907103825137,
+      "grad_norm": 0.546875,
+      "learning_rate": 0.0002921787513367575,
+      "loss": 1.8633,
+      "step": 11600
+    },
+    {
+      "epoch": 3.014437158469945,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.0002920942543127241,
+      "loss": 1.8929,
+      "step": 11650
+    },
+    {
+      "epoch": 3.014983606557377,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.0002920093156564705,
+      "loss": 1.8794,
+      "step": 11700
+    },
+    {
+      "epoch": 3.0155300546448087,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.0002919239356319879,
+      "loss": 1.8691,
+      "step": 11750
+    },
+    {
+      "epoch": 3.0160765027322403,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.00029183811450463954,
+      "loss": 1.8429,
+      "step": 11800
+    },
+    {
+      "epoch": 3.0166229508196722,
+      "grad_norm": 0.5,
+      "learning_rate": 0.00029175185254115934,
+      "loss": 1.8325,
+      "step": 11850
+    },
+    {
+      "epoch": 3.017169398907104,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.00029166515000965154,
+      "loss": 1.8598,
+      "step": 11900
+    },
+    {
+      "epoch": 3.0177158469945353,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.0002915780071795896,
+      "loss": 1.8376,
+      "step": 11950
+    },
+    {
+      "epoch": 3.0182622950819673,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.0002914904243218154,
+      "loss": 1.8142,
+      "step": 12000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 6.417354593302217e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null