Training in progress, step 1500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +212 -2
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ad9704bc5747fc17b3c1496ffdc9c4a82ee0c2ceb16f4e948b6593950765fc1
 size 2558403928

 version https://git-lfs.github.com/spec/v1
+oid sha256:19f020f57d4a61360034ec006ae66facade0f2d21653389e6f14602a4142a050
 size 2558403928

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18ce1ad6cf71b73814b98c18ffc3d1dbf6b9d7b64f05e65823d86e41a0a2a0f4
 size 1313638993

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc606d36977ccbf3d4b122958eb1f61737f84fd18ecaaffc4930cc8fd07e9364
 size 1313638993

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68e939733619667823ff09361a70b450356b35690c073061e24545321b21c4b0
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:b62ca0429ec7faf1375b45507b4b6556f7e8ec80e94acc260c0727d9c01b414c
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18783150ac09b6b81cea5af47876a10bfe5f36c3d76aca4ffce5382bdfaf7b28
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca372268f4fa9335030c0cb7aedb6cdba75f457da50e7a4034abb1a2d0843689
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2c4ff631d77bc2fe5cad879e6c434ab3b6d8a7e0b9cce252cee47e42bdf838a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa39772c5e0acad2bda0112b852159f96e3b408cefd615906b49c8dfa5e48e61
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.96,
   "eval_steps": 500,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -855,6 +855,216 @@
       "learning_rate": 0.00011346416107813267,
       "loss": 5.9226,
       "step": 1200
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00011346416107813267,
       "loss": 5.9226,
       "step": 1200
+    },
+    {
+      "epoch": 0.968,
+      "grad_norm": 7.974459648132324,
+      "learning_rate": 0.00011216379785160578,
+      "loss": 5.8474,
+      "step": 1210
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": 5.838559150695801,
+      "learning_rate": 0.000110861343456282,
+      "loss": 6.0194,
+      "step": 1220
+    },
+    {
+      "epoch": 0.984,
+      "grad_norm": 7.7551703453063965,
+      "learning_rate": 0.00010955702180676632,
+      "loss": 5.7078,
+      "step": 1230
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 7.658422470092773,
+      "learning_rate": 0.00010825105713867724,
+      "loss": 5.6615,
+      "step": 1240
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 6.197235584259033,
+      "learning_rate": 0.0001069436739700968,
+      "loss": 5.7792,
+      "step": 1250
+    },
+    {
+      "epoch": 1.008,
+      "grad_norm": 6.991013526916504,
+      "learning_rate": 0.00010563509706297188,
+      "loss": 5.3963,
+      "step": 1260
+    },
+    {
+      "epoch": 1.016,
+      "grad_norm": 7.606940269470215,
+      "learning_rate": 0.00010432555138447404,
+      "loss": 5.9168,
+      "step": 1270
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 6.3427042961120605,
+      "learning_rate": 0.0001030152620683233,
+      "loss": 5.6694,
+      "step": 1280
+    },
+    {
+      "epoch": 1.032,
+      "grad_norm": 5.197830677032471,
+      "learning_rate": 0.00010170445437608403,
+      "loss": 5.4628,
+      "step": 1290
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 7.1471381187438965,
+      "learning_rate": 0.00010039335365843851,
+      "loss": 5.4371,
+      "step": 1300
+    },
+    {
+      "epoch": 1.048,
+      "grad_norm": 6.546257495880127,
+      "learning_rate": 9.908218531644521e-05,
+      "loss": 5.7931,
+      "step": 1310
+    },
+    {
+      "epoch": 1.056,
+      "grad_norm": 8.735387802124023,
+      "learning_rate": 9.77711747627883e-05,
+      "loss": 5.354,
+      "step": 1320
+    },
+    {
+      "epoch": 1.064,
+      "grad_norm": 6.352960109710693,
+      "learning_rate": 9.646054738302551e-05,
+      "loss": 5.0677,
+      "step": 1330
+    },
+    {
+      "epoch": 1.072,
+      "grad_norm": 7.88266658782959,
+      "learning_rate": 9.515052849684019e-05,
+      "loss": 5.4004,
+      "step": 1340
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 5.571359634399414,
+      "learning_rate": 9.384134331930513e-05,
+      "loss": 5.3187,
+      "step": 1350
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 8.573116302490234,
+      "learning_rate": 9.253321692216402e-05,
+      "loss": 5.2719,
+      "step": 1360
+    },
+    {
+      "epoch": 1.096,
+      "grad_norm": 9.162277221679688,
+      "learning_rate": 9.122637419513778e-05,
+      "loss": 5.6781,
+      "step": 1370
+    },
+    {
+      "epoch": 1.104,
+      "grad_norm": 11.947822570800781,
+      "learning_rate": 8.992103980726207e-05,
+      "loss": 5.593,
+      "step": 1380
+    },
+    {
+      "epoch": 1.112,
+      "grad_norm": 8.124156951904297,
+      "learning_rate": 8.861743816826274e-05,
+      "loss": 5.3142,
+      "step": 1390
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 7.134088039398193,
+      "learning_rate": 8.731579338997594e-05,
+      "loss": 5.3372,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1280000000000001,
+      "grad_norm": 8.928452491760254,
+      "learning_rate": 8.601632924781935e-05,
+      "loss": 5.4594,
+      "step": 1410
+    },
+    {
+      "epoch": 1.1360000000000001,
+      "grad_norm": 5.617236614227295,
+      "learning_rate": 8.471926914232137e-05,
+      "loss": 5.0226,
+      "step": 1420
+    },
+    {
+      "epoch": 1.144,
+      "grad_norm": 6.080244064331055,
+      "learning_rate": 8.34248360607145e-05,
+      "loss": 5.3677,
+      "step": 1430
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 9.846885681152344,
+      "learning_rate": 8.213325253860013e-05,
+      "loss": 5.2629,
+      "step": 1440
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 10.537776947021484,
+      "learning_rate": 8.084474062169071e-05,
+      "loss": 5.5022,
+      "step": 1450
+    },
+    {
+      "epoch": 1.168,
+      "grad_norm": 5.898927688598633,
+      "learning_rate": 7.955952182763624e-05,
+      "loss": 5.2349,
+      "step": 1460
+    },
+    {
+      "epoch": 1.176,
+      "grad_norm": 6.621062755584717,
+      "learning_rate": 7.827781710794146e-05,
+      "loss": 5.4929,
+      "step": 1470
+    },
+    {
+      "epoch": 1.184,
+      "grad_norm": 6.793276309967041,
+      "learning_rate": 7.699984680998063e-05,
+      "loss": 5.136,
+      "step": 1480
+    },
+    {
+      "epoch": 1.192,
+      "grad_norm": 8.44278335571289,
+      "learning_rate": 7.57258306391157e-05,
+      "loss": 4.9147,
+      "step": 1490
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 8.787193298339844,
+      "learning_rate": 7.445598762092537e-05,
+      "loss": 5.4473,
+      "step": 1500
     }
   ],
   "logging_steps": 10,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee90b3fca998c33de74462bb9e763a66d85eea62f73bbd6b86fed468dacef643
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:55ca17433b5f6660ff524e613cd483a70dd34c9a3734b5a0b15911c69ef6f917
 size 5905