Training in progress, step 3500, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b93ceca8e88ff460f8ccb50f4380d6798124eb004993f41675d14510f8c47b7
 size 448472762

 version https://git-lfs.github.com/spec/v1
+oid sha256:24d910ed994581c6f8ea6c3e52c2bd01eea52f2eabde8dd6e0704d202c1d60ef
 size 448472762

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5791df358e1c8a02bbb41e3d1e52d823a2a78d0ff48fd6f7de4f19e14e0bb520
 size 151589028

 version https://git-lfs.github.com/spec/v1
+oid sha256:37e29a2ee04e66d7aea70e004882b65125d5ba077c73c4403518a2a60505c8d5
 size 151589028

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cccb7abf0f8614f3fc64c31710fad6c824dca1edbb4986a5b9fb1ad1d2d802cb
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:40599dcf66d195bd468cd608918590eb1aebaacc685d576254e5a8407b72bcaf
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:655ec14a75109d5e8c18da96c3a0f554fd551816773411140b362973eb5b2691
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f37c31af6d04569a7beeed96f0a16a7f301f7bd85bb5ae4d2109c3c0aceb44f2
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:697c100484a8888e919d71fa6c0aefff1702c654a32d364f7623997e3c0d9e2d
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:482b2a39fd2aedd38d5ea68619507991e6d883e66aa3db23423855a04855b803
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ffb6ed56578248732f2cb9d5be51bee1d41b9fd8c2fcf9ccf47064ba796dd60
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0c2cea090d6d49edddc7a1414205b00e8be5cf0638feefa5bd893ffe74fda01
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8dea3a8122c383e315053a97f608c6689c05237886892101fcacb12765eef233
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e137401e542831b1939ede4bb41d0e73ea53be0648cbbc1ab5857d463b977f62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.006325077350425098,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2108,6 +2108,356 @@
       "learning_rate": 0.0004991215588235708,
       "loss": 2.716,
       "step": 3000
     }
   ],
   "logging_steps": 10,
@@ -2127,7 +2477,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.80967272673706e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.007379256908829281,
   "eval_steps": 500,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0004991215588235708,
       "loss": 2.716,
       "step": 3000
+    },
+    {
+      "epoch": 0.006346160941593182,
+      "grad_norm": 0.765625,
+      "learning_rate": 0.0004991180436527968,
+      "loss": 2.7439,
+      "step": 3010
+    },
+    {
+      "epoch": 0.006367244532761265,
+      "grad_norm": 0.703125,
+      "learning_rate": 0.0004991145284820227,
+      "loss": 2.7267,
+      "step": 3020
+    },
+    {
+      "epoch": 0.006388328123929349,
+      "grad_norm": 0.69921875,
+      "learning_rate": 0.0004991110133112487,
+      "loss": 2.7129,
+      "step": 3030
+    },
+    {
+      "epoch": 0.006409411715097433,
+      "grad_norm": 0.7578125,
+      "learning_rate": 0.0004991074981404747,
+      "loss": 2.7252,
+      "step": 3040
+    },
+    {
+      "epoch": 0.006430495306265516,
+      "grad_norm": 0.75390625,
+      "learning_rate": 0.0004991039829697006,
+      "loss": 2.7236,
+      "step": 3050
+    },
+    {
+      "epoch": 0.0064515788974336,
+      "grad_norm": 0.73828125,
+      "learning_rate": 0.0004991004677989266,
+      "loss": 2.7489,
+      "step": 3060
+    },
+    {
+      "epoch": 0.006472662488601683,
+      "grad_norm": 0.81640625,
+      "learning_rate": 0.0004990969526281526,
+      "loss": 2.7133,
+      "step": 3070
+    },
+    {
+      "epoch": 0.006493746079769767,
+      "grad_norm": 1.0390625,
+      "learning_rate": 0.0004990934374573785,
+      "loss": 2.729,
+      "step": 3080
+    },
+    {
+      "epoch": 0.006514829670937851,
+      "grad_norm": 0.69921875,
+      "learning_rate": 0.0004990899222866046,
+      "loss": 2.7134,
+      "step": 3090
+    },
+    {
+      "epoch": 0.006535913262105934,
+      "grad_norm": 0.72265625,
+      "learning_rate": 0.0004990864071158306,
+      "loss": 2.7033,
+      "step": 3100
+    },
+    {
+      "epoch": 0.006556996853274018,
+      "grad_norm": 0.71484375,
+      "learning_rate": 0.0004990828919450564,
+      "loss": 2.7242,
+      "step": 3110
+    },
+    {
+      "epoch": 0.006578080444442102,
+      "grad_norm": 0.73828125,
+      "learning_rate": 0.0004990793767742825,
+      "loss": 2.7018,
+      "step": 3120
+    },
+    {
+      "epoch": 0.006599164035610185,
+      "grad_norm": 0.79296875,
+      "learning_rate": 0.0004990758616035085,
+      "loss": 2.7018,
+      "step": 3130
+    },
+    {
+      "epoch": 0.006620247626778269,
+      "grad_norm": 0.7421875,
+      "learning_rate": 0.0004990723464327344,
+      "loss": 2.7101,
+      "step": 3140
+    },
+    {
+      "epoch": 0.006641331217946353,
+      "grad_norm": 0.671875,
+      "learning_rate": 0.0004990688312619604,
+      "loss": 2.7059,
+      "step": 3150
+    },
+    {
+      "epoch": 0.006662414809114436,
+      "grad_norm": 0.76953125,
+      "learning_rate": 0.0004990653160911864,
+      "loss": 2.7004,
+      "step": 3160
+    },
+    {
+      "epoch": 0.00668349840028252,
+      "grad_norm": 0.8125,
+      "learning_rate": 0.0004990618009204123,
+      "loss": 2.6897,
+      "step": 3170
+    },
+    {
+      "epoch": 0.006704581991450604,
+      "grad_norm": 0.8828125,
+      "learning_rate": 0.0004990582857496383,
+      "loss": 2.6965,
+      "step": 3180
+    },
+    {
+      "epoch": 0.006725665582618687,
+      "grad_norm": 0.69140625,
+      "learning_rate": 0.0004990547705788642,
+      "loss": 2.699,
+      "step": 3190
+    },
+    {
+      "epoch": 0.006746749173786771,
+      "grad_norm": 0.73828125,
+      "learning_rate": 0.0004990512554080902,
+      "loss": 2.6956,
+      "step": 3200
+    },
+    {
+      "epoch": 0.006767832764954854,
+      "grad_norm": 0.7578125,
+      "learning_rate": 0.0004990477402373162,
+      "loss": 2.693,
+      "step": 3210
+    },
+    {
+      "epoch": 0.006788916356122938,
+      "grad_norm": 0.69921875,
+      "learning_rate": 0.0004990442250665421,
+      "loss": 2.6899,
+      "step": 3220
+    },
+    {
+      "epoch": 0.006809999947291022,
+      "grad_norm": 0.8046875,
+      "learning_rate": 0.0004990407098957681,
+      "loss": 2.6946,
+      "step": 3230
+    },
+    {
+      "epoch": 0.006831083538459105,
+      "grad_norm": 0.828125,
+      "learning_rate": 0.0004990371947249942,
+      "loss": 2.6904,
+      "step": 3240
+    },
+    {
+      "epoch": 0.006852167129627189,
+      "grad_norm": 0.72265625,
+      "learning_rate": 0.0004990336795542202,
+      "loss": 2.6968,
+      "step": 3250
+    },
+    {
+      "epoch": 0.006873250720795273,
+      "grad_norm": 0.72265625,
+      "learning_rate": 0.000499030164383446,
+      "loss": 2.6748,
+      "step": 3260
+    },
+    {
+      "epoch": 0.006894334311963356,
+      "grad_norm": 1.0078125,
+      "learning_rate": 0.0004990266492126721,
+      "loss": 2.6752,
+      "step": 3270
+    },
+    {
+      "epoch": 0.00691541790313144,
+      "grad_norm": 0.79296875,
+      "learning_rate": 0.000499023134041898,
+      "loss": 2.6882,
+      "step": 3280
+    },
+    {
+      "epoch": 0.006936501494299524,
+      "grad_norm": 0.7421875,
+      "learning_rate": 0.000499019618871124,
+      "loss": 2.6847,
+      "step": 3290
+    },
+    {
+      "epoch": 0.0069575850854676075,
+      "grad_norm": 0.66015625,
+      "learning_rate": 0.00049901610370035,
+      "loss": 2.6776,
+      "step": 3300
+    },
+    {
+      "epoch": 0.006978668676635691,
+      "grad_norm": 0.703125,
+      "learning_rate": 0.0004990125885295759,
+      "loss": 2.6876,
+      "step": 3310
+    },
+    {
+      "epoch": 0.006999752267803775,
+      "grad_norm": 0.7578125,
+      "learning_rate": 0.0004990090733588019,
+      "loss": 2.6798,
+      "step": 3320
+    },
+    {
+      "epoch": 0.0070208358589718585,
+      "grad_norm": 0.71875,
+      "learning_rate": 0.0004990055581880279,
+      "loss": 2.6768,
+      "step": 3330
+    },
+    {
+      "epoch": 0.0070419194501399425,
+      "grad_norm": 0.7109375,
+      "learning_rate": 0.0004990020430172538,
+      "loss": 2.6804,
+      "step": 3340
+    },
+    {
+      "epoch": 0.0070630030413080256,
+      "grad_norm": 0.73828125,
+      "learning_rate": 0.0004989985278464799,
+      "loss": 2.6843,
+      "step": 3350
+    },
+    {
+      "epoch": 0.0070840866324761095,
+      "grad_norm": 0.72265625,
+      "learning_rate": 0.0004989950126757058,
+      "loss": 2.6767,
+      "step": 3360
+    },
+    {
+      "epoch": 0.0071051702236441935,
+      "grad_norm": 0.63671875,
+      "learning_rate": 0.0004989914975049317,
+      "loss": 2.6691,
+      "step": 3370
+    },
+    {
+      "epoch": 0.007126253814812277,
+      "grad_norm": 0.7109375,
+      "learning_rate": 0.0004989879823341578,
+      "loss": 2.6738,
+      "step": 3380
+    },
+    {
+      "epoch": 0.007147337405980361,
+      "grad_norm": 0.68359375,
+      "learning_rate": 0.0004989844671633838,
+      "loss": 2.6834,
+      "step": 3390
+    },
+    {
+      "epoch": 0.0071684209971484445,
+      "grad_norm": 0.76171875,
+      "learning_rate": 0.0004989809519926097,
+      "loss": 2.6865,
+      "step": 3400
+    },
+    {
+      "epoch": 0.007189504588316528,
+      "grad_norm": 0.734375,
+      "learning_rate": 0.0004989774368218357,
+      "loss": 2.6792,
+      "step": 3410
+    },
+    {
+      "epoch": 0.007210588179484612,
+      "grad_norm": 0.8046875,
+      "learning_rate": 0.0004989739216510617,
+      "loss": 2.6694,
+      "step": 3420
+    },
+    {
+      "epoch": 0.007231671770652696,
+      "grad_norm": 0.671875,
+      "learning_rate": 0.0004989704064802876,
+      "loss": 2.675,
+      "step": 3430
+    },
+    {
+      "epoch": 0.007252755361820779,
+      "grad_norm": 0.69921875,
+      "learning_rate": 0.0004989668913095136,
+      "loss": 2.6746,
+      "step": 3440
+    },
+    {
+      "epoch": 0.007273838952988863,
+      "grad_norm": 0.7578125,
+      "learning_rate": 0.0004989633761387396,
+      "loss": 2.6632,
+      "step": 3450
+    },
+    {
+      "epoch": 0.007294922544156947,
+      "grad_norm": 0.6875,
+      "learning_rate": 0.0004989598609679655,
+      "loss": 2.664,
+      "step": 3460
+    },
+    {
+      "epoch": 0.00731600613532503,
+      "grad_norm": 0.73828125,
+      "learning_rate": 0.0004989563457971915,
+      "loss": 2.6797,
+      "step": 3470
+    },
+    {
+      "epoch": 0.007337089726493114,
+      "grad_norm": 0.70703125,
+      "learning_rate": 0.0004989528306264175,
+      "loss": 2.6545,
+      "step": 3480
+    },
+    {
+      "epoch": 0.007358173317661198,
+      "grad_norm": 0.80859375,
+      "learning_rate": 0.0004989493154556434,
+      "loss": 2.6551,
+      "step": 3490
+    },
+    {
+      "epoch": 0.007379256908829281,
+      "grad_norm": 0.6953125,
+      "learning_rate": 0.0004989458002848695,
+      "loss": 2.6639,
+      "step": 3500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.1444837229894042e+18,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null