Training in progress, step 29000, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2057e4bc4ccb7266894aa681fe099f5645555d35372ed2c2f53abaad870b8285
 size 304481530

 version https://git-lfs.github.com/spec/v1
+oid sha256:746096b767c4c47c0c49b66fcf9e67e43d00132964e1a14503d0dc54e61a88ce
 size 304481530

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49e7c91022600e2317a6a9b8ec33d6b3225250425e275f6eed0bdadc714f7fa6
 size 402029570

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ff72e1a59e706ba21c0c5fc5faf4ff560d04a9269b480a240031d2014cadf01
 size 402029570

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f92647ded7f1a6725e7ffd2310a8d2fbafb5da62cf15755b5f3e6fb2fdf499f
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:46ed9fc518619ac92c06b536cae3d8dd21e3799906ab806f17d4dd1aa6e8dd9d
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5badfec76e553ebbd712f8d9135dd4df979bf9196652df1ae9ad27ae709e59c4
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0bcf7c080583def4d92e63cc47df57eaf4cf519a6a214957e6214d525864a6a
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fdddb3d61ba5e574c0c975793584282bdce7b095bac6bf2d58912967ca7933b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbfa9291779333cc6de79bd13fa6c586039654ce156817d635f2b7564e084805
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3be341579a31269cdfe494164e23b8a4ba61b71f1f432b36a2c0aef7d49c9b92
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2d36fdfb70bf9082281ebe37b706d22a6591594718aa46603291c3e49697116
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18c359f46f82e1c9ecfbab9a4532bc57a1a730dfa02c76c631eb621b98761e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cd39fe9272798d41cdbf7f22a06af7a14c62772e1b67733185e58a79e1dfc7e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05459925608513584,
   "eval_steps": 500,
-  "global_step": 28000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9808,6 +9808,356 @@
       "learning_rate": 0.000491060032601183,
       "loss": 18.3958,
       "step": 28000
     }
   ],
   "logging_steps": 20,
@@ -9827,7 +10177,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.058460925948802e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.05654922951674783,
   "eval_steps": 500,
+  "global_step": 29000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.000491060032601183,
       "loss": 18.3958,
       "step": 28000
+    },
+    {
+      "epoch": 0.05463825555376808,
+      "grad_norm": 8.4375,
+      "learning_rate": 0.0004910535305702737,
+      "loss": 18.3374,
+      "step": 28020
+    },
+    {
+      "epoch": 0.05467725502240032,
+      "grad_norm": 8.4375,
+      "learning_rate": 0.0004910470285393643,
+      "loss": 18.3651,
+      "step": 28040
+    },
+    {
+      "epoch": 0.05471625449103256,
+      "grad_norm": 7.9375,
+      "learning_rate": 0.000491040526508455,
+      "loss": 18.2815,
+      "step": 28060
+    },
+    {
+      "epoch": 0.0547552539596648,
+      "grad_norm": 8.1875,
+      "learning_rate": 0.0004910340244775455,
+      "loss": 18.3387,
+      "step": 28080
+    },
+    {
+      "epoch": 0.05479425342829704,
+      "grad_norm": 8.125,
+      "learning_rate": 0.0004910275224466362,
+      "loss": 18.4166,
+      "step": 28100
+    },
+    {
+      "epoch": 0.05483325289692928,
+      "grad_norm": 8.3125,
+      "learning_rate": 0.0004910210204157268,
+      "loss": 18.3669,
+      "step": 28120
+    },
+    {
+      "epoch": 0.05487225236556152,
+      "grad_norm": 8.1875,
+      "learning_rate": 0.0004910145183848175,
+      "loss": 18.3254,
+      "step": 28140
+    },
+    {
+      "epoch": 0.05491125183419376,
+      "grad_norm": 7.90625,
+      "learning_rate": 0.0004910080163539082,
+      "loss": 18.3784,
+      "step": 28160
+    },
+    {
+      "epoch": 0.054950251302826,
+      "grad_norm": 8.0625,
+      "learning_rate": 0.0004910015143229988,
+      "loss": 18.3403,
+      "step": 28180
+    },
+    {
+      "epoch": 0.05498925077145824,
+      "grad_norm": 9.375,
+      "learning_rate": 0.0004909950122920895,
+      "loss": 18.3102,
+      "step": 28200
+    },
+    {
+      "epoch": 0.055028250240090476,
+      "grad_norm": 9.0625,
+      "learning_rate": 0.00049098851026118,
+      "loss": 18.4089,
+      "step": 28220
+    },
+    {
+      "epoch": 0.05506724970872272,
+      "grad_norm": 8.5625,
+      "learning_rate": 0.0004909820082302707,
+      "loss": 18.3223,
+      "step": 28240
+    },
+    {
+      "epoch": 0.05510624917735496,
+      "grad_norm": 8.5625,
+      "learning_rate": 0.0004909755061993613,
+      "loss": 18.3313,
+      "step": 28260
+    },
+    {
+      "epoch": 0.055145248645987195,
+      "grad_norm": 8.6875,
+      "learning_rate": 0.000490969004168452,
+      "loss": 18.3614,
+      "step": 28280
+    },
+    {
+      "epoch": 0.05518424811461944,
+      "grad_norm": 8.25,
+      "learning_rate": 0.0004909625021375427,
+      "loss": 18.4159,
+      "step": 28300
+    },
+    {
+      "epoch": 0.05522324758325168,
+      "grad_norm": 9.625,
+      "learning_rate": 0.0004909560001066333,
+      "loss": 18.3133,
+      "step": 28320
+    },
+    {
+      "epoch": 0.05526224705188392,
+      "grad_norm": 8.625,
+      "learning_rate": 0.000490949498075724,
+      "loss": 18.2357,
+      "step": 28340
+    },
+    {
+      "epoch": 0.055301246520516156,
+      "grad_norm": 8.625,
+      "learning_rate": 0.0004909429960448146,
+      "loss": 18.3533,
+      "step": 28360
+    },
+    {
+      "epoch": 0.0553402459891484,
+      "grad_norm": 8.0625,
+      "learning_rate": 0.0004909364940139053,
+      "loss": 18.4396,
+      "step": 28380
+    },
+    {
+      "epoch": 0.05537924545778064,
+      "grad_norm": 9.25,
+      "learning_rate": 0.0004909299919829958,
+      "loss": 18.298,
+      "step": 28400
+    },
+    {
+      "epoch": 0.055418244926412875,
+      "grad_norm": 8.125,
+      "learning_rate": 0.0004909234899520865,
+      "loss": 18.271,
+      "step": 28420
+    },
+    {
+      "epoch": 0.05545724439504512,
+      "grad_norm": 7.1875,
+      "learning_rate": 0.0004909169879211771,
+      "loss": 18.3477,
+      "step": 28440
+    },
+    {
+      "epoch": 0.05549624386367736,
+      "grad_norm": 9.125,
+      "learning_rate": 0.0004909104858902678,
+      "loss": 18.346,
+      "step": 28460
+    },
+    {
+      "epoch": 0.055535243332309595,
+      "grad_norm": 9.125,
+      "learning_rate": 0.0004909039838593585,
+      "loss": 18.3856,
+      "step": 28480
+    },
+    {
+      "epoch": 0.05557424280094184,
+      "grad_norm": 8.0625,
+      "learning_rate": 0.0004908974818284491,
+      "loss": 18.3034,
+      "step": 28500
+    },
+    {
+      "epoch": 0.05561324226957408,
+      "grad_norm": 9.375,
+      "learning_rate": 0.0004908909797975398,
+      "loss": 18.2843,
+      "step": 28520
+    },
+    {
+      "epoch": 0.055652241738206314,
+      "grad_norm": 9.4375,
+      "learning_rate": 0.0004908844777666304,
+      "loss": 18.2606,
+      "step": 28540
+    },
+    {
+      "epoch": 0.055691241206838556,
+      "grad_norm": 8.25,
+      "learning_rate": 0.0004908779757357211,
+      "loss": 18.3211,
+      "step": 28560
+    },
+    {
+      "epoch": 0.0557302406754708,
+      "grad_norm": 8.0625,
+      "learning_rate": 0.0004908714737048117,
+      "loss": 18.2635,
+      "step": 28580
+    },
+    {
+      "epoch": 0.05576924014410304,
+      "grad_norm": 8.4375,
+      "learning_rate": 0.0004908649716739024,
+      "loss": 18.3031,
+      "step": 28600
+    },
+    {
+      "epoch": 0.055808239612735275,
+      "grad_norm": 8.1875,
+      "learning_rate": 0.0004908584696429931,
+      "loss": 18.3625,
+      "step": 28620
+    },
+    {
+      "epoch": 0.05584723908136752,
+      "grad_norm": 9.125,
+      "learning_rate": 0.0004908519676120837,
+      "loss": 18.2676,
+      "step": 28640
+    },
+    {
+      "epoch": 0.05588623854999976,
+      "grad_norm": 8.625,
+      "learning_rate": 0.0004908454655811743,
+      "loss": 18.356,
+      "step": 28660
+    },
+    {
+      "epoch": 0.055925238018631994,
+      "grad_norm": 8.5625,
+      "learning_rate": 0.0004908389635502649,
+      "loss": 18.3445,
+      "step": 28680
+    },
+    {
+      "epoch": 0.055964237487264236,
+      "grad_norm": 10.4375,
+      "learning_rate": 0.0004908324615193556,
+      "loss": 18.2686,
+      "step": 28700
+    },
+    {
+      "epoch": 0.05600323695589648,
+      "grad_norm": 9.125,
+      "learning_rate": 0.0004908259594884462,
+      "loss": 18.3601,
+      "step": 28720
+    },
+    {
+      "epoch": 0.05604223642452871,
+      "grad_norm": 8.5625,
+      "learning_rate": 0.0004908194574575369,
+      "loss": 18.2382,
+      "step": 28740
+    },
+    {
+      "epoch": 0.056081235893160955,
+      "grad_norm": 8.5,
+      "learning_rate": 0.0004908129554266275,
+      "loss": 18.2971,
+      "step": 28760
+    },
+    {
+      "epoch": 0.0561202353617932,
+      "grad_norm": 8.3125,
+      "learning_rate": 0.0004908064533957182,
+      "loss": 18.2238,
+      "step": 28780
+    },
+    {
+      "epoch": 0.05615923483042543,
+      "grad_norm": 8.1875,
+      "learning_rate": 0.0004907999513648089,
+      "loss": 18.32,
+      "step": 28800
+    },
+    {
+      "epoch": 0.056198234299057674,
+      "grad_norm": 9.25,
+      "learning_rate": 0.0004907934493338995,
+      "loss": 18.2592,
+      "step": 28820
+    },
+    {
+      "epoch": 0.056237233767689916,
+      "grad_norm": 8.25,
+      "learning_rate": 0.0004907869473029901,
+      "loss": 18.3136,
+      "step": 28840
+    },
+    {
+      "epoch": 0.05627623323632216,
+      "grad_norm": 7.875,
+      "learning_rate": 0.0004907804452720807,
+      "loss": 18.2562,
+      "step": 28860
+    },
+    {
+      "epoch": 0.05631523270495439,
+      "grad_norm": 9.25,
+      "learning_rate": 0.0004907739432411714,
+      "loss": 18.2101,
+      "step": 28880
+    },
+    {
+      "epoch": 0.056354232173586635,
+      "grad_norm": 8.75,
+      "learning_rate": 0.000490767441210262,
+      "loss": 18.3202,
+      "step": 28900
+    },
+    {
+      "epoch": 0.05639323164221888,
+      "grad_norm": 9.5,
+      "learning_rate": 0.0004907609391793527,
+      "loss": 18.3016,
+      "step": 28920
+    },
+    {
+      "epoch": 0.05643223111085111,
+      "grad_norm": 8.8125,
+      "learning_rate": 0.0004907544371484434,
+      "loss": 18.2731,
+      "step": 28940
+    },
+    {
+      "epoch": 0.056471230579483354,
+      "grad_norm": 8.4375,
+      "learning_rate": 0.000490747935117534,
+      "loss": 18.2778,
+      "step": 28960
+    },
+    {
+      "epoch": 0.056510230048115596,
+      "grad_norm": 7.1875,
+      "learning_rate": 0.0004907414330866247,
+      "loss": 18.2984,
+      "step": 28980
+    },
+    {
+      "epoch": 0.05654922951674783,
+      "grad_norm": 8.3125,
+      "learning_rate": 0.0004907349310557152,
+      "loss": 18.2915,
+      "step": 29000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 2.1319717710265844e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null