Training in progress, step 45000, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +354 -4
last-checkpoint/training_args.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fcd37382582cb8125ec6d2b4c1830cfd9571895d7c529b9e0a164d8e6840c5f
 size 304481530

 version https://git-lfs.github.com/spec/v1
+oid sha256:c34146894dfe342922a0c8a606eac0350f76f11ea9e61c107c4fbf6ed4906e82
 size 304481530

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e21cff1a1a482dfd42e5de94ed9f704de413d72174366b200ada5de0ca1e11ea
 size 402029570

 version https://git-lfs.github.com/spec/v1
+oid sha256:502f558a0369d8b367137ad2a3eafab0d0eba581e23c553e257aa247277dbe02
 size 402029570

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcdfb03c2359167be102884353768ec17e50976fbf8f4e087f73ce920ca2083a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5bd1df9dd287561b432a4ed1887fdcf8336e4c007fc54d3406e19e31c0bf33c
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ec4a5179b74ef8eb313eb14817a74f7fc913bdcaa29bebe58410f2cfcc1721c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a04ed282bfc2791246883061552e93b53278d67ed9004819c40202da8064598
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f47d801e0e1e17041030e161c1b98962f17c60b9ac26c132a50dbfe0dbb10fd9
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:06efddacd0797f2209b470dd13b726f0378cede9676bfe8789e9ef52e5513689
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:908ba09c9714e54813137013872e64f7f3d3ddeb4ee5dff69a0168885135e1ba
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f815d3a5b83aa01364285e2a8f42845f4c04a057e51ff2194a37de3386990687
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2235aa419a253926d81708d5bb132f65ffe83cce4aceb17112e87544e0f82b3d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a0f1ff729c197851c973f7c1a73abcd6f67c6109dc7b232bef28f6096173a7b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08579883099092775,
   "eval_steps": 500,
-  "global_step": 44000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15408,10 +15408,360 @@
       "learning_rate": 0.0004858584078736993,
       "loss": 17.2386,
       "step": 44000
     }
   ],
   "logging_steps": 20,
-  "max_steps": 1538481,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
@@ -15427,7 +15777,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2346940087260414e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06665916133887148,
   "eval_steps": 500,
+  "global_step": 45000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0004858584078736993,
       "loss": 17.2386,
       "step": 44000
+    },
+    {
+      "epoch": 0.0652074729363805,
+      "grad_norm": 7.21875,
+      "learning_rate": 0.0004892531243702858,
+      "loss": 18.4759,
+      "step": 44020
+    },
+    {
+      "epoch": 0.06523709923030889,
+      "grad_norm": 7.5,
+      "learning_rate": 0.0004892481854352782,
+      "loss": 18.408,
+      "step": 44040
+    },
+    {
+      "epoch": 0.06526672552423728,
+      "grad_norm": 7.90625,
+      "learning_rate": 0.0004892432465002707,
+      "loss": 18.2598,
+      "step": 44060
+    },
+    {
+      "epoch": 0.06529635181816566,
+      "grad_norm": 7.625,
+      "learning_rate": 0.0004892383075652631,
+      "loss": 18.2414,
+      "step": 44080
+    },
+    {
+      "epoch": 0.06532597811209405,
+      "grad_norm": 7.5,
+      "learning_rate": 0.0004892333686302555,
+      "loss": 18.2764,
+      "step": 44100
+    },
+    {
+      "epoch": 0.06535560440602244,
+      "grad_norm": 6.59375,
+      "learning_rate": 0.000489228429695248,
+      "loss": 18.2161,
+      "step": 44120
+    },
+    {
+      "epoch": 0.06538523069995082,
+      "grad_norm": 7.125,
+      "learning_rate": 0.0004892234907602404,
+      "loss": 18.2661,
+      "step": 44140
+    },
+    {
+      "epoch": 0.06541485699387921,
+      "grad_norm": 7.0625,
+      "learning_rate": 0.0004892185518252329,
+      "loss": 18.2414,
+      "step": 44160
+    },
+    {
+      "epoch": 0.0654444832878076,
+      "grad_norm": 7.34375,
+      "learning_rate": 0.0004892136128902253,
+      "loss": 18.1743,
+      "step": 44180
+    },
+    {
+      "epoch": 0.06547410958173598,
+      "grad_norm": 7.34375,
+      "learning_rate": 0.0004892086739552177,
+      "loss": 18.1813,
+      "step": 44200
+    },
+    {
+      "epoch": 0.06550373587566437,
+      "grad_norm": 7.03125,
+      "learning_rate": 0.0004892037350202102,
+      "loss": 18.239,
+      "step": 44220
+    },
+    {
+      "epoch": 0.06553336216959275,
+      "grad_norm": 7.375,
+      "learning_rate": 0.0004891987960852026,
+      "loss": 18.084,
+      "step": 44240
+    },
+    {
+      "epoch": 0.06556298846352114,
+      "grad_norm": 7.375,
+      "learning_rate": 0.000489193857150195,
+      "loss": 18.1419,
+      "step": 44260
+    },
+    {
+      "epoch": 0.06559261475744953,
+      "grad_norm": 8.1875,
+      "learning_rate": 0.0004891889182151874,
+      "loss": 18.1111,
+      "step": 44280
+    },
+    {
+      "epoch": 0.06562224105137791,
+      "grad_norm": 7.09375,
+      "learning_rate": 0.0004891839792801799,
+      "loss": 18.0775,
+      "step": 44300
+    },
+    {
+      "epoch": 0.0656518673453063,
+      "grad_norm": 7.34375,
+      "learning_rate": 0.0004891790403451723,
+      "loss": 18.1751,
+      "step": 44320
+    },
+    {
+      "epoch": 0.0656814936392347,
+      "grad_norm": 6.96875,
+      "learning_rate": 0.0004891741014101648,
+      "loss": 18.1515,
+      "step": 44340
+    },
+    {
+      "epoch": 0.06571111993316309,
+      "grad_norm": 7.6875,
+      "learning_rate": 0.0004891691624751572,
+      "loss": 18.1534,
+      "step": 44360
+    },
+    {
+      "epoch": 0.06574074622709147,
+      "grad_norm": 6.96875,
+      "learning_rate": 0.0004891642235401497,
+      "loss": 18.1406,
+      "step": 44380
+    },
+    {
+      "epoch": 0.06577037252101986,
+      "grad_norm": 8.625,
+      "learning_rate": 0.000489159284605142,
+      "loss": 18.1022,
+      "step": 44400
+    },
+    {
+      "epoch": 0.06579999881494825,
+      "grad_norm": 7.9375,
+      "learning_rate": 0.0004891543456701344,
+      "loss": 18.0375,
+      "step": 44420
+    },
+    {
+      "epoch": 0.06582962510887663,
+      "grad_norm": 8.5625,
+      "learning_rate": 0.0004891494067351269,
+      "loss": 18.0538,
+      "step": 44440
+    },
+    {
+      "epoch": 0.06585925140280502,
+      "grad_norm": 6.90625,
+      "learning_rate": 0.0004891444678001193,
+      "loss": 18.0487,
+      "step": 44460
+    },
+    {
+      "epoch": 0.0658888776967334,
+      "grad_norm": 7.8125,
+      "learning_rate": 0.0004891395288651117,
+      "loss": 18.1347,
+      "step": 44480
+    },
+    {
+      "epoch": 0.06591850399066179,
+      "grad_norm": 7.21875,
+      "learning_rate": 0.0004891345899301041,
+      "loss": 18.0459,
+      "step": 44500
+    },
+    {
+      "epoch": 0.06594813028459018,
+      "grad_norm": 8.6875,
+      "learning_rate": 0.0004891296509950966,
+      "loss": 18.0135,
+      "step": 44520
+    },
+    {
+      "epoch": 0.06597775657851856,
+      "grad_norm": 7.8125,
+      "learning_rate": 0.000489124712060089,
+      "loss": 18.0667,
+      "step": 44540
+    },
+    {
+      "epoch": 0.06600738287244695,
+      "grad_norm": 7.34375,
+      "learning_rate": 0.0004891197731250815,
+      "loss": 18.0663,
+      "step": 44560
+    },
+    {
+      "epoch": 0.06603700916637534,
+      "grad_norm": 7.5,
+      "learning_rate": 0.0004891148341900739,
+      "loss": 18.035,
+      "step": 44580
+    },
+    {
+      "epoch": 0.06606663546030372,
+      "grad_norm": 7.28125,
+      "learning_rate": 0.0004891098952550664,
+      "loss": 18.0706,
+      "step": 44600
+    },
+    {
+      "epoch": 0.06609626175423211,
+      "grad_norm": 6.6875,
+      "learning_rate": 0.0004891049563200588,
+      "loss": 18.0513,
+      "step": 44620
+    },
+    {
+      "epoch": 0.0661258880481605,
+      "grad_norm": 7.78125,
+      "learning_rate": 0.0004891000173850512,
+      "loss": 18.0185,
+      "step": 44640
+    },
+    {
+      "epoch": 0.0661555143420889,
+      "grad_norm": 6.90625,
+      "learning_rate": 0.0004890950784500437,
+      "loss": 17.9851,
+      "step": 44660
+    },
+    {
+      "epoch": 0.06618514063601728,
+      "grad_norm": 6.65625,
+      "learning_rate": 0.0004890901395150361,
+      "loss": 18.0043,
+      "step": 44680
+    },
+    {
+      "epoch": 0.06621476692994567,
+      "grad_norm": 7.28125,
+      "learning_rate": 0.0004890852005800285,
+      "loss": 17.9712,
+      "step": 44700
+    },
+    {
+      "epoch": 0.06624439322387406,
+      "grad_norm": 7.34375,
+      "learning_rate": 0.000489080261645021,
+      "loss": 18.0501,
+      "step": 44720
+    },
+    {
+      "epoch": 0.06627401951780244,
+      "grad_norm": 7.59375,
+      "learning_rate": 0.0004890753227100134,
+      "loss": 18.029,
+      "step": 44740
+    },
+    {
+      "epoch": 0.06630364581173083,
+      "grad_norm": 6.5625,
+      "learning_rate": 0.0004890703837750059,
+      "loss": 18.0173,
+      "step": 44760
+    },
+    {
+      "epoch": 0.06633327210565922,
+      "grad_norm": 7.71875,
+      "learning_rate": 0.0004890654448399983,
+      "loss": 17.9833,
+      "step": 44780
+    },
+    {
+      "epoch": 0.0663628983995876,
+      "grad_norm": 7.125,
+      "learning_rate": 0.0004890605059049907,
+      "loss": 18.0,
+      "step": 44800
+    },
+    {
+      "epoch": 0.06639252469351599,
+      "grad_norm": 7.15625,
+      "learning_rate": 0.0004890555669699832,
+      "loss": 17.9968,
+      "step": 44820
+    },
+    {
+      "epoch": 0.06642215098744438,
+      "grad_norm": 6.96875,
+      "learning_rate": 0.0004890506280349756,
+      "loss": 18.009,
+      "step": 44840
+    },
+    {
+      "epoch": 0.06645177728137276,
+      "grad_norm": 6.75,
+      "learning_rate": 0.000489045689099968,
+      "loss": 17.9378,
+      "step": 44860
+    },
+    {
+      "epoch": 0.06648140357530115,
+      "grad_norm": 8.625,
+      "learning_rate": 0.0004890407501649604,
+      "loss": 17.9775,
+      "step": 44880
+    },
+    {
+      "epoch": 0.06651102986922953,
+      "grad_norm": 7.28125,
+      "learning_rate": 0.0004890358112299529,
+      "loss": 17.9533,
+      "step": 44900
+    },
+    {
+      "epoch": 0.06654065616315792,
+      "grad_norm": 6.75,
+      "learning_rate": 0.0004890308722949453,
+      "loss": 18.0079,
+      "step": 44920
+    },
+    {
+      "epoch": 0.06657028245708631,
+      "grad_norm": 6.8125,
+      "learning_rate": 0.0004890259333599378,
+      "loss": 17.9616,
+      "step": 44940
+    },
+    {
+      "epoch": 0.0665999087510147,
+      "grad_norm": 7.28125,
+      "learning_rate": 0.0004890209944249302,
+      "loss": 17.9617,
+      "step": 44960
+    },
+    {
+      "epoch": 0.0666295350449431,
+      "grad_norm": 7.25,
+      "learning_rate": 0.0004890160554899227,
+      "loss": 17.9462,
+      "step": 44980
+    },
+    {
+      "epoch": 0.06665916133887148,
+      "grad_norm": 7.21875,
+      "learning_rate": 0.000489011116554915,
+      "loss": 17.8648,
+      "step": 45000
     }
   ],
   "logging_steps": 20,
+  "max_steps": 2025228,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
       "attributes": {}
     }
   },
+  "total_flos": 3.3082299293261365e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1027262c4bd8a4d0ff155140133e02a994449886838662007d5d33ca8bb602f9
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ae6fe7865a6680f0788decd4b8035db04ae39b0ae4392f872489469c00e7d58
 size 5432