Training in progress, step 10500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9da6829b1edfacc61441699b4ac6d5dc6abb737be9152be8f29e5862abecd54
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5fec734d804f38e6a6185a808dee5da674e72210df9519b259fe7268fc0f656
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d9c41bcb1f7e3d0ff7cf1e9246c52eba5532bd32a5af7bbe5d88c8501561fc3
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:0663ccd7ad33c0549c2779e5d083150bba32ec4d7c6fbd8222ef934fa81f78bc
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0f02b717c272316648da49ca6391d63601d6d8e37a3b73ce0655aa44e0b1efd
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:0abf895a019505b4c56af8dcadc1605517fe2ff5671df4ee01bebae31eb06b83
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53471871a37f3cc35b4a656a6f0cfda18046c304a91d9bf8b29b14eea2ccc156
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f96c5626b64f285225e7bd0540a942ee4b22f3baba9f0a0f2189b039b8bf46c
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.6894745734076704,
   "eval_steps": 500,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7175,6 +7175,364 @@
       "eval_samples_per_second": 257.563,
       "eval_steps_per_second": 5.409,
       "step": 10000
     }
   ],
   "logging_steps": 10,
@@ -7194,7 +7552,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.344547305037496e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7739483020780538,
   "eval_steps": 500,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 257.563,
       "eval_steps_per_second": 5.409,
       "step": 10000
+    },
+    {
+      "epoch": 1.691164047981078,
+      "grad_norm": 0.4754472076892853,
+      "learning_rate": 2.4865303937104007e-05,
+      "loss": 4.285601425170898,
+      "step": 10010
+    },
+    {
+      "epoch": 1.6928535225544854,
+      "grad_norm": 0.4589325785636902,
+      "learning_rate": 2.460181551284876e-05,
+      "loss": 4.316444396972656,
+      "step": 10020
+    },
+    {
+      "epoch": 1.6945429971278934,
+      "grad_norm": 0.4686416685581207,
+      "learning_rate": 2.433960581310091e-05,
+      "loss": 4.296805191040039,
+      "step": 10030
+    },
+    {
+      "epoch": 1.6962324717013009,
+      "grad_norm": 0.44992297887802124,
+      "learning_rate": 2.4078677511694776e-05,
+      "loss": 4.326528930664063,
+      "step": 10040
+    },
+    {
+      "epoch": 1.6979219462747086,
+      "grad_norm": 0.460001677274704,
+      "learning_rate": 2.381903326939777e-05,
+      "loss": 4.270325088500977,
+      "step": 10050
+    },
+    {
+      "epoch": 1.6996114208481163,
+      "grad_norm": 0.45742112398147583,
+      "learning_rate": 2.356067573388355e-05,
+      "loss": 4.311310958862305,
+      "step": 10060
+    },
+    {
+      "epoch": 1.7013008954215239,
+      "grad_norm": 0.5051885843276978,
+      "learning_rate": 2.3303607539704628e-05,
+      "loss": 4.305488586425781,
+      "step": 10070
+    },
+    {
+      "epoch": 1.7029903699949316,
+      "grad_norm": 0.460809588432312,
+      "learning_rate": 2.3047831308265845e-05,
+      "loss": 4.284737777709961,
+      "step": 10080
+    },
+    {
+      "epoch": 1.7046798445683393,
+      "grad_norm": 0.48899003863334656,
+      "learning_rate": 2.2793349647797372e-05,
+      "loss": 4.308148956298828,
+      "step": 10090
+    },
+    {
+      "epoch": 1.7063693191417468,
+      "grad_norm": 0.47210270166397095,
+      "learning_rate": 2.2540165153328345e-05,
+      "loss": 4.300167465209961,
+      "step": 10100
+    },
+    {
+      "epoch": 1.7080587937151546,
+      "grad_norm": 0.4561355710029602,
+      "learning_rate": 2.2288280406660237e-05,
+      "loss": 4.295189285278321,
+      "step": 10110
+    },
+    {
+      "epoch": 1.7097482682885623,
+      "grad_norm": 0.4685342013835907,
+      "learning_rate": 2.2037697976340525e-05,
+      "loss": 4.32569465637207,
+      "step": 10120
+    },
+    {
+      "epoch": 1.7114377428619698,
+      "grad_norm": 0.4782038629055023,
+      "learning_rate": 2.1788420417636704e-05,
+      "loss": 4.281776046752929,
+      "step": 10130
+    },
+    {
+      "epoch": 1.7131272174353775,
+      "grad_norm": 0.45496320724487305,
+      "learning_rate": 2.1540450272509986e-05,
+      "loss": 4.289628219604492,
+      "step": 10140
+    },
+    {
+      "epoch": 1.7148166920087853,
+      "grad_norm": 0.4686676263809204,
+      "learning_rate": 2.129379006958944e-05,
+      "loss": 4.304840087890625,
+      "step": 10150
+    },
+    {
+      "epoch": 1.7165061665821928,
+      "grad_norm": 0.45078393816947937,
+      "learning_rate": 2.104844232414634e-05,
+      "loss": 4.333132934570313,
+      "step": 10160
+    },
+    {
+      "epoch": 1.7181956411556008,
+      "grad_norm": 0.4551495313644409,
+      "learning_rate": 2.080440953806844e-05,
+      "loss": 4.313465118408203,
+      "step": 10170
+    },
+    {
+      "epoch": 1.7198851157290083,
+      "grad_norm": 0.46409592032432556,
+      "learning_rate": 2.056169419983432e-05,
+      "loss": 4.303678131103515,
+      "step": 10180
+    },
+    {
+      "epoch": 1.721574590302416,
+      "grad_norm": 0.46051809191703796,
+      "learning_rate": 2.0320298784488177e-05,
+      "loss": 4.297393798828125,
+      "step": 10190
+    },
+    {
+      "epoch": 1.7232640648758237,
+      "grad_norm": 0.541107714176178,
+      "learning_rate": 2.008022575361464e-05,
+      "loss": 4.302070617675781,
+      "step": 10200
+    },
+    {
+      "epoch": 1.7249535394492312,
+      "grad_norm": 0.46840059757232666,
+      "learning_rate": 1.9841477555313428e-05,
+      "loss": 4.290169143676758,
+      "step": 10210
+    },
+    {
+      "epoch": 1.726643014022639,
+      "grad_norm": 0.46939900517463684,
+      "learning_rate": 1.960405662417458e-05,
+      "loss": 4.315706634521485,
+      "step": 10220
+    },
+    {
+      "epoch": 1.7283324885960467,
+      "grad_norm": 0.4771457016468048,
+      "learning_rate": 1.9367965381253632e-05,
+      "loss": 4.289263534545898,
+      "step": 10230
+    },
+    {
+      "epoch": 1.7300219631694542,
+      "grad_norm": 0.48085805773735046,
+      "learning_rate": 1.9133206234046833e-05,
+      "loss": 4.3228507995605465,
+      "step": 10240
+    },
+    {
+      "epoch": 1.731711437742862,
+      "grad_norm": 0.4604587256908417,
+      "learning_rate": 1.8899781576466605e-05,
+      "loss": 4.296081924438477,
+      "step": 10250
+    },
+    {
+      "epoch": 1.7334009123162697,
+      "grad_norm": 0.4865635633468628,
+      "learning_rate": 1.86676937888172e-05,
+      "loss": 4.302744674682617,
+      "step": 10260
+    },
+    {
+      "epoch": 1.7350903868896772,
+      "grad_norm": 0.4594942033290863,
+      "learning_rate": 1.8436945237770347e-05,
+      "loss": 4.3057910919189455,
+      "step": 10270
+    },
+    {
+      "epoch": 1.736779861463085,
+      "grad_norm": 0.4511856734752655,
+      "learning_rate": 1.8207538276341255e-05,
+      "loss": 4.311210632324219,
+      "step": 10280
+    },
+    {
+      "epoch": 1.7384693360364927,
+      "grad_norm": 0.46823564171791077,
+      "learning_rate": 1.7979475243864422e-05,
+      "loss": 4.291423797607422,
+      "step": 10290
+    },
+    {
+      "epoch": 1.7401588106099002,
+      "grad_norm": 0.456841379404068,
+      "learning_rate": 1.7752758465969835e-05,
+      "loss": 4.291481781005859,
+      "step": 10300
+    },
+    {
+      "epoch": 1.7418482851833081,
+      "grad_norm": 0.464433491230011,
+      "learning_rate": 1.7527390254559564e-05,
+      "loss": 4.306121826171875,
+      "step": 10310
+    },
+    {
+      "epoch": 1.7435377597567157,
+      "grad_norm": 0.43991556763648987,
+      "learning_rate": 1.7303372907783646e-05,
+      "loss": 4.288319778442383,
+      "step": 10320
+    },
+    {
+      "epoch": 1.7452272343301232,
+      "grad_norm": 0.4612221121788025,
+      "learning_rate": 1.708070871001704e-05,
+      "loss": 4.296160125732422,
+      "step": 10330
+    },
+    {
+      "epoch": 1.7469167089035311,
+      "grad_norm": 0.4536151587963104,
+      "learning_rate": 1.6859399931836182e-05,
+      "loss": 4.302063751220703,
+      "step": 10340
+    },
+    {
+      "epoch": 1.7486061834769386,
+      "grad_norm": 0.47430509328842163,
+      "learning_rate": 1.663944882999596e-05,
+      "loss": 4.320109176635742,
+      "step": 10350
+    },
+    {
+      "epoch": 1.7502956580503464,
+      "grad_norm": 0.4570671021938324,
+      "learning_rate": 1.6420857647406533e-05,
+      "loss": 4.309846115112305,
+      "step": 10360
+    },
+    {
+      "epoch": 1.751985132623754,
+      "grad_norm": 0.46541541814804077,
+      "learning_rate": 1.6203628613110513e-05,
+      "loss": 4.321808242797852,
+      "step": 10370
+    },
+    {
+      "epoch": 1.7536746071971616,
+      "grad_norm": 0.4689694941043854,
+      "learning_rate": 1.598776394226035e-05,
+      "loss": 4.342444992065429,
+      "step": 10380
+    },
+    {
+      "epoch": 1.7553640817705694,
+      "grad_norm": 0.4656012952327728,
+      "learning_rate": 1.5773265836095615e-05,
+      "loss": 4.284120178222656,
+      "step": 10390
+    },
+    {
+      "epoch": 1.757053556343977,
+      "grad_norm": 0.44993332028388977,
+      "learning_rate": 1.5560136481920583e-05,
+      "loss": 4.305658340454102,
+      "step": 10400
+    },
+    {
+      "epoch": 1.7587430309173846,
+      "grad_norm": 0.45734935998916626,
+      "learning_rate": 1.5348378053081885e-05,
+      "loss": 4.28479232788086,
+      "step": 10410
+    },
+    {
+      "epoch": 1.7604325054907923,
+      "grad_norm": 0.48875826597213745,
+      "learning_rate": 1.5137992708946522e-05,
+      "loss": 4.30067024230957,
+      "step": 10420
+    },
+    {
+      "epoch": 1.7621219800642,
+      "grad_norm": 0.4599165618419647,
+      "learning_rate": 1.4928982594879602e-05,
+      "loss": 4.302487564086914,
+      "step": 10430
+    },
+    {
+      "epoch": 1.7638114546376076,
+      "grad_norm": 0.45845454931259155,
+      "learning_rate": 1.4721349842222623e-05,
+      "loss": 4.285428619384765,
+      "step": 10440
+    },
+    {
+      "epoch": 1.7655009292110155,
+      "grad_norm": 0.4705585539340973,
+      "learning_rate": 1.4515096568271728e-05,
+      "loss": 4.30066032409668,
+      "step": 10450
+    },
+    {
+      "epoch": 1.767190403784423,
+      "grad_norm": 0.47239530086517334,
+      "learning_rate": 1.4310224876256071e-05,
+      "loss": 4.3203174591064455,
+      "step": 10460
+    },
+    {
+      "epoch": 1.7688798783578306,
+      "grad_norm": 0.4652308225631714,
+      "learning_rate": 1.410673685531638e-05,
+      "loss": 4.307133483886719,
+      "step": 10470
+    },
+    {
+      "epoch": 1.7705693529312385,
+      "grad_norm": 0.4624398946762085,
+      "learning_rate": 1.390463458048357e-05,
+      "loss": 4.315113830566406,
+      "step": 10480
+    },
+    {
+      "epoch": 1.772258827504646,
+      "grad_norm": 0.46324899792671204,
+      "learning_rate": 1.3703920112657856e-05,
+      "loss": 4.304290771484375,
+      "step": 10490
+    },
+    {
+      "epoch": 1.7739483020780538,
+      "grad_norm": 0.4670204222202301,
+      "learning_rate": 1.3504595498587378e-05,
+      "loss": 4.301520919799804,
+      "step": 10500
+    },
+    {
+      "epoch": 1.7739483020780538,
+      "eval_loss": 4.273873805999756,
+      "eval_runtime": 4.0508,
+      "eval_samples_per_second": 246.863,
+      "eval_steps_per_second": 5.184,
+      "step": 10500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.511775715466936e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null