Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88dd721178de7cb9a4bacf024fc5633ddcfb9a0c3e0c623a628ad9477d487830
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:86977870d3df332c5c975d8b4f0d570e4557c1d4fd4364b77a5fac955fe62c58
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5aaf7eff4e98edf3615725ee84d901bec88b6934e6cc793a70cccc1ba139f1b1
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:2be2d6cc85c202403ae7a604b614b11bb028322263b6e955934cf8a2d4ef8092
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5c11efa1814b5739819e47e5bc390045b533d07baee31a6d67f2f2c2f772d60
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:a141ddada80b12146ad2875b480471ca4604a84a507446df6ce95668765adaf4
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2219b103874c49a564cb9902ed8bfe290939ff6276f6750739e5f7ca5ec6aba7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a6e444c46ec49de792e4afbe9af4aa4613bca60425da2b0ac2cae225e516fcc
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.25342118601115055,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 273.42,
       "eval_steps_per_second": 5.742,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1108,7 +1466,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.0168523128832e+16,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.33789491468153404,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 273.42,
       "eval_steps_per_second": 5.742,
       "step": 1500
+    },
+    {
+      "epoch": 0.2551106605845582,
+      "grad_norm": 1.0919352769851685,
+      "learning_rate": 0.00022634999999999997,
+      "loss": 6.026215362548828,
+      "step": 1510
+    },
+    {
+      "epoch": 0.25680013515796585,
+      "grad_norm": 1.3346214294433594,
+      "learning_rate": 0.00022784999999999995,
+      "loss": 6.008599853515625,
+      "step": 1520
+    },
+    {
+      "epoch": 0.2584896097313735,
+      "grad_norm": 1.1746716499328613,
+      "learning_rate": 0.00022934999999999996,
+      "loss": 6.000596237182617,
+      "step": 1530
+    },
+    {
+      "epoch": 0.2601790843047812,
+      "grad_norm": 1.3233295679092407,
+      "learning_rate": 0.00023084999999999997,
+      "loss": 5.987121963500977,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2618685588781889,
+      "grad_norm": 1.100151538848877,
+      "learning_rate": 0.00023234999999999998,
+      "loss": 5.969198989868164,
+      "step": 1550
+    },
+    {
+      "epoch": 0.26355803345159656,
+      "grad_norm": 1.2537919282913208,
+      "learning_rate": 0.00023384999999999997,
+      "loss": 5.984016799926758,
+      "step": 1560
+    },
+    {
+      "epoch": 0.26524750802500424,
+      "grad_norm": 1.1768131256103516,
+      "learning_rate": 0.00023534999999999997,
+      "loss": 5.939444351196289,
+      "step": 1570
+    },
+    {
+      "epoch": 0.2669369825984119,
+      "grad_norm": 1.2292706966400146,
+      "learning_rate": 0.00023684999999999998,
+      "loss": 5.919222640991211,
+      "step": 1580
+    },
+    {
+      "epoch": 0.26862645717181954,
+      "grad_norm": 1.238836646080017,
+      "learning_rate": 0.00023834999999999997,
+      "loss": 5.898630523681641,
+      "step": 1590
+    },
+    {
+      "epoch": 0.2703159317452272,
+      "grad_norm": 1.2855571508407593,
+      "learning_rate": 0.00023984999999999998,
+      "loss": 5.876305770874024,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2720054063186349,
+      "grad_norm": 1.4104335308074951,
+      "learning_rate": 0.00024134999999999998,
+      "loss": 5.877520751953125,
+      "step": 1610
+    },
+    {
+      "epoch": 0.2736948808920426,
+      "grad_norm": 1.5187318325042725,
+      "learning_rate": 0.00024284999999999997,
+      "loss": 5.858504104614258,
+      "step": 1620
+    },
+    {
+      "epoch": 0.27538435546545026,
+      "grad_norm": 1.377790927886963,
+      "learning_rate": 0.00024435,
+      "loss": 5.84985237121582,
+      "step": 1630
+    },
+    {
+      "epoch": 0.27707383003885794,
+      "grad_norm": 1.229879379272461,
+      "learning_rate": 0.00024585,
+      "loss": 5.843402481079101,
+      "step": 1640
+    },
+    {
+      "epoch": 0.27876330461226556,
+      "grad_norm": 1.2364217042922974,
+      "learning_rate": 0.00024734999999999997,
+      "loss": 5.847615814208984,
+      "step": 1650
+    },
+    {
+      "epoch": 0.28045277918567324,
+      "grad_norm": 1.4544086456298828,
+      "learning_rate": 0.00024885,
+      "loss": 5.815377044677734,
+      "step": 1660
+    },
+    {
+      "epoch": 0.2821422537590809,
+      "grad_norm": 1.269540548324585,
+      "learning_rate": 0.00025035,
+      "loss": 5.808202743530273,
+      "step": 1670
+    },
+    {
+      "epoch": 0.2838317283324886,
+      "grad_norm": 1.237269639968872,
+      "learning_rate": 0.00025184999999999997,
+      "loss": 5.786721038818359,
+      "step": 1680
+    },
+    {
+      "epoch": 0.2855212029058963,
+      "grad_norm": 1.135298728942871,
+      "learning_rate": 0.00025335,
+      "loss": 5.777352905273437,
+      "step": 1690
+    },
+    {
+      "epoch": 0.28721067747930396,
+      "grad_norm": 1.1918985843658447,
+      "learning_rate": 0.00025485,
+      "loss": 5.768022155761718,
+      "step": 1700
+    },
+    {
+      "epoch": 0.28890015205271163,
+      "grad_norm": 1.3782885074615479,
+      "learning_rate": 0.00025634999999999997,
+      "loss": 5.738377380371094,
+      "step": 1710
+    },
+    {
+      "epoch": 0.29058962662611926,
+      "grad_norm": 1.134222388267517,
+      "learning_rate": 0.00025785,
+      "loss": 5.724631881713867,
+      "step": 1720
+    },
+    {
+      "epoch": 0.29227910119952694,
+      "grad_norm": 1.2719522714614868,
+      "learning_rate": 0.00025935,
+      "loss": 5.722209548950195,
+      "step": 1730
+    },
+    {
+      "epoch": 0.2939685757729346,
+      "grad_norm": 1.251943588256836,
+      "learning_rate": 0.00026084999999999997,
+      "loss": 5.725202178955078,
+      "step": 1740
+    },
+    {
+      "epoch": 0.2956580503463423,
+      "grad_norm": 1.300807237625122,
+      "learning_rate": 0.00026235,
+      "loss": 5.684838104248047,
+      "step": 1750
+    },
+    {
+      "epoch": 0.29734752491975,
+      "grad_norm": 1.2968693971633911,
+      "learning_rate": 0.00026384999999999994,
+      "loss": 5.672579574584961,
+      "step": 1760
+    },
+    {
+      "epoch": 0.29903699949315765,
+      "grad_norm": 1.4650030136108398,
+      "learning_rate": 0.00026534999999999997,
+      "loss": 5.692106628417969,
+      "step": 1770
+    },
+    {
+      "epoch": 0.3007264740665653,
+      "grad_norm": 1.1156189441680908,
+      "learning_rate": 0.00026684999999999995,
+      "loss": 5.697267532348633,
+      "step": 1780
+    },
+    {
+      "epoch": 0.30241594863997295,
+      "grad_norm": 1.0905269384384155,
+      "learning_rate": 0.00026835,
+      "loss": 5.677012252807617,
+      "step": 1790
+    },
+    {
+      "epoch": 0.30410542321338063,
+      "grad_norm": 1.0555003881454468,
+      "learning_rate": 0.00026984999999999997,
+      "loss": 5.644785690307617,
+      "step": 1800
+    },
+    {
+      "epoch": 0.3057948977867883,
+      "grad_norm": 1.206852674484253,
+      "learning_rate": 0.00027134999999999995,
+      "loss": 5.650784683227539,
+      "step": 1810
+    },
+    {
+      "epoch": 0.307484372360196,
+      "grad_norm": 1.0717716217041016,
+      "learning_rate": 0.00027285,
+      "loss": 5.6479450225830075,
+      "step": 1820
+    },
+    {
+      "epoch": 0.30917384693360367,
+      "grad_norm": 1.0180162191390991,
+      "learning_rate": 0.00027435,
+      "loss": 5.632009124755859,
+      "step": 1830
+    },
+    {
+      "epoch": 0.3108633215070113,
+      "grad_norm": 0.9351494312286377,
+      "learning_rate": 0.00027584999999999996,
+      "loss": 5.627917861938476,
+      "step": 1840
+    },
+    {
+      "epoch": 0.31255279608041897,
+      "grad_norm": 0.8904699683189392,
+      "learning_rate": 0.00027735,
+      "loss": 5.613273620605469,
+      "step": 1850
+    },
+    {
+      "epoch": 0.31424227065382665,
+      "grad_norm": 1.1156349182128906,
+      "learning_rate": 0.00027885,
+      "loss": 5.610797500610351,
+      "step": 1860
+    },
+    {
+      "epoch": 0.31593174522723433,
+      "grad_norm": 0.917955756187439,
+      "learning_rate": 0.00028034999999999996,
+      "loss": 5.574711608886719,
+      "step": 1870
+    },
+    {
+      "epoch": 0.317621219800642,
+      "grad_norm": 1.1224439144134521,
+      "learning_rate": 0.00028185,
+      "loss": 5.58685302734375,
+      "step": 1880
+    },
+    {
+      "epoch": 0.3193106943740497,
+      "grad_norm": 1.0313713550567627,
+      "learning_rate": 0.00028335,
+      "loss": 5.588331604003907,
+      "step": 1890
+    },
+    {
+      "epoch": 0.32100016894745736,
+      "grad_norm": 1.096855640411377,
+      "learning_rate": 0.00028484999999999996,
+      "loss": 5.575931167602539,
+      "step": 1900
+    },
+    {
+      "epoch": 0.322689643520865,
+      "grad_norm": 0.8591592907905579,
+      "learning_rate": 0.00028635,
+      "loss": 5.540657424926758,
+      "step": 1910
+    },
+    {
+      "epoch": 0.32437911809427267,
+      "grad_norm": 1.1796208620071411,
+      "learning_rate": 0.00028785,
+      "loss": 5.564044570922851,
+      "step": 1920
+    },
+    {
+      "epoch": 0.32606859266768035,
+      "grad_norm": 0.9250476956367493,
+      "learning_rate": 0.00028934999999999996,
+      "loss": 5.519792938232422,
+      "step": 1930
+    },
+    {
+      "epoch": 0.327758067241088,
+      "grad_norm": 0.9715807437896729,
+      "learning_rate": 0.00029085,
+      "loss": 5.500622177124024,
+      "step": 1940
+    },
+    {
+      "epoch": 0.3294475418144957,
+      "grad_norm": 1.1288410425186157,
+      "learning_rate": 0.00029235,
+      "loss": 5.510457992553711,
+      "step": 1950
+    },
+    {
+      "epoch": 0.3311370163879034,
+      "grad_norm": 1.0267224311828613,
+      "learning_rate": 0.00029384999999999996,
+      "loss": 5.515892410278321,
+      "step": 1960
+    },
+    {
+      "epoch": 0.332826490961311,
+      "grad_norm": 0.9299217462539673,
+      "learning_rate": 0.00029535,
+      "loss": 5.497806549072266,
+      "step": 1970
+    },
+    {
+      "epoch": 0.3345159655347187,
+      "grad_norm": 0.8507487177848816,
+      "learning_rate": 0.00029685,
+      "loss": 5.51197395324707,
+      "step": 1980
+    },
+    {
+      "epoch": 0.33620544010812636,
+      "grad_norm": 1.2946738004684448,
+      "learning_rate": 0.00029835,
+      "loss": 5.4707691192626955,
+      "step": 1990
+    },
+    {
+      "epoch": 0.33789491468153404,
+      "grad_norm": 1.0442086458206177,
+      "learning_rate": 0.00029985,
+      "loss": 5.485482788085937,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33789491468153404,
+      "eval_loss": 5.448777198791504,
+      "eval_runtime": 3.6956,
+      "eval_samples_per_second": 270.591,
+      "eval_steps_per_second": 5.682,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.6891364171776e+16,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null