Training in progress, step 20000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +291 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f397f4e5642ab9da594752daa8ae50f67bd1c0633a0f55e9742963fc8094fc07
 size 373077376

 version https://git-lfs.github.com/spec/v1
+oid sha256:df03cae2dd432c211456aab943782bf83ba84e08565c4c981659cb89c83a578e
 size 373077376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2947a98ddfbd91d8b159be483158ff85ad080e24af7608cd8524985d5ff37696
 size 209816139

 version https://git-lfs.github.com/spec/v1
+oid sha256:4292287a7fa690fe53e7b389faee8373877f88d995cc45d3321aeb77bf8c4af6
 size 209816139

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4bf7692b5f5edcd474e14a77a5f13e3f7c7765bb40a870ecf6eeef166453cdc
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:22e8bb13b8b5cd110e015717953ca96d5c03c35ddfe30ca45c1fab9651d07421
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67c08732e07123ac792d039d19d16df7f1963cb3c04d8bb64d087ce8609b973b
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:76ace0471241ab08ffd32878e593821b741d6b0b68bcb601ea44671e5ef83eef
 size 14917

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c27272cd09ade13a826f643a30f8708da8615de25fd4349edd6f9144bb4f5503
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba4436ed0869bacf238e760f8e2f2044a22ff86693a77a3015046ef89f00fc7e
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 2000,
   "best_metric": 9.218317031860352,
   "best_model_checkpoint": "./artifacts/models/base-250725-test/checkpoint-2000",
-  "epoch": 0.05933902571565988,
   "eval_steps": 1000,
-  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5480,6 +5480,294 @@
       "eval_samples_per_second": 50.899,
       "eval_steps_per_second": 3.189,
       "step": 19000
     }
   ],
   "logging_steps": 25,
@@ -5499,7 +5787,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.4094740084298875e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 2000,
   "best_metric": 9.218317031860352,
   "best_model_checkpoint": "./artifacts/models/base-250725-test/checkpoint-2000",
+  "epoch": 0.06246213233227356,
   "eval_steps": 1000,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 50.899,
       "eval_steps_per_second": 3.189,
       "step": 19000
+    },
+    {
+      "epoch": 0.059417103381075226,
+      "grad_norm": 41.5,
+      "learning_rate": 0.0009997577752880041,
+      "loss": 32.8132,
+      "step": 19025
+    },
+    {
+      "epoch": 0.05949518104649056,
+      "grad_norm": 43.75,
+      "learning_rate": 0.0009997537406276557,
+      "loss": 32.9501,
+      "step": 19050
+    },
+    {
+      "epoch": 0.059573258711905906,
+      "grad_norm": 45.25,
+      "learning_rate": 0.0009997496726505228,
+      "loss": 32.7061,
+      "step": 19075
+    },
+    {
+      "epoch": 0.05965133637732125,
+      "grad_norm": 37.5,
+      "learning_rate": 0.0009997455713568763,
+      "loss": 32.7181,
+      "step": 19100
+    },
+    {
+      "epoch": 0.059729414042736594,
+      "grad_norm": 41.0,
+      "learning_rate": 0.00099974143674699,
+      "loss": 32.554,
+      "step": 19125
+    },
+    {
+      "epoch": 0.05980749170815193,
+      "grad_norm": 41.5,
+      "learning_rate": 0.0009997372688211395,
+      "loss": 32.7137,
+      "step": 19150
+    },
+    {
+      "epoch": 0.059885569373567274,
+      "grad_norm": 45.0,
+      "learning_rate": 0.0009997330675796023,
+      "loss": 33.0025,
+      "step": 19175
+    },
+    {
+      "epoch": 0.05996364703898262,
+      "grad_norm": 42.0,
+      "learning_rate": 0.000999728833022659,
+      "loss": 32.9643,
+      "step": 19200
+    },
+    {
+      "epoch": 0.06004172470439796,
+      "grad_norm": 52.5,
+      "learning_rate": 0.0009997245651505915,
+      "loss": 32.8268,
+      "step": 19225
+    },
+    {
+      "epoch": 0.0601198023698133,
+      "grad_norm": 43.0,
+      "learning_rate": 0.0009997202639636844,
+      "loss": 32.8,
+      "step": 19250
+    },
+    {
+      "epoch": 0.06019788003522864,
+      "grad_norm": 56.5,
+      "learning_rate": 0.0009997159294622246,
+      "loss": 32.9133,
+      "step": 19275
+    },
+    {
+      "epoch": 0.060275957700643985,
+      "grad_norm": 44.25,
+      "learning_rate": 0.000999711561646501,
+      "loss": 32.8573,
+      "step": 19300
+    },
+    {
+      "epoch": 0.06035403536605933,
+      "grad_norm": 44.0,
+      "learning_rate": 0.0009997071605168043,
+      "loss": 32.7512,
+      "step": 19325
+    },
+    {
+      "epoch": 0.060432113031474666,
+      "grad_norm": 36.5,
+      "learning_rate": 0.000999702726073429,
+      "loss": 32.9202,
+      "step": 19350
+    },
+    {
+      "epoch": 0.06051019069689001,
+      "grad_norm": 40.0,
+      "learning_rate": 0.0009996982583166695,
+      "loss": 32.942,
+      "step": 19375
+    },
+    {
+      "epoch": 0.06058826836230535,
+      "grad_norm": 39.0,
+      "learning_rate": 0.0009996937572468246,
+      "loss": 32.8775,
+      "step": 19400
+    },
+    {
+      "epoch": 0.0606663460277207,
+      "grad_norm": 37.0,
+      "learning_rate": 0.000999689222864194,
+      "loss": 32.8532,
+      "step": 19425
+    },
+    {
+      "epoch": 0.06074442369313603,
+      "grad_norm": 47.25,
+      "learning_rate": 0.0009996846551690798,
+      "loss": 32.9941,
+      "step": 19450
+    },
+    {
+      "epoch": 0.06082250135855138,
+      "grad_norm": 38.0,
+      "learning_rate": 0.0009996800541617868,
+      "loss": 32.8616,
+      "step": 19475
+    },
+    {
+      "epoch": 0.06090057902396672,
+      "grad_norm": 39.5,
+      "learning_rate": 0.0009996754198426216,
+      "loss": 32.9031,
+      "step": 19500
+    },
+    {
+      "epoch": 0.060978656689382064,
+      "grad_norm": 44.5,
+      "learning_rate": 0.0009996707522118933,
+      "loss": 33.0028,
+      "step": 19525
+    },
+    {
+      "epoch": 0.0610567343547974,
+      "grad_norm": 39.75,
+      "learning_rate": 0.0009996660512699128,
+      "loss": 32.8195,
+      "step": 19550
+    },
+    {
+      "epoch": 0.061134812020212745,
+      "grad_norm": 40.75,
+      "learning_rate": 0.0009996613170169936,
+      "loss": 32.571,
+      "step": 19575
+    },
+    {
+      "epoch": 0.06121288968562809,
+      "grad_norm": 36.75,
+      "learning_rate": 0.0009996565494534517,
+      "loss": 32.5517,
+      "step": 19600
+    },
+    {
+      "epoch": 0.06129096735104343,
+      "grad_norm": 38.0,
+      "learning_rate": 0.0009996517485796044,
+      "loss": 32.5484,
+      "step": 19625
+    },
+    {
+      "epoch": 0.06136904501645877,
+      "grad_norm": 41.75,
+      "learning_rate": 0.000999646914395772,
+      "loss": 32.5895,
+      "step": 19650
+    },
+    {
+      "epoch": 0.06144712268187411,
+      "grad_norm": 42.0,
+      "learning_rate": 0.0009996420469022766,
+      "loss": 32.8765,
+      "step": 19675
+    },
+    {
+      "epoch": 0.061525200347289456,
+      "grad_norm": 38.5,
+      "learning_rate": 0.0009996371460994431,
+      "loss": 32.8793,
+      "step": 19700
+    },
+    {
+      "epoch": 0.0616032780127048,
+      "grad_norm": 40.25,
+      "learning_rate": 0.0009996322119875977,
+      "loss": 33.0708,
+      "step": 19725
+    },
+    {
+      "epoch": 0.06168135567812014,
+      "grad_norm": 38.0,
+      "learning_rate": 0.00099962724456707,
+      "loss": 33.188,
+      "step": 19750
+    },
+    {
+      "epoch": 0.06175943334353548,
+      "grad_norm": 49.0,
+      "learning_rate": 0.0009996222438381904,
+      "loss": 33.2918,
+      "step": 19775
+    },
+    {
+      "epoch": 0.061837511008950824,
+      "grad_norm": 44.75,
+      "learning_rate": 0.0009996172098012928,
+      "loss": 33.4949,
+      "step": 19800
+    },
+    {
+      "epoch": 0.06191558867436617,
+      "grad_norm": 43.25,
+      "learning_rate": 0.0009996121424567126,
+      "loss": 33.8741,
+      "step": 19825
+    },
+    {
+      "epoch": 0.061993666339781504,
+      "grad_norm": 41.75,
+      "learning_rate": 0.0009996070418047877,
+      "loss": 33.6041,
+      "step": 19850
+    },
+    {
+      "epoch": 0.06207174400519685,
+      "grad_norm": 40.25,
+      "learning_rate": 0.000999601907845858,
+      "loss": 33.6722,
+      "step": 19875
+    },
+    {
+      "epoch": 0.06214982167061219,
+      "grad_norm": 40.5,
+      "learning_rate": 0.000999596740580266,
+      "loss": 33.484,
+      "step": 19900
+    },
+    {
+      "epoch": 0.062227899336027535,
+      "grad_norm": 46.25,
+      "learning_rate": 0.000999591540008356,
+      "loss": 33.7352,
+      "step": 19925
+    },
+    {
+      "epoch": 0.06230597700144287,
+      "grad_norm": 48.5,
+      "learning_rate": 0.0009995863061304747,
+      "loss": 33.9541,
+      "step": 19950
+    },
+    {
+      "epoch": 0.062384054666858216,
+      "grad_norm": 44.0,
+      "learning_rate": 0.0009995810389469711,
+      "loss": 34.2383,
+      "step": 19975
+    },
+    {
+      "epoch": 0.06246213233227356,
+      "grad_norm": 40.75,
+      "learning_rate": 0.0009995757384581964,
+      "loss": 33.8251,
+      "step": 20000
+    },
+    {
+      "epoch": 0.06246213233227356,
+      "eval_loss": 34.19303512573242,
+      "eval_runtime": 102.3811,
+      "eval_samples_per_second": 50.82,
+      "eval_steps_per_second": 3.184,
+      "step": 20000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 2.53630733446493e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null