Training in progress, step 2000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +352 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:314d749e4dd7abfe5f61b2561f4a91a44ca75ecd1eed4e91397af84284dbe186
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:8691ff71b090554b749389b543d86609cfacdab476bf9bcda11ba39222817d0d
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef4dc31615294601109de6bdb9c8366f58c1c42b24bbdb22c50617985782c033
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:25031bd9459b2ecca16cfe1a60ba2badffd9564c789d995f26a7db2a1e4a8e67
 size 1475248442

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f991cde05bd4bf7e497599ae4e2cc6a082c7ed663e36ba15a2e932ed573a6a1f
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:db7eaec1ca57d40804cf0ff2a2ceba3277ffbb4ac8dc6548b227514adb077117
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7029053420805998,
   "eval_steps": 2.0,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1057,6 +1057,356 @@
       "learning_rate": 2.912136832239925e-05,
       "loss": 0.3308,
       "step": 1500
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9372071227741331,
   "eval_steps": 2.0,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.912136832239925e-05,
       "loss": 0.3308,
       "step": 1500
+    },
+    {
+      "epoch": 0.7075913776944704,
+      "grad_norm": 1.7443350553512573,
+      "learning_rate": 2.9115510777881913e-05,
+      "loss": 0.2742,
+      "step": 1510
+    },
+    {
+      "epoch": 0.7122774133083412,
+      "grad_norm": 1.9482985734939575,
+      "learning_rate": 2.9109653233364575e-05,
+      "loss": 0.3158,
+      "step": 1520
+    },
+    {
+      "epoch": 0.7169634489222118,
+      "grad_norm": 1.6775048971176147,
+      "learning_rate": 2.9103795688847237e-05,
+      "loss": 0.3222,
+      "step": 1530
+    },
+    {
+      "epoch": 0.7216494845360825,
+      "grad_norm": 1.6006051301956177,
+      "learning_rate": 2.9097938144329896e-05,
+      "loss": 0.303,
+      "step": 1540
+    },
+    {
+      "epoch": 0.7263355201499532,
+      "grad_norm": 2.021052360534668,
+      "learning_rate": 2.909208059981256e-05,
+      "loss": 0.2953,
+      "step": 1550
+    },
+    {
+      "epoch": 0.7310215557638238,
+      "grad_norm": 2.0027759075164795,
+      "learning_rate": 2.908622305529522e-05,
+      "loss": 0.3271,
+      "step": 1560
+    },
+    {
+      "epoch": 0.7357075913776945,
+      "grad_norm": 1.6766526699066162,
+      "learning_rate": 2.9080365510777884e-05,
+      "loss": 0.315,
+      "step": 1570
+    },
+    {
+      "epoch": 0.7403936269915652,
+      "grad_norm": 1.3581702709197998,
+      "learning_rate": 2.9074507966260543e-05,
+      "loss": 0.2944,
+      "step": 1580
+    },
+    {
+      "epoch": 0.7450796626054358,
+      "grad_norm": 1.6048952341079712,
+      "learning_rate": 2.9068650421743205e-05,
+      "loss": 0.3317,
+      "step": 1590
+    },
+    {
+      "epoch": 0.7497656982193065,
+      "grad_norm": 2.0446817874908447,
+      "learning_rate": 2.9062792877225867e-05,
+      "loss": 0.3297,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7544517338331771,
+      "grad_norm": 2.3005971908569336,
+      "learning_rate": 2.905693533270853e-05,
+      "loss": 0.2981,
+      "step": 1610
+    },
+    {
+      "epoch": 0.7591377694470478,
+      "grad_norm": 1.601637840270996,
+      "learning_rate": 2.905107778819119e-05,
+      "loss": 0.3108,
+      "step": 1620
+    },
+    {
+      "epoch": 0.7638238050609185,
+      "grad_norm": 1.6310269832611084,
+      "learning_rate": 2.904522024367385e-05,
+      "loss": 0.2934,
+      "step": 1630
+    },
+    {
+      "epoch": 0.7685098406747891,
+      "grad_norm": 1.7142064571380615,
+      "learning_rate": 2.9039362699156517e-05,
+      "loss": 0.3136,
+      "step": 1640
+    },
+    {
+      "epoch": 0.7731958762886598,
+      "grad_norm": 1.5031518936157227,
+      "learning_rate": 2.9033505154639176e-05,
+      "loss": 0.3295,
+      "step": 1650
+    },
+    {
+      "epoch": 0.7778819119025304,
+      "grad_norm": 1.8852213621139526,
+      "learning_rate": 2.902764761012184e-05,
+      "loss": 0.3582,
+      "step": 1660
+    },
+    {
+      "epoch": 0.7825679475164011,
+      "grad_norm": 2.1107571125030518,
+      "learning_rate": 2.90217900656045e-05,
+      "loss": 0.2892,
+      "step": 1670
+    },
+    {
+      "epoch": 0.7872539831302718,
+      "grad_norm": 2.2586848735809326,
+      "learning_rate": 2.9015932521087163e-05,
+      "loss": 0.3282,
+      "step": 1680
+    },
+    {
+      "epoch": 0.7919400187441424,
+      "grad_norm": 1.761014461517334,
+      "learning_rate": 2.9010074976569822e-05,
+      "loss": 0.3297,
+      "step": 1690
+    },
+    {
+      "epoch": 0.7966260543580131,
+      "grad_norm": 1.51633882522583,
+      "learning_rate": 2.9004217432052484e-05,
+      "loss": 0.3342,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8013120899718837,
+      "grad_norm": 1.6662074327468872,
+      "learning_rate": 2.8998359887535147e-05,
+      "loss": 0.3184,
+      "step": 1710
+    },
+    {
+      "epoch": 0.8059981255857545,
+      "grad_norm": 1.925766944885254,
+      "learning_rate": 2.899250234301781e-05,
+      "loss": 0.3004,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8106841611996252,
+      "grad_norm": 2.039914846420288,
+      "learning_rate": 2.8986644798500468e-05,
+      "loss": 0.3238,
+      "step": 1730
+    },
+    {
+      "epoch": 0.8153701968134958,
+      "grad_norm": 1.7044464349746704,
+      "learning_rate": 2.898078725398313e-05,
+      "loss": 0.3099,
+      "step": 1740
+    },
+    {
+      "epoch": 0.8200562324273665,
+      "grad_norm": 2.0358059406280518,
+      "learning_rate": 2.8974929709465793e-05,
+      "loss": 0.309,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8247422680412371,
+      "grad_norm": 1.9068161249160767,
+      "learning_rate": 2.8969072164948455e-05,
+      "loss": 0.3073,
+      "step": 1760
+    },
+    {
+      "epoch": 0.8294283036551078,
+      "grad_norm": 1.69276762008667,
+      "learning_rate": 2.8963214620431114e-05,
+      "loss": 0.2794,
+      "step": 1770
+    },
+    {
+      "epoch": 0.8341143392689785,
+      "grad_norm": 1.8938722610473633,
+      "learning_rate": 2.8957357075913777e-05,
+      "loss": 0.2988,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8388003748828491,
+      "grad_norm": 1.361587405204773,
+      "learning_rate": 2.895149953139644e-05,
+      "loss": 0.3045,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8434864104967198,
+      "grad_norm": 1.8083635568618774,
+      "learning_rate": 2.89456419868791e-05,
+      "loss": 0.2373,
+      "step": 1800
+    },
+    {
+      "epoch": 0.8481724461105904,
+      "grad_norm": 1.8941372632980347,
+      "learning_rate": 2.893978444236176e-05,
+      "loss": 0.2969,
+      "step": 1810
+    },
+    {
+      "epoch": 0.8528584817244611,
+      "grad_norm": 1.6231937408447266,
+      "learning_rate": 2.8933926897844423e-05,
+      "loss": 0.3047,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8575445173383318,
+      "grad_norm": 1.9185701608657837,
+      "learning_rate": 2.8928069353327085e-05,
+      "loss": 0.2988,
+      "step": 1830
+    },
+    {
+      "epoch": 0.8622305529522024,
+      "grad_norm": 2.167684316635132,
+      "learning_rate": 2.8922211808809748e-05,
+      "loss": 0.3174,
+      "step": 1840
+    },
+    {
+      "epoch": 0.8669165885660731,
+      "grad_norm": 1.5613234043121338,
+      "learning_rate": 2.8916354264292407e-05,
+      "loss": 0.3034,
+      "step": 1850
+    },
+    {
+      "epoch": 0.8716026241799437,
+      "grad_norm": 1.938776969909668,
+      "learning_rate": 2.8910496719775072e-05,
+      "loss": 0.3212,
+      "step": 1860
+    },
+    {
+      "epoch": 0.8762886597938144,
+      "grad_norm": 1.797566294670105,
+      "learning_rate": 2.8904639175257735e-05,
+      "loss": 0.2966,
+      "step": 1870
+    },
+    {
+      "epoch": 0.8809746954076851,
+      "grad_norm": 1.7625051736831665,
+      "learning_rate": 2.8898781630740394e-05,
+      "loss": 0.2957,
+      "step": 1880
+    },
+    {
+      "epoch": 0.8856607310215557,
+      "grad_norm": 2.0054209232330322,
+      "learning_rate": 2.8892924086223056e-05,
+      "loss": 0.3161,
+      "step": 1890
+    },
+    {
+      "epoch": 0.8903467666354264,
+      "grad_norm": 1.7838996648788452,
+      "learning_rate": 2.888706654170572e-05,
+      "loss": 0.3208,
+      "step": 1900
+    },
+    {
+      "epoch": 0.895032802249297,
+      "grad_norm": 2.5746254920959473,
+      "learning_rate": 2.888120899718838e-05,
+      "loss": 0.3338,
+      "step": 1910
+    },
+    {
+      "epoch": 0.8997188378631678,
+      "grad_norm": 2.0083072185516357,
+      "learning_rate": 2.887535145267104e-05,
+      "loss": 0.3,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9044048734770385,
+      "grad_norm": 1.6170719861984253,
+      "learning_rate": 2.8869493908153702e-05,
+      "loss": 0.2895,
+      "step": 1930
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 1.9582558870315552,
+      "learning_rate": 2.8863636363636365e-05,
+      "loss": 0.2849,
+      "step": 1940
+    },
+    {
+      "epoch": 0.9137769447047798,
+      "grad_norm": 1.850935697555542,
+      "learning_rate": 2.8857778819119027e-05,
+      "loss": 0.2822,
+      "step": 1950
+    },
+    {
+      "epoch": 0.9184629803186504,
+      "grad_norm": 2.373908042907715,
+      "learning_rate": 2.8851921274601686e-05,
+      "loss": 0.3264,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9231490159325211,
+      "grad_norm": 2.1133532524108887,
+      "learning_rate": 2.884606373008435e-05,
+      "loss": 0.3108,
+      "step": 1970
+    },
+    {
+      "epoch": 0.9278350515463918,
+      "grad_norm": 1.951541543006897,
+      "learning_rate": 2.884020618556701e-05,
+      "loss": 0.264,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9325210871602624,
+      "grad_norm": 1.9710968732833862,
+      "learning_rate": 2.8834348641049673e-05,
+      "loss": 0.3616,
+      "step": 1990
+    },
+    {
+      "epoch": 0.9372071227741331,
+      "grad_norm": 1.7492647171020508,
+      "learning_rate": 2.8828491096532332e-05,
+      "loss": 0.3261,
+      "step": 2000
     }
   ],
   "logging_steps": 10,