Training in progress, step 600, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +212 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d40c404ef2c6591a63d62d374d2ae723dbb012f99f314f1f0721032e50b86c4
 size 2558403928

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ef549acb7bb3a26b9a1d8c83faca397de8618a2dce8c81bde8e287f33fb6c31
 size 2558403928

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ffd4ecbcd1f5cdd5bd52f54030b72efa2c358b8e75c6c4731b1e15ea43bd19c
 size 1313044361

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f91d2444da719f4454789524b172c58bc341e905a9b460651c04a077f667609
 size 1313044361

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fb5c3c2c6a04f8bf56e98b3d5a045f8c1ab465d43652320e01114dda9b0cb0d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0d5dfce4350324a9dd27602ce6d66bb933782beacd43e5d1fc128755bd9060e
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30af866df24edce708e1eb20700878b402fa05707fa9bc5f332496baf440dbbb
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb7fde5111803012042c93a73aa191336bb6e10b3ad44f6bd1d94fc7008a22b6
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e2eb54ad71aa36e8a3c519325614d3113e01de2bc05cb8cce62c849b7fd068c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:27384781b4bab02662f6aa01507d1435cf787b396a01371737e0e695f3099df9
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.24,
   "eval_steps": 500,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -225,6 +225,216 @@
       "learning_rate": 0.00019674914092067015,
       "loss": 8.2001,
       "step": 300
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.48,
   "eval_steps": 500,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00019674914092067015,
       "loss": 8.2001,
       "step": 300
+    },
+    {
+      "epoch": 0.248,
+      "grad_norm": 4.331130027770996,
+      "learning_rate": 0.00019640923091244906,
+      "loss": 8.3479,
+      "step": 310
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 4.888726711273193,
+      "learning_rate": 0.0001960527464775666,
+      "loss": 8.0348,
+      "step": 320
+    },
+    {
+      "epoch": 0.264,
+      "grad_norm": 4.52598762512207,
+      "learning_rate": 0.00019567974890190865,
+      "loss": 7.9916,
+      "step": 330
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 5.109200477600098,
+      "learning_rate": 0.00019529030231025776,
+      "loss": 7.8621,
+      "step": 340
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 4.465454578399658,
+      "learning_rate": 0.0001948844736552688,
+      "loss": 8.1529,
+      "step": 350
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 4.94981050491333,
+      "learning_rate": 0.00019446233270595896,
+      "loss": 7.9475,
+      "step": 360
+    },
+    {
+      "epoch": 0.296,
+      "grad_norm": 4.898144245147705,
+      "learning_rate": 0.00019402395203571286,
+      "loss": 8.1256,
+      "step": 370
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 4.506499767303467,
+      "learning_rate": 0.00019356940700980625,
+      "loss": 7.9425,
+      "step": 380
+    },
+    {
+      "epoch": 0.312,
+      "grad_norm": 4.715751647949219,
+      "learning_rate": 0.00019309877577244924,
+      "loss": 7.8867,
+      "step": 390
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 6.232232570648193,
+      "learning_rate": 0.00019261213923335194,
+      "loss": 8.0137,
+      "step": 400
+    },
+    {
+      "epoch": 0.328,
+      "grad_norm": 5.4095258712768555,
+      "learning_rate": 0.0001921095810538148,
+      "loss": 7.655,
+      "step": 410
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 8.021153450012207,
+      "learning_rate": 0.00019159118763234555,
+      "loss": 8.239,
+      "step": 420
+    },
+    {
+      "epoch": 0.344,
+      "grad_norm": 4.821053504943848,
+      "learning_rate": 0.0001910570480898061,
+      "loss": 7.6991,
+      "step": 430
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 4.676478385925293,
+      "learning_rate": 0.00019050725425409076,
+      "loss": 7.9241,
+      "step": 440
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 6.322430610656738,
+      "learning_rate": 0.0001899419006443397,
+      "loss": 8.0194,
+      "step": 450
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 3.8518083095550537,
+      "learning_rate": 0.0001893610844546894,
+      "loss": 7.7739,
+      "step": 460
+    },
+    {
+      "epoch": 0.376,
+      "grad_norm": 4.104583263397217,
+      "learning_rate": 0.00018876490553756313,
+      "loss": 7.7344,
+      "step": 470
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 5.830111980438232,
+      "learning_rate": 0.00018815346638650487,
+      "loss": 7.4569,
+      "step": 480
+    },
+    {
+      "epoch": 0.392,
+      "grad_norm": 5.279020309448242,
+      "learning_rate": 0.0001875268721185585,
+      "loss": 7.6329,
+      "step": 490
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 6.486227989196777,
+      "learning_rate": 0.00018688523045619674,
+      "loss": 7.6998,
+      "step": 500
+    },
+    {
+      "epoch": 0.408,
+      "grad_norm": 3.6189093589782715,
+      "learning_rate": 0.00018622865170880151,
+      "loss": 7.3692,
+      "step": 510
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 4.793766498565674,
+      "learning_rate": 0.00018555724875369997,
+      "loss": 7.4387,
+      "step": 520
+    },
+    {
+      "epoch": 0.424,
+      "grad_norm": 3.8143932819366455,
+      "learning_rate": 0.00018487113701675883,
+      "loss": 7.6311,
+      "step": 530
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 5.568665027618408,
+      "learning_rate": 0.00018417043445254075,
+      "loss": 7.0967,
+      "step": 540
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 5.059378623962402,
+      "learning_rate": 0.00018345526152402573,
+      "loss": 7.2701,
+      "step": 550
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 5.139848232269287,
+      "learning_rate": 0.00018272574118190167,
+      "loss": 7.2647,
+      "step": 560
+    },
+    {
+      "epoch": 0.456,
+      "grad_norm": 6.435779571533203,
+      "learning_rate": 0.00018198199884342673,
+      "loss": 7.161,
+      "step": 570
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 5.199296951293945,
+      "learning_rate": 0.0001812241623708682,
+      "loss": 7.5137,
+      "step": 580
+    },
+    {
+      "epoch": 0.472,
+      "grad_norm": 4.161045074462891,
+      "learning_rate": 0.00018045236204952044,
+      "loss": 7.356,
+      "step": 590
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 5.084685325622559,
+      "learning_rate": 0.00017966673056530686,
+      "loss": 7.3859,
+      "step": 600
     }
   ],
   "logging_steps": 10,