Training in progress, step 800, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +299 -3

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a30c35cbc8785b8b002f6322557cf314425af21ab83b7f51c23859ba004e393f
 size 4939116424

 version https://git-lfs.github.com/spec/v1
+oid sha256:96eefb2ab4b204e9308bae75f26755bc252532bdfce90c247e78733a4199e1e2
 size 4939116424

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c1c4622df49ffc72bcf3fda3e087cdd3fcdd3a1d56d2ecbbbba441054dbfaf2
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4096a8c7f67ddbd2910b504765f448908fdd008051d764d2428a8cf62c11b3d
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a848c3958efbb12660e0c66dfca39e33220fd5a19d9bef3eb49a4609fc0f8aab
 size 3590619888

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c892e15db6ad07c12e5d0e95b0debfd095cf21e2bf401f6eca45fe7f25d85cb
 size 3590619888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f707da0832c7ea8058a9b33d5b470abf8956d8086c479507d9e0898791f31e49
 size 13688025904

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ab754728a1608ca4beccfa68dff15ae8a33135223828648ca1ace40d391f5d2
 size 13688025904

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9feae33b2fec0a6229240e7adaee6ecc8f5cfdf1a8bd0e827b1d8a241424e3c0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c431bcafebc4c8ee346d130e382b11c81be579ca0bfd3918fae07b16e10b92f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a673aaf85c0fe6b6c29cb8f3e7dbd829eef637110e4ad9a775f3fcf001c92591
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:40b6b717644e21f80a22ec98694b3a2fd9d62a6467e549d64314725dba905d52
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05919786887672044,
   "eval_steps": 200,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -311,6 +311,302 @@
       "eval_samples_per_second": 13.041,
       "eval_steps_per_second": 6.521,
       "step": 400
     }
   ],
   "logging_steps": 10,
@@ -330,7 +626,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.511585861514035e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.11839573775344088,
   "eval_steps": 200,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.041,
       "eval_steps_per_second": 6.521,
       "step": 400
+    },
+    {
+      "epoch": 0.06067781559863845,
+      "grad_norm": 14.375,
+      "learning_rate": 0.00019297764858882514,
+      "loss": 4.2204,
+      "step": 410
+    },
+    {
+      "epoch": 0.06215776232055646,
+      "grad_norm": 17.75,
+      "learning_rate": 0.00019248258232139388,
+      "loss": 3.7817,
+      "step": 420
+    },
+    {
+      "epoch": 0.06363770904247447,
+      "grad_norm": 25.5,
+      "learning_rate": 0.00019197133427991436,
+      "loss": 3.8348,
+      "step": 430
+    },
+    {
+      "epoch": 0.06511765576439248,
+      "grad_norm": 16.375,
+      "learning_rate": 0.00019144399391799043,
+      "loss": 4.1359,
+      "step": 440
+    },
+    {
+      "epoch": 0.0665976024863105,
+      "grad_norm": 126.5,
+      "learning_rate": 0.00019090065350491626,
+      "loss": 3.8639,
+      "step": 450
+    },
+    {
+      "epoch": 0.0680775492082285,
+      "grad_norm": 10.5,
+      "learning_rate": 0.0001903414081095315,
+      "loss": 4.3344,
+      "step": 460
+    },
+    {
+      "epoch": 0.06955749593014651,
+      "grad_norm": 9.625,
+      "learning_rate": 0.00018976635558358722,
+      "loss": 3.7876,
+      "step": 470
+    },
+    {
+      "epoch": 0.07103744265206452,
+      "grad_norm": 12.75,
+      "learning_rate": 0.00018917559654462474,
+      "loss": 4.0847,
+      "step": 480
+    },
+    {
+      "epoch": 0.07251738937398254,
+      "grad_norm": 56.75,
+      "learning_rate": 0.00018856923435837022,
+      "loss": 4.2232,
+      "step": 490
+    },
+    {
+      "epoch": 0.07399733609590055,
+      "grad_norm": 49.0,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 4.3389,
+      "step": 500
+    },
+    {
+      "epoch": 0.07547728281781856,
+      "grad_norm": 7.96875,
+      "learning_rate": 0.00018731012763882133,
+      "loss": 4.1522,
+      "step": 510
+    },
+    {
+      "epoch": 0.07695722953973656,
+      "grad_norm": 10.8125,
+      "learning_rate": 0.00018665760341274505,
+      "loss": 4.0533,
+      "step": 520
+    },
+    {
+      "epoch": 0.07843717626165458,
+      "grad_norm": 18.0,
+      "learning_rate": 0.00018598991661526572,
+      "loss": 4.0835,
+      "step": 530
+    },
+    {
+      "epoch": 0.07991712298357259,
+      "grad_norm": 34.5,
+      "learning_rate": 0.00018530718407223974,
+      "loss": 3.5388,
+      "step": 540
+    },
+    {
+      "epoch": 0.0813970697054906,
+      "grad_norm": 28.375,
+      "learning_rate": 0.00018460952524209355,
+      "loss": 4.2171,
+      "step": 550
+    },
+    {
+      "epoch": 0.08287701642740862,
+      "grad_norm": 13.125,
+      "learning_rate": 0.00018389706219492147,
+      "loss": 4.2511,
+      "step": 560
+    },
+    {
+      "epoch": 0.08435696314932663,
+      "grad_norm": 13.1875,
+      "learning_rate": 0.00018316991959112716,
+      "loss": 3.9025,
+      "step": 570
+    },
+    {
+      "epoch": 0.08583690987124463,
+      "grad_norm": 15.3125,
+      "learning_rate": 0.00018242822465961176,
+      "loss": 4.0034,
+      "step": 580
+    },
+    {
+      "epoch": 0.08731685659316264,
+      "grad_norm": 33.0,
+      "learning_rate": 0.00018167210717551224,
+      "loss": 4.0514,
+      "step": 590
+    },
+    {
+      "epoch": 0.08879680331508066,
+      "grad_norm": 35.0,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 4.0116,
+      "step": 600
+    },
+    {
+      "epoch": 0.08879680331508066,
+      "eval_loss": 4.839527130126953,
+      "eval_runtime": 115.7002,
+      "eval_samples_per_second": 12.982,
+      "eval_steps_per_second": 6.491,
+      "step": 600
+    },
+    {
+      "epoch": 0.09027675003699867,
+      "grad_norm": 9.9375,
+      "learning_rate": 0.00018011713624460608,
+      "loss": 4.2757,
+      "step": 610
+    },
+    {
+      "epoch": 0.09175669675891668,
+      "grad_norm": 9.375,
+      "learning_rate": 0.00017931855487268782,
+      "loss": 3.9496,
+      "step": 620
+    },
+    {
+      "epoch": 0.09323664348083469,
+      "grad_norm": 17.5,
+      "learning_rate": 0.0001785060950503568,
+      "loss": 4.0227,
+      "step": 630
+    },
+    {
+      "epoch": 0.0947165902027527,
+      "grad_norm": 12.0,
+      "learning_rate": 0.00017767989893455698,
+      "loss": 4.3345,
+      "step": 640
+    },
+    {
+      "epoch": 0.09619653692467071,
+      "grad_norm": 40.75,
+      "learning_rate": 0.00017684011108568592,
+      "loss": 3.2456,
+      "step": 650
+    },
+    {
+      "epoch": 0.09767648364658872,
+      "grad_norm": 6.03125,
+      "learning_rate": 0.00017598687844230088,
+      "loss": 4.296,
+      "step": 660
+    },
+    {
+      "epoch": 0.09915643036850673,
+      "grad_norm": 10.75,
+      "learning_rate": 0.00017512035029540885,
+      "loss": 3.8307,
+      "step": 670
+    },
+    {
+      "epoch": 0.10063637709042475,
+      "grad_norm": 11.9375,
+      "learning_rate": 0.000174240678262345,
+      "loss": 3.8659,
+      "step": 680
+    },
+    {
+      "epoch": 0.10211632381234276,
+      "grad_norm": 21.75,
+      "learning_rate": 0.000173348016260244,
+      "loss": 4.0579,
+      "step": 690
+    },
+    {
+      "epoch": 0.10359627053426076,
+      "grad_norm": 29.625,
+      "learning_rate": 0.00017244252047910892,
+      "loss": 3.8463,
+      "step": 700
+    },
+    {
+      "epoch": 0.10507621725617877,
+      "grad_norm": 12.75,
+      "learning_rate": 0.00017152434935448256,
+      "loss": 4.225,
+      "step": 710
+    },
+    {
+      "epoch": 0.1065561639780968,
+      "grad_norm": 9.0625,
+      "learning_rate": 0.0001705936635397259,
+      "loss": 3.5182,
+      "step": 720
+    },
+    {
+      "epoch": 0.1080361107000148,
+      "grad_norm": 14.75,
+      "learning_rate": 0.00016965062587790823,
+      "loss": 4.0649,
+      "step": 730
+    },
+    {
+      "epoch": 0.10951605742193281,
+      "grad_norm": 19.0,
+      "learning_rate": 0.00016869540137331445,
+      "loss": 4.2849,
+      "step": 740
+    },
+    {
+      "epoch": 0.11099600414385082,
+      "grad_norm": 34.5,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 3.65,
+      "step": 750
+    },
+    {
+      "epoch": 0.11247595086576884,
+      "grad_norm": 11.0,
+      "learning_rate": 0.00016674906248541726,
+      "loss": 4.1331,
+      "step": 760
+    },
+    {
+      "epoch": 0.11395589758768684,
+      "grad_norm": 38.0,
+      "learning_rate": 0.00016575828865506245,
+      "loss": 3.5679,
+      "step": 770
+    },
+    {
+      "epoch": 0.11543584430960485,
+      "grad_norm": 9.8125,
+      "learning_rate": 0.0001647560090282419,
+      "loss": 3.573,
+      "step": 780
+    },
+    {
+      "epoch": 0.11691579103152286,
+      "grad_norm": 14.0,
+      "learning_rate": 0.000163742398974869,
+      "loss": 3.9581,
+      "step": 790
+    },
+    {
+      "epoch": 0.11839573775344088,
+      "grad_norm": 20.25,
+      "learning_rate": 0.0001627176358473537,
+      "loss": 4.0812,
+      "step": 800
+    },
+    {
+      "epoch": 0.11839573775344088,
+      "eval_loss": 4.436325550079346,
+      "eval_runtime": 113.0291,
+      "eval_samples_per_second": 13.289,
+      "eval_steps_per_second": 6.644,
+      "step": 800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3006933354296115e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null