Training in progress, step 380, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +154 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0ec5ec60bddcdb7cd4495c196d4c736d2acc5422a89cead9c05237947944583
 size 838906392

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ee5fba5b390fc66cb1e3f32ce959e31a91eb2761e2b006e4624b977adaa6779
 size 838906392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9b36d851f6c92c79d874462b221f2fb965d98ad5f1628c620d0acb8014d249a
 size 639365221

 version https://git-lfs.github.com/spec/v1
+oid sha256:a54a6c36243501fd43d201d1a8f3acc70b557a919ecd49d532133252e27fc165
 size 639365221

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d0c1565ab0ac65993469070bc840463dcbb0cba12990df8bdd934c33cb2d7ab
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2a40a2f0b1c0334b5def0fdf5c80618a0bea05d5e20573d789bb7328ef2eae4
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6263112efb882a4c9ac90f3e55cc6def45a59dd01f17967ec210c01a6df4033
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d56bff5d768bcbc6b1abc460eaac5a172bfe59f1beb9abb05741a0af1e0d811
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 360,
-  "best_metric": 0.3793332874774933,
-  "best_model_checkpoint": "miner_id_24/checkpoint-360",
-  "epoch": 0.6380150642445724,
   "eval_steps": 20,
-  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2680,6 +2680,154 @@
       "eval_samples_per_second": 3.474,
       "eval_steps_per_second": 0.906,
       "step": 360
     }
   ],
   "logging_steps": 1,
@@ -2708,7 +2856,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.165376189366272e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 380,
+  "best_metric": 0.3527662754058838,
+  "best_model_checkpoint": "miner_id_24/checkpoint-380",
+  "epoch": 0.6734603455914931,
   "eval_steps": 20,
+  "global_step": 380,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.474,
       "eval_steps_per_second": 0.906,
       "step": 360
+    },
+    {
+      "epoch": 0.6397873283119184,
+      "grad_norm": 0.19102731347084045,
+      "learning_rate": 0.00017938268614966994,
+      "loss": 0.2565,
+      "step": 361
+    },
+    {
+      "epoch": 0.6415595923792645,
+      "grad_norm": 0.27359429001808167,
+      "learning_rate": 0.00017926896034306332,
+      "loss": 0.3371,
+      "step": 362
+    },
+    {
+      "epoch": 0.6433318564466105,
+      "grad_norm": 0.1932365894317627,
+      "learning_rate": 0.00017915495800101594,
+      "loss": 0.2547,
+      "step": 363
+    },
+    {
+      "epoch": 0.6451041205139566,
+      "grad_norm": 0.19281119108200073,
+      "learning_rate": 0.00017904067952123303,
+      "loss": 0.218,
+      "step": 364
+    },
+    {
+      "epoch": 0.6468763845813026,
+      "grad_norm": 0.3079637289047241,
+      "learning_rate": 0.00017892612530238334,
+      "loss": 0.4615,
+      "step": 365
+    },
+    {
+      "epoch": 0.6486486486486487,
+      "grad_norm": 0.23658387362957,
+      "learning_rate": 0.0001788112957440974,
+      "loss": 0.4055,
+      "step": 366
+    },
+    {
+      "epoch": 0.6504209127159947,
+      "grad_norm": 0.27093634009361267,
+      "learning_rate": 0.00017869619124696634,
+      "loss": 0.409,
+      "step": 367
+    },
+    {
+      "epoch": 0.6521931767833408,
+      "grad_norm": 0.23031426966190338,
+      "learning_rate": 0.00017858081221254048,
+      "loss": 0.3424,
+      "step": 368
+    },
+    {
+      "epoch": 0.6539654408506868,
+      "grad_norm": 0.22337500751018524,
+      "learning_rate": 0.00017846515904332782,
+      "loss": 0.3182,
+      "step": 369
+    },
+    {
+      "epoch": 0.6557377049180327,
+      "grad_norm": 0.2885172963142395,
+      "learning_rate": 0.00017834923214279268,
+      "loss": 0.3405,
+      "step": 370
+    },
+    {
+      "epoch": 0.6575099689853788,
+      "grad_norm": 0.26560068130493164,
+      "learning_rate": 0.00017823303191535442,
+      "loss": 0.3328,
+      "step": 371
+    },
+    {
+      "epoch": 0.6592822330527248,
+      "grad_norm": 0.18252065777778625,
+      "learning_rate": 0.00017811655876638578,
+      "loss": 0.2438,
+      "step": 372
+    },
+    {
+      "epoch": 0.6610544971200709,
+      "grad_norm": 0.19787971675395966,
+      "learning_rate": 0.00017799981310221173,
+      "loss": 0.2515,
+      "step": 373
+    },
+    {
+      "epoch": 0.6628267611874169,
+      "grad_norm": 0.2631565034389496,
+      "learning_rate": 0.00017788279533010785,
+      "loss": 0.3755,
+      "step": 374
+    },
+    {
+      "epoch": 0.664599025254763,
+      "grad_norm": 0.24500946700572968,
+      "learning_rate": 0.00017776550585829896,
+      "loss": 0.3366,
+      "step": 375
+    },
+    {
+      "epoch": 0.666371289322109,
+      "grad_norm": 0.3467278778553009,
+      "learning_rate": 0.00017764794509595786,
+      "loss": 0.5403,
+      "step": 376
+    },
+    {
+      "epoch": 0.6681435533894551,
+      "grad_norm": 0.2552179992198944,
+      "learning_rate": 0.00017753011345320366,
+      "loss": 0.3533,
+      "step": 377
+    },
+    {
+      "epoch": 0.6699158174568011,
+      "grad_norm": 0.3037780225276947,
+      "learning_rate": 0.00017741201134110042,
+      "loss": 0.5212,
+      "step": 378
+    },
+    {
+      "epoch": 0.671688081524147,
+      "grad_norm": 0.29784807562828064,
+      "learning_rate": 0.0001772936391716559,
+      "loss": 0.4664,
+      "step": 379
+    },
+    {
+      "epoch": 0.6734603455914931,
+      "grad_norm": 0.22430609166622162,
+      "learning_rate": 0.00017717499735781983,
+      "loss": 0.2937,
+      "step": 380
+    },
+    {
+      "epoch": 0.6734603455914931,
+      "eval_loss": 0.3527662754058838,
+      "eval_runtime": 13.1985,
+      "eval_samples_per_second": 3.485,
+      "eval_steps_per_second": 0.909,
+      "step": 380
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.674563755442176e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null