Training in progress, epoch 1, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +179 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c693a75292cc1fa3a9f6f73a72febe4c6e07a58a4197545a4c4d4fd6e879b5ee
 size 48552

 version https://git-lfs.github.com/spec/v1
+oid sha256:51dd34513a4fa72c6a40a490cefe2c7c0da0574f3ff7b502150801b8b3ac1912
 size 48552

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:294259cb2c0619098026d5dab6b1d13ce9ce514c68aaa0eb013550087742d2a7
 size 107046

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e416c953720231f41d31a3f85c68a502f5c35eba038071e85319b8eec10ce37
 size 107046

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aa86072d894b06ed15a781ebf27303cfbb0a54143c21949f75c3251dd2ec55c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b97e51ea9f5d34aebc6d066d7c2fb7a20dbec78f27d117049f04bf79c02536c3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7962e06291987b3327e85ffe1a0f48aec5a6651b8b5139bec8a1fd5526407429
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a277d82c7576fb11769cdddd31bacd8b5bc730226a0e626981ae85a7a41efa44
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9979035639412998,
   "eval_steps": 500,
-  "global_step": 119,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -176,6 +176,182 @@
       "eval_samples_per_second": 242.779,
       "eval_steps_per_second": 62.498,
       "step": 119
     }
   ],
   "logging_steps": 5,
@@ -195,7 +371,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 134180413440.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9958071278825997,
   "eval_steps": 500,
+  "global_step": 238,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 242.779,
       "eval_steps_per_second": 62.498,
       "step": 119
+    },
+    {
+      "epoch": 1.0062893081761006,
+      "grad_norm": 0.10388734191656113,
+      "learning_rate": 0.00012713675213675213,
+      "loss": 13.7207,
+      "step": 120
+    },
+    {
+      "epoch": 1.0482180293501049,
+      "grad_norm": 0.028476731851696968,
+      "learning_rate": 0.0001217948717948718,
+      "loss": 11.9223,
+      "step": 125
+    },
+    {
+      "epoch": 1.090146750524109,
+      "grad_norm": 0.0434449277818203,
+      "learning_rate": 0.00011645299145299146,
+      "loss": 11.9223,
+      "step": 130
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "grad_norm": 0.09088350832462311,
+      "learning_rate": 0.0001111111111111111,
+      "loss": 11.9366,
+      "step": 135
+    },
+    {
+      "epoch": 1.1740041928721174,
+      "grad_norm": 0.07184627652168274,
+      "learning_rate": 0.00010576923076923077,
+      "loss": 11.5661,
+      "step": 140
+    },
+    {
+      "epoch": 1.2159329140461215,
+      "grad_norm": 0.04500441253185272,
+      "learning_rate": 0.00010042735042735043,
+      "loss": 12.3022,
+      "step": 145
+    },
+    {
+      "epoch": 1.2578616352201257,
+      "grad_norm": 0.029749717563390732,
+      "learning_rate": 9.508547008547008e-05,
+      "loss": 11.9321,
+      "step": 150
+    },
+    {
+      "epoch": 1.29979035639413,
+      "grad_norm": 0.046956080943346024,
+      "learning_rate": 8.974358974358975e-05,
+      "loss": 11.8407,
+      "step": 155
+    },
+    {
+      "epoch": 1.3417190775681342,
+      "grad_norm": 0.06576091051101685,
+      "learning_rate": 8.440170940170941e-05,
+      "loss": 11.9356,
+      "step": 160
+    },
+    {
+      "epoch": 1.3836477987421385,
+      "grad_norm": 0.056520890444517136,
+      "learning_rate": 7.905982905982905e-05,
+      "loss": 11.9497,
+      "step": 165
+    },
+    {
+      "epoch": 1.4255765199161425,
+      "grad_norm": 0.05084730684757233,
+      "learning_rate": 7.371794871794872e-05,
+      "loss": 11.5847,
+      "step": 170
+    },
+    {
+      "epoch": 1.4675052410901468,
+      "grad_norm": 0.03961843624711037,
+      "learning_rate": 6.837606837606838e-05,
+      "loss": 12.261,
+      "step": 175
+    },
+    {
+      "epoch": 1.509433962264151,
+      "grad_norm": 0.03475997969508171,
+      "learning_rate": 6.303418803418804e-05,
+      "loss": 11.8777,
+      "step": 180
+    },
+    {
+      "epoch": 1.551362683438155,
+      "grad_norm": 0.028086921200156212,
+      "learning_rate": 5.76923076923077e-05,
+      "loss": 11.9761,
+      "step": 185
+    },
+    {
+      "epoch": 1.5932914046121593,
+      "grad_norm": 0.046144578605890274,
+      "learning_rate": 5.2350427350427356e-05,
+      "loss": 11.8616,
+      "step": 190
+    },
+    {
+      "epoch": 1.6352201257861636,
+      "grad_norm": 0.05854855850338936,
+      "learning_rate": 4.700854700854701e-05,
+      "loss": 11.9751,
+      "step": 195
+    },
+    {
+      "epoch": 1.6771488469601676,
+      "grad_norm": 0.035215962678194046,
+      "learning_rate": 4.1666666666666665e-05,
+      "loss": 11.9493,
+      "step": 200
+    },
+    {
+      "epoch": 1.719077568134172,
+      "grad_norm": 0.06034635007381439,
+      "learning_rate": 3.632478632478633e-05,
+      "loss": 11.8182,
+      "step": 205
+    },
+    {
+      "epoch": 1.7610062893081762,
+      "grad_norm": 0.027154497802257538,
+      "learning_rate": 3.098290598290598e-05,
+      "loss": 11.9445,
+      "step": 210
+    },
+    {
+      "epoch": 1.8029350104821802,
+      "grad_norm": 0.055567361414432526,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 11.9099,
+      "step": 215
+    },
+    {
+      "epoch": 1.8448637316561844,
+      "grad_norm": 0.04124658182263374,
+      "learning_rate": 2.02991452991453e-05,
+      "loss": 11.7515,
+      "step": 220
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.047468505799770355,
+      "learning_rate": 1.4957264957264958e-05,
+      "loss": 12.3221,
+      "step": 225
+    },
+    {
+      "epoch": 1.9287211740041927,
+      "grad_norm": 0.04315986856818199,
+      "learning_rate": 9.615384615384616e-06,
+      "loss": 11.6918,
+      "step": 230
+    },
+    {
+      "epoch": 1.9706498951781972,
+      "grad_norm": 0.08445514738559723,
+      "learning_rate": 4.273504273504274e-06,
+      "loss": 12.0431,
+      "step": 235
+    },
+    {
+      "epoch": 1.9958071278825997,
+      "eval_loss": 11.917438507080078,
+      "eval_runtime": 0.4203,
+      "eval_samples_per_second": 240.321,
+      "eval_steps_per_second": 61.865,
+      "step": 238
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 268360826880.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null