Training in progress, step 1650, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +231 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d37e22ad9d6da6d8732f1a6b4e2b09b77b82394aa5619162ee36c25251a8741
 size 2126429216

 version https://git-lfs.github.com/spec/v1
+oid sha256:987c964caa043df61d6919d7c2fb1d162e69bf2662bf67d2c59428669f72381f
 size 2126429216

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6c2f4a14c87edf3c6405495bebe373bbdf5b29e71dc7f1a6ef5a99f4a627f4e
 size 4186608315

 version https://git-lfs.github.com/spec/v1
+oid sha256:b37e7aaf8d81b1ba57561743bd5eeae0553e3a90edab65bb39440adcc7a0a27f
 size 4186608315

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da9f9471dfac42496c93461674c458d70747450b67bd8051b34eef16b9095ee5
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2d88a48b5cbc6899f701738d3c67dd40260b67e1a0aaf2bec52454e73d2f5a0
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:483163757d9ed2641ce9369f6fa7036be52ec0b0271d246796d9f4564400a1aa
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:15752b21f4d27e50797678708d53c344f05d78ca10445bdf5c130c9e5677dedc
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.45603886246681213,
-  "best_model_checkpoint": "./output/checkpoint-1350",
-  "epoch": 0.2781784463218628,
   "eval_steps": 150,
-  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1024,6 +1024,232 @@
       "eval_samples_per_second": 5.738,
       "eval_steps_per_second": 5.738,
       "step": 1350
     }
   ],
   "logging_steps": 10,
@@ -1043,7 +1269,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.55823168886186e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4438916742801666,
+  "best_model_checkpoint": "./output/checkpoint-1650",
+  "epoch": 0.3399958788378323,
   "eval_steps": 150,
+  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.738,
       "eval_steps_per_second": 5.738,
       "step": 1350
+    },
+    {
+      "epoch": 0.2802390274057284,
+      "grad_norm": 2.083104372024536,
+      "learning_rate": 8.455313244934327e-05,
+      "loss": 0.4565,
+      "step": 1360
+    },
+    {
+      "epoch": 0.28229960848959407,
+      "grad_norm": 2.56447434425354,
+      "learning_rate": 8.432071702457255e-05,
+      "loss": 0.451,
+      "step": 1370
+    },
+    {
+      "epoch": 0.2843601895734597,
+      "grad_norm": 2.085458993911743,
+      "learning_rate": 8.408689080955001e-05,
+      "loss": 0.4213,
+      "step": 1380
+    },
+    {
+      "epoch": 0.28642077065732535,
+      "grad_norm": 1.9079893827438354,
+      "learning_rate": 8.38516634159555e-05,
+      "loss": 0.4359,
+      "step": 1390
+    },
+    {
+      "epoch": 0.288481351741191,
+      "grad_norm": 2.075544834136963,
+      "learning_rate": 8.361504451306586e-05,
+      "loss": 0.4213,
+      "step": 1400
+    },
+    {
+      "epoch": 0.2905419328250567,
+      "grad_norm": 2.2827491760253906,
+      "learning_rate": 8.337704382735743e-05,
+      "loss": 0.4475,
+      "step": 1410
+    },
+    {
+      "epoch": 0.29260251390892233,
+      "grad_norm": 2.024596929550171,
+      "learning_rate": 8.313767114210618e-05,
+      "loss": 0.4367,
+      "step": 1420
+    },
+    {
+      "epoch": 0.294663094992788,
+      "grad_norm": 2.20805025100708,
+      "learning_rate": 8.289693629698566e-05,
+      "loss": 0.4871,
+      "step": 1430
+    },
+    {
+      "epoch": 0.2967236760766536,
+      "grad_norm": 2.127082347869873,
+      "learning_rate": 8.265484918766245e-05,
+      "loss": 0.4295,
+      "step": 1440
+    },
+    {
+      "epoch": 0.29878425716051926,
+      "grad_norm": 2.2700977325439453,
+      "learning_rate": 8.241141976538945e-05,
+      "loss": 0.4551,
+      "step": 1450
+    },
+    {
+      "epoch": 0.3008448382443849,
+      "grad_norm": 2.066436767578125,
+      "learning_rate": 8.216665803659673e-05,
+      "loss": 0.459,
+      "step": 1460
+    },
+    {
+      "epoch": 0.30290541932825055,
+      "grad_norm": 2.181267261505127,
+      "learning_rate": 8.19205740624803e-05,
+      "loss": 0.4472,
+      "step": 1470
+    },
+    {
+      "epoch": 0.3049660004121162,
+      "grad_norm": 2.0297725200653076,
+      "learning_rate": 8.167317795858853e-05,
+      "loss": 0.4616,
+      "step": 1480
+    },
+    {
+      "epoch": 0.3070265814959819,
+      "grad_norm": 2.2850377559661865,
+      "learning_rate": 8.142447989440621e-05,
+      "loss": 0.3857,
+      "step": 1490
+    },
+    {
+      "epoch": 0.30908716257984753,
+      "grad_norm": 1.8588734865188599,
+      "learning_rate": 8.117449009293671e-05,
+      "loss": 0.4105,
+      "step": 1500
+    },
+    {
+      "epoch": 0.30908716257984753,
+      "eval_loss": 0.44821813702583313,
+      "eval_runtime": 87.3405,
+      "eval_samples_per_second": 5.736,
+      "eval_steps_per_second": 5.736,
+      "step": 1500
+    },
+    {
+      "epoch": 0.31114774366371317,
+      "grad_norm": 2.5045533180236816,
+      "learning_rate": 8.09232188302816e-05,
+      "loss": 0.4094,
+      "step": 1510
+    },
+    {
+      "epoch": 0.3132083247475788,
+      "grad_norm": 2.2157442569732666,
+      "learning_rate": 8.067067643521836e-05,
+      "loss": 0.4376,
+      "step": 1520
+    },
+    {
+      "epoch": 0.31526890583144446,
+      "grad_norm": 2.1551907062530518,
+      "learning_rate": 8.041687328877568e-05,
+      "loss": 0.439,
+      "step": 1530
+    },
+    {
+      "epoch": 0.3173294869153101,
+      "grad_norm": 2.4675521850585938,
+      "learning_rate": 8.016181982380684e-05,
+      "loss": 0.4301,
+      "step": 1540
+    },
+    {
+      "epoch": 0.31939006799917574,
+      "grad_norm": 2.021408796310425,
+      "learning_rate": 7.990552652456082e-05,
+      "loss": 0.4087,
+      "step": 1550
+    },
+    {
+      "epoch": 0.32145064908304144,
+      "grad_norm": 2.2375285625457764,
+      "learning_rate": 7.964800392625131e-05,
+      "loss": 0.4457,
+      "step": 1560
+    },
+    {
+      "epoch": 0.3235112301669071,
+      "grad_norm": 1.749822974205017,
+      "learning_rate": 7.938926261462369e-05,
+      "loss": 0.4338,
+      "step": 1570
+    },
+    {
+      "epoch": 0.3255718112507727,
+      "grad_norm": 3.428098201751709,
+      "learning_rate": 7.912931322551983e-05,
+      "loss": 0.4303,
+      "step": 1580
+    },
+    {
+      "epoch": 0.32763239233463837,
+      "grad_norm": 2.574517250061035,
+      "learning_rate": 7.8868166444441e-05,
+      "loss": 0.4172,
+      "step": 1590
+    },
+    {
+      "epoch": 0.329692973418504,
+      "grad_norm": 2.3150064945220947,
+      "learning_rate": 7.86058330061085e-05,
+      "loss": 0.3861,
+      "step": 1600
+    },
+    {
+      "epoch": 0.33175355450236965,
+      "grad_norm": 2.194667339324951,
+      "learning_rate": 7.834232369402252e-05,
+      "loss": 0.4271,
+      "step": 1610
+    },
+    {
+      "epoch": 0.3338141355862353,
+      "grad_norm": 1.9583488702774048,
+      "learning_rate": 7.807764934001877e-05,
+      "loss": 0.4881,
+      "step": 1620
+    },
+    {
+      "epoch": 0.335874716670101,
+      "grad_norm": 2.448866605758667,
+      "learning_rate": 7.781182082382326e-05,
+      "loss": 0.4401,
+      "step": 1630
+    },
+    {
+      "epoch": 0.33793529775396663,
+      "grad_norm": 3.26418399810791,
+      "learning_rate": 7.754484907260515e-05,
+      "loss": 0.4386,
+      "step": 1640
+    },
+    {
+      "epoch": 0.3399958788378323,
+      "grad_norm": 2.1950979232788086,
+      "learning_rate": 7.727674506052746e-05,
+      "loss": 0.4084,
+      "step": 1650
+    },
+    {
+      "epoch": 0.3399958788378323,
+      "eval_loss": 0.4438916742801666,
+      "eval_runtime": 87.3442,
+      "eval_samples_per_second": 5.736,
+      "eval_steps_per_second": 5.736,
+      "step": 1650
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.9057210082716877e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null