Training in progress, step 2500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +178 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be9b9b0d8b856b09170cefdadbd16a208f59b19d453d160ff7ee756de359ba83
 size 3809184360

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7ab03b183d936d545f20f6f1f9be6a3aa197747199a4e815057776bb6c269e4
 size 3809184360

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe10a4a37a5566b28dd2f1e582ef1d8e2ca9b9b974439cc128734b1d2c7295fc
-size 2457459557

 version https://git-lfs.github.com/spec/v1
+oid sha256:b257bea1faadea9daefdeba8b5752cbc2ae0a9dc4ba5bb9f915892b9844ff02a
+size 2458291491

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14f56edc583c1a07de7d3d9b93b5a6d1d2a82aa89cc60af96632062d66edfffd
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:210c5979df71a02690e406313b0596a8bb2750ef986d8191a5bc9ac5b46f7a7c
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf779ed14a82f5b8a151c3c4f681c8e668acf0a37d984440af016adca1961c5d
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f673d0030ffcf7d3f3fcb41b5abd69836d05a3195750de18ed9b6eb87259b06a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6,
   "eval_steps": 500,
-  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1583,6 +1583,181 @@
       "learning_rate": 2.0283018867924532e-05,
       "loss": 0.4407,
       "step": 2250
     }
   ],
   "logging_steps": 10,
@@ -1602,7 +1777,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.05919393302528e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6666666666666666,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.0283018867924532e-05,
       "loss": 0.4407,
       "step": 2250
+    },
+    {
+      "epoch": 0.6026666666666667,
+      "grad_norm": 19.082717895507812,
+      "learning_rate": 2.0148247978436658e-05,
+      "loss": 0.6069,
+      "step": 2260
+    },
+    {
+      "epoch": 0.6053333333333333,
+      "grad_norm": 9.956210136413574,
+      "learning_rate": 2.0013477088948788e-05,
+      "loss": 0.3804,
+      "step": 2270
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 22.91667938232422,
+      "learning_rate": 1.9878706199460917e-05,
+      "loss": 0.4452,
+      "step": 2280
+    },
+    {
+      "epoch": 0.6106666666666667,
+      "grad_norm": 11.472311973571777,
+      "learning_rate": 1.9743935309973047e-05,
+      "loss": 0.5524,
+      "step": 2290
+    },
+    {
+      "epoch": 0.6133333333333333,
+      "grad_norm": 7.967957019805908,
+      "learning_rate": 1.9609164420485177e-05,
+      "loss": 0.3626,
+      "step": 2300
+    },
+    {
+      "epoch": 0.616,
+      "grad_norm": 8.504613876342773,
+      "learning_rate": 1.9474393530997306e-05,
+      "loss": 0.2569,
+      "step": 2310
+    },
+    {
+      "epoch": 0.6186666666666667,
+      "grad_norm": 11.852409362792969,
+      "learning_rate": 1.9339622641509436e-05,
+      "loss": 0.4051,
+      "step": 2320
+    },
+    {
+      "epoch": 0.6213333333333333,
+      "grad_norm": 12.512871742248535,
+      "learning_rate": 1.9204851752021562e-05,
+      "loss": 0.3631,
+      "step": 2330
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 16.21477508544922,
+      "learning_rate": 1.9070080862533692e-05,
+      "loss": 0.7231,
+      "step": 2340
+    },
+    {
+      "epoch": 0.6266666666666667,
+      "grad_norm": 12.807674407958984,
+      "learning_rate": 1.893530997304582e-05,
+      "loss": 0.4406,
+      "step": 2350
+    },
+    {
+      "epoch": 0.6293333333333333,
+      "grad_norm": 8.169772148132324,
+      "learning_rate": 1.880053908355795e-05,
+      "loss": 0.5181,
+      "step": 2360
+    },
+    {
+      "epoch": 0.632,
+      "grad_norm": 11.73438549041748,
+      "learning_rate": 1.8665768194070084e-05,
+      "loss": 0.392,
+      "step": 2370
+    },
+    {
+      "epoch": 0.6346666666666667,
+      "grad_norm": 19.76089096069336,
+      "learning_rate": 1.8530997304582214e-05,
+      "loss": 0.4631,
+      "step": 2380
+    },
+    {
+      "epoch": 0.6373333333333333,
+      "grad_norm": 9.086039543151855,
+      "learning_rate": 1.839622641509434e-05,
+      "loss": 0.3171,
+      "step": 2390
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 16.056007385253906,
+      "learning_rate": 1.826145552560647e-05,
+      "loss": 0.4297,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6426666666666667,
+      "grad_norm": 4.929039001464844,
+      "learning_rate": 1.81266846361186e-05,
+      "loss": 0.3565,
+      "step": 2410
+    },
+    {
+      "epoch": 0.6453333333333333,
+      "grad_norm": 14.620661735534668,
+      "learning_rate": 1.799191374663073e-05,
+      "loss": 0.4003,
+      "step": 2420
+    },
+    {
+      "epoch": 0.648,
+      "grad_norm": 11.428451538085938,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 0.3116,
+      "step": 2430
+    },
+    {
+      "epoch": 0.6506666666666666,
+      "grad_norm": 7.882524490356445,
+      "learning_rate": 1.7722371967654988e-05,
+      "loss": 0.3754,
+      "step": 2440
+    },
+    {
+      "epoch": 0.6533333333333333,
+      "grad_norm": 8.926907539367676,
+      "learning_rate": 1.7587601078167118e-05,
+      "loss": 0.3893,
+      "step": 2450
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 8.45529842376709,
+      "learning_rate": 1.7452830188679244e-05,
+      "loss": 0.4121,
+      "step": 2460
+    },
+    {
+      "epoch": 0.6586666666666666,
+      "grad_norm": 8.348902702331543,
+      "learning_rate": 1.7318059299191374e-05,
+      "loss": 0.243,
+      "step": 2470
+    },
+    {
+      "epoch": 0.6613333333333333,
+      "grad_norm": 7.9367852210998535,
+      "learning_rate": 1.7183288409703503e-05,
+      "loss": 0.2918,
+      "step": 2480
+    },
+    {
+      "epoch": 0.664,
+      "grad_norm": 7.673737525939941,
+      "learning_rate": 1.7048517520215633e-05,
+      "loss": 0.4514,
+      "step": 2490
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 17.945858001708984,
+      "learning_rate": 1.6913746630727763e-05,
+      "loss": 0.2516,
+      "step": 2500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.51119326667264e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbbcd8d1d06fb20c3b9e3291ad1f542ea351b7af728b87b6a77dba47653c0669
 size 6289

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a68c2e906998593cf5a919298e03a1004101f2e08452617953a4c1c4243b097
 size 6289