Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +178 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f773dc94967b7ee6e551db696f34227eb983340cfd6ce1fc1ae2d7d9ba5d943
 size 3826461296

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb7d10311d3e39a51d905753f968302b84088808379e2021ad4fb96b9d17f533
 size 3826461296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8632716595be573dc0ed32f03651903484a98a76acfa6f6710d2c042e6a3c5ea
 size 2479123301

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3f8fbb04fd4187bd9f3419a33f7ebc13f51ccd8e6c98e79de1bb006485e1840
 size 2479123301

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:100000ea5d81ef450688ed224677c94deb5fa0928415e9497ab5b09006179386
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:025efedff4c7b611b2aee1ebff4b8949b561e4fc6b52396ed3a28018d052e541
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8b125c082de6f20d827ac9ce3a7228054a763972dd6779dfe18031391e49829
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:1eff7a0a9bded1a7bd3fdba602c9613b8d890d63962a1be5e1c426de3b212f74
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3,
   "eval_steps": 500,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -533,6 +533,181 @@
       "learning_rate": 3.5383064516129035e-05,
       "loss": 0.8446,
       "step": 750
     }
   ],
   "logging_steps": 10,
@@ -552,7 +727,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3512970727276544e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.5383064516129035e-05,
       "loss": 0.8446,
       "step": 750
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 21.616487503051758,
+      "learning_rate": 3.518145161290323e-05,
+      "loss": 0.8152,
+      "step": 760
+    },
+    {
+      "epoch": 0.308,
+      "grad_norm": 13.02557373046875,
+      "learning_rate": 3.497983870967742e-05,
+      "loss": 0.6836,
+      "step": 770
+    },
+    {
+      "epoch": 0.312,
+      "grad_norm": 22.531129837036133,
+      "learning_rate": 3.477822580645161e-05,
+      "loss": 0.8337,
+      "step": 780
+    },
+    {
+      "epoch": 0.316,
+      "grad_norm": 24.401342391967773,
+      "learning_rate": 3.457661290322581e-05,
+      "loss": 0.7016,
+      "step": 790
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 15.145552635192871,
+      "learning_rate": 3.4375e-05,
+      "loss": 0.7273,
+      "step": 800
+    },
+    {
+      "epoch": 0.324,
+      "grad_norm": 20.092849731445312,
+      "learning_rate": 3.41733870967742e-05,
+      "loss": 0.7287,
+      "step": 810
+    },
+    {
+      "epoch": 0.328,
+      "grad_norm": 15.03227424621582,
+      "learning_rate": 3.397177419354839e-05,
+      "loss": 0.6846,
+      "step": 820
+    },
+    {
+      "epoch": 0.332,
+      "grad_norm": 13.607186317443848,
+      "learning_rate": 3.377016129032258e-05,
+      "loss": 0.724,
+      "step": 830
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 24.089006423950195,
+      "learning_rate": 3.3568548387096774e-05,
+      "loss": 0.7993,
+      "step": 840
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 18.13868522644043,
+      "learning_rate": 3.336693548387097e-05,
+      "loss": 0.6757,
+      "step": 850
+    },
+    {
+      "epoch": 0.344,
+      "grad_norm": 17.819578170776367,
+      "learning_rate": 3.3165322580645164e-05,
+      "loss": 0.6762,
+      "step": 860
+    },
+    {
+      "epoch": 0.348,
+      "grad_norm": 29.358142852783203,
+      "learning_rate": 3.296370967741936e-05,
+      "loss": 0.6936,
+      "step": 870
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 27.773387908935547,
+      "learning_rate": 3.2762096774193553e-05,
+      "loss": 0.6531,
+      "step": 880
+    },
+    {
+      "epoch": 0.356,
+      "grad_norm": 10.760952949523926,
+      "learning_rate": 3.256048387096775e-05,
+      "loss": 0.7669,
+      "step": 890
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 20.802019119262695,
+      "learning_rate": 3.2358870967741936e-05,
+      "loss": 0.6365,
+      "step": 900
+    },
+    {
+      "epoch": 0.364,
+      "grad_norm": 18.4460391998291,
+      "learning_rate": 3.215725806451613e-05,
+      "loss": 0.9778,
+      "step": 910
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 23.085039138793945,
+      "learning_rate": 3.1955645161290326e-05,
+      "loss": 0.7247,
+      "step": 920
+    },
+    {
+      "epoch": 0.372,
+      "grad_norm": 13.907185554504395,
+      "learning_rate": 3.175403225806452e-05,
+      "loss": 0.6822,
+      "step": 930
+    },
+    {
+      "epoch": 0.376,
+      "grad_norm": 13.967331886291504,
+      "learning_rate": 3.1552419354838715e-05,
+      "loss": 0.7839,
+      "step": 940
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 14.392730712890625,
+      "learning_rate": 3.135080645161291e-05,
+      "loss": 0.7518,
+      "step": 950
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 12.910331726074219,
+      "learning_rate": 3.11491935483871e-05,
+      "loss": 0.6257,
+      "step": 960
+    },
+    {
+      "epoch": 0.388,
+      "grad_norm": 17.412134170532227,
+      "learning_rate": 3.0947580645161286e-05,
+      "loss": 0.8162,
+      "step": 970
+    },
+    {
+      "epoch": 0.392,
+      "grad_norm": 16.036808013916016,
+      "learning_rate": 3.074596774193548e-05,
+      "loss": 0.8296,
+      "step": 980
+    },
+    {
+      "epoch": 0.396,
+      "grad_norm": 14.738393783569336,
+      "learning_rate": 3.0544354838709676e-05,
+      "loss": 0.5135,
+      "step": 990
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 13.25367546081543,
+      "learning_rate": 3.034274193548387e-05,
+      "loss": 0.7414,
+      "step": 1000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.7984652389369856e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null