Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step4100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4100/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:771f7595253335d0f7b3e5d9548620ff920977b25d1013493890387e97d73a3d
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b23217742b312e0ba6a642fbced78169e97e5bd94aa8ec9429ceefc05f1a76b
 size 1037269336

last-checkpoint/global_step4100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1dea63ea269d8a8db77c339ab50f09e474eadb1a6659d06ab7df2dbde5aac2c
+size 781993445

last-checkpoint/global_step4100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea94dca34e505bbaa93fb7fe6a1bcdcc87d57c1eb86c42d96a787243b93d70bb
+size 781993509

last-checkpoint/global_step4100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a02d8491507c62bd6bf4534b2406d66207877a390403265562036f29f45b719
+size 781993509

last-checkpoint/global_step4100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:791541856934b608332f89404414aa6812d82a818052289589ae21c1b1b0ec9f
+size 781993509

last-checkpoint/global_step4100/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2cbbf173e016d84a36966c4ae3c102fc4756b8d9faaa3ddf6008f53e9b95ee1
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step4000~~


1	+ global_step4100

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7738b79cde91732aa1ae36546c20e2adfb138db06ede459f3546964f4c72f003
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bbc3d1660e77580d684add9546e5fe8bd6fc84071100e9a520c41d938330a79
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c87bb0bbd4a5d934e9e0ee64426668f65a3c0671e53f80788bd09202aaa80ce
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:00d7703de6e560ffbbf010cbfffa20522d7da9ff9f4719e1064c19461079ea48
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3438bbb08774094f199cd5833a18b6fec0ce5cda0f318f97029e7d59620cafc6
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:204484b4dccae23b095603bfb2d8fc482440509c028607bd9556adf092617aac
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4893134b5c11d042dab70821374bd20a7f7800fefcc8fad1ea78520c80bfcce6
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0fceb540dfe7b45fc0da1b3cdddd6d3f71c61414fae78500c040a17afd7ae2e
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7278ee28e675006b1a18eabb528c5e753ec5c79a4c5c843c134b5fc72246eac3
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:59fba9955671eaa664ef7e8ac2aec090cfd8274510ae38341a2658c4438b5bf0
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.9395991563796997,
   "best_model_checkpoint": null,
-  "epoch": 0.5814798662596308,
   "eval_steps": 50,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6248,6 +6248,162 @@
       "eval_samples_per_second": 172.663,
       "eval_steps_per_second": 10.827,
       "step": 4000
     }
   ],
   "logging_steps": 5,
@@ -6276,7 +6432,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0434609863437844e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.923519253730774,
   "best_model_checkpoint": null,
+  "epoch": 0.5960168629161215,
   "eval_steps": 50,
+  "global_step": 4100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 172.663,
       "eval_steps_per_second": 10.827,
       "step": 4000
+    },
+    {
+      "epoch": 0.5822067160924553,
+      "grad_norm": 2.408169984817505,
+      "learning_rate": 6.642383155912741e-05,
+      "loss": 2.133,
+      "step": 4005
+    },
+    {
+      "epoch": 0.5829335659252798,
+      "grad_norm": 2.9105172157287598,
+      "learning_rate": 6.634866071919054e-05,
+      "loss": 2.124,
+      "step": 4010
+    },
+    {
+      "epoch": 0.5836604157581043,
+      "grad_norm": 2.630783796310425,
+      "learning_rate": 6.627344896916006e-05,
+      "loss": 2.1179,
+      "step": 4015
+    },
+    {
+      "epoch": 0.5843872655909289,
+      "grad_norm": 2.399688482284546,
+      "learning_rate": 6.619819649838151e-05,
+      "loss": 2.1174,
+      "step": 4020
+    },
+    {
+      "epoch": 0.5851141154237535,
+      "grad_norm": 2.5117554664611816,
+      "learning_rate": 6.612290349630285e-05,
+      "loss": 2.0063,
+      "step": 4025
+    },
+    {
+      "epoch": 0.585840965256578,
+      "grad_norm": 2.6324381828308105,
+      "learning_rate": 6.604757015247416e-05,
+      "loss": 2.057,
+      "step": 4030
+    },
+    {
+      "epoch": 0.5865678150894025,
+      "grad_norm": 2.442852258682251,
+      "learning_rate": 6.597219665654702e-05,
+      "loss": 1.933,
+      "step": 4035
+    },
+    {
+      "epoch": 0.587294664922227,
+      "grad_norm": 2.4938302040100098,
+      "learning_rate": 6.589678319827412e-05,
+      "loss": 2.2347,
+      "step": 4040
+    },
+    {
+      "epoch": 0.5880215147550516,
+      "grad_norm": 2.2091469764709473,
+      "learning_rate": 6.582132996750874e-05,
+      "loss": 2.0614,
+      "step": 4045
+    },
+    {
+      "epoch": 0.5887483645878762,
+      "grad_norm": 2.2665116786956787,
+      "learning_rate": 6.574583715420433e-05,
+      "loss": 2.085,
+      "step": 4050
+    },
+    {
+      "epoch": 0.5887483645878762,
+      "eval_loss": 1.9283087253570557,
+      "eval_runtime": 21.1511,
+      "eval_samples_per_second": 156.068,
+      "eval_steps_per_second": 9.787,
+      "step": 4050
+    },
+    {
+      "epoch": 0.5894752144207007,
+      "grad_norm": 2.5516645908355713,
+      "learning_rate": 6.567030494841393e-05,
+      "loss": 2.1021,
+      "step": 4055
+    },
+    {
+      "epoch": 0.5902020642535252,
+      "grad_norm": 2.4371495246887207,
+      "learning_rate": 6.559473354028979e-05,
+      "loss": 2.0655,
+      "step": 4060
+    },
+    {
+      "epoch": 0.5909289140863497,
+      "grad_norm": 2.0865836143493652,
+      "learning_rate": 6.551912312008285e-05,
+      "loss": 2.1788,
+      "step": 4065
+    },
+    {
+      "epoch": 0.5916557639191743,
+      "grad_norm": 2.408687114715576,
+      "learning_rate": 6.544347387814224e-05,
+      "loss": 2.1187,
+      "step": 4070
+    },
+    {
+      "epoch": 0.5923826137519989,
+      "grad_norm": 2.4930145740509033,
+      "learning_rate": 6.536778600491481e-05,
+      "loss": 2.2741,
+      "step": 4075
+    },
+    {
+      "epoch": 0.5931094635848234,
+      "grad_norm": 2.3992059230804443,
+      "learning_rate": 6.529205969094474e-05,
+      "loss": 1.9715,
+      "step": 4080
+    },
+    {
+      "epoch": 0.5938363134176479,
+      "grad_norm": 2.214466094970703,
+      "learning_rate": 6.521629512687291e-05,
+      "loss": 2.1169,
+      "step": 4085
+    },
+    {
+      "epoch": 0.5945631632504724,
+      "grad_norm": 2.3627679347991943,
+      "learning_rate": 6.514049250343653e-05,
+      "loss": 1.9602,
+      "step": 4090
+    },
+    {
+      "epoch": 0.595290013083297,
+      "grad_norm": 2.594008684158325,
+      "learning_rate": 6.506465201146858e-05,
+      "loss": 2.1459,
+      "step": 4095
+    },
+    {
+      "epoch": 0.5960168629161215,
+      "grad_norm": 1.9788795709609985,
+      "learning_rate": 6.498877384189746e-05,
+      "loss": 1.898,
+      "step": 4100
+    },
+    {
+      "epoch": 0.5960168629161215,
+      "eval_loss": 1.923519253730774,
+      "eval_runtime": 18.9492,
+      "eval_samples_per_second": 174.203,
+      "eval_steps_per_second": 10.924,
+      "step": 4100
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.06971867773508e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null