upload cod4/checkpoint-best

Browse files

Files changed (7) hide show

cod4/checkpoint-best/adapter_config.json +5 -5
cod4/checkpoint-best/adapter_model.safetensors +1 -1
cod4/checkpoint-best/optimizer.pt +1 -1
cod4/checkpoint-best/rng_state.pth +1 -1
cod4/checkpoint-best/scheduler.pt +1 -1
cod4/checkpoint-best/trainer_state.json +53 -102
cod4/checkpoint-best/training_args.bin +1 -1

cod4/checkpoint-best/adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "q_proj",
     "v_proj",
     "gate_proj",
-    "up_proj",
-    "k_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "v_proj",
     "gate_proj",
+    "down_proj",
+    "q_proj",
+    "o_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

cod4/checkpoint-best/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e80f1018ae3bc6b04c49246709664b86225b97187666873c683f4d884c57fecd
 size 550593184

 version https://git-lfs.github.com/spec/v1
+oid sha256:89e0d17a2d95f6ff84b0114dbc84cbc818a07c068c70f69bb6e20b31593b2000
 size 550593184

cod4/checkpoint-best/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:520723039ac4105a86d7ff3f74ad3ace9cd077f71385c3517ea91a31192b0c71
 size 1101572914

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2028b08827f56458b170a796812a85a5e3d0d2b8379a1be978547c2db12c1f8
 size 1101572914

cod4/checkpoint-best/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccd1f8415101a83abb687145f5f273a6314e23c3fa5f3eeecc216a8a33a90c3f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3734f3631d7c5ebb18ad8634348051fb92d97ff25d6dd92a7f9915a552feca4c
 size 14244

cod4/checkpoint-best/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afae0ac62ce7f67d2df22e4a084208d6db64d6727ce9aa1771b26910ab44a74b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa1bc073aaac39764607c6496e425c264a7d9b161f449cb039d1f6dda489edb5
 size 1064

cod4/checkpoint-best/trainer_state.json CHANGED Viewed

@@ -1,197 +1,148 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5477784540474742,
-  "eval_steps": 75,
-  "global_step": 225,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.024345709068776627,
-      "grad_norm": 1.360837697982788,
       "learning_rate": 3.6585365853658536e-07,
-      "loss": 0.3238,
       "step": 10
     },
     {
       "epoch": 0.048691418137553254,
-      "grad_norm": 1.781339168548584,
       "learning_rate": 7.317073170731707e-07,
-      "loss": 0.3499,
       "step": 20
     },
     {
       "epoch": 0.07303712720632989,
-      "grad_norm": 1.2938371896743774,
       "learning_rate": 1.097560975609756e-06,
-      "loss": 0.2839,
       "step": 30
     },
     {
       "epoch": 0.09738283627510651,
-      "grad_norm": 1.2939085960388184,
       "learning_rate": 1.4634146341463414e-06,
       "loss": 0.3297,
       "step": 40
     },
     {
       "epoch": 0.12172854534388314,
-      "grad_norm": 1.1001590490341187,
       "learning_rate": 1.8292682926829268e-06,
-      "loss": 0.3168,
       "step": 50
     },
     {
       "epoch": 0.14607425441265978,
-      "grad_norm": 0.7245882153511047,
       "learning_rate": 2.195121951219512e-06,
-      "loss": 0.256,
       "step": 60
     },
     {
       "epoch": 0.1704199634814364,
-      "grad_norm": 0.7190315127372742,
       "learning_rate": 2.5609756097560977e-06,
-      "loss": 0.2602,
       "step": 70
     },
-    {
-      "epoch": 0.18259281801582472,
-      "eval_loss": 0.18111442029476166,
-      "eval_runtime": 189.9439,
-      "eval_samples_per_second": 2.464,
-      "eval_steps_per_second": 2.464,
-      "step": 75
-    },
     {
       "epoch": 0.19476567255021301,
-      "grad_norm": 1.0097646713256836,
       "learning_rate": 2.926829268292683e-06,
-      "loss": 0.2096,
       "step": 80
     },
     {
       "epoch": 0.21911138161898966,
-      "grad_norm": 0.7169908285140991,
       "learning_rate": 2.9991302663250642e-06,
-      "loss": 0.2148,
       "step": 90
     },
     {
       "epoch": 0.24345709068776628,
-      "grad_norm": 0.8660908937454224,
       "learning_rate": 2.9955987017756107e-06,
-      "loss": 0.1925,
       "step": 100
     },
     {
       "epoch": 0.2678027997565429,
-      "grad_norm": 0.681736171245575,
       "learning_rate": 2.9893573417248957e-06,
-      "loss": 0.1841,
       "step": 110
     },
     {
       "epoch": 0.29214850882531956,
-      "grad_norm": 0.40242502093315125,
       "learning_rate": 2.980417494560234e-06,
       "loss": 0.1848,
       "step": 120
     },
     {
       "epoch": 0.31649421789409615,
-      "grad_norm": 0.477758526802063,
       "learning_rate": 2.968795357913784e-06,
-      "loss": 0.1705,
       "step": 130
     },
     {
       "epoch": 0.3408399269628728,
-      "grad_norm": 0.5819408893585205,
       "learning_rate": 2.9545119893149243e-06,
-      "loss": 0.1981,
       "step": 140
     },
     {
       "epoch": 0.36518563603164944,
-      "grad_norm": 0.5944788455963135,
       "learning_rate": 2.9375932680372358e-06,
-      "loss": 0.1668,
       "step": 150
     },
     {
       "epoch": 0.36518563603164944,
-      "eval_loss": 0.17790192365646362,
-      "eval_runtime": 190.128,
-      "eval_samples_per_second": 2.462,
-      "eval_steps_per_second": 2.462,
       "step": 150
-    },
-    {
-      "epoch": 0.38953134510042603,
-      "grad_norm": 0.39612388610839844,
-      "learning_rate": 2.9180698482092302e-06,
-      "loss": 0.182,
-      "step": 160
-    },
-    {
-      "epoch": 0.4138770541692027,
-      "grad_norm": 0.4975854754447937,
-      "learning_rate": 2.8959771032737673e-06,
-      "loss": 0.1822,
-      "step": 170
-    },
-    {
-      "epoch": 0.4382227632379793,
-      "grad_norm": 0.33769404888153076,
-      "learning_rate": 2.8713550618968034e-06,
-      "loss": 0.181,
-      "step": 180
-    },
-    {
-      "epoch": 0.4625684723067559,
-      "grad_norm": 0.5186887383460999,
-      "learning_rate": 2.8442483354415836e-06,
-      "loss": 0.1849,
-      "step": 190
-    },
-    {
-      "epoch": 0.48691418137553255,
-      "grad_norm": 0.40320202708244324,
-      "learning_rate": 2.8147060371396953e-06,
-      "loss": 0.1614,
-      "step": 200
-    },
-    {
-      "epoch": 0.5112598904443092,
-      "grad_norm": 0.49186137318611145,
-      "learning_rate": 2.7827816931054245e-06,
-      "loss": 0.1701,
-      "step": 210
-    },
-    {
-      "epoch": 0.5356055995130858,
-      "grad_norm": 0.877299427986145,
-      "learning_rate": 2.7485331453546407e-06,
-      "loss": 0.174,
-      "step": 220
-    },
-    {
-      "epoch": 0.5477784540474742,
-      "eval_loss": 0.1760490983724594,
-      "eval_runtime": 190.1667,
-      "eval_samples_per_second": 2.461,
-      "eval_steps_per_second": 2.461,
-      "step": 225
     }
   ],
   "logging_steps": 10,
   "max_steps": 820,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
-  "save_steps": 75,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -204,7 +155,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4490140738700902e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.36518563603164944,
+  "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.024345709068776627,
+      "grad_norm": 1.3434797525405884,
       "learning_rate": 3.6585365853658536e-07,
+      "loss": 0.3237,
       "step": 10
     },
     {
       "epoch": 0.048691418137553254,
+      "grad_norm": 1.7791950702667236,
       "learning_rate": 7.317073170731707e-07,
+      "loss": 0.3513,
       "step": 20
     },
     {
       "epoch": 0.07303712720632989,
+      "grad_norm": 1.2667977809906006,
       "learning_rate": 1.097560975609756e-06,
+      "loss": 0.2849,
       "step": 30
     },
     {
       "epoch": 0.09738283627510651,
+      "grad_norm": 1.290136694908142,
       "learning_rate": 1.4634146341463414e-06,
       "loss": 0.3297,
       "step": 40
     },
     {
       "epoch": 0.12172854534388314,
+      "grad_norm": 1.1097878217697144,
       "learning_rate": 1.8292682926829268e-06,
+      "loss": 0.3174,
+      "step": 50
+    },
+    {
+      "epoch": 0.12172854534388314,
+      "eval_loss": 0.22251495718955994,
+      "eval_runtime": 189.8516,
+      "eval_samples_per_second": 2.465,
+      "eval_steps_per_second": 2.465,
       "step": 50
     },
     {
       "epoch": 0.14607425441265978,
+      "grad_norm": 0.7168009281158447,
       "learning_rate": 2.195121951219512e-06,
+      "loss": 0.2562,
       "step": 60
     },
     {
       "epoch": 0.1704199634814364,
+      "grad_norm": 0.7219638824462891,
       "learning_rate": 2.5609756097560977e-06,
+      "loss": 0.2583,
       "step": 70
     },
     {
       "epoch": 0.19476567255021301,
+      "grad_norm": 0.9940507411956787,
       "learning_rate": 2.926829268292683e-06,
+      "loss": 0.2086,
       "step": 80
     },
     {
       "epoch": 0.21911138161898966,
+      "grad_norm": 0.7270681262016296,
       "learning_rate": 2.9991302663250642e-06,
+      "loss": 0.2149,
       "step": 90
     },
     {
       "epoch": 0.24345709068776628,
+      "grad_norm": 0.8523025512695312,
       "learning_rate": 2.9955987017756107e-06,
+      "loss": 0.1905,
+      "step": 100
+    },
+    {
+      "epoch": 0.24345709068776628,
+      "eval_loss": 0.20457129180431366,
+      "eval_runtime": 189.863,
+      "eval_samples_per_second": 2.465,
+      "eval_steps_per_second": 2.465,
       "step": 100
     },
     {
       "epoch": 0.2678027997565429,
+      "grad_norm": 0.6568045616149902,
       "learning_rate": 2.9893573417248957e-06,
+      "loss": 0.1833,
       "step": 110
     },
     {
       "epoch": 0.29214850882531956,
+      "grad_norm": 0.3998699188232422,
       "learning_rate": 2.980417494560234e-06,
       "loss": 0.1848,
       "step": 120
     },
     {
       "epoch": 0.31649421789409615,
+      "grad_norm": 0.48115676641464233,
       "learning_rate": 2.968795357913784e-06,
+      "loss": 0.1698,
       "step": 130
     },
     {
       "epoch": 0.3408399269628728,
+      "grad_norm": 0.5803468227386475,
       "learning_rate": 2.9545119893149243e-06,
+      "loss": 0.1978,
       "step": 140
     },
     {
       "epoch": 0.36518563603164944,
+      "grad_norm": 0.5993896722793579,
       "learning_rate": 2.9375932680372358e-06,
+      "loss": 0.1674,
       "step": 150
     },
     {
       "epoch": 0.36518563603164944,
+      "eval_loss": 0.1782142072916031,
+      "eval_runtime": 189.9536,
+      "eval_samples_per_second": 2.464,
+      "eval_steps_per_second": 2.464,
       "step": 150
     }
   ],
   "logging_steps": 10,
   "max_steps": 820,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
+  "save_steps": 50,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 9.609101934273946e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

cod4/checkpoint-best/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a84a4d610278dab96fa8be9465c8d94fd923971c230cd596c619c25b2e6c86d2
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:685d9b5d18d2c6827d3139cf322fe47abe6ed206413f5866b42023ba87fd17d9
 size 5304