rayonlabs commited on Jul 20, 2025

Commit

69f739e

verified ·

1 Parent(s): d3e47c1

Upload task output test1334test1234test1234test12334

Browse files

Files changed (23) hide show

README.md +5 -5
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
checkpoint-10/adapter_config.json +3 -3
checkpoint-10/adapter_model.safetensors +1 -1
checkpoint-10/optimizer.pt +1 -1
checkpoint-10/trainer_state.json +50 -50
checkpoint-10/training_args.bin +1 -1
checkpoint-3/adapter_config.json +3 -3
checkpoint-3/adapter_model.safetensors +1 -1
checkpoint-3/optimizer.pt +1 -1
checkpoint-3/trainer_state.json +19 -19
checkpoint-3/training_args.bin +1 -1
checkpoint-6/adapter_config.json +3 -3
checkpoint-6/adapter_model.safetensors +1 -1
checkpoint-6/optimizer.pt +1 -1
checkpoint-6/trainer_state.json +33 -33
checkpoint-6/training_args.bin +1 -1
checkpoint-9/adapter_config.json +3 -3
checkpoint-9/adapter_model.safetensors +1 -1
checkpoint-9/optimizer.pt +1 -1
checkpoint-9/trainer_state.json +47 -47
checkpoint-9/training_args.bin +1 -1

README.md CHANGED Viewed

@@ -89,7 +89,7 @@ xformers_attention: null
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1497
 ## Model description
@@ -123,10 +123,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| No log        | 0      | 0    | 1.1522          |
-| 1.1025        | 0.0372 | 3    | 1.1527          |
-| 1.8739        | 0.0743 | 6    | 1.1523          |
-| 0.8249        | 0.1115 | 9    | 1.1497          |
 ### Framework versions

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.5465
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| No log        | 0      | 0    | 1.5762          |
+| 1.607         | 0.0349 | 3    | 1.5754          |
+| 1.2308        | 0.0698 | 6    | 1.5678          |
+| 1.9635        | 0.1047 | 9    | 1.5465          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "q_proj",
-    "up_proj",
-    "o_proj",
     "down_proj",
     "k_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "down_proj",
     "k_proj",
+    "up_proj",
+    "o_proj",
+    "gate_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a40762bd6e2ffcbee731f58e2fe98e974c8a2a69c8ee41329fb0bc4b485a78e
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ce05b1e88df90aa681e0effc572a2d1bbdccf2fb246de4a8441110399d530bf
 size 22573704

checkpoint-10/adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "q_proj",
-    "up_proj",
-    "o_proj",
     "down_proj",
     "k_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "down_proj",
     "k_proj",
+    "up_proj",
+    "o_proj",
+    "gate_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-10/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a40762bd6e2ffcbee731f58e2fe98e974c8a2a69c8ee41329fb0bc4b485a78e
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ce05b1e88df90aa681e0effc572a2d1bbdccf2fb246de4a8441110399d530bf
 size 22573704

checkpoint-10/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a31ff666f84ed1ad343b0af8a91bab87a2b250e1fb6691af9a27591751f92ae
 size 11710970

 version https://git-lfs.github.com/spec/v1
+oid sha256:6be4a9397e797cabeae20a9da3191f428aa5f89735d3d5e1b0916fb3b7993889
 size 11710970

checkpoint-10/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1238390092879257,
   "eval_steps": 3,
   "global_step": 10,
   "is_hyper_param_search": false,
@@ -11,104 +11,104 @@
   "log_history": [
     {
       "epoch": 0,
-      "eval_loss": 1.152190923690796,
-      "eval_runtime": 6.4433,
-      "eval_samples_per_second": 5.277,
-      "eval_steps_per_second": 2.638,
       "step": 0
     },
     {
-      "epoch": 0.01238390092879257,
-      "grad_norm": 0.4808008372783661,
       "learning_rate": 0.0,
-      "loss": 0.7383,
       "step": 1
     },
     {
-      "epoch": 0.02476780185758514,
-      "grad_norm": 0.833384096622467,
       "learning_rate": 2e-05,
-      "loss": 1.2104,
       "step": 2
     },
     {
-      "epoch": 0.03715170278637771,
-      "grad_norm": 0.48235809803009033,
       "learning_rate": 4e-05,
-      "loss": 1.1025,
       "step": 3
     },
     {
-      "epoch": 0.03715170278637771,
-      "eval_loss": 1.1526859998703003,
-      "eval_runtime": 6.1678,
-      "eval_samples_per_second": 5.513,
-      "eval_steps_per_second": 2.756,
       "step": 3
     },
     {
-      "epoch": 0.04953560371517028,
-      "grad_norm": 0.5662117004394531,
       "learning_rate": 6e-05,
-      "loss": 0.9537,
       "step": 4
     },
     {
-      "epoch": 0.06191950464396285,
-      "grad_norm": 0.49891141057014465,
       "learning_rate": 8e-05,
-      "loss": 1.1153,
       "step": 5
     },
     {
-      "epoch": 0.07430340557275542,
-      "grad_norm": 0.8236696124076843,
       "learning_rate": 0.0001,
-      "loss": 1.8739,
       "step": 6
     },
     {
-      "epoch": 0.07430340557275542,
-      "eval_loss": 1.1522986888885498,
-      "eval_runtime": 6.1818,
-      "eval_samples_per_second": 5.5,
-      "eval_steps_per_second": 2.75,
       "step": 6
     },
     {
-      "epoch": 0.08668730650154799,
-      "grad_norm": 0.5597956776618958,
       "learning_rate": 0.00012,
-      "loss": 0.8133,
       "step": 7
     },
     {
-      "epoch": 0.09907120743034056,
-      "grad_norm": 0.4315759837627411,
       "learning_rate": 0.00014,
-      "loss": 0.782,
       "step": 8
     },
     {
-      "epoch": 0.11145510835913312,
-      "grad_norm": 0.715858519077301,
       "learning_rate": 0.00016,
-      "loss": 0.8249,
       "step": 9
     },
     {
-      "epoch": 0.11145510835913312,
-      "eval_loss": 1.1496660709381104,
-      "eval_runtime": 6.1717,
-      "eval_samples_per_second": 5.509,
-      "eval_steps_per_second": 2.755,
       "step": 9
     },
     {
-      "epoch": 0.1238390092879257,
-      "grad_norm": 0.4885803759098053,
       "learning_rate": 0.00018,
-      "loss": 0.63,
       "step": 10
     }
   ],

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.11627906976744186,
   "eval_steps": 3,
   "global_step": 10,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0,
+      "eval_loss": 1.5762042999267578,
+      "eval_runtime": 6.5489,
+      "eval_samples_per_second": 5.65,
+      "eval_steps_per_second": 2.901,
       "step": 0
     },
     {
+      "epoch": 0.011627906976744186,
+      "grad_norm": 0.7823610901832581,
       "learning_rate": 0.0,
+      "loss": 1.3599,
       "step": 1
     },
     {
+      "epoch": 0.023255813953488372,
+      "grad_norm": 0.6125471591949463,
       "learning_rate": 2e-05,
+      "loss": 1.3481,
       "step": 2
     },
     {
+      "epoch": 0.03488372093023256,
+      "grad_norm": 0.7715550065040588,
       "learning_rate": 4e-05,
+      "loss": 1.607,
       "step": 3
     },
     {
+      "epoch": 0.03488372093023256,
+      "eval_loss": 1.575430154800415,
+      "eval_runtime": 6.3129,
+      "eval_samples_per_second": 5.861,
+      "eval_steps_per_second": 3.01,
       "step": 3
     },
     {
+      "epoch": 0.046511627906976744,
+      "grad_norm": 1.3339767456054688,
       "learning_rate": 6e-05,
+      "loss": 2.2903,
       "step": 4
     },
     {
+      "epoch": 0.05813953488372093,
+      "grad_norm": 0.8708456158638,
       "learning_rate": 8e-05,
+      "loss": 1.7924,
       "step": 5
     },
     {
+      "epoch": 0.06976744186046512,
+      "grad_norm": 0.6723288297653198,
       "learning_rate": 0.0001,
+      "loss": 1.2308,
       "step": 6
     },
     {
+      "epoch": 0.06976744186046512,
+      "eval_loss": 1.567781686782837,
+      "eval_runtime": 6.2826,
+      "eval_samples_per_second": 5.889,
+      "eval_steps_per_second": 3.024,
       "step": 6
     },
     {
+      "epoch": 0.08139534883720931,
+      "grad_norm": 0.6576961278915405,
       "learning_rate": 0.00012,
+      "loss": 1.5055,
       "step": 7
     },
     {
+      "epoch": 0.09302325581395349,
+      "grad_norm": 1.104688286781311,
       "learning_rate": 0.00014,
+      "loss": 1.7391,
       "step": 8
     },
     {
+      "epoch": 0.10465116279069768,
+      "grad_norm": 0.8543928265571594,
       "learning_rate": 0.00016,
+      "loss": 1.9635,
       "step": 9
     },
     {
+      "epoch": 0.10465116279069768,
+      "eval_loss": 1.546512246131897,
+      "eval_runtime": 6.2614,
+      "eval_samples_per_second": 5.909,
+      "eval_steps_per_second": 3.034,
       "step": 9
     },
     {
+      "epoch": 0.11627906976744186,
+      "grad_norm": 1.458423376083374,
       "learning_rate": 0.00018,
+      "loss": 1.9448,
       "step": 10
     }
   ],

checkpoint-10/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fe3d956212bf11f8de80d250182cbc6e86552289b4d65d2c04058778f53bb4b
 size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:59749e575ec6b8bcbb1146ed41a833f989f4544824be840d5def832931454250
 size 7096

checkpoint-3/adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "q_proj",
-    "up_proj",
-    "o_proj",
     "down_proj",
     "k_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "down_proj",
     "k_proj",
+    "up_proj",
+    "o_proj",
+    "gate_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-3/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:838cd3cb8a3a19af1bf710ec0e0c40f72d12b22a8a6129623a9c475a603c5c9a
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:299a7fca611e1bea4bd022dbe5b4378d3f40af56526db534ee6e62f60e31605d
 size 22573704

checkpoint-3/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9bdf1ee2b8eab1f8e804a1d7af5bae65c1467d66f1e26da4f77ae4dd3314d56
 size 11710970

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5563776776d37a1b4e6214856304f010ab346eb3d2e5f2dede74ba638ee2aa7
 size 11710970

checkpoint-3/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03715170278637771,
   "eval_steps": 3,
   "global_step": 3,
   "is_hyper_param_search": false,
@@ -11,39 +11,39 @@
   "log_history": [
     {
       "epoch": 0,
-      "eval_loss": 1.152190923690796,
-      "eval_runtime": 6.4433,
-      "eval_samples_per_second": 5.277,
-      "eval_steps_per_second": 2.638,
       "step": 0
     },
     {
-      "epoch": 0.01238390092879257,
-      "grad_norm": 0.4808008372783661,
       "learning_rate": 0.0,
-      "loss": 0.7383,
       "step": 1
     },
     {
-      "epoch": 0.02476780185758514,
-      "grad_norm": 0.833384096622467,
       "learning_rate": 2e-05,
-      "loss": 1.2104,
       "step": 2
     },
     {
-      "epoch": 0.03715170278637771,
-      "grad_norm": 0.48235809803009033,
       "learning_rate": 4e-05,
-      "loss": 1.1025,
       "step": 3
     },
     {
-      "epoch": 0.03715170278637771,
-      "eval_loss": 1.1526859998703003,
-      "eval_runtime": 6.1678,
-      "eval_samples_per_second": 5.513,
-      "eval_steps_per_second": 2.756,
       "step": 3
     }
   ],

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03488372093023256,
   "eval_steps": 3,
   "global_step": 3,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0,
+      "eval_loss": 1.5762042999267578,
+      "eval_runtime": 6.5489,
+      "eval_samples_per_second": 5.65,
+      "eval_steps_per_second": 2.901,
       "step": 0
     },
     {
+      "epoch": 0.011627906976744186,
+      "grad_norm": 0.7823610901832581,
       "learning_rate": 0.0,
+      "loss": 1.3599,
       "step": 1
     },
     {
+      "epoch": 0.023255813953488372,
+      "grad_norm": 0.6125471591949463,
       "learning_rate": 2e-05,
+      "loss": 1.3481,
       "step": 2
     },
     {
+      "epoch": 0.03488372093023256,
+      "grad_norm": 0.7715550065040588,
       "learning_rate": 4e-05,
+      "loss": 1.607,
       "step": 3
     },
     {
+      "epoch": 0.03488372093023256,
+      "eval_loss": 1.575430154800415,
+      "eval_runtime": 6.3129,
+      "eval_samples_per_second": 5.861,
+      "eval_steps_per_second": 3.01,
       "step": 3
     }
   ],

checkpoint-3/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fe3d956212bf11f8de80d250182cbc6e86552289b4d65d2c04058778f53bb4b
 size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:59749e575ec6b8bcbb1146ed41a833f989f4544824be840d5def832931454250
 size 7096

checkpoint-6/adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "q_proj",
-    "up_proj",
-    "o_proj",
     "down_proj",
     "k_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "down_proj",
     "k_proj",
+    "up_proj",
+    "o_proj",
+    "gate_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-6/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4b0af1dad4b6f86eda74b7d85593def2e1382e2a2d87fb4920e1edf6c7d259e
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:5eb9e1b8b721f99ed9f8155333fc3118cd26926cfeeb795187c0e1c2783c2ca4
 size 22573704

checkpoint-6/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93a5eece02971aad02d2d83f7eeaa735564380d25d7bfd55c80bd3de7397d6c5
 size 11710970

 version https://git-lfs.github.com/spec/v1
+oid sha256:985d63bca847c470454805da5e04eeb46811f288469dee785a1492c42a154f99
 size 11710970

checkpoint-6/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07430340557275542,
   "eval_steps": 3,
   "global_step": 6,
   "is_hyper_param_search": false,
@@ -11,68 +11,68 @@
   "log_history": [
     {
       "epoch": 0,
-      "eval_loss": 1.152190923690796,
-      "eval_runtime": 6.4433,
-      "eval_samples_per_second": 5.277,
-      "eval_steps_per_second": 2.638,
       "step": 0
     },
     {
-      "epoch": 0.01238390092879257,
-      "grad_norm": 0.4808008372783661,
       "learning_rate": 0.0,
-      "loss": 0.7383,
       "step": 1
     },
     {
-      "epoch": 0.02476780185758514,
-      "grad_norm": 0.833384096622467,
       "learning_rate": 2e-05,
-      "loss": 1.2104,
       "step": 2
     },
     {
-      "epoch": 0.03715170278637771,
-      "grad_norm": 0.48235809803009033,
       "learning_rate": 4e-05,
-      "loss": 1.1025,
       "step": 3
     },
     {
-      "epoch": 0.03715170278637771,
-      "eval_loss": 1.1526859998703003,
-      "eval_runtime": 6.1678,
-      "eval_samples_per_second": 5.513,
-      "eval_steps_per_second": 2.756,
       "step": 3
     },
     {
-      "epoch": 0.04953560371517028,
-      "grad_norm": 0.5662117004394531,
       "learning_rate": 6e-05,
-      "loss": 0.9537,
       "step": 4
     },
     {
-      "epoch": 0.06191950464396285,
-      "grad_norm": 0.49891141057014465,
       "learning_rate": 8e-05,
-      "loss": 1.1153,
       "step": 5
     },
     {
-      "epoch": 0.07430340557275542,
-      "grad_norm": 0.8236696124076843,
       "learning_rate": 0.0001,
-      "loss": 1.8739,
       "step": 6
     },
     {
-      "epoch": 0.07430340557275542,
-      "eval_loss": 1.1522986888885498,
-      "eval_runtime": 6.1818,
-      "eval_samples_per_second": 5.5,
-      "eval_steps_per_second": 2.75,
       "step": 6
     }
   ],

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06976744186046512,
   "eval_steps": 3,
   "global_step": 6,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0,
+      "eval_loss": 1.5762042999267578,
+      "eval_runtime": 6.5489,
+      "eval_samples_per_second": 5.65,
+      "eval_steps_per_second": 2.901,
       "step": 0
     },
     {
+      "epoch": 0.011627906976744186,
+      "grad_norm": 0.7823610901832581,
       "learning_rate": 0.0,
+      "loss": 1.3599,
       "step": 1
     },
     {
+      "epoch": 0.023255813953488372,
+      "grad_norm": 0.6125471591949463,
       "learning_rate": 2e-05,
+      "loss": 1.3481,
       "step": 2
     },
     {
+      "epoch": 0.03488372093023256,
+      "grad_norm": 0.7715550065040588,
       "learning_rate": 4e-05,
+      "loss": 1.607,
       "step": 3
     },
     {
+      "epoch": 0.03488372093023256,
+      "eval_loss": 1.575430154800415,
+      "eval_runtime": 6.3129,
+      "eval_samples_per_second": 5.861,
+      "eval_steps_per_second": 3.01,
       "step": 3
     },
     {
+      "epoch": 0.046511627906976744,
+      "grad_norm": 1.3339767456054688,
       "learning_rate": 6e-05,
+      "loss": 2.2903,
       "step": 4
     },
     {
+      "epoch": 0.05813953488372093,
+      "grad_norm": 0.8708456158638,
       "learning_rate": 8e-05,
+      "loss": 1.7924,
       "step": 5
     },
     {
+      "epoch": 0.06976744186046512,
+      "grad_norm": 0.6723288297653198,
       "learning_rate": 0.0001,
+      "loss": 1.2308,
       "step": 6
     },
     {
+      "epoch": 0.06976744186046512,
+      "eval_loss": 1.567781686782837,
+      "eval_runtime": 6.2826,
+      "eval_samples_per_second": 5.889,
+      "eval_steps_per_second": 3.024,
       "step": 6
     }
   ],

checkpoint-6/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fe3d956212bf11f8de80d250182cbc6e86552289b4d65d2c04058778f53bb4b
 size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:59749e575ec6b8bcbb1146ed41a833f989f4544824be840d5def832931454250
 size 7096

checkpoint-9/adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "q_proj",
-    "up_proj",
-    "o_proj",
     "down_proj",
     "k_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "down_proj",
     "k_proj",
+    "up_proj",
+    "o_proj",
+    "gate_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-9/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52dca75f07d7c168a5c97a36f909791acdb197ae822cf12cec8c24e09f1fd096
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:556d5755f4df397ce374e7b3d9135d78fb073bd6b4f73c564434448b7cd13f0a
 size 22573704

checkpoint-9/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7b1796971b5bb3f203cfbf8bd010825db21264a2517271b552c14387899d97a
 size 11710970

 version https://git-lfs.github.com/spec/v1
+oid sha256:33e5bc39d9288161a4f142cd2367ee0d530fe9db3385de7443747ea7983a8dcd
 size 11710970

checkpoint-9/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.11145510835913312,
   "eval_steps": 3,
   "global_step": 9,
   "is_hyper_param_search": false,
@@ -11,97 +11,97 @@
   "log_history": [
     {
       "epoch": 0,
-      "eval_loss": 1.152190923690796,
-      "eval_runtime": 6.4433,
-      "eval_samples_per_second": 5.277,
-      "eval_steps_per_second": 2.638,
       "step": 0
     },
     {
-      "epoch": 0.01238390092879257,
-      "grad_norm": 0.4808008372783661,
       "learning_rate": 0.0,
-      "loss": 0.7383,
       "step": 1
     },
     {
-      "epoch": 0.02476780185758514,
-      "grad_norm": 0.833384096622467,
       "learning_rate": 2e-05,
-      "loss": 1.2104,
       "step": 2
     },
     {
-      "epoch": 0.03715170278637771,
-      "grad_norm": 0.48235809803009033,
       "learning_rate": 4e-05,
-      "loss": 1.1025,
       "step": 3
     },
     {
-      "epoch": 0.03715170278637771,
-      "eval_loss": 1.1526859998703003,
-      "eval_runtime": 6.1678,
-      "eval_samples_per_second": 5.513,
-      "eval_steps_per_second": 2.756,
       "step": 3
     },
     {
-      "epoch": 0.04953560371517028,
-      "grad_norm": 0.5662117004394531,
       "learning_rate": 6e-05,
-      "loss": 0.9537,
       "step": 4
     },
     {
-      "epoch": 0.06191950464396285,
-      "grad_norm": 0.49891141057014465,
       "learning_rate": 8e-05,
-      "loss": 1.1153,
       "step": 5
     },
     {
-      "epoch": 0.07430340557275542,
-      "grad_norm": 0.8236696124076843,
       "learning_rate": 0.0001,
-      "loss": 1.8739,
       "step": 6
     },
     {
-      "epoch": 0.07430340557275542,
-      "eval_loss": 1.1522986888885498,
-      "eval_runtime": 6.1818,
-      "eval_samples_per_second": 5.5,
-      "eval_steps_per_second": 2.75,
       "step": 6
     },
     {
-      "epoch": 0.08668730650154799,
-      "grad_norm": 0.5597956776618958,
       "learning_rate": 0.00012,
-      "loss": 0.8133,
       "step": 7
     },
     {
-      "epoch": 0.09907120743034056,
-      "grad_norm": 0.4315759837627411,
       "learning_rate": 0.00014,
-      "loss": 0.782,
       "step": 8
     },
     {
-      "epoch": 0.11145510835913312,
-      "grad_norm": 0.715858519077301,
       "learning_rate": 0.00016,
-      "loss": 0.8249,
       "step": 9
     },
     {
-      "epoch": 0.11145510835913312,
-      "eval_loss": 1.1496660709381104,
-      "eval_runtime": 6.1717,
-      "eval_samples_per_second": 5.509,
-      "eval_steps_per_second": 2.755,
       "step": 9
     }
   ],

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.10465116279069768,
   "eval_steps": 3,
   "global_step": 9,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0,
+      "eval_loss": 1.5762042999267578,
+      "eval_runtime": 6.5489,
+      "eval_samples_per_second": 5.65,
+      "eval_steps_per_second": 2.901,
       "step": 0
     },
     {
+      "epoch": 0.011627906976744186,
+      "grad_norm": 0.7823610901832581,
       "learning_rate": 0.0,
+      "loss": 1.3599,
       "step": 1
     },
     {
+      "epoch": 0.023255813953488372,
+      "grad_norm": 0.6125471591949463,
       "learning_rate": 2e-05,
+      "loss": 1.3481,
       "step": 2
     },
     {
+      "epoch": 0.03488372093023256,
+      "grad_norm": 0.7715550065040588,
       "learning_rate": 4e-05,
+      "loss": 1.607,
       "step": 3
     },
     {
+      "epoch": 0.03488372093023256,
+      "eval_loss": 1.575430154800415,
+      "eval_runtime": 6.3129,
+      "eval_samples_per_second": 5.861,
+      "eval_steps_per_second": 3.01,
       "step": 3
     },
     {
+      "epoch": 0.046511627906976744,
+      "grad_norm": 1.3339767456054688,
       "learning_rate": 6e-05,
+      "loss": 2.2903,
       "step": 4
     },
     {
+      "epoch": 0.05813953488372093,
+      "grad_norm": 0.8708456158638,
       "learning_rate": 8e-05,
+      "loss": 1.7924,
       "step": 5
     },
     {
+      "epoch": 0.06976744186046512,
+      "grad_norm": 0.6723288297653198,
       "learning_rate": 0.0001,
+      "loss": 1.2308,
       "step": 6
     },
     {
+      "epoch": 0.06976744186046512,
+      "eval_loss": 1.567781686782837,
+      "eval_runtime": 6.2826,
+      "eval_samples_per_second": 5.889,
+      "eval_steps_per_second": 3.024,
       "step": 6
     },
     {
+      "epoch": 0.08139534883720931,
+      "grad_norm": 0.6576961278915405,
       "learning_rate": 0.00012,
+      "loss": 1.5055,
       "step": 7
     },
     {
+      "epoch": 0.09302325581395349,
+      "grad_norm": 1.104688286781311,
       "learning_rate": 0.00014,
+      "loss": 1.7391,
       "step": 8
     },
     {
+      "epoch": 0.10465116279069768,
+      "grad_norm": 0.8543928265571594,
       "learning_rate": 0.00016,
+      "loss": 1.9635,
       "step": 9
     },
     {
+      "epoch": 0.10465116279069768,
+      "eval_loss": 1.546512246131897,
+      "eval_runtime": 6.2614,
+      "eval_samples_per_second": 5.909,
+      "eval_steps_per_second": 3.034,
       "step": 9
     }
   ],

checkpoint-9/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fe3d956212bf11f8de80d250182cbc6e86552289b4d65d2c04058778f53bb4b
 size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:59749e575ec6b8bcbb1146ed41a833f989f4544824be840d5def832931454250
 size 7096