phi-3.5-new

Browse files

Files changed (11) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
added_tokens.json +13 -0
all_results.json +10 -10
eval_results.json +5 -5
runs/Jan26_21-17-10_dmlab/events.out.tfevents.1737919031.dmlab.32472.0 +3 -0
runs/Jan26_21-17-10_dmlab/events.out.tfevents.1737921599.dmlab.32472.1 +3 -0
tokenizer.model +3 -0
train_results.json +6 -6
trainer_state.json +120 -60
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,10 +23,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "qkv_proj",
-    "o_proj",
     "gate_up_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_up_proj",
+    "down_proj",
+    "qkv_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8dd3dcd915b2dd761edd13f06737584ebfa1e3321219edc4805c74bef799516
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:9530a4f7189fe3a34ddd73af5e9cbbc39d01141ff2a83bc58fc0472af0f0c315
 size 100697728

added_tokens.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 5.0,
-    "eval_loss": 1.0177021026611328,
-    "eval_runtime": 6.8483,
-    "eval_samples_per_second": 2.482,
-    "eval_steps_per_second": 0.73,
-    "total_flos": 8689108767160320.0,
-    "train_loss": 0.9847308204287575,
-    "train_runtime": 581.6572,
-    "train_samples_per_second": 0.713,
-    "train_steps_per_second": 0.181
 }

 {
+    "epoch": 9.0,
+    "eval_loss": 1.001703143119812,
+    "eval_runtime": 16.7881,
+    "eval_samples_per_second": 2.561,
+    "eval_steps_per_second": 0.655,
+    "total_flos": 3.918186203657011e+16,
+    "train_loss": 0.8946734860412076,
+    "train_runtime": 2550.8567,
+    "train_samples_per_second": 2.039,
+    "train_steps_per_second": 0.51
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 5.0,
-    "eval_loss": 1.0177021026611328,
-    "eval_runtime": 6.8483,
-    "eval_samples_per_second": 2.482,
-    "eval_steps_per_second": 0.73
 }

 {
+    "epoch": 9.0,
+    "eval_loss": 1.001703143119812,
+    "eval_runtime": 16.7881,
+    "eval_samples_per_second": 2.561,
+    "eval_steps_per_second": 0.655
 }

runs/Jan26_21-17-10_dmlab/events.out.tfevents.1737919031.dmlab.32472.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4aa7cc980bf3d2c1ec9a39ba407ae5db23f5886adae9544030941263afbbefac
+size 12992

runs/Jan26_21-17-10_dmlab/events.out.tfevents.1737921599.dmlab.32472.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9641486726cc361f62562ffe71401e8a945c8b34ea507c6f1b573a808aedde13
+size 359

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "total_flos": 8689108767160320.0,
-    "train_loss": 0.9847308204287575,
-    "train_runtime": 581.6572,
-    "train_samples_per_second": 0.713,
-    "train_steps_per_second": 0.181
 }

 {
+    "epoch": 9.0,
+    "total_flos": 3.918186203657011e+16,
+    "train_loss": 0.8946734860412076,
+    "train_runtime": 2550.8567,
+    "train_samples_per_second": 2.039,
+    "train_steps_per_second": 0.51
 }

trainer_state.json CHANGED Viewed

@@ -1,102 +1,162 @@
 {
-  "best_metric": 1.0051764249801636,
-  "best_model_checkpoint": "/home/labuser/Documents/phi-3/phi-3.5-new/checkpoint-105",
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 105,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.7281827330589294,
-      "learning_rate": 0.0001,
-      "loss": 1.2517,
-      "step": 21
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.1211004257202148,
-      "eval_runtime": 6.7788,
-      "eval_samples_per_second": 2.508,
-      "eval_steps_per_second": 0.738,
-      "step": 21
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.5565729737281799,
-      "learning_rate": 8.535533905932738e-05,
-      "loss": 0.9912,
-      "step": 42
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.0125099420547485,
-      "eval_runtime": 6.8252,
-      "eval_samples_per_second": 2.491,
-      "eval_steps_per_second": 0.733,
-      "step": 42
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.730018138885498,
-      "learning_rate": 5e-05,
-      "loss": 0.9198,
-      "step": 63
     },
     {
       "epoch": 3.0,
-      "eval_loss": 1.0076608657836914,
-      "eval_runtime": 6.788,
-      "eval_samples_per_second": 2.504,
-      "eval_steps_per_second": 0.737,
-      "step": 63
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.912876546382904,
-      "learning_rate": 1.4644660940672627e-05,
-      "loss": 0.8883,
-      "step": 84
     },
     {
       "epoch": 4.0,
-      "eval_loss": 1.0058414936065674,
-      "eval_runtime": 6.8991,
-      "eval_samples_per_second": 2.464,
-      "eval_steps_per_second": 0.725,
-      "step": 84
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.5380117893218994,
-      "learning_rate": 0.0,
-      "loss": 0.8727,
-      "step": 105
     },
     {
       "epoch": 5.0,
-      "eval_loss": 1.0051764249801636,
-      "eval_runtime": 6.8394,
-      "eval_samples_per_second": 2.486,
-      "eval_steps_per_second": 0.731,
-      "step": 105
     },
     {
-      "epoch": 5.0,
-      "step": 105,
-      "total_flos": 8689108767160320.0,
-      "train_loss": 0.9847308204287575,
-      "train_runtime": 581.6572,
-      "train_samples_per_second": 0.713,
-      "train_steps_per_second": 0.181
     }
   ],
   "logging_steps": 500,
-  "max_steps": 105,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -105,7 +165,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -119,7 +179,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8689108767160320.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9914960861206055,
+  "best_model_checkpoint": "/home/labuser/Documents/phi-3/phi-3.5-new/checkpoint-312",
+  "epoch": 9.0,
   "eval_steps": 500,
+  "global_step": 468,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.8883442878723145,
+      "learning_rate": 2e-05,
+      "loss": 1.2693,
+      "step": 52
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.1401562690734863,
+      "eval_runtime": 16.8795,
+      "eval_samples_per_second": 2.547,
+      "eval_steps_per_second": 0.652,
+      "step": 52
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.8219994902610779,
+      "learning_rate": 4e-05,
+      "loss": 0.9808,
+      "step": 104
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.0025322437286377,
+      "eval_runtime": 16.7914,
+      "eval_samples_per_second": 2.561,
+      "eval_steps_per_second": 0.655,
+      "step": 104
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.8449307680130005,
+      "learning_rate": 6e-05,
+      "loss": 0.895,
+      "step": 156
     },
     {
       "epoch": 3.0,
+      "eval_loss": 1.0123087167739868,
+      "eval_runtime": 16.7952,
+      "eval_samples_per_second": 2.56,
+      "eval_steps_per_second": 0.655,
+      "step": 156
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.622931718826294,
+      "learning_rate": 8e-05,
+      "loss": 0.8651,
+      "step": 208
     },
     {
       "epoch": 4.0,
+      "eval_loss": 1.0015382766723633,
+      "eval_runtime": 16.795,
+      "eval_samples_per_second": 2.56,
+      "eval_steps_per_second": 0.655,
+      "step": 208
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.6589271426200867,
+      "learning_rate": 0.0001,
+      "loss": 0.8471,
+      "step": 260
     },
     {
       "epoch": 5.0,
+      "eval_loss": 1.0026640892028809,
+      "eval_runtime": 16.7954,
+      "eval_samples_per_second": 2.56,
+      "eval_steps_per_second": 0.655,
+      "step": 260
     },
     {
+      "epoch": 6.0,
+      "grad_norm": 0.7380354404449463,
+      "learning_rate": 9.938441702975689e-05,
+      "loss": 0.8273,
+      "step": 312
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.9914960861206055,
+      "eval_runtime": 16.7888,
+      "eval_samples_per_second": 2.561,
+      "eval_steps_per_second": 0.655,
+      "step": 312
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.7154495716094971,
+      "learning_rate": 9.755282581475769e-05,
+      "loss": 0.8068,
+      "step": 364
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.9957849979400635,
+      "eval_runtime": 16.7927,
+      "eval_samples_per_second": 2.561,
+      "eval_steps_per_second": 0.655,
+      "step": 364
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.9513155817985535,
+      "learning_rate": 9.45503262094184e-05,
+      "loss": 0.7883,
+      "step": 416
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.0050514936447144,
+      "eval_runtime": 16.8033,
+      "eval_samples_per_second": 2.559,
+      "eval_steps_per_second": 0.655,
+      "step": 416
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.9450660347938538,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.7722,
+      "step": 468
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 1.008681058883667,
+      "eval_runtime": 16.7907,
+      "eval_samples_per_second": 2.561,
+      "eval_steps_per_second": 0.655,
+      "step": 468
+    },
+    {
+      "epoch": 9.0,
+      "step": 468,
+      "total_flos": 3.918186203657011e+16,
+      "train_loss": 0.8946734860412076,
+      "train_runtime": 2550.8567,
+      "train_samples_per_second": 2.039,
+      "train_steps_per_second": 0.51
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1300,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 25,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3.918186203657011e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f13e576b6949e0d2dec213e01d234ec58654620365de37ce95f267570e8fb4ee
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:128eba89cd71392d5ec29707dedc993445621390f2e66243a915aa50897df7e4
 size 5624