Khamad commited on Dec 31, 2025

Commit

338104f

verified ·

1 Parent(s): e042e2c

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +6 -0
adapter_config.json +1 -1
adapter_model.safetensors +1 -1
amiya_training_config.json +30 -0
checkpoint-1000/adapter_config.json +1 -1
checkpoint-1000/adapter_model.safetensors +1 -1
checkpoint-1000/optimizer.pt +1 -1
checkpoint-1000/rng_state.pth +1 -1
checkpoint-1000/scheduler.pt +1 -1
checkpoint-1000/trainer_state.json +103 -103
checkpoint-1000/training_args.bin +1 -1
checkpoint-1500/adapter_config.json +1 -1
checkpoint-1500/adapter_model.safetensors +1 -1
checkpoint-1500/optimizer.pt +1 -1
checkpoint-1500/rng_state.pth +1 -1
checkpoint-1500/scheduler.pt +1 -1
checkpoint-1500/trainer_state.json +153 -153
checkpoint-1500/training_args.bin +1 -1
checkpoint-2000/adapter_config.json +1 -1
checkpoint-2000/adapter_model.safetensors +1 -1
checkpoint-2000/optimizer.pt +1 -1
checkpoint-2000/rng_state.pth +1 -1
checkpoint-2000/scheduler.pt +1 -1
checkpoint-2000/trainer_state.json +203 -203
checkpoint-2000/training_args.bin +1 -1
checkpoint-2500/adapter_config.json +1 -1
checkpoint-2500/adapter_model.safetensors +1 -1
checkpoint-2500/optimizer.pt +1 -1
checkpoint-2500/rng_state.pth +1 -1
checkpoint-2500/scaler.pt +1 -1
checkpoint-2500/scheduler.pt +1 -1
checkpoint-2500/trainer_state.json +253 -253
checkpoint-2500/training_args.bin +1 -1
checkpoint-3000/adapter_config.json +1 -1
checkpoint-3000/adapter_model.safetensors +1 -1
checkpoint-3000/optimizer.pt +1 -1
checkpoint-3000/rng_state.pth +1 -1
checkpoint-3000/scaler.pt +1 -1
checkpoint-3000/scheduler.pt +1 -1
checkpoint-3000/trainer_state.json +303 -303
checkpoint-3000/training_args.bin +1 -1
checkpoint-3500/adapter_config.json +1 -1
checkpoint-3500/adapter_model.safetensors +1 -1
checkpoint-3500/optimizer.pt +1 -1
checkpoint-3500/rng_state.pth +1 -1
checkpoint-3500/scaler.pt +1 -1
checkpoint-3500/scheduler.pt +1 -1
checkpoint-3500/trainer_state.json +354 -354
checkpoint-3500/training_args.bin +1 -1
checkpoint-4000/adapter_config.json +1 -1

.gitattributes CHANGED Viewed

@@ -43,3 +43,9 @@ checkpoint-4000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-4500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 checkpoint-4500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-5000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-5500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-6000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-6500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-7000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-7242/tokenizer.json filter=lfs diff=lfs merge=lfs -text

adapter_config.json CHANGED Viewed

@@ -29,9 +29,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
-    "q_proj",
     "k_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "o_proj",
     "v_proj",
     "k_proj"
   ],
   "target_parameters": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8737189ec50534340f940487b7bbcfbb3c0341cdc991f458aa11988b0dcf614e
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ed806adeae688d7c41407f6645cccc7ce2b13d73c5c283a964e550db5cccdfd
 size 54560368

amiya_training_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "task": "AMIYA - Palestinian Dialect Generation & Translation",
+  "base_model_id": "meta-llama/Meta-Llama-3.1-8B-Instruct",
+  "model_name": "llama3.1-8b-amiya-palestinian",
+  "lora_config": {
+    "r": 16,
+    "alpha": 32,
+    "dropout": 0.1,
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj"
+    ]
+  },
+  "training_config": {
+    "learning_rate": 0.0002,
+    "batch_size": 4,
+    "gradient_accumulation_steps": 4,
+    "num_epochs": 3,
+    "max_seq_length": 512
+  },
+  "data_info": {
+    "train_examples": 38610,
+    "val_examples": 4826,
+    "task_distribution": {
+      "generation": 38610
+    }
+  }
+}

checkpoint-1000/adapter_config.json CHANGED Viewed

@@ -29,9 +29,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
-    "q_proj",
     "k_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "o_proj",
     "v_proj",
     "k_proj"
   ],
   "target_parameters": null,

checkpoint-1000/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a337408970398c2e9a24e688bf7ae27f447fa36418d8f264d28e4a21f2f49314
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0e9afa212c03f271afa6d36c899544f890afc05a2c223d980daf1a6e15ef57c
 size 54560368

checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:836a20d29ed19417deb4b6ed2fc4b4569861de82c4c55fabfe49fbe87f5fb08d
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5f323c02c1896e68421c3a31c11a7088016245c869c50a4426821b3cd7a3b19
 size 109267450

checkpoint-1000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd8c7fc2d07824f068e75323719839356ff5fdee8fb7889a50120d59de9dba54
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0848c22229788451a8855f4ad6b26100cfddc951d37153298ef3edaa793e835b
 size 14244

checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1e1088243bd7a7c628a47a6bf4ac054b65997c9a7e139b848ea5fe3e7d04eb2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1136245b007779a968f37d1aeab3ab161c76720f4fca73eee284d9fc931f26e
 size 1064

checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 1000,
-  "best_metric": 0.5663638710975647,
-  "best_model_checkpoint": "finetuned_models/llama3.1-8b-lora/checkpoint-1000",
-  "epoch": 0.6666666666666666,
   "eval_steps": 250,
   "global_step": 1000,
   "is_hyper_param_search": false,
@@ -10,180 +10,180 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03333333333333333,
-      "grad_norm": 0.5346225500106812,
       "learning_rate": 9.8e-05,
-      "loss": 2.4955,
       "step": 50
     },
     {
-      "epoch": 0.06666666666666667,
-      "grad_norm": 0.719093918800354,
       "learning_rate": 0.00019800000000000002,
-      "loss": 0.71,
       "step": 100
     },
     {
-      "epoch": 0.1,
-      "grad_norm": 0.4840560853481293,
-      "learning_rate": 0.0001977727272727273,
-      "loss": 0.6405,
       "step": 150
     },
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 0.3332301676273346,
-      "learning_rate": 0.0001955,
-      "loss": 0.6287,
       "step": 200
     },
     {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 0.40639588236808777,
-      "learning_rate": 0.00019322727272727276,
-      "loss": 0.5572,
       "step": 250
     },
     {
-      "epoch": 0.16666666666666666,
-      "eval_loss": 0.5975945591926575,
-      "eval_runtime": 80.8004,
-      "eval_samples_per_second": 37.129,
-      "eval_steps_per_second": 9.282,
       "step": 250
     },
     {
-      "epoch": 0.2,
-      "grad_norm": 0.3970712423324585,
-      "learning_rate": 0.00019095454545454545,
-      "loss": 0.6165,
       "step": 300
     },
     {
-      "epoch": 0.23333333333333334,
-      "grad_norm": 0.38409528136253357,
-      "learning_rate": 0.00018868181818181817,
-      "loss": 0.639,
       "step": 350
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 0.44628769159317017,
-      "learning_rate": 0.00018640909090909092,
-      "loss": 0.636,
       "step": 400
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 0.3697021007537842,
-      "learning_rate": 0.00018413636363636364,
-      "loss": 0.6192,
       "step": 450
     },
     {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 0.36338189244270325,
-      "learning_rate": 0.00018186363636363636,
-      "loss": 0.6134,
       "step": 500
     },
     {
-      "epoch": 0.3333333333333333,
-      "eval_loss": 0.5813060998916626,
-      "eval_runtime": 80.7819,
-      "eval_samples_per_second": 37.137,
-      "eval_steps_per_second": 9.284,
       "step": 500
     },
     {
-      "epoch": 0.36666666666666664,
-      "grad_norm": 0.35211533308029175,
-      "learning_rate": 0.0001795909090909091,
-      "loss": 0.6128,
       "step": 550
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 0.36327463388442993,
-      "learning_rate": 0.00017731818181818183,
-      "loss": 0.5915,
       "step": 600
     },
     {
-      "epoch": 0.43333333333333335,
-      "grad_norm": 0.40672942996025085,
-      "learning_rate": 0.00017504545454545455,
-      "loss": 0.5807,
       "step": 650
     },
     {
-      "epoch": 0.4666666666666667,
-      "grad_norm": 0.4689007103443146,
-      "learning_rate": 0.00017277272727272728,
-      "loss": 0.602,
       "step": 700
     },
     {
-      "epoch": 0.5,
-      "grad_norm": 0.3979697823524475,
-      "learning_rate": 0.00017050000000000002,
-      "loss": 0.5703,
       "step": 750
     },
     {
-      "epoch": 0.5,
-      "eval_loss": 0.5740106701850891,
-      "eval_runtime": 80.8209,
-      "eval_samples_per_second": 37.119,
-      "eval_steps_per_second": 9.28,
       "step": 750
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.3071135878562927,
-      "learning_rate": 0.00016822727272727275,
-      "loss": 0.5746,
       "step": 800
     },
     {
-      "epoch": 0.5666666666666667,
-      "grad_norm": 0.318085253238678,
-      "learning_rate": 0.00016595454545454544,
-      "loss": 0.5873,
       "step": 850
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 0.35915374755859375,
-      "learning_rate": 0.0001636818181818182,
-      "loss": 0.6283,
       "step": 900
     },
     {
-      "epoch": 0.6333333333333333,
-      "grad_norm": 0.3174057602882385,
-      "learning_rate": 0.0001614090909090909,
-      "loss": 0.5912,
       "step": 950
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.416111022233963,
-      "learning_rate": 0.00015913636363636363,
-      "loss": 0.5647,
       "step": 1000
     },
     {
-      "epoch": 0.6666666666666666,
-      "eval_loss": 0.5663638710975647,
-      "eval_runtime": 80.8183,
-      "eval_samples_per_second": 37.12,
-      "eval_steps_per_second": 9.28,
       "step": 1000
     }
   ],
   "logging_steps": 50,
-  "max_steps": 4500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -199,7 +199,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2237370421673984e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 1000,
+  "best_metric": 0.7030432820320129,
+  "best_model_checkpoint": "amiya_outputs/llama3.1-8b-amiya-palestinian/checkpoint-1000",
+  "epoch": 0.4143789495493629,
   "eval_steps": 250,
   "global_step": 1000,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.020718947477468146,
+      "grad_norm": 1.0589393377304077,
       "learning_rate": 9.8e-05,
+      "loss": 2.6567,
       "step": 50
     },
     {
+      "epoch": 0.04143789495493629,
+      "grad_norm": 0.9738045334815979,
       "learning_rate": 0.00019800000000000002,
+      "loss": 0.9502,
       "step": 100
     },
     {
+      "epoch": 0.062156842432404436,
+      "grad_norm": 0.8801347017288208,
+      "learning_rate": 0.00019862783534024082,
+      "loss": 0.8496,
       "step": 150
     },
     {
+      "epoch": 0.08287578990987259,
+      "grad_norm": 0.7272312045097351,
+      "learning_rate": 0.00019722766732007841,
+      "loss": 0.8184,
       "step": 200
     },
     {
+      "epoch": 0.10359473738734072,
+      "grad_norm": 0.7850629091262817,
+      "learning_rate": 0.000195827499299916,
+      "loss": 0.8392,
       "step": 250
     },
     {
+      "epoch": 0.10359473738734072,
+      "eval_loss": 0.7402811050415039,
+      "eval_runtime": 85.9367,
+      "eval_samples_per_second": 56.158,
+      "eval_steps_per_second": 14.045,
       "step": 250
     },
     {
+      "epoch": 0.12431368486480887,
+      "grad_norm": 0.40629276633262634,
+      "learning_rate": 0.00019442733127975358,
+      "loss": 0.8108,
       "step": 300
     },
     {
+      "epoch": 0.145032632342277,
+      "grad_norm": 0.5258236527442932,
+      "learning_rate": 0.00019302716325959117,
+      "loss": 0.8116,
       "step": 350
     },
     {
+      "epoch": 0.16575157981974517,
+      "grad_norm": 0.6879925727844238,
+      "learning_rate": 0.00019162699523942874,
+      "loss": 0.9089,
       "step": 400
     },
     {
+      "epoch": 0.1864705272972133,
+      "grad_norm": 0.7583937048912048,
+      "learning_rate": 0.00019022682721926633,
+      "loss": 0.874,
       "step": 450
     },
     {
+      "epoch": 0.20718947477468144,
+      "grad_norm": 0.6399120688438416,
+      "learning_rate": 0.0001888266591991039,
+      "loss": 0.8366,
       "step": 500
     },
     {
+      "epoch": 0.20718947477468144,
+      "eval_loss": 0.7194066047668457,
+      "eval_runtime": 86.2811,
+      "eval_samples_per_second": 55.933,
+      "eval_steps_per_second": 13.989,
       "step": 500
     },
     {
+      "epoch": 0.22790842225214958,
+      "grad_norm": 0.7763131856918335,
+      "learning_rate": 0.0001874264911789415,
+      "loss": 0.7912,
       "step": 550
     },
     {
+      "epoch": 0.24862736972961774,
+      "grad_norm": 0.6845299601554871,
+      "learning_rate": 0.00018602632315877906,
+      "loss": 0.8506,
       "step": 600
     },
     {
+      "epoch": 0.2693463172070859,
+      "grad_norm": 0.8045451045036316,
+      "learning_rate": 0.00018462615513861665,
+      "loss": 0.763,
       "step": 650
     },
     {
+      "epoch": 0.290065264684554,
+      "grad_norm": 0.7035927176475525,
+      "learning_rate": 0.00018322598711845422,
+      "loss": 0.7769,
       "step": 700
     },
     {
+      "epoch": 0.3107842121620222,
+      "grad_norm": 0.465000718832016,
+      "learning_rate": 0.00018182581909829179,
+      "loss": 0.7705,
       "step": 750
     },
     {
+      "epoch": 0.3107842121620222,
+      "eval_loss": 0.7103215456008911,
+      "eval_runtime": 86.1101,
+      "eval_samples_per_second": 56.045,
+      "eval_steps_per_second": 14.017,
       "step": 750
     },
     {
+      "epoch": 0.33150315963949034,
+      "grad_norm": 0.4990151524543762,
+      "learning_rate": 0.00018042565107812938,
+      "loss": 0.8438,
       "step": 800
     },
     {
+      "epoch": 0.35222210711695845,
+      "grad_norm": 0.7391067147254944,
+      "learning_rate": 0.00017902548305796695,
+      "loss": 0.7688,
       "step": 850
     },
     {
+      "epoch": 0.3729410545944266,
+      "grad_norm": 0.8036171197891235,
+      "learning_rate": 0.00017762531503780454,
+      "loss": 0.753,
       "step": 900
     },
     {
+      "epoch": 0.3936600020718947,
+      "grad_norm": 0.44744470715522766,
+      "learning_rate": 0.00017622514701764213,
+      "loss": 0.7793,
       "step": 950
     },
     {
+      "epoch": 0.4143789495493629,
+      "grad_norm": 0.630820631980896,
+      "learning_rate": 0.00017482497899747973,
+      "loss": 0.7555,
       "step": 1000
     },
     {
+      "epoch": 0.4143789495493629,
+      "eval_loss": 0.7030432820320129,
+      "eval_runtime": 86.2543,
+      "eval_samples_per_second": 55.951,
+      "eval_steps_per_second": 13.994,
       "step": 1000
     }
   ],
   "logging_steps": 50,
+  "max_steps": 7242,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 6.287293343858688e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb76e3e4d2123d52e529262f1ff37bfc600a160bb369e2338a54f71b47c17108
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a783872a61d64f4d1b4e002fa0fa67fa54dd9c59c4f7fbad58c794a77134069d
 size 5432

checkpoint-1500/adapter_config.json CHANGED Viewed

@@ -29,9 +29,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
-    "q_proj",
     "k_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "o_proj",
     "v_proj",
     "k_proj"
   ],
   "target_parameters": null,

checkpoint-1500/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fffc39fa6d134c8e1c7fb75eb4b8bba5ec8ab6c346da3a5eb4d76438cd39ae0c
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ea46f8890e14af515a490916d64d71a2431e0fc2dcd93524c7fc01129a8a616
 size 54560368

checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:717a1347063e278eeee0f830ff534ecc2eac4a766bbc7c3f20365db80f97a61c
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:354f1db55f58b61b25e0b64b403e6dde75e6311037b61694806cdbc4c95a72ff
 size 109267450

checkpoint-1500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81714e5e2c84586d42b5d5f07880ce07b947cdccdb018347e47dd6d73d8228e1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc994964dd77b4b17f41bf873360fc1a0838df4b2f5359ed8062b49a57ca0441
 size 14244

checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00b75657512bf4d369b2b5bae16105c8cc283d42aacd01df4e2a83091d439a73
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e226332b6c4b4510f2c3b1022f832e7e6d32594e02d1e8b882e79ae8cbda6044
 size 1064

checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 1500,
-  "best_metric": 0.5581239461898804,
-  "best_model_checkpoint": "finetuned_models/llama3.1-8b-lora/checkpoint-1500",
-  "epoch": 1.0,
   "eval_steps": 250,
   "global_step": 1500,
   "is_hyper_param_search": false,
@@ -10,266 +10,266 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03333333333333333,
-      "grad_norm": 0.5346225500106812,
       "learning_rate": 9.8e-05,
-      "loss": 2.4955,
       "step": 50
     },
     {
-      "epoch": 0.06666666666666667,
-      "grad_norm": 0.719093918800354,
       "learning_rate": 0.00019800000000000002,
-      "loss": 0.71,
       "step": 100
     },
     {
-      "epoch": 0.1,
-      "grad_norm": 0.4840560853481293,
-      "learning_rate": 0.0001977727272727273,
-      "loss": 0.6405,
       "step": 150
     },
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 0.3332301676273346,
-      "learning_rate": 0.0001955,
-      "loss": 0.6287,
       "step": 200
     },
     {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 0.40639588236808777,
-      "learning_rate": 0.00019322727272727276,
-      "loss": 0.5572,
       "step": 250
     },
     {
-      "epoch": 0.16666666666666666,
-      "eval_loss": 0.5975945591926575,
-      "eval_runtime": 80.8004,
-      "eval_samples_per_second": 37.129,
-      "eval_steps_per_second": 9.282,
       "step": 250
     },
     {
-      "epoch": 0.2,
-      "grad_norm": 0.3970712423324585,
-      "learning_rate": 0.00019095454545454545,
-      "loss": 0.6165,
       "step": 300
     },
     {
-      "epoch": 0.23333333333333334,
-      "grad_norm": 0.38409528136253357,
-      "learning_rate": 0.00018868181818181817,
-      "loss": 0.639,
       "step": 350
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 0.44628769159317017,
-      "learning_rate": 0.00018640909090909092,
-      "loss": 0.636,
       "step": 400
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 0.3697021007537842,
-      "learning_rate": 0.00018413636363636364,
-      "loss": 0.6192,
       "step": 450
     },
     {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 0.36338189244270325,
-      "learning_rate": 0.00018186363636363636,
-      "loss": 0.6134,
       "step": 500
     },
     {
-      "epoch": 0.3333333333333333,
-      "eval_loss": 0.5813060998916626,
-      "eval_runtime": 80.7819,
-      "eval_samples_per_second": 37.137,
-      "eval_steps_per_second": 9.284,
       "step": 500
     },
     {
-      "epoch": 0.36666666666666664,
-      "grad_norm": 0.35211533308029175,
-      "learning_rate": 0.0001795909090909091,
-      "loss": 0.6128,
       "step": 550
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 0.36327463388442993,
-      "learning_rate": 0.00017731818181818183,
-      "loss": 0.5915,
       "step": 600
     },
     {
-      "epoch": 0.43333333333333335,
-      "grad_norm": 0.40672942996025085,
-      "learning_rate": 0.00017504545454545455,
-      "loss": 0.5807,
       "step": 650
     },
     {
-      "epoch": 0.4666666666666667,
-      "grad_norm": 0.4689007103443146,
-      "learning_rate": 0.00017277272727272728,
-      "loss": 0.602,
       "step": 700
     },
     {
-      "epoch": 0.5,
-      "grad_norm": 0.3979697823524475,
-      "learning_rate": 0.00017050000000000002,
-      "loss": 0.5703,
       "step": 750
     },
     {
-      "epoch": 0.5,
-      "eval_loss": 0.5740106701850891,
-      "eval_runtime": 80.8209,
-      "eval_samples_per_second": 37.119,
-      "eval_steps_per_second": 9.28,
       "step": 750
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.3071135878562927,
-      "learning_rate": 0.00016822727272727275,
-      "loss": 0.5746,
       "step": 800
     },
     {
-      "epoch": 0.5666666666666667,
-      "grad_norm": 0.318085253238678,
-      "learning_rate": 0.00016595454545454544,
-      "loss": 0.5873,
       "step": 850
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 0.35915374755859375,
-      "learning_rate": 0.0001636818181818182,
-      "loss": 0.6283,
       "step": 900
     },
     {
-      "epoch": 0.6333333333333333,
-      "grad_norm": 0.3174057602882385,
-      "learning_rate": 0.0001614090909090909,
-      "loss": 0.5912,
       "step": 950
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.416111022233963,
-      "learning_rate": 0.00015913636363636363,
-      "loss": 0.5647,
       "step": 1000
     },
     {
-      "epoch": 0.6666666666666666,
-      "eval_loss": 0.5663638710975647,
-      "eval_runtime": 80.8183,
-      "eval_samples_per_second": 37.12,
-      "eval_steps_per_second": 9.28,
       "step": 1000
     },
     {
-      "epoch": 0.7,
-      "grad_norm": 0.41202324628829956,
-      "learning_rate": 0.00015686363636363638,
-      "loss": 0.6118,
       "step": 1050
     },
     {
-      "epoch": 0.7333333333333333,
-      "grad_norm": 0.3883333206176758,
-      "learning_rate": 0.0001545909090909091,
-      "loss": 0.5392,
       "step": 1100
     },
     {
-      "epoch": 0.7666666666666667,
-      "grad_norm": 0.31973451375961304,
-      "learning_rate": 0.00015231818181818182,
-      "loss": 0.5602,
       "step": 1150
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.31378698348999023,
-      "learning_rate": 0.00015004545454545454,
-      "loss": 0.5642,
       "step": 1200
     },
     {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 0.3346308171749115,
-      "learning_rate": 0.0001477727272727273,
-      "loss": 0.5925,
       "step": 1250
     },
     {
-      "epoch": 0.8333333333333334,
-      "eval_loss": 0.5619704723358154,
-      "eval_runtime": 80.824,
-      "eval_samples_per_second": 37.118,
-      "eval_steps_per_second": 9.279,
       "step": 1250
     },
     {
-      "epoch": 0.8666666666666667,
-      "grad_norm": 0.5573959946632385,
-      "learning_rate": 0.0001455,
-      "loss": 0.5829,
       "step": 1300
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 0.36054643988609314,
-      "learning_rate": 0.00014322727272727273,
-      "loss": 0.5923,
       "step": 1350
     },
     {
-      "epoch": 0.9333333333333333,
-      "grad_norm": 0.36059027910232544,
-      "learning_rate": 0.00014095454545454546,
-      "loss": 0.5808,
       "step": 1400
     },
     {
-      "epoch": 0.9666666666666667,
-      "grad_norm": 0.3942534327507019,
-      "learning_rate": 0.00013868181818181818,
-      "loss": 0.5597,
       "step": 1450
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.3995835483074188,
-      "learning_rate": 0.0001364090909090909,
-      "loss": 0.5554,
       "step": 1500
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.5581239461898804,
-      "eval_runtime": 80.8326,
-      "eval_samples_per_second": 37.114,
-      "eval_steps_per_second": 9.278,
       "step": 1500
     }
   ],
   "logging_steps": 50,
-  "max_steps": 4500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -285,7 +285,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.834623940558848e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 1500,
+  "best_metric": 0.6915447115898132,
+  "best_model_checkpoint": "amiya_outputs/llama3.1-8b-amiya-palestinian/checkpoint-1500",
+  "epoch": 0.6215684243240444,
   "eval_steps": 250,
   "global_step": 1500,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.020718947477468146,
+      "grad_norm": 1.0589393377304077,
       "learning_rate": 9.8e-05,
+      "loss": 2.6567,
       "step": 50
     },
     {
+      "epoch": 0.04143789495493629,
+      "grad_norm": 0.9738045334815979,
       "learning_rate": 0.00019800000000000002,
+      "loss": 0.9502,
       "step": 100
     },
     {
+      "epoch": 0.062156842432404436,
+      "grad_norm": 0.8801347017288208,
+      "learning_rate": 0.00019862783534024082,
+      "loss": 0.8496,
       "step": 150
     },
     {
+      "epoch": 0.08287578990987259,
+      "grad_norm": 0.7272312045097351,
+      "learning_rate": 0.00019722766732007841,
+      "loss": 0.8184,
       "step": 200
     },
     {
+      "epoch": 0.10359473738734072,
+      "grad_norm": 0.7850629091262817,
+      "learning_rate": 0.000195827499299916,
+      "loss": 0.8392,
       "step": 250
     },
     {
+      "epoch": 0.10359473738734072,
+      "eval_loss": 0.7402811050415039,
+      "eval_runtime": 85.9367,
+      "eval_samples_per_second": 56.158,
+      "eval_steps_per_second": 14.045,
       "step": 250
     },
     {
+      "epoch": 0.12431368486480887,
+      "grad_norm": 0.40629276633262634,
+      "learning_rate": 0.00019442733127975358,
+      "loss": 0.8108,
       "step": 300
     },
     {
+      "epoch": 0.145032632342277,
+      "grad_norm": 0.5258236527442932,
+      "learning_rate": 0.00019302716325959117,
+      "loss": 0.8116,
       "step": 350
     },
     {
+      "epoch": 0.16575157981974517,
+      "grad_norm": 0.6879925727844238,
+      "learning_rate": 0.00019162699523942874,
+      "loss": 0.9089,
       "step": 400
     },
     {
+      "epoch": 0.1864705272972133,
+      "grad_norm": 0.7583937048912048,
+      "learning_rate": 0.00019022682721926633,
+      "loss": 0.874,
       "step": 450
     },
     {
+      "epoch": 0.20718947477468144,
+      "grad_norm": 0.6399120688438416,
+      "learning_rate": 0.0001888266591991039,
+      "loss": 0.8366,
       "step": 500
     },
     {
+      "epoch": 0.20718947477468144,
+      "eval_loss": 0.7194066047668457,
+      "eval_runtime": 86.2811,
+      "eval_samples_per_second": 55.933,
+      "eval_steps_per_second": 13.989,
       "step": 500
     },
     {
+      "epoch": 0.22790842225214958,
+      "grad_norm": 0.7763131856918335,
+      "learning_rate": 0.0001874264911789415,
+      "loss": 0.7912,
       "step": 550
     },
     {
+      "epoch": 0.24862736972961774,
+      "grad_norm": 0.6845299601554871,
+      "learning_rate": 0.00018602632315877906,
+      "loss": 0.8506,
       "step": 600
     },
     {
+      "epoch": 0.2693463172070859,
+      "grad_norm": 0.8045451045036316,
+      "learning_rate": 0.00018462615513861665,
+      "loss": 0.763,
       "step": 650
     },
     {
+      "epoch": 0.290065264684554,
+      "grad_norm": 0.7035927176475525,
+      "learning_rate": 0.00018322598711845422,
+      "loss": 0.7769,
       "step": 700
     },
     {
+      "epoch": 0.3107842121620222,
+      "grad_norm": 0.465000718832016,
+      "learning_rate": 0.00018182581909829179,
+      "loss": 0.7705,
       "step": 750
     },
     {
+      "epoch": 0.3107842121620222,
+      "eval_loss": 0.7103215456008911,
+      "eval_runtime": 86.1101,
+      "eval_samples_per_second": 56.045,
+      "eval_steps_per_second": 14.017,
       "step": 750
     },
     {
+      "epoch": 0.33150315963949034,
+      "grad_norm": 0.4990151524543762,
+      "learning_rate": 0.00018042565107812938,
+      "loss": 0.8438,
       "step": 800
     },
     {
+      "epoch": 0.35222210711695845,
+      "grad_norm": 0.7391067147254944,
+      "learning_rate": 0.00017902548305796695,
+      "loss": 0.7688,
       "step": 850
     },
     {
+      "epoch": 0.3729410545944266,
+      "grad_norm": 0.8036171197891235,
+      "learning_rate": 0.00017762531503780454,
+      "loss": 0.753,
       "step": 900
     },
     {
+      "epoch": 0.3936600020718947,
+      "grad_norm": 0.44744470715522766,
+      "learning_rate": 0.00017622514701764213,
+      "loss": 0.7793,
       "step": 950
     },
     {
+      "epoch": 0.4143789495493629,
+      "grad_norm": 0.630820631980896,
+      "learning_rate": 0.00017482497899747973,
+      "loss": 0.7555,
       "step": 1000
     },
     {
+      "epoch": 0.4143789495493629,
+      "eval_loss": 0.7030432820320129,
+      "eval_runtime": 86.2543,
+      "eval_samples_per_second": 55.951,
+      "eval_steps_per_second": 13.994,
       "step": 1000
     },
     {
+      "epoch": 0.43509789702683105,
+      "grad_norm": 0.45690879225730896,
+      "learning_rate": 0.0001734248109773173,
+      "loss": 0.793,
       "step": 1050
     },
     {
+      "epoch": 0.45581684450429916,
+      "grad_norm": 0.5000227093696594,
+      "learning_rate": 0.00017202464295715486,
+      "loss": 0.8342,
       "step": 1100
     },
     {
+      "epoch": 0.4765357919817673,
+      "grad_norm": 0.47182488441467285,
+      "learning_rate": 0.00017062447493699246,
+      "loss": 0.7997,
       "step": 1150
     },
     {
+      "epoch": 0.4972547394592355,
+      "grad_norm": 0.7060516476631165,
+      "learning_rate": 0.00016922430691683002,
+      "loss": 0.7788,
       "step": 1200
     },
     {
+      "epoch": 0.5179736869367036,
+      "grad_norm": 0.46701857447624207,
+      "learning_rate": 0.00016782413889666762,
+      "loss": 0.7518,
       "step": 1250
     },
     {
+      "epoch": 0.5179736869367036,
+      "eval_loss": 0.7023425698280334,
+      "eval_runtime": 86.3015,
+      "eval_samples_per_second": 55.92,
+      "eval_steps_per_second": 13.986,
       "step": 1250
     },
     {
+      "epoch": 0.5386926344141718,
+      "grad_norm": 0.668192446231842,
+      "learning_rate": 0.00016642397087650518,
+      "loss": 0.7682,
       "step": 1300
     },
     {
+      "epoch": 0.5594115818916399,
+      "grad_norm": 0.47292283177375793,
+      "learning_rate": 0.00016502380285634278,
+      "loss": 0.7985,
       "step": 1350
     },
     {
+      "epoch": 0.580130529369108,
+      "grad_norm": 0.7327275276184082,
+      "learning_rate": 0.00016362363483618034,
+      "loss": 0.8378,
       "step": 1400
     },
     {
+      "epoch": 0.6008494768465762,
+      "grad_norm": 0.8417996764183044,
+      "learning_rate": 0.0001622234668160179,
+      "loss": 0.7962,
       "step": 1450
     },
     {
+      "epoch": 0.6215684243240444,
+      "grad_norm": 0.6189562678337097,
+      "learning_rate": 0.0001608232987958555,
+      "loss": 0.8028,
       "step": 1500
     },
     {
+      "epoch": 0.6215684243240444,
+      "eval_loss": 0.6915447115898132,
+      "eval_runtime": 86.2147,
+      "eval_samples_per_second": 55.977,
+      "eval_steps_per_second": 14.0,
       "step": 1500
     }
   ],
   "logging_steps": 50,
+  "max_steps": 7242,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 9.496080786358272e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb76e3e4d2123d52e529262f1ff37bfc600a160bb369e2338a54f71b47c17108
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a783872a61d64f4d1b4e002fa0fa67fa54dd9c59c4f7fbad58c794a77134069d
 size 5432

checkpoint-2000/adapter_config.json CHANGED Viewed

@@ -29,9 +29,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
-    "q_proj",
     "k_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "o_proj",
     "v_proj",
     "k_proj"
   ],
   "target_parameters": null,

checkpoint-2000/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c3a88ad5e47e99721d27a7cc47580f0dd445458c5b5d383d9746ac5150752b3
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bc2c38a4feb292b5953adbca7e889a9849d3aae23bebf65624fa6ef2a12e814
 size 54560368

checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1aa882db7f1e97aecd9e23deab24ec52c1966c084ef84d480101777cb20b2b38
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:02591c829ebc2e9c023c77020f2505b8055865e72743aebf570d809d20a5bf01
 size 109267450

checkpoint-2000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e86b19998400264e99e08275eb288ef36b233377938a1f173b2ecb9fa75ffacc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b69ce190b07f928f0db402b171b4a32695620a6cc7680ee0294e1d3ca9955e84
 size 14244

checkpoint-2000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de481359f7708f1c509bebbc539f8384d41101271a19491884a2ffc4b1dd3c44
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aff236ec96fe456a1d48a1c988fd9dbf62d3fbd22f57121ebf0b02e7d4ca2c27
 size 1064

checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 2000,
-  "best_metric": 0.5535863637924194,
-  "best_model_checkpoint": "finetuned_models/llama3.1-8b-lora/checkpoint-2000",
-  "epoch": 1.3333333333333333,
   "eval_steps": 250,
   "global_step": 2000,
   "is_hyper_param_search": false,
@@ -10,352 +10,352 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03333333333333333,
-      "grad_norm": 0.5346225500106812,
       "learning_rate": 9.8e-05,
-      "loss": 2.4955,
       "step": 50
     },
     {
-      "epoch": 0.06666666666666667,
-      "grad_norm": 0.719093918800354,
       "learning_rate": 0.00019800000000000002,
-      "loss": 0.71,
       "step": 100
     },
     {
-      "epoch": 0.1,
-      "grad_norm": 0.4840560853481293,
-      "learning_rate": 0.0001977727272727273,
-      "loss": 0.6405,
       "step": 150
     },
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 0.3332301676273346,
-      "learning_rate": 0.0001955,
-      "loss": 0.6287,
       "step": 200
     },
     {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 0.40639588236808777,
-      "learning_rate": 0.00019322727272727276,
-      "loss": 0.5572,
       "step": 250
     },
     {
-      "epoch": 0.16666666666666666,
-      "eval_loss": 0.5975945591926575,
-      "eval_runtime": 80.8004,
-      "eval_samples_per_second": 37.129,
-      "eval_steps_per_second": 9.282,
       "step": 250
     },
     {
-      "epoch": 0.2,
-      "grad_norm": 0.3970712423324585,
-      "learning_rate": 0.00019095454545454545,
-      "loss": 0.6165,
       "step": 300
     },
     {
-      "epoch": 0.23333333333333334,
-      "grad_norm": 0.38409528136253357,
-      "learning_rate": 0.00018868181818181817,
-      "loss": 0.639,
       "step": 350
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 0.44628769159317017,
-      "learning_rate": 0.00018640909090909092,
-      "loss": 0.636,
       "step": 400
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 0.3697021007537842,
-      "learning_rate": 0.00018413636363636364,
-      "loss": 0.6192,
       "step": 450
     },
     {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 0.36338189244270325,
-      "learning_rate": 0.00018186363636363636,
-      "loss": 0.6134,
       "step": 500
     },
     {
-      "epoch": 0.3333333333333333,
-      "eval_loss": 0.5813060998916626,
-      "eval_runtime": 80.7819,
-      "eval_samples_per_second": 37.137,
-      "eval_steps_per_second": 9.284,
       "step": 500
     },
     {
-      "epoch": 0.36666666666666664,
-      "grad_norm": 0.35211533308029175,
-      "learning_rate": 0.0001795909090909091,
-      "loss": 0.6128,
       "step": 550
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 0.36327463388442993,
-      "learning_rate": 0.00017731818181818183,
-      "loss": 0.5915,
       "step": 600
     },
     {
-      "epoch": 0.43333333333333335,
-      "grad_norm": 0.40672942996025085,
-      "learning_rate": 0.00017504545454545455,
-      "loss": 0.5807,
       "step": 650
     },
     {
-      "epoch": 0.4666666666666667,
-      "grad_norm": 0.4689007103443146,
-      "learning_rate": 0.00017277272727272728,
-      "loss": 0.602,
       "step": 700
     },
     {
-      "epoch": 0.5,
-      "grad_norm": 0.3979697823524475,
-      "learning_rate": 0.00017050000000000002,
-      "loss": 0.5703,
       "step": 750
     },
     {
-      "epoch": 0.5,
-      "eval_loss": 0.5740106701850891,
-      "eval_runtime": 80.8209,
-      "eval_samples_per_second": 37.119,
-      "eval_steps_per_second": 9.28,
       "step": 750
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.3071135878562927,
-      "learning_rate": 0.00016822727272727275,
-      "loss": 0.5746,
       "step": 800
     },
     {
-      "epoch": 0.5666666666666667,
-      "grad_norm": 0.318085253238678,
-      "learning_rate": 0.00016595454545454544,
-      "loss": 0.5873,
       "step": 850
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 0.35915374755859375,
-      "learning_rate": 0.0001636818181818182,
-      "loss": 0.6283,
       "step": 900
     },
     {
-      "epoch": 0.6333333333333333,
-      "grad_norm": 0.3174057602882385,
-      "learning_rate": 0.0001614090909090909,
-      "loss": 0.5912,
       "step": 950
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.416111022233963,
-      "learning_rate": 0.00015913636363636363,
-      "loss": 0.5647,
       "step": 1000
     },
     {
-      "epoch": 0.6666666666666666,
-      "eval_loss": 0.5663638710975647,
-      "eval_runtime": 80.8183,
-      "eval_samples_per_second": 37.12,
-      "eval_steps_per_second": 9.28,
       "step": 1000
     },
     {
-      "epoch": 0.7,
-      "grad_norm": 0.41202324628829956,
-      "learning_rate": 0.00015686363636363638,
-      "loss": 0.6118,
       "step": 1050
     },
     {
-      "epoch": 0.7333333333333333,
-      "grad_norm": 0.3883333206176758,
-      "learning_rate": 0.0001545909090909091,
-      "loss": 0.5392,
       "step": 1100
     },
     {
-      "epoch": 0.7666666666666667,
-      "grad_norm": 0.31973451375961304,
-      "learning_rate": 0.00015231818181818182,
-      "loss": 0.5602,
       "step": 1150
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.31378698348999023,
-      "learning_rate": 0.00015004545454545454,
-      "loss": 0.5642,
       "step": 1200
     },
     {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 0.3346308171749115,
-      "learning_rate": 0.0001477727272727273,
-      "loss": 0.5925,
       "step": 1250
     },
     {
-      "epoch": 0.8333333333333334,
-      "eval_loss": 0.5619704723358154,
-      "eval_runtime": 80.824,
-      "eval_samples_per_second": 37.118,
-      "eval_steps_per_second": 9.279,
       "step": 1250
     },
     {
-      "epoch": 0.8666666666666667,
-      "grad_norm": 0.5573959946632385,
-      "learning_rate": 0.0001455,
-      "loss": 0.5829,
       "step": 1300
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 0.36054643988609314,
-      "learning_rate": 0.00014322727272727273,
-      "loss": 0.5923,
       "step": 1350
     },
     {
-      "epoch": 0.9333333333333333,
-      "grad_norm": 0.36059027910232544,
-      "learning_rate": 0.00014095454545454546,
-      "loss": 0.5808,
       "step": 1400
     },
     {
-      "epoch": 0.9666666666666667,
-      "grad_norm": 0.3942534327507019,
-      "learning_rate": 0.00013868181818181818,
-      "loss": 0.5597,
       "step": 1450
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.3995835483074188,
-      "learning_rate": 0.0001364090909090909,
-      "loss": 0.5554,
       "step": 1500
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.5581239461898804,
-      "eval_runtime": 80.8326,
-      "eval_samples_per_second": 37.114,
-      "eval_steps_per_second": 9.278,
       "step": 1500
     },
     {
-      "epoch": 1.0333333333333334,
-      "grad_norm": 0.3405410051345825,
-      "learning_rate": 0.00013413636363636365,
-      "loss": 0.5571,
       "step": 1550
     },
     {
-      "epoch": 1.0666666666666667,
-      "grad_norm": 0.4485073983669281,
-      "learning_rate": 0.00013186363636363637,
-      "loss": 0.5674,
       "step": 1600
     },
     {
-      "epoch": 1.1,
-      "grad_norm": 0.34938374161720276,
-      "learning_rate": 0.0001295909090909091,
-      "loss": 0.5354,
       "step": 1650
     },
     {
-      "epoch": 1.1333333333333333,
-      "grad_norm": 0.33084195852279663,
-      "learning_rate": 0.00012731818181818184,
-      "loss": 0.5765,
       "step": 1700
     },
     {
-      "epoch": 1.1666666666666667,
-      "grad_norm": 0.3667336404323578,
-      "learning_rate": 0.00012504545454545456,
-      "loss": 0.5486,
       "step": 1750
     },
     {
-      "epoch": 1.1666666666666667,
-      "eval_loss": 0.5557209253311157,
-      "eval_runtime": 80.8386,
-      "eval_samples_per_second": 37.111,
-      "eval_steps_per_second": 9.278,
       "step": 1750
     },
     {
-      "epoch": 1.2,
-      "grad_norm": 0.33248019218444824,
-      "learning_rate": 0.00012277272727272728,
-      "loss": 0.5617,
       "step": 1800
     },
     {
-      "epoch": 1.2333333333333334,
-      "grad_norm": 0.4447474479675293,
-      "learning_rate": 0.00012050000000000002,
-      "loss": 0.567,
       "step": 1850
     },
     {
-      "epoch": 1.2666666666666666,
-      "grad_norm": 0.42134660482406616,
-      "learning_rate": 0.00011822727272727274,
-      "loss": 0.5319,
       "step": 1900
     },
     {
-      "epoch": 1.3,
-      "grad_norm": 0.3942984640598297,
-      "learning_rate": 0.00011595454545454544,
-      "loss": 0.5325,
       "step": 1950
     },
     {
-      "epoch": 1.3333333333333333,
-      "grad_norm": 0.4929428696632385,
-      "learning_rate": 0.00011368181818181818,
-      "loss": 0.5565,
       "step": 2000
     },
     {
-      "epoch": 1.3333333333333333,
-      "eval_loss": 0.5535863637924194,
-      "eval_runtime": 80.8279,
-      "eval_samples_per_second": 37.116,
-      "eval_steps_per_second": 9.279,
       "step": 2000
     }
   ],
   "logging_steps": 50,
-  "max_steps": 4500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -371,7 +371,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.4518949953568768e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 2000,
+  "best_metric": 0.6823315024375916,
+  "best_model_checkpoint": "amiya_outputs/llama3.1-8b-amiya-palestinian/checkpoint-2000",
+  "epoch": 0.8287578990987258,
   "eval_steps": 250,
   "global_step": 2000,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.020718947477468146,
+      "grad_norm": 1.0589393377304077,
       "learning_rate": 9.8e-05,
+      "loss": 2.6567,
       "step": 50
     },
     {
+      "epoch": 0.04143789495493629,
+      "grad_norm": 0.9738045334815979,
       "learning_rate": 0.00019800000000000002,
+      "loss": 0.9502,
       "step": 100
     },
     {
+      "epoch": 0.062156842432404436,
+      "grad_norm": 0.8801347017288208,
+      "learning_rate": 0.00019862783534024082,
+      "loss": 0.8496,
       "step": 150
     },
     {
+      "epoch": 0.08287578990987259,
+      "grad_norm": 0.7272312045097351,
+      "learning_rate": 0.00019722766732007841,
+      "loss": 0.8184,
       "step": 200
     },
     {
+      "epoch": 0.10359473738734072,
+      "grad_norm": 0.7850629091262817,
+      "learning_rate": 0.000195827499299916,
+      "loss": 0.8392,
       "step": 250
     },
     {
+      "epoch": 0.10359473738734072,
+      "eval_loss": 0.7402811050415039,
+      "eval_runtime": 85.9367,
+      "eval_samples_per_second": 56.158,
+      "eval_steps_per_second": 14.045,
       "step": 250
     },
     {
+      "epoch": 0.12431368486480887,
+      "grad_norm": 0.40629276633262634,
+      "learning_rate": 0.00019442733127975358,
+      "loss": 0.8108,
       "step": 300
     },
     {
+      "epoch": 0.145032632342277,
+      "grad_norm": 0.5258236527442932,
+      "learning_rate": 0.00019302716325959117,
+      "loss": 0.8116,
       "step": 350
     },
     {
+      "epoch": 0.16575157981974517,
+      "grad_norm": 0.6879925727844238,
+      "learning_rate": 0.00019162699523942874,
+      "loss": 0.9089,
       "step": 400
     },
     {
+      "epoch": 0.1864705272972133,
+      "grad_norm": 0.7583937048912048,
+      "learning_rate": 0.00019022682721926633,
+      "loss": 0.874,
       "step": 450
     },
     {
+      "epoch": 0.20718947477468144,
+      "grad_norm": 0.6399120688438416,
+      "learning_rate": 0.0001888266591991039,
+      "loss": 0.8366,
       "step": 500
     },
     {
+      "epoch": 0.20718947477468144,
+      "eval_loss": 0.7194066047668457,
+      "eval_runtime": 86.2811,
+      "eval_samples_per_second": 55.933,
+      "eval_steps_per_second": 13.989,
       "step": 500
     },
     {
+      "epoch": 0.22790842225214958,
+      "grad_norm": 0.7763131856918335,
+      "learning_rate": 0.0001874264911789415,
+      "loss": 0.7912,
       "step": 550
     },
     {
+      "epoch": 0.24862736972961774,
+      "grad_norm": 0.6845299601554871,
+      "learning_rate": 0.00018602632315877906,
+      "loss": 0.8506,
       "step": 600
     },
     {
+      "epoch": 0.2693463172070859,
+      "grad_norm": 0.8045451045036316,
+      "learning_rate": 0.00018462615513861665,
+      "loss": 0.763,
       "step": 650
     },
     {
+      "epoch": 0.290065264684554,
+      "grad_norm": 0.7035927176475525,
+      "learning_rate": 0.00018322598711845422,
+      "loss": 0.7769,
       "step": 700
     },
     {
+      "epoch": 0.3107842121620222,
+      "grad_norm": 0.465000718832016,
+      "learning_rate": 0.00018182581909829179,
+      "loss": 0.7705,
       "step": 750
     },
     {
+      "epoch": 0.3107842121620222,
+      "eval_loss": 0.7103215456008911,
+      "eval_runtime": 86.1101,
+      "eval_samples_per_second": 56.045,
+      "eval_steps_per_second": 14.017,
       "step": 750
     },
     {
+      "epoch": 0.33150315963949034,
+      "grad_norm": 0.4990151524543762,
+      "learning_rate": 0.00018042565107812938,
+      "loss": 0.8438,
       "step": 800
     },
     {
+      "epoch": 0.35222210711695845,
+      "grad_norm": 0.7391067147254944,
+      "learning_rate": 0.00017902548305796695,
+      "loss": 0.7688,
       "step": 850
     },
     {
+      "epoch": 0.3729410545944266,
+      "grad_norm": 0.8036171197891235,
+      "learning_rate": 0.00017762531503780454,
+      "loss": 0.753,
       "step": 900
     },
     {
+      "epoch": 0.3936600020718947,
+      "grad_norm": 0.44744470715522766,
+      "learning_rate": 0.00017622514701764213,
+      "loss": 0.7793,
       "step": 950
     },
     {
+      "epoch": 0.4143789495493629,
+      "grad_norm": 0.630820631980896,
+      "learning_rate": 0.00017482497899747973,
+      "loss": 0.7555,
       "step": 1000
     },
     {
+      "epoch": 0.4143789495493629,
+      "eval_loss": 0.7030432820320129,
+      "eval_runtime": 86.2543,
+      "eval_samples_per_second": 55.951,
+      "eval_steps_per_second": 13.994,
       "step": 1000
     },
     {
+      "epoch": 0.43509789702683105,
+      "grad_norm": 0.45690879225730896,
+      "learning_rate": 0.0001734248109773173,
+      "loss": 0.793,
       "step": 1050
     },
     {
+      "epoch": 0.45581684450429916,
+      "grad_norm": 0.5000227093696594,
+      "learning_rate": 0.00017202464295715486,
+      "loss": 0.8342,
       "step": 1100
     },
     {
+      "epoch": 0.4765357919817673,
+      "grad_norm": 0.47182488441467285,
+      "learning_rate": 0.00017062447493699246,
+      "loss": 0.7997,
       "step": 1150
     },
     {
+      "epoch": 0.4972547394592355,
+      "grad_norm": 0.7060516476631165,
+      "learning_rate": 0.00016922430691683002,
+      "loss": 0.7788,
       "step": 1200
     },
     {
+      "epoch": 0.5179736869367036,
+      "grad_norm": 0.46701857447624207,
+      "learning_rate": 0.00016782413889666762,
+      "loss": 0.7518,
       "step": 1250
     },
     {
+      "epoch": 0.5179736869367036,
+      "eval_loss": 0.7023425698280334,
+      "eval_runtime": 86.3015,
+      "eval_samples_per_second": 55.92,
+      "eval_steps_per_second": 13.986,
       "step": 1250
     },
     {
+      "epoch": 0.5386926344141718,
+      "grad_norm": 0.668192446231842,
+      "learning_rate": 0.00016642397087650518,
+      "loss": 0.7682,
       "step": 1300
     },
     {
+      "epoch": 0.5594115818916399,
+      "grad_norm": 0.47292283177375793,
+      "learning_rate": 0.00016502380285634278,
+      "loss": 0.7985,
       "step": 1350
     },
     {
+      "epoch": 0.580130529369108,
+      "grad_norm": 0.7327275276184082,
+      "learning_rate": 0.00016362363483618034,
+      "loss": 0.8378,
       "step": 1400
     },
     {
+      "epoch": 0.6008494768465762,
+      "grad_norm": 0.8417996764183044,
+      "learning_rate": 0.0001622234668160179,
+      "loss": 0.7962,
       "step": 1450
     },
     {
+      "epoch": 0.6215684243240444,
+      "grad_norm": 0.6189562678337097,
+      "learning_rate": 0.0001608232987958555,
+      "loss": 0.8028,
       "step": 1500
     },
     {
+      "epoch": 0.6215684243240444,
+      "eval_loss": 0.6915447115898132,
+      "eval_runtime": 86.2147,
+      "eval_samples_per_second": 55.977,
+      "eval_steps_per_second": 14.0,
       "step": 1500
     },
     {
+      "epoch": 0.6422873718015125,
+      "grad_norm": 0.7345826625823975,
+      "learning_rate": 0.0001594231307756931,
+      "loss": 0.7978,
       "step": 1550
     },
     {
+      "epoch": 0.6630063192789807,
+      "grad_norm": 0.6538310050964355,
+      "learning_rate": 0.0001580229627555307,
+      "loss": 0.7672,
       "step": 1600
     },
     {
+      "epoch": 0.6837252667564487,
+      "grad_norm": 0.661582350730896,
+      "learning_rate": 0.00015662279473536826,
+      "loss": 0.7378,
       "step": 1650
     },
     {
+      "epoch": 0.7044442142339169,
+      "grad_norm": 0.3603042960166931,
+      "learning_rate": 0.00015522262671520583,
+      "loss": 0.6741,
       "step": 1700
     },
     {
+      "epoch": 0.7251631617113851,
+      "grad_norm": 0.8882561326026917,
+      "learning_rate": 0.00015382245869504342,
+      "loss": 0.7695,
       "step": 1750
     },
     {
+      "epoch": 0.7251631617113851,
+      "eval_loss": 0.6858941316604614,
+      "eval_runtime": 86.6358,
+      "eval_samples_per_second": 55.704,
+      "eval_steps_per_second": 13.932,
       "step": 1750
     },
     {
+      "epoch": 0.7458821091888532,
+      "grad_norm": 0.5933266282081604,
+      "learning_rate": 0.000152422290674881,
+      "loss": 0.7548,
       "step": 1800
     },
     {
+      "epoch": 0.7666010566663214,
+      "grad_norm": 0.8178608417510986,
+      "learning_rate": 0.00015102212265471858,
+      "loss": 0.7639,
       "step": 1850
     },
     {
+      "epoch": 0.7873200041437894,
+      "grad_norm": 0.4378993511199951,
+      "learning_rate": 0.00014962195463455615,
+      "loss": 0.7985,
       "step": 1900
     },
     {
+      "epoch": 0.8080389516212576,
+      "grad_norm": 0.3732803463935852,
+      "learning_rate": 0.00014822178661439374,
+      "loss": 0.8481,
       "step": 1950
     },
     {
+      "epoch": 0.8287578990987258,
+      "grad_norm": 0.7421035170555115,
+      "learning_rate": 0.0001468216185942313,
+      "loss": 0.7223,
       "step": 2000
     },
     {
+      "epoch": 0.8287578990987258,
+      "eval_loss": 0.6823315024375916,
+      "eval_runtime": 86.5575,
+      "eval_samples_per_second": 55.755,
+      "eval_steps_per_second": 13.944,
       "step": 2000
     }
   ],
   "logging_steps": 50,
+  "max_steps": 7242,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.262946011799552e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb76e3e4d2123d52e529262f1ff37bfc600a160bb369e2338a54f71b47c17108
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a783872a61d64f4d1b4e002fa0fa67fa54dd9c59c4f7fbad58c794a77134069d
 size 5432

checkpoint-2500/adapter_config.json CHANGED Viewed

@@ -29,9 +29,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
-    "q_proj",
     "k_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "o_proj",
     "v_proj",
     "k_proj"
   ],
   "target_parameters": null,

checkpoint-2500/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5207bd2a71d6e74489cb5103f4173305575b69a2798a53c970da2f8e42cfd1b
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:49efc21966de98bf9994a157e2e4dabb68153133adf2745eefe182249b3f3197
 size 54560368

checkpoint-2500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:848bae18dd111819cc86ee93c9822b1baf9b23656a8810d3bbb4140c26fa04d8
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcd2efd5a1e4f00990e049fca5bee5c43d977c21ae7fd093d6c7fdff6fe068b8
 size 109267450

checkpoint-2500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02297c389f0848a1a674f64fd3230c94f24e9dbabcb192a80189b95e9b26ab11
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:24368a441ca3fc9abe92a436629bb258dee7296cd6e160cb97d6948bbd91695b
 size 14244

checkpoint-2500/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48e2d97f563bb838328076a1666504681962151a3975a2f064be3a03e6500740
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ab3b49628f2ae2ec7cdbb0bc103569c008e8a11af2787309237ce369c80d7b9
 size 988

checkpoint-2500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23892cead62882c0c408b409776e78c7487ed4ce0dfaca891fbc6687acaa712e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:abac4e3ce09d884de31337ea91e7059472492d528353bcdadc9c18f2f41cdb86
 size 1064

checkpoint-2500/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 2500,
-  "best_metric": 0.5476261377334595,
-  "best_model_checkpoint": "finetuned_models/llama3.1-8b-lora/checkpoint-2500",
-  "epoch": 1.6666666666666665,
   "eval_steps": 250,
   "global_step": 2500,
   "is_hyper_param_search": false,
@@ -10,438 +10,438 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03333333333333333,
-      "grad_norm": 0.5346225500106812,
       "learning_rate": 9.8e-05,
-      "loss": 2.4955,
       "step": 50
     },
     {
-      "epoch": 0.06666666666666667,
-      "grad_norm": 0.719093918800354,
       "learning_rate": 0.00019800000000000002,
-      "loss": 0.71,
       "step": 100
     },
     {
-      "epoch": 0.1,
-      "grad_norm": 0.4840560853481293,
-      "learning_rate": 0.0001977727272727273,
-      "loss": 0.6405,
       "step": 150
     },
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 0.3332301676273346,
-      "learning_rate": 0.0001955,
-      "loss": 0.6287,
       "step": 200
     },
     {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 0.40639588236808777,
-      "learning_rate": 0.00019322727272727276,
-      "loss": 0.5572,
       "step": 250
     },
     {
-      "epoch": 0.16666666666666666,
-      "eval_loss": 0.5975945591926575,
-      "eval_runtime": 80.8004,
-      "eval_samples_per_second": 37.129,
-      "eval_steps_per_second": 9.282,
       "step": 250
     },
     {
-      "epoch": 0.2,
-      "grad_norm": 0.3970712423324585,
-      "learning_rate": 0.00019095454545454545,
-      "loss": 0.6165,
       "step": 300
     },
     {
-      "epoch": 0.23333333333333334,
-      "grad_norm": 0.38409528136253357,
-      "learning_rate": 0.00018868181818181817,
-      "loss": 0.639,
       "step": 350
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 0.44628769159317017,
-      "learning_rate": 0.00018640909090909092,
-      "loss": 0.636,
       "step": 400
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 0.3697021007537842,
-      "learning_rate": 0.00018413636363636364,
-      "loss": 0.6192,
       "step": 450
     },
     {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 0.36338189244270325,
-      "learning_rate": 0.00018186363636363636,
-      "loss": 0.6134,
       "step": 500
     },
     {
-      "epoch": 0.3333333333333333,
-      "eval_loss": 0.5813060998916626,
-      "eval_runtime": 80.7819,
-      "eval_samples_per_second": 37.137,
-      "eval_steps_per_second": 9.284,
       "step": 500
     },
     {
-      "epoch": 0.36666666666666664,
-      "grad_norm": 0.35211533308029175,
-      "learning_rate": 0.0001795909090909091,
-      "loss": 0.6128,
       "step": 550
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 0.36327463388442993,
-      "learning_rate": 0.00017731818181818183,
-      "loss": 0.5915,
       "step": 600
     },
     {
-      "epoch": 0.43333333333333335,
-      "grad_norm": 0.40672942996025085,
-      "learning_rate": 0.00017504545454545455,
-      "loss": 0.5807,
       "step": 650
     },
     {
-      "epoch": 0.4666666666666667,
-      "grad_norm": 0.4689007103443146,
-      "learning_rate": 0.00017277272727272728,
-      "loss": 0.602,
       "step": 700
     },
     {
-      "epoch": 0.5,
-      "grad_norm": 0.3979697823524475,
-      "learning_rate": 0.00017050000000000002,
-      "loss": 0.5703,
       "step": 750
     },
     {
-      "epoch": 0.5,
-      "eval_loss": 0.5740106701850891,
-      "eval_runtime": 80.8209,
-      "eval_samples_per_second": 37.119,
-      "eval_steps_per_second": 9.28,
       "step": 750
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.3071135878562927,
-      "learning_rate": 0.00016822727272727275,
-      "loss": 0.5746,
       "step": 800
     },
     {
-      "epoch": 0.5666666666666667,
-      "grad_norm": 0.318085253238678,
-      "learning_rate": 0.00016595454545454544,
-      "loss": 0.5873,
       "step": 850
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 0.35915374755859375,
-      "learning_rate": 0.0001636818181818182,
-      "loss": 0.6283,
       "step": 900
     },
     {
-      "epoch": 0.6333333333333333,
-      "grad_norm": 0.3174057602882385,
-      "learning_rate": 0.0001614090909090909,
-      "loss": 0.5912,
       "step": 950
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.416111022233963,
-      "learning_rate": 0.00015913636363636363,
-      "loss": 0.5647,
       "step": 1000
     },
     {
-      "epoch": 0.6666666666666666,
-      "eval_loss": 0.5663638710975647,
-      "eval_runtime": 80.8183,
-      "eval_samples_per_second": 37.12,
-      "eval_steps_per_second": 9.28,
       "step": 1000
     },
     {
-      "epoch": 0.7,
-      "grad_norm": 0.41202324628829956,
-      "learning_rate": 0.00015686363636363638,
-      "loss": 0.6118,
       "step": 1050
     },
     {
-      "epoch": 0.7333333333333333,
-      "grad_norm": 0.3883333206176758,
-      "learning_rate": 0.0001545909090909091,
-      "loss": 0.5392,
       "step": 1100
     },
     {
-      "epoch": 0.7666666666666667,
-      "grad_norm": 0.31973451375961304,
-      "learning_rate": 0.00015231818181818182,
-      "loss": 0.5602,
       "step": 1150
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.31378698348999023,
-      "learning_rate": 0.00015004545454545454,
-      "loss": 0.5642,
       "step": 1200
     },
     {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 0.3346308171749115,
-      "learning_rate": 0.0001477727272727273,
-      "loss": 0.5925,
       "step": 1250
     },
     {
-      "epoch": 0.8333333333333334,
-      "eval_loss": 0.5619704723358154,
-      "eval_runtime": 80.824,
-      "eval_samples_per_second": 37.118,
-      "eval_steps_per_second": 9.279,
       "step": 1250
     },
     {
-      "epoch": 0.8666666666666667,
-      "grad_norm": 0.5573959946632385,
-      "learning_rate": 0.0001455,
-      "loss": 0.5829,
       "step": 1300
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 0.36054643988609314,
-      "learning_rate": 0.00014322727272727273,
-      "loss": 0.5923,
       "step": 1350
     },
     {
-      "epoch": 0.9333333333333333,
-      "grad_norm": 0.36059027910232544,
-      "learning_rate": 0.00014095454545454546,
-      "loss": 0.5808,
       "step": 1400
     },
     {
-      "epoch": 0.9666666666666667,
-      "grad_norm": 0.3942534327507019,
-      "learning_rate": 0.00013868181818181818,
-      "loss": 0.5597,
       "step": 1450
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.3995835483074188,
-      "learning_rate": 0.0001364090909090909,
-      "loss": 0.5554,
       "step": 1500
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.5581239461898804,
-      "eval_runtime": 80.8326,
-      "eval_samples_per_second": 37.114,
-      "eval_steps_per_second": 9.278,
       "step": 1500
     },
     {
-      "epoch": 1.0333333333333334,
-      "grad_norm": 0.3405410051345825,
-      "learning_rate": 0.00013413636363636365,
-      "loss": 0.5571,
       "step": 1550
     },
     {
-      "epoch": 1.0666666666666667,
-      "grad_norm": 0.4485073983669281,
-      "learning_rate": 0.00013186363636363637,
-      "loss": 0.5674,
       "step": 1600
     },
     {
-      "epoch": 1.1,
-      "grad_norm": 0.34938374161720276,
-      "learning_rate": 0.0001295909090909091,
-      "loss": 0.5354,
       "step": 1650
     },
     {
-      "epoch": 1.1333333333333333,
-      "grad_norm": 0.33084195852279663,
-      "learning_rate": 0.00012731818181818184,
-      "loss": 0.5765,
       "step": 1700
     },
     {
-      "epoch": 1.1666666666666667,
-      "grad_norm": 0.3667336404323578,
-      "learning_rate": 0.00012504545454545456,
-      "loss": 0.5486,
       "step": 1750
     },
     {
-      "epoch": 1.1666666666666667,
-      "eval_loss": 0.5557209253311157,
-      "eval_runtime": 80.8386,
-      "eval_samples_per_second": 37.111,
-      "eval_steps_per_second": 9.278,
       "step": 1750
     },
     {
-      "epoch": 1.2,
-      "grad_norm": 0.33248019218444824,
-      "learning_rate": 0.00012277272727272728,
-      "loss": 0.5617,
       "step": 1800
     },
     {
-      "epoch": 1.2333333333333334,
-      "grad_norm": 0.4447474479675293,
-      "learning_rate": 0.00012050000000000002,
-      "loss": 0.567,
       "step": 1850
     },
     {
-      "epoch": 1.2666666666666666,
-      "grad_norm": 0.42134660482406616,
-      "learning_rate": 0.00011822727272727274,
-      "loss": 0.5319,
       "step": 1900
     },
     {
-      "epoch": 1.3,
-      "grad_norm": 0.3942984640598297,
-      "learning_rate": 0.00011595454545454544,
-      "loss": 0.5325,
       "step": 1950
     },
     {
-      "epoch": 1.3333333333333333,
-      "grad_norm": 0.4929428696632385,
-      "learning_rate": 0.00011368181818181818,
-      "loss": 0.5565,
       "step": 2000
     },
     {
-      "epoch": 1.3333333333333333,
-      "eval_loss": 0.5535863637924194,
-      "eval_runtime": 80.8279,
-      "eval_samples_per_second": 37.116,
-      "eval_steps_per_second": 9.279,
       "step": 2000
     },
     {
-      "epoch": 1.3666666666666667,
-      "grad_norm": 0.4141586720943451,
-      "learning_rate": 0.00011140909090909091,
-      "loss": 0.5801,
       "step": 2050
     },
     {
-      "epoch": 1.4,
-      "grad_norm": 0.45937269926071167,
-      "learning_rate": 0.00010913636363636364,
-      "loss": 0.5439,
       "step": 2100
     },
     {
-      "epoch": 1.4333333333333333,
-      "grad_norm": 0.47830042243003845,
-      "learning_rate": 0.00010686363636363637,
-      "loss": 0.547,
       "step": 2150
     },
     {
-      "epoch": 1.4666666666666668,
-      "grad_norm": 0.40260276198387146,
-      "learning_rate": 0.00010459090909090909,
-      "loss": 0.5229,
       "step": 2200
     },
     {
-      "epoch": 1.5,
-      "grad_norm": 0.5281402468681335,
-      "learning_rate": 0.00010231818181818183,
-      "loss": 0.5475,
       "step": 2250
     },
     {
-      "epoch": 1.5,
-      "eval_loss": 0.5505018830299377,
-      "eval_runtime": 80.8409,
-      "eval_samples_per_second": 37.11,
-      "eval_steps_per_second": 9.277,
       "step": 2250
     },
     {
-      "epoch": 1.5333333333333332,
-      "grad_norm": 0.3721947968006134,
-      "learning_rate": 0.00010004545454545455,
-      "loss": 0.5466,
       "step": 2300
     },
     {
-      "epoch": 1.5666666666666667,
-      "grad_norm": 0.3462945818901062,
-      "learning_rate": 9.777272727272728e-05,
-      "loss": 0.5209,
       "step": 2350
     },
     {
-      "epoch": 1.6,
-      "grad_norm": 0.4027090072631836,
-      "learning_rate": 9.55e-05,
-      "loss": 0.5307,
       "step": 2400
     },
     {
-      "epoch": 1.6333333333333333,
-      "grad_norm": 0.3684265613555908,
-      "learning_rate": 9.322727272727273e-05,
-      "loss": 0.5118,
       "step": 2450
     },
     {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 0.4819887578487396,
-      "learning_rate": 9.095454545454546e-05,
-      "loss": 0.561,
       "step": 2500
     },
     {
-      "epoch": 1.6666666666666665,
-      "eval_loss": 0.5476261377334595,
-      "eval_runtime": 80.8288,
-      "eval_samples_per_second": 37.115,
-      "eval_steps_per_second": 9.279,
       "step": 2500
     }
   ],
   "logging_steps": 50,
-  "max_steps": 4500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -457,7 +457,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.061836360125645e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 2500,
+  "best_metric": 0.675748348236084,
+  "best_model_checkpoint": "amiya_outputs/llama3.1-8b-amiya-palestinian/checkpoint-2500",
+  "epoch": 1.0356365896612452,
   "eval_steps": 250,
   "global_step": 2500,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.020718947477468146,
+      "grad_norm": 1.0589393377304077,
       "learning_rate": 9.8e-05,
+      "loss": 2.6567,
       "step": 50
     },
     {
+      "epoch": 0.04143789495493629,
+      "grad_norm": 0.9738045334815979,
       "learning_rate": 0.00019800000000000002,
+      "loss": 0.9502,
       "step": 100
     },
     {
+      "epoch": 0.062156842432404436,
+      "grad_norm": 0.8801347017288208,
+      "learning_rate": 0.00019862783534024082,
+      "loss": 0.8496,
       "step": 150
     },
     {
+      "epoch": 0.08287578990987259,
+      "grad_norm": 0.7272312045097351,
+      "learning_rate": 0.00019722766732007841,
+      "loss": 0.8184,
       "step": 200
     },
     {
+      "epoch": 0.10359473738734072,
+      "grad_norm": 0.7850629091262817,
+      "learning_rate": 0.000195827499299916,
+      "loss": 0.8392,
       "step": 250
     },
     {
+      "epoch": 0.10359473738734072,
+      "eval_loss": 0.7402811050415039,
+      "eval_runtime": 85.9367,
+      "eval_samples_per_second": 56.158,
+      "eval_steps_per_second": 14.045,
       "step": 250
     },
     {
+      "epoch": 0.12431368486480887,
+      "grad_norm": 0.40629276633262634,
+      "learning_rate": 0.00019442733127975358,
+      "loss": 0.8108,
       "step": 300
     },
     {
+      "epoch": 0.145032632342277,
+      "grad_norm": 0.5258236527442932,
+      "learning_rate": 0.00019302716325959117,
+      "loss": 0.8116,
       "step": 350
     },
     {
+      "epoch": 0.16575157981974517,
+      "grad_norm": 0.6879925727844238,
+      "learning_rate": 0.00019162699523942874,
+      "loss": 0.9089,
       "step": 400
     },
     {
+      "epoch": 0.1864705272972133,
+      "grad_norm": 0.7583937048912048,
+      "learning_rate": 0.00019022682721926633,
+      "loss": 0.874,
       "step": 450
     },
     {
+      "epoch": 0.20718947477468144,
+      "grad_norm": 0.6399120688438416,
+      "learning_rate": 0.0001888266591991039,
+      "loss": 0.8366,
       "step": 500
     },
     {
+      "epoch": 0.20718947477468144,
+      "eval_loss": 0.7194066047668457,
+      "eval_runtime": 86.2811,
+      "eval_samples_per_second": 55.933,
+      "eval_steps_per_second": 13.989,
       "step": 500
     },
     {
+      "epoch": 0.22790842225214958,
+      "grad_norm": 0.7763131856918335,
+      "learning_rate": 0.0001874264911789415,
+      "loss": 0.7912,
       "step": 550
     },
     {
+      "epoch": 0.24862736972961774,
+      "grad_norm": 0.6845299601554871,
+      "learning_rate": 0.00018602632315877906,
+      "loss": 0.8506,
       "step": 600
     },
     {
+      "epoch": 0.2693463172070859,
+      "grad_norm": 0.8045451045036316,
+      "learning_rate": 0.00018462615513861665,
+      "loss": 0.763,
       "step": 650
     },
     {
+      "epoch": 0.290065264684554,
+      "grad_norm": 0.7035927176475525,
+      "learning_rate": 0.00018322598711845422,
+      "loss": 0.7769,
       "step": 700
     },
     {
+      "epoch": 0.3107842121620222,
+      "grad_norm": 0.465000718832016,
+      "learning_rate": 0.00018182581909829179,
+      "loss": 0.7705,
       "step": 750
     },
     {
+      "epoch": 0.3107842121620222,
+      "eval_loss": 0.7103215456008911,
+      "eval_runtime": 86.1101,
+      "eval_samples_per_second": 56.045,
+      "eval_steps_per_second": 14.017,
       "step": 750
     },
     {
+      "epoch": 0.33150315963949034,
+      "grad_norm": 0.4990151524543762,
+      "learning_rate": 0.00018042565107812938,
+      "loss": 0.8438,
       "step": 800
     },
     {
+      "epoch": 0.35222210711695845,
+      "grad_norm": 0.7391067147254944,
+      "learning_rate": 0.00017902548305796695,
+      "loss": 0.7688,
       "step": 850
     },
     {
+      "epoch": 0.3729410545944266,
+      "grad_norm": 0.8036171197891235,
+      "learning_rate": 0.00017762531503780454,
+      "loss": 0.753,
       "step": 900
     },
     {
+      "epoch": 0.3936600020718947,
+      "grad_norm": 0.44744470715522766,
+      "learning_rate": 0.00017622514701764213,
+      "loss": 0.7793,
       "step": 950
     },
     {
+      "epoch": 0.4143789495493629,
+      "grad_norm": 0.630820631980896,
+      "learning_rate": 0.00017482497899747973,
+      "loss": 0.7555,
       "step": 1000
     },
     {
+      "epoch": 0.4143789495493629,
+      "eval_loss": 0.7030432820320129,
+      "eval_runtime": 86.2543,
+      "eval_samples_per_second": 55.951,
+      "eval_steps_per_second": 13.994,
       "step": 1000
     },
     {
+      "epoch": 0.43509789702683105,
+      "grad_norm": 0.45690879225730896,
+      "learning_rate": 0.0001734248109773173,
+      "loss": 0.793,
       "step": 1050
     },
     {
+      "epoch": 0.45581684450429916,
+      "grad_norm": 0.5000227093696594,
+      "learning_rate": 0.00017202464295715486,
+      "loss": 0.8342,
       "step": 1100
     },
     {
+      "epoch": 0.4765357919817673,
+      "grad_norm": 0.47182488441467285,
+      "learning_rate": 0.00017062447493699246,
+      "loss": 0.7997,
       "step": 1150
     },
     {
+      "epoch": 0.4972547394592355,
+      "grad_norm": 0.7060516476631165,
+      "learning_rate": 0.00016922430691683002,
+      "loss": 0.7788,
       "step": 1200
     },
     {
+      "epoch": 0.5179736869367036,
+      "grad_norm": 0.46701857447624207,
+      "learning_rate": 0.00016782413889666762,
+      "loss": 0.7518,
       "step": 1250
     },
     {
+      "epoch": 0.5179736869367036,
+      "eval_loss": 0.7023425698280334,
+      "eval_runtime": 86.3015,
+      "eval_samples_per_second": 55.92,
+      "eval_steps_per_second": 13.986,
       "step": 1250
     },
     {
+      "epoch": 0.5386926344141718,
+      "grad_norm": 0.668192446231842,
+      "learning_rate": 0.00016642397087650518,
+      "loss": 0.7682,
       "step": 1300
     },
     {
+      "epoch": 0.5594115818916399,
+      "grad_norm": 0.47292283177375793,
+      "learning_rate": 0.00016502380285634278,
+      "loss": 0.7985,
       "step": 1350
     },
     {
+      "epoch": 0.580130529369108,
+      "grad_norm": 0.7327275276184082,
+      "learning_rate": 0.00016362363483618034,
+      "loss": 0.8378,
       "step": 1400
     },
     {
+      "epoch": 0.6008494768465762,
+      "grad_norm": 0.8417996764183044,
+      "learning_rate": 0.0001622234668160179,
+      "loss": 0.7962,
       "step": 1450
     },
     {
+      "epoch": 0.6215684243240444,
+      "grad_norm": 0.6189562678337097,
+      "learning_rate": 0.0001608232987958555,
+      "loss": 0.8028,
       "step": 1500
     },
     {
+      "epoch": 0.6215684243240444,
+      "eval_loss": 0.6915447115898132,
+      "eval_runtime": 86.2147,
+      "eval_samples_per_second": 55.977,
+      "eval_steps_per_second": 14.0,
       "step": 1500
     },
     {
+      "epoch": 0.6422873718015125,
+      "grad_norm": 0.7345826625823975,
+      "learning_rate": 0.0001594231307756931,
+      "loss": 0.7978,
       "step": 1550
     },
     {
+      "epoch": 0.6630063192789807,
+      "grad_norm": 0.6538310050964355,
+      "learning_rate": 0.0001580229627555307,
+      "loss": 0.7672,
       "step": 1600
     },
     {
+      "epoch": 0.6837252667564487,
+      "grad_norm": 0.661582350730896,
+      "learning_rate": 0.00015662279473536826,
+      "loss": 0.7378,
       "step": 1650
     },
     {
+      "epoch": 0.7044442142339169,
+      "grad_norm": 0.3603042960166931,
+      "learning_rate": 0.00015522262671520583,
+      "loss": 0.6741,
       "step": 1700
     },
     {
+      "epoch": 0.7251631617113851,
+      "grad_norm": 0.8882561326026917,
+      "learning_rate": 0.00015382245869504342,
+      "loss": 0.7695,
       "step": 1750
     },
     {
+      "epoch": 0.7251631617113851,
+      "eval_loss": 0.6858941316604614,
+      "eval_runtime": 86.6358,
+      "eval_samples_per_second": 55.704,
+      "eval_steps_per_second": 13.932,
       "step": 1750
     },
     {
+      "epoch": 0.7458821091888532,
+      "grad_norm": 0.5933266282081604,
+      "learning_rate": 0.000152422290674881,
+      "loss": 0.7548,
       "step": 1800
     },
     {
+      "epoch": 0.7666010566663214,
+      "grad_norm": 0.8178608417510986,
+      "learning_rate": 0.00015102212265471858,
+      "loss": 0.7639,
       "step": 1850
     },
     {
+      "epoch": 0.7873200041437894,
+      "grad_norm": 0.4378993511199951,
+      "learning_rate": 0.00014962195463455615,
+      "loss": 0.7985,
       "step": 1900
     },
     {
+      "epoch": 0.8080389516212576,
+      "grad_norm": 0.3732803463935852,
+      "learning_rate": 0.00014822178661439374,
+      "loss": 0.8481,
       "step": 1950
     },
     {
+      "epoch": 0.8287578990987258,
+      "grad_norm": 0.7421035170555115,
+      "learning_rate": 0.0001468216185942313,
+      "loss": 0.7223,
       "step": 2000
     },
     {
+      "epoch": 0.8287578990987258,
+      "eval_loss": 0.6823315024375916,
+      "eval_runtime": 86.5575,
+      "eval_samples_per_second": 55.755,
+      "eval_steps_per_second": 13.944,
       "step": 2000
     },
     {
+      "epoch": 0.8494768465761939,
+      "grad_norm": 0.5109913349151611,
+      "learning_rate": 0.00014542145057406888,
+      "loss": 0.7895,
       "step": 2050
     },
     {
+      "epoch": 0.8701957940536621,
+      "grad_norm": 0.47988179326057434,
+      "learning_rate": 0.00014402128255390647,
+      "loss": 0.7385,
       "step": 2100
     },
     {
+      "epoch": 0.8909147415311303,
+      "grad_norm": 0.7593080997467041,
+      "learning_rate": 0.00014262111453374404,
+      "loss": 0.7744,
       "step": 2150
     },
     {
+      "epoch": 0.9116336890085983,
+      "grad_norm": 0.5866154432296753,
+      "learning_rate": 0.00014122094651358163,
+      "loss": 0.7062,
       "step": 2200
     },
     {
+      "epoch": 0.9323526364860665,
+      "grad_norm": 0.47364088892936707,
+      "learning_rate": 0.00013982077849341922,
+      "loss": 0.7792,
       "step": 2250
     },
     {
+      "epoch": 0.9323526364860665,
+      "eval_loss": 0.6785813570022583,
+      "eval_runtime": 86.3444,
+      "eval_samples_per_second": 55.892,
+      "eval_steps_per_second": 13.979,
       "step": 2250
     },
     {
+      "epoch": 0.9530715839635346,
+      "grad_norm": 0.7610514760017395,
+      "learning_rate": 0.00013842061047325682,
+      "loss": 0.7804,
       "step": 2300
     },
     {
+      "epoch": 0.9737905314410028,
+      "grad_norm": 0.7689616084098816,
+      "learning_rate": 0.00013702044245309438,
+      "loss": 0.7497,
       "step": 2350
     },
     {
+      "epoch": 0.994509478918471,
+      "grad_norm": 0.542168378829956,
+      "learning_rate": 0.00013562027443293195,
+      "loss": 0.7333,
       "step": 2400
     },
     {
+      "epoch": 1.0149176421837771,
+      "grad_norm": 0.33903324604034424,
+      "learning_rate": 0.0001342481097731728,
+      "loss": 0.6952,
       "step": 2450
     },
     {
+      "epoch": 1.0356365896612452,
+      "grad_norm": 0.8183636665344238,
+      "learning_rate": 0.00013284794175301036,
+      "loss": 0.7386,
       "step": 2500
     },
     {
+      "epoch": 1.0356365896612452,
+      "eval_loss": 0.675748348236084,
+      "eval_runtime": 86.2887,
+      "eval_samples_per_second": 55.929,
+      "eval_steps_per_second": 13.988,
       "step": 2500
     }
   ],
   "logging_steps": 50,
+  "max_steps": 7242,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.5737739501748224e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

checkpoint-2500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb76e3e4d2123d52e529262f1ff37bfc600a160bb369e2338a54f71b47c17108
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a783872a61d64f4d1b4e002fa0fa67fa54dd9c59c4f7fbad58c794a77134069d
 size 5432

checkpoint-3000/adapter_config.json CHANGED Viewed

@@ -29,9 +29,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
-    "q_proj",
     "k_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "o_proj",
     "v_proj",
     "k_proj"
   ],
   "target_parameters": null,

checkpoint-3000/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8737189ec50534340f940487b7bbcfbb3c0341cdc991f458aa11988b0dcf614e
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cea713a82dfa53e4225af27dadf62a79d6d173e0e322110ef4080d4150c823b
 size 54560368

checkpoint-3000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39f0f99c70b766de881416221876b07b78545e8c0e5a126b92f0fa687a983694
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:3acc6fa6243a9ec00f9b0e375b237bf0f64023ebb64d44703bbfd65f25a2f895
 size 109267450

checkpoint-3000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08b64b36dce5f25b027b7d960504594585ac14a5c1168ea02281c808e279d651
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa346dc61aa799e0160013066342f483bcb52c5551441757ad69edfbabf48bb0
 size 14244

checkpoint-3000/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21aba8ed0f38ed1c04994c10a9ca7e9925e55ef2ed51283c43ff8e2cce78585f
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab881b6261b7765de00aaece9d42aeb004a99a034f6ff76b068724f6121a7ec
 size 988

checkpoint-3000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6b22153a6004ee7569e1ad90f415ae5727df20ad97a541ace0b82f7edb0c83a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:06a8d96703998223bf2cf655698a26277cad9e4925693c4c21a22c01308a5a11
 size 1064

checkpoint-3000/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 3000,
-  "best_metric": 0.5436099171638489,
-  "best_model_checkpoint": "finetuned_models/llama3.1-8b-lora/checkpoint-3000",
-  "epoch": 2.0,
   "eval_steps": 250,
   "global_step": 3000,
   "is_hyper_param_search": false,
@@ -10,524 +10,524 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03333333333333333,
-      "grad_norm": 0.5346225500106812,
       "learning_rate": 9.8e-05,
-      "loss": 2.4955,
       "step": 50
     },
     {
-      "epoch": 0.06666666666666667,
-      "grad_norm": 0.719093918800354,
       "learning_rate": 0.00019800000000000002,
-      "loss": 0.71,
       "step": 100
     },
     {
-      "epoch": 0.1,
-      "grad_norm": 0.4840560853481293,
-      "learning_rate": 0.0001977727272727273,
-      "loss": 0.6405,
       "step": 150
     },
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 0.3332301676273346,
-      "learning_rate": 0.0001955,
-      "loss": 0.6287,
       "step": 200
     },
     {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 0.40639588236808777,
-      "learning_rate": 0.00019322727272727276,
-      "loss": 0.5572,
       "step": 250
     },
     {
-      "epoch": 0.16666666666666666,
-      "eval_loss": 0.5975945591926575,
-      "eval_runtime": 80.8004,
-      "eval_samples_per_second": 37.129,
-      "eval_steps_per_second": 9.282,
       "step": 250
     },
     {
-      "epoch": 0.2,
-      "grad_norm": 0.3970712423324585,
-      "learning_rate": 0.00019095454545454545,
-      "loss": 0.6165,
       "step": 300
     },
     {
-      "epoch": 0.23333333333333334,
-      "grad_norm": 0.38409528136253357,
-      "learning_rate": 0.00018868181818181817,
-      "loss": 0.639,
       "step": 350
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 0.44628769159317017,
-      "learning_rate": 0.00018640909090909092,
-      "loss": 0.636,
       "step": 400
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 0.3697021007537842,
-      "learning_rate": 0.00018413636363636364,
-      "loss": 0.6192,
       "step": 450
     },
     {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 0.36338189244270325,
-      "learning_rate": 0.00018186363636363636,
-      "loss": 0.6134,
       "step": 500
     },
     {
-      "epoch": 0.3333333333333333,
-      "eval_loss": 0.5813060998916626,
-      "eval_runtime": 80.7819,
-      "eval_samples_per_second": 37.137,
-      "eval_steps_per_second": 9.284,
       "step": 500
     },
     {
-      "epoch": 0.36666666666666664,
-      "grad_norm": 0.35211533308029175,
-      "learning_rate": 0.0001795909090909091,
-      "loss": 0.6128,
       "step": 550
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 0.36327463388442993,
-      "learning_rate": 0.00017731818181818183,
-      "loss": 0.5915,
       "step": 600
     },
     {
-      "epoch": 0.43333333333333335,
-      "grad_norm": 0.40672942996025085,
-      "learning_rate": 0.00017504545454545455,
-      "loss": 0.5807,
       "step": 650
     },
     {
-      "epoch": 0.4666666666666667,
-      "grad_norm": 0.4689007103443146,
-      "learning_rate": 0.00017277272727272728,
-      "loss": 0.602,
       "step": 700
     },
     {
-      "epoch": 0.5,
-      "grad_norm": 0.3979697823524475,
-      "learning_rate": 0.00017050000000000002,
-      "loss": 0.5703,
       "step": 750
     },
     {
-      "epoch": 0.5,
-      "eval_loss": 0.5740106701850891,
-      "eval_runtime": 80.8209,
-      "eval_samples_per_second": 37.119,
-      "eval_steps_per_second": 9.28,
       "step": 750
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.3071135878562927,
-      "learning_rate": 0.00016822727272727275,
-      "loss": 0.5746,
       "step": 800
     },
     {
-      "epoch": 0.5666666666666667,
-      "grad_norm": 0.318085253238678,
-      "learning_rate": 0.00016595454545454544,
-      "loss": 0.5873,
       "step": 850
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 0.35915374755859375,
-      "learning_rate": 0.0001636818181818182,
-      "loss": 0.6283,
       "step": 900
     },
     {
-      "epoch": 0.6333333333333333,
-      "grad_norm": 0.3174057602882385,
-      "learning_rate": 0.0001614090909090909,
-      "loss": 0.5912,
       "step": 950
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.416111022233963,
-      "learning_rate": 0.00015913636363636363,
-      "loss": 0.5647,
       "step": 1000
     },
     {
-      "epoch": 0.6666666666666666,
-      "eval_loss": 0.5663638710975647,
-      "eval_runtime": 80.8183,
-      "eval_samples_per_second": 37.12,
-      "eval_steps_per_second": 9.28,
       "step": 1000
     },
     {
-      "epoch": 0.7,
-      "grad_norm": 0.41202324628829956,
-      "learning_rate": 0.00015686363636363638,
-      "loss": 0.6118,
       "step": 1050
     },
     {
-      "epoch": 0.7333333333333333,
-      "grad_norm": 0.3883333206176758,
-      "learning_rate": 0.0001545909090909091,
-      "loss": 0.5392,
       "step": 1100
     },
     {
-      "epoch": 0.7666666666666667,
-      "grad_norm": 0.31973451375961304,
-      "learning_rate": 0.00015231818181818182,
-      "loss": 0.5602,
       "step": 1150
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.31378698348999023,
-      "learning_rate": 0.00015004545454545454,
-      "loss": 0.5642,
       "step": 1200
     },
     {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 0.3346308171749115,
-      "learning_rate": 0.0001477727272727273,
-      "loss": 0.5925,
       "step": 1250
     },
     {
-      "epoch": 0.8333333333333334,
-      "eval_loss": 0.5619704723358154,
-      "eval_runtime": 80.824,
-      "eval_samples_per_second": 37.118,
-      "eval_steps_per_second": 9.279,
       "step": 1250
     },
     {
-      "epoch": 0.8666666666666667,
-      "grad_norm": 0.5573959946632385,
-      "learning_rate": 0.0001455,
-      "loss": 0.5829,
       "step": 1300
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 0.36054643988609314,
-      "learning_rate": 0.00014322727272727273,
-      "loss": 0.5923,
       "step": 1350
     },
     {
-      "epoch": 0.9333333333333333,
-      "grad_norm": 0.36059027910232544,
-      "learning_rate": 0.00014095454545454546,
-      "loss": 0.5808,
       "step": 1400
     },
     {
-      "epoch": 0.9666666666666667,
-      "grad_norm": 0.3942534327507019,
-      "learning_rate": 0.00013868181818181818,
-      "loss": 0.5597,
       "step": 1450
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.3995835483074188,
-      "learning_rate": 0.0001364090909090909,
-      "loss": 0.5554,
       "step": 1500
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.5581239461898804,
-      "eval_runtime": 80.8326,
-      "eval_samples_per_second": 37.114,
-      "eval_steps_per_second": 9.278,
       "step": 1500
     },
     {
-      "epoch": 1.0333333333333334,
-      "grad_norm": 0.3405410051345825,
-      "learning_rate": 0.00013413636363636365,
-      "loss": 0.5571,
       "step": 1550
     },
     {
-      "epoch": 1.0666666666666667,
-      "grad_norm": 0.4485073983669281,
-      "learning_rate": 0.00013186363636363637,
-      "loss": 0.5674,
       "step": 1600
     },
     {
-      "epoch": 1.1,
-      "grad_norm": 0.34938374161720276,
-      "learning_rate": 0.0001295909090909091,
-      "loss": 0.5354,
       "step": 1650
     },
     {
-      "epoch": 1.1333333333333333,
-      "grad_norm": 0.33084195852279663,
-      "learning_rate": 0.00012731818181818184,
-      "loss": 0.5765,
       "step": 1700
     },
     {
-      "epoch": 1.1666666666666667,
-      "grad_norm": 0.3667336404323578,
-      "learning_rate": 0.00012504545454545456,
-      "loss": 0.5486,
       "step": 1750
     },
     {
-      "epoch": 1.1666666666666667,
-      "eval_loss": 0.5557209253311157,
-      "eval_runtime": 80.8386,
-      "eval_samples_per_second": 37.111,
-      "eval_steps_per_second": 9.278,
       "step": 1750
     },
     {
-      "epoch": 1.2,
-      "grad_norm": 0.33248019218444824,
-      "learning_rate": 0.00012277272727272728,
-      "loss": 0.5617,
       "step": 1800
     },
     {
-      "epoch": 1.2333333333333334,
-      "grad_norm": 0.4447474479675293,
-      "learning_rate": 0.00012050000000000002,
-      "loss": 0.567,
       "step": 1850
     },
     {
-      "epoch": 1.2666666666666666,
-      "grad_norm": 0.42134660482406616,
-      "learning_rate": 0.00011822727272727274,
-      "loss": 0.5319,
       "step": 1900
     },
     {
-      "epoch": 1.3,
-      "grad_norm": 0.3942984640598297,
-      "learning_rate": 0.00011595454545454544,
-      "loss": 0.5325,
       "step": 1950
     },
     {
-      "epoch": 1.3333333333333333,
-      "grad_norm": 0.4929428696632385,
-      "learning_rate": 0.00011368181818181818,
-      "loss": 0.5565,
       "step": 2000
     },
     {
-      "epoch": 1.3333333333333333,
-      "eval_loss": 0.5535863637924194,
-      "eval_runtime": 80.8279,
-      "eval_samples_per_second": 37.116,
-      "eval_steps_per_second": 9.279,
       "step": 2000
     },
     {
-      "epoch": 1.3666666666666667,
-      "grad_norm": 0.4141586720943451,
-      "learning_rate": 0.00011140909090909091,
-      "loss": 0.5801,
       "step": 2050
     },
     {
-      "epoch": 1.4,
-      "grad_norm": 0.45937269926071167,
-      "learning_rate": 0.00010913636363636364,
-      "loss": 0.5439,
       "step": 2100
     },
     {
-      "epoch": 1.4333333333333333,
-      "grad_norm": 0.47830042243003845,
-      "learning_rate": 0.00010686363636363637,
-      "loss": 0.547,
       "step": 2150
     },
     {
-      "epoch": 1.4666666666666668,
-      "grad_norm": 0.40260276198387146,
-      "learning_rate": 0.00010459090909090909,
-      "loss": 0.5229,
       "step": 2200
     },
     {
-      "epoch": 1.5,
-      "grad_norm": 0.5281402468681335,
-      "learning_rate": 0.00010231818181818183,
-      "loss": 0.5475,
       "step": 2250
     },
     {
-      "epoch": 1.5,
-      "eval_loss": 0.5505018830299377,
-      "eval_runtime": 80.8409,
-      "eval_samples_per_second": 37.11,
-      "eval_steps_per_second": 9.277,
       "step": 2250
     },
     {
-      "epoch": 1.5333333333333332,
-      "grad_norm": 0.3721947968006134,
-      "learning_rate": 0.00010004545454545455,
-      "loss": 0.5466,
       "step": 2300
     },
     {
-      "epoch": 1.5666666666666667,
-      "grad_norm": 0.3462945818901062,
-      "learning_rate": 9.777272727272728e-05,
-      "loss": 0.5209,
       "step": 2350
     },
     {
-      "epoch": 1.6,
-      "grad_norm": 0.4027090072631836,
-      "learning_rate": 9.55e-05,
-      "loss": 0.5307,
       "step": 2400
     },
     {
-      "epoch": 1.6333333333333333,
-      "grad_norm": 0.3684265613555908,
-      "learning_rate": 9.322727272727273e-05,
-      "loss": 0.5118,
       "step": 2450
     },
     {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 0.4819887578487396,
-      "learning_rate": 9.095454545454546e-05,
-      "loss": 0.561,
       "step": 2500
     },
     {
-      "epoch": 1.6666666666666665,
-      "eval_loss": 0.5476261377334595,
-      "eval_runtime": 80.8288,
-      "eval_samples_per_second": 37.115,
-      "eval_steps_per_second": 9.279,
       "step": 2500
     },
     {
-      "epoch": 1.7,
-      "grad_norm": 0.3161783218383789,
-      "learning_rate": 8.86818181818182e-05,
-      "loss": 0.5413,
       "step": 2550
     },
     {
-      "epoch": 1.7333333333333334,
-      "grad_norm": 0.34697386622428894,
-      "learning_rate": 8.640909090909092e-05,
-      "loss": 0.5366,
       "step": 2600
     },
     {
-      "epoch": 1.7666666666666666,
-      "grad_norm": 0.4084527790546417,
-      "learning_rate": 8.413636363636364e-05,
-      "loss": 0.5426,
       "step": 2650
     },
     {
-      "epoch": 1.8,
-      "grad_norm": 0.4053308963775635,
-      "learning_rate": 8.186363636363636e-05,
-      "loss": 0.532,
       "step": 2700
     },
     {
-      "epoch": 1.8333333333333335,
-      "grad_norm": 0.3551884591579437,
-      "learning_rate": 7.95909090909091e-05,
-      "loss": 0.5399,
       "step": 2750
     },
     {
-      "epoch": 1.8333333333333335,
-      "eval_loss": 0.546008288860321,
-      "eval_runtime": 80.8186,
-      "eval_samples_per_second": 37.12,
-      "eval_steps_per_second": 9.28,
       "step": 2750
     },
     {
-      "epoch": 1.8666666666666667,
-      "grad_norm": 0.40072572231292725,
-      "learning_rate": 7.731818181818183e-05,
-      "loss": 0.5332,
       "step": 2800
     },
     {
-      "epoch": 1.9,
-      "grad_norm": 0.3773200213909149,
-      "learning_rate": 7.504545454545455e-05,
-      "loss": 0.5296,
       "step": 2850
     },
     {
-      "epoch": 1.9333333333333333,
-      "grad_norm": 0.45379436016082764,
-      "learning_rate": 7.277272727272728e-05,
-      "loss": 0.5356,
       "step": 2900
     },
     {
-      "epoch": 1.9666666666666668,
-      "grad_norm": 0.36246028542518616,
-      "learning_rate": 7.05e-05,
-      "loss": 0.5112,
       "step": 2950
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 0.40895622968673706,
-      "learning_rate": 6.822727272727273e-05,
-      "loss": 0.5358,
       "step": 3000
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.5436099171638489,
-      "eval_runtime": 80.8207,
-      "eval_samples_per_second": 37.119,
-      "eval_steps_per_second": 9.28,
       "step": 3000
     }
   ],
   "logging_steps": 50,
-  "max_steps": 4500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -543,7 +543,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.6691738985250816e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 3000,
+  "best_metric": 0.6727278828620911,
+  "best_model_checkpoint": "amiya_outputs/llama3.1-8b-amiya-palestinian/checkpoint-3000",
+  "epoch": 1.2428260644359266,
   "eval_steps": 250,
   "global_step": 3000,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.020718947477468146,
+      "grad_norm": 1.0589393377304077,
       "learning_rate": 9.8e-05,
+      "loss": 2.6567,
       "step": 50
     },
     {
+      "epoch": 0.04143789495493629,
+      "grad_norm": 0.9738045334815979,
       "learning_rate": 0.00019800000000000002,
+      "loss": 0.9502,
       "step": 100
     },
     {
+      "epoch": 0.062156842432404436,
+      "grad_norm": 0.8801347017288208,
+      "learning_rate": 0.00019862783534024082,
+      "loss": 0.8496,
       "step": 150
     },
     {
+      "epoch": 0.08287578990987259,
+      "grad_norm": 0.7272312045097351,
+      "learning_rate": 0.00019722766732007841,
+      "loss": 0.8184,
       "step": 200
     },
     {
+      "epoch": 0.10359473738734072,
+      "grad_norm": 0.7850629091262817,
+      "learning_rate": 0.000195827499299916,
+      "loss": 0.8392,
       "step": 250
     },
     {
+      "epoch": 0.10359473738734072,
+      "eval_loss": 0.7402811050415039,
+      "eval_runtime": 85.9367,
+      "eval_samples_per_second": 56.158,
+      "eval_steps_per_second": 14.045,
       "step": 250
     },
     {
+      "epoch": 0.12431368486480887,
+      "grad_norm": 0.40629276633262634,
+      "learning_rate": 0.00019442733127975358,
+      "loss": 0.8108,
       "step": 300
     },
     {
+      "epoch": 0.145032632342277,
+      "grad_norm": 0.5258236527442932,
+      "learning_rate": 0.00019302716325959117,
+      "loss": 0.8116,
       "step": 350
     },
     {
+      "epoch": 0.16575157981974517,
+      "grad_norm": 0.6879925727844238,
+      "learning_rate": 0.00019162699523942874,
+      "loss": 0.9089,
       "step": 400
     },
     {
+      "epoch": 0.1864705272972133,
+      "grad_norm": 0.7583937048912048,
+      "learning_rate": 0.00019022682721926633,
+      "loss": 0.874,
       "step": 450
     },
     {
+      "epoch": 0.20718947477468144,
+      "grad_norm": 0.6399120688438416,
+      "learning_rate": 0.0001888266591991039,
+      "loss": 0.8366,
       "step": 500
     },
     {
+      "epoch": 0.20718947477468144,
+      "eval_loss": 0.7194066047668457,
+      "eval_runtime": 86.2811,
+      "eval_samples_per_second": 55.933,
+      "eval_steps_per_second": 13.989,
       "step": 500
     },
     {
+      "epoch": 0.22790842225214958,
+      "grad_norm": 0.7763131856918335,
+      "learning_rate": 0.0001874264911789415,
+      "loss": 0.7912,
       "step": 550
     },
     {
+      "epoch": 0.24862736972961774,
+      "grad_norm": 0.6845299601554871,
+      "learning_rate": 0.00018602632315877906,
+      "loss": 0.8506,
       "step": 600
     },
     {
+      "epoch": 0.2693463172070859,
+      "grad_norm": 0.8045451045036316,
+      "learning_rate": 0.00018462615513861665,
+      "loss": 0.763,
       "step": 650
     },
     {
+      "epoch": 0.290065264684554,
+      "grad_norm": 0.7035927176475525,
+      "learning_rate": 0.00018322598711845422,
+      "loss": 0.7769,
       "step": 700
     },
     {
+      "epoch": 0.3107842121620222,
+      "grad_norm": 0.465000718832016,
+      "learning_rate": 0.00018182581909829179,
+      "loss": 0.7705,
       "step": 750
     },
     {
+      "epoch": 0.3107842121620222,
+      "eval_loss": 0.7103215456008911,
+      "eval_runtime": 86.1101,
+      "eval_samples_per_second": 56.045,
+      "eval_steps_per_second": 14.017,
       "step": 750
     },
     {
+      "epoch": 0.33150315963949034,
+      "grad_norm": 0.4990151524543762,
+      "learning_rate": 0.00018042565107812938,
+      "loss": 0.8438,
       "step": 800
     },
     {
+      "epoch": 0.35222210711695845,
+      "grad_norm": 0.7391067147254944,
+      "learning_rate": 0.00017902548305796695,
+      "loss": 0.7688,
       "step": 850
     },
     {
+      "epoch": 0.3729410545944266,
+      "grad_norm": 0.8036171197891235,
+      "learning_rate": 0.00017762531503780454,
+      "loss": 0.753,
       "step": 900
     },
     {
+      "epoch": 0.3936600020718947,
+      "grad_norm": 0.44744470715522766,
+      "learning_rate": 0.00017622514701764213,
+      "loss": 0.7793,
       "step": 950
     },
     {
+      "epoch": 0.4143789495493629,
+      "grad_norm": 0.630820631980896,
+      "learning_rate": 0.00017482497899747973,
+      "loss": 0.7555,
       "step": 1000
     },
     {
+      "epoch": 0.4143789495493629,
+      "eval_loss": 0.7030432820320129,
+      "eval_runtime": 86.2543,
+      "eval_samples_per_second": 55.951,
+      "eval_steps_per_second": 13.994,
       "step": 1000
     },
     {
+      "epoch": 0.43509789702683105,
+      "grad_norm": 0.45690879225730896,
+      "learning_rate": 0.0001734248109773173,
+      "loss": 0.793,
       "step": 1050
     },
     {
+      "epoch": 0.45581684450429916,
+      "grad_norm": 0.5000227093696594,
+      "learning_rate": 0.00017202464295715486,
+      "loss": 0.8342,
       "step": 1100
     },
     {
+      "epoch": 0.4765357919817673,
+      "grad_norm": 0.47182488441467285,
+      "learning_rate": 0.00017062447493699246,
+      "loss": 0.7997,
       "step": 1150
     },
     {
+      "epoch": 0.4972547394592355,
+      "grad_norm": 0.7060516476631165,
+      "learning_rate": 0.00016922430691683002,
+      "loss": 0.7788,
       "step": 1200
     },
     {
+      "epoch": 0.5179736869367036,
+      "grad_norm": 0.46701857447624207,
+      "learning_rate": 0.00016782413889666762,
+      "loss": 0.7518,
       "step": 1250
     },
     {
+      "epoch": 0.5179736869367036,
+      "eval_loss": 0.7023425698280334,
+      "eval_runtime": 86.3015,
+      "eval_samples_per_second": 55.92,
+      "eval_steps_per_second": 13.986,
       "step": 1250
     },
     {
+      "epoch": 0.5386926344141718,
+      "grad_norm": 0.668192446231842,
+      "learning_rate": 0.00016642397087650518,
+      "loss": 0.7682,
       "step": 1300
     },
     {
+      "epoch": 0.5594115818916399,
+      "grad_norm": 0.47292283177375793,
+      "learning_rate": 0.00016502380285634278,
+      "loss": 0.7985,
       "step": 1350
     },
     {
+      "epoch": 0.580130529369108,
+      "grad_norm": 0.7327275276184082,
+      "learning_rate": 0.00016362363483618034,
+      "loss": 0.8378,
       "step": 1400
     },
     {
+      "epoch": 0.6008494768465762,
+      "grad_norm": 0.8417996764183044,
+      "learning_rate": 0.0001622234668160179,
+      "loss": 0.7962,
       "step": 1450
     },
     {
+      "epoch": 0.6215684243240444,
+      "grad_norm": 0.6189562678337097,
+      "learning_rate": 0.0001608232987958555,
+      "loss": 0.8028,
       "step": 1500
     },
     {
+      "epoch": 0.6215684243240444,
+      "eval_loss": 0.6915447115898132,
+      "eval_runtime": 86.2147,
+      "eval_samples_per_second": 55.977,
+      "eval_steps_per_second": 14.0,
       "step": 1500
     },
     {
+      "epoch": 0.6422873718015125,
+      "grad_norm": 0.7345826625823975,
+      "learning_rate": 0.0001594231307756931,
+      "loss": 0.7978,
       "step": 1550
     },
     {
+      "epoch": 0.6630063192789807,
+      "grad_norm": 0.6538310050964355,
+      "learning_rate": 0.0001580229627555307,
+      "loss": 0.7672,
       "step": 1600
     },
     {
+      "epoch": 0.6837252667564487,
+      "grad_norm": 0.661582350730896,
+      "learning_rate": 0.00015662279473536826,
+      "loss": 0.7378,
       "step": 1650
     },
     {
+      "epoch": 0.7044442142339169,
+      "grad_norm": 0.3603042960166931,
+      "learning_rate": 0.00015522262671520583,
+      "loss": 0.6741,
       "step": 1700
     },
     {
+      "epoch": 0.7251631617113851,
+      "grad_norm": 0.8882561326026917,
+      "learning_rate": 0.00015382245869504342,
+      "loss": 0.7695,
       "step": 1750
     },
     {
+      "epoch": 0.7251631617113851,
+      "eval_loss": 0.6858941316604614,
+      "eval_runtime": 86.6358,
+      "eval_samples_per_second": 55.704,
+      "eval_steps_per_second": 13.932,
       "step": 1750
     },
     {
+      "epoch": 0.7458821091888532,
+      "grad_norm": 0.5933266282081604,
+      "learning_rate": 0.000152422290674881,
+      "loss": 0.7548,
       "step": 1800
     },
     {
+      "epoch": 0.7666010566663214,
+      "grad_norm": 0.8178608417510986,
+      "learning_rate": 0.00015102212265471858,
+      "loss": 0.7639,
       "step": 1850
     },
     {
+      "epoch": 0.7873200041437894,
+      "grad_norm": 0.4378993511199951,
+      "learning_rate": 0.00014962195463455615,
+      "loss": 0.7985,
       "step": 1900
     },
     {
+      "epoch": 0.8080389516212576,
+      "grad_norm": 0.3732803463935852,
+      "learning_rate": 0.00014822178661439374,
+      "loss": 0.8481,
       "step": 1950
     },
     {
+      "epoch": 0.8287578990987258,
+      "grad_norm": 0.7421035170555115,
+      "learning_rate": 0.0001468216185942313,
+      "loss": 0.7223,
       "step": 2000
     },
     {
+      "epoch": 0.8287578990987258,
+      "eval_loss": 0.6823315024375916,
+      "eval_runtime": 86.5575,
+      "eval_samples_per_second": 55.755,
+      "eval_steps_per_second": 13.944,
       "step": 2000
     },
     {
+      "epoch": 0.8494768465761939,
+      "grad_norm": 0.5109913349151611,
+      "learning_rate": 0.00014542145057406888,
+      "loss": 0.7895,
       "step": 2050
     },
     {
+      "epoch": 0.8701957940536621,
+      "grad_norm": 0.47988179326057434,
+      "learning_rate": 0.00014402128255390647,
+      "loss": 0.7385,
       "step": 2100
     },
     {
+      "epoch": 0.8909147415311303,
+      "grad_norm": 0.7593080997467041,
+      "learning_rate": 0.00014262111453374404,
+      "loss": 0.7744,
       "step": 2150
     },
     {
+      "epoch": 0.9116336890085983,
+      "grad_norm": 0.5866154432296753,
+      "learning_rate": 0.00014122094651358163,
+      "loss": 0.7062,
       "step": 2200
     },
     {
+      "epoch": 0.9323526364860665,
+      "grad_norm": 0.47364088892936707,
+      "learning_rate": 0.00013982077849341922,
+      "loss": 0.7792,
       "step": 2250
     },
     {
+      "epoch": 0.9323526364860665,
+      "eval_loss": 0.6785813570022583,
+      "eval_runtime": 86.3444,
+      "eval_samples_per_second": 55.892,
+      "eval_steps_per_second": 13.979,
       "step": 2250
     },
     {
+      "epoch": 0.9530715839635346,
+      "grad_norm": 0.7610514760017395,
+      "learning_rate": 0.00013842061047325682,
+      "loss": 0.7804,
       "step": 2300
     },
     {
+      "epoch": 0.9737905314410028,
+      "grad_norm": 0.7689616084098816,
+      "learning_rate": 0.00013702044245309438,
+      "loss": 0.7497,
       "step": 2350
     },
     {
+      "epoch": 0.994509478918471,
+      "grad_norm": 0.542168378829956,
+      "learning_rate": 0.00013562027443293195,
+      "loss": 0.7333,
       "step": 2400
     },
     {
+      "epoch": 1.0149176421837771,
+      "grad_norm": 0.33903324604034424,
+      "learning_rate": 0.0001342481097731728,
+      "loss": 0.6952,
       "step": 2450
     },
     {
+      "epoch": 1.0356365896612452,
+      "grad_norm": 0.8183636665344238,
+      "learning_rate": 0.00013284794175301036,
+      "loss": 0.7386,
       "step": 2500
     },
     {
+      "epoch": 1.0356365896612452,
+      "eval_loss": 0.675748348236084,
+      "eval_runtime": 86.2887,
+      "eval_samples_per_second": 55.929,
+      "eval_steps_per_second": 13.988,
       "step": 2500
     },
     {
+      "epoch": 1.0563555371387134,
+      "grad_norm": 0.6831589937210083,
+      "learning_rate": 0.00013144777373284795,
+      "loss": 0.72,
       "step": 2550
     },
     {
+      "epoch": 1.0770744846161815,
+      "grad_norm": 0.6346258521080017,
+      "learning_rate": 0.00013004760571268552,
+      "loss": 0.7026,
       "step": 2600
     },
     {
+      "epoch": 1.0977934320936495,
+      "grad_norm": 0.5658385753631592,
+      "learning_rate": 0.0001286474376925231,
+      "loss": 0.7162,
       "step": 2650
     },
     {
+      "epoch": 1.1185123795711178,
+      "grad_norm": 0.4242883026599884,
+      "learning_rate": 0.00012724726967236068,
+      "loss": 0.7325,
       "step": 2700
     },
     {
+      "epoch": 1.1392313270485859,
+      "grad_norm": 0.5489133596420288,
+      "learning_rate": 0.00012584710165219827,
+      "loss": 0.7138,
       "step": 2750
     },
     {
+      "epoch": 1.1392313270485859,
+      "eval_loss": 0.6747092604637146,
+      "eval_runtime": 86.4239,
+      "eval_samples_per_second": 55.841,
+      "eval_steps_per_second": 13.966,
       "step": 2750
     },
     {
+      "epoch": 1.1599502745260541,
+      "grad_norm": 0.6514728665351868,
+      "learning_rate": 0.00012444693363203587,
+      "loss": 0.7105,
       "step": 2800
     },
     {
+      "epoch": 1.1806692220035222,
+      "grad_norm": 0.48897412419319153,
+      "learning_rate": 0.00012304676561187343,
+      "loss": 0.7271,
       "step": 2850
     },
     {
+      "epoch": 1.2013881694809903,
+      "grad_norm": 0.7159713506698608,
+      "learning_rate": 0.00012164659759171101,
+      "loss": 0.7454,
       "step": 2900
     },
     {
+      "epoch": 1.2221071169584585,
+      "grad_norm": 0.7044214010238647,
+      "learning_rate": 0.0001202464295715486,
+      "loss": 0.6918,
       "step": 2950
     },
     {
+      "epoch": 1.2428260644359266,
+      "grad_norm": 0.7934305667877197,
+      "learning_rate": 0.00011884626155138616,
+      "loss": 0.7018,
       "step": 3000
     },
     {
+      "epoch": 1.2428260644359266,
+      "eval_loss": 0.6727278828620911,
+      "eval_runtime": 86.1985,
+      "eval_samples_per_second": 55.987,
+      "eval_steps_per_second": 14.003,
       "step": 3000
     }
   ],
   "logging_steps": 50,
+  "max_steps": 7242,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.8877939667533824e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

checkpoint-3000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb76e3e4d2123d52e529262f1ff37bfc600a160bb369e2338a54f71b47c17108
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a783872a61d64f4d1b4e002fa0fa67fa54dd9c59c4f7fbad58c794a77134069d
 size 5432

checkpoint-3500/adapter_config.json CHANGED Viewed

@@ -29,9 +29,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
-    "q_proj",
     "k_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "o_proj",
     "v_proj",
     "k_proj"
   ],
   "target_parameters": null,

checkpoint-3500/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12f0b3a531cc4b85c51c3d19fd29fa9f2ff0a0aaebca23605d724770413d49dd
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:efd6ac84524dc525109e0cf3984e4fb4afaa59e8f7de0dc6109c2b12c586afc5
 size 54560368

checkpoint-3500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a4eef6562f7b0c26ac35c5f7d087ce2a7559b2e6cdf2884cceaa3c0ee6e1b36
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:98d7c59285360613eaeb682746b1d5e816d8c270b8349c722a70600a8d9d6ddb
 size 109267450

checkpoint-3500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b57187731297d3d34a8d707e0d59c7b35e51c65106b068986ec8c8627963b5d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed5252c8fed9a2f3c650896ede719a729d89d5457a6b7b888d47da3cf1064c08
 size 14244

checkpoint-3500/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d25c9e5c384ba91142c829ef5432ebc4ae7d8c71f3de723046dd3aa202e08a2
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0ba488383c7d42e68fdfa7344fb6e0324b381de27f6504d975f79101124ff3a
 size 988

checkpoint-3500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19eea76bd539d1067fbb6c0af0bc3feabf4a4fcc75b4afa719255b0d413e8ced
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:71c9cdb357928829533126660dc9acec503bb0b54ce6ea94dffebd2dc851fd2c
 size 1064

checkpoint-3500/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_global_step": 3000,
-  "best_metric": 0.5436099171638489,
-  "best_model_checkpoint": "finetuned_models/llama3.1-8b-lora/checkpoint-3000",
-  "epoch": 2.3333333333333335,
   "eval_steps": 250,
   "global_step": 3500,
   "is_hyper_param_search": false,
@@ -10,610 +10,610 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03333333333333333,
-      "grad_norm": 0.5346225500106812,
       "learning_rate": 9.8e-05,
-      "loss": 2.4955,
       "step": 50
     },
     {
-      "epoch": 0.06666666666666667,
-      "grad_norm": 0.719093918800354,
       "learning_rate": 0.00019800000000000002,
-      "loss": 0.71,
       "step": 100
     },
     {
-      "epoch": 0.1,
-      "grad_norm": 0.4840560853481293,
-      "learning_rate": 0.0001977727272727273,
-      "loss": 0.6405,
       "step": 150
     },
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 0.3332301676273346,
-      "learning_rate": 0.0001955,
-      "loss": 0.6287,
       "step": 200
     },
     {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 0.40639588236808777,
-      "learning_rate": 0.00019322727272727276,
-      "loss": 0.5572,
       "step": 250
     },
     {
-      "epoch": 0.16666666666666666,
-      "eval_loss": 0.5975945591926575,
-      "eval_runtime": 80.8004,
-      "eval_samples_per_second": 37.129,
-      "eval_steps_per_second": 9.282,
       "step": 250
     },
     {
-      "epoch": 0.2,
-      "grad_norm": 0.3970712423324585,
-      "learning_rate": 0.00019095454545454545,
-      "loss": 0.6165,
       "step": 300
     },
     {
-      "epoch": 0.23333333333333334,
-      "grad_norm": 0.38409528136253357,
-      "learning_rate": 0.00018868181818181817,
-      "loss": 0.639,
       "step": 350
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 0.44628769159317017,
-      "learning_rate": 0.00018640909090909092,
-      "loss": 0.636,
       "step": 400
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 0.3697021007537842,
-      "learning_rate": 0.00018413636363636364,
-      "loss": 0.6192,
       "step": 450
     },
     {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 0.36338189244270325,
-      "learning_rate": 0.00018186363636363636,
-      "loss": 0.6134,
       "step": 500
     },
     {
-      "epoch": 0.3333333333333333,
-      "eval_loss": 0.5813060998916626,
-      "eval_runtime": 80.7819,
-      "eval_samples_per_second": 37.137,
-      "eval_steps_per_second": 9.284,
       "step": 500
     },
     {
-      "epoch": 0.36666666666666664,
-      "grad_norm": 0.35211533308029175,
-      "learning_rate": 0.0001795909090909091,
-      "loss": 0.6128,
       "step": 550
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 0.36327463388442993,
-      "learning_rate": 0.00017731818181818183,
-      "loss": 0.5915,
       "step": 600
     },
     {
-      "epoch": 0.43333333333333335,
-      "grad_norm": 0.40672942996025085,
-      "learning_rate": 0.00017504545454545455,
-      "loss": 0.5807,
       "step": 650
     },
     {
-      "epoch": 0.4666666666666667,
-      "grad_norm": 0.4689007103443146,
-      "learning_rate": 0.00017277272727272728,
-      "loss": 0.602,
       "step": 700
     },
     {
-      "epoch": 0.5,
-      "grad_norm": 0.3979697823524475,
-      "learning_rate": 0.00017050000000000002,
-      "loss": 0.5703,
       "step": 750
     },
     {
-      "epoch": 0.5,
-      "eval_loss": 0.5740106701850891,
-      "eval_runtime": 80.8209,
-      "eval_samples_per_second": 37.119,
-      "eval_steps_per_second": 9.28,
       "step": 750
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.3071135878562927,
-      "learning_rate": 0.00016822727272727275,
-      "loss": 0.5746,
       "step": 800
     },
     {
-      "epoch": 0.5666666666666667,
-      "grad_norm": 0.318085253238678,
-      "learning_rate": 0.00016595454545454544,
-      "loss": 0.5873,
       "step": 850
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 0.35915374755859375,
-      "learning_rate": 0.0001636818181818182,
-      "loss": 0.6283,
       "step": 900
     },
     {
-      "epoch": 0.6333333333333333,
-      "grad_norm": 0.3174057602882385,
-      "learning_rate": 0.0001614090909090909,
-      "loss": 0.5912,
       "step": 950
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.416111022233963,
-      "learning_rate": 0.00015913636363636363,
-      "loss": 0.5647,
       "step": 1000
     },
     {
-      "epoch": 0.6666666666666666,
-      "eval_loss": 0.5663638710975647,
-      "eval_runtime": 80.8183,
-      "eval_samples_per_second": 37.12,
-      "eval_steps_per_second": 9.28,
       "step": 1000
     },
     {
-      "epoch": 0.7,
-      "grad_norm": 0.41202324628829956,
-      "learning_rate": 0.00015686363636363638,
-      "loss": 0.6118,
       "step": 1050
     },
     {
-      "epoch": 0.7333333333333333,
-      "grad_norm": 0.3883333206176758,
-      "learning_rate": 0.0001545909090909091,
-      "loss": 0.5392,
       "step": 1100
     },
     {
-      "epoch": 0.7666666666666667,
-      "grad_norm": 0.31973451375961304,
-      "learning_rate": 0.00015231818181818182,
-      "loss": 0.5602,
       "step": 1150
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.31378698348999023,
-      "learning_rate": 0.00015004545454545454,
-      "loss": 0.5642,
       "step": 1200
     },
     {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 0.3346308171749115,
-      "learning_rate": 0.0001477727272727273,
-      "loss": 0.5925,
       "step": 1250
     },
     {
-      "epoch": 0.8333333333333334,
-      "eval_loss": 0.5619704723358154,
-      "eval_runtime": 80.824,
-      "eval_samples_per_second": 37.118,
-      "eval_steps_per_second": 9.279,
       "step": 1250
     },
     {
-      "epoch": 0.8666666666666667,
-      "grad_norm": 0.5573959946632385,
-      "learning_rate": 0.0001455,
-      "loss": 0.5829,
       "step": 1300
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 0.36054643988609314,
-      "learning_rate": 0.00014322727272727273,
-      "loss": 0.5923,
       "step": 1350
     },
     {
-      "epoch": 0.9333333333333333,
-      "grad_norm": 0.36059027910232544,
-      "learning_rate": 0.00014095454545454546,
-      "loss": 0.5808,
       "step": 1400
     },
     {
-      "epoch": 0.9666666666666667,
-      "grad_norm": 0.3942534327507019,
-      "learning_rate": 0.00013868181818181818,
-      "loss": 0.5597,
       "step": 1450
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.3995835483074188,
-      "learning_rate": 0.0001364090909090909,
-      "loss": 0.5554,
       "step": 1500
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.5581239461898804,
-      "eval_runtime": 80.8326,
-      "eval_samples_per_second": 37.114,
-      "eval_steps_per_second": 9.278,
       "step": 1500
     },
     {
-      "epoch": 1.0333333333333334,
-      "grad_norm": 0.3405410051345825,
-      "learning_rate": 0.00013413636363636365,
-      "loss": 0.5571,
       "step": 1550
     },
     {
-      "epoch": 1.0666666666666667,
-      "grad_norm": 0.4485073983669281,
-      "learning_rate": 0.00013186363636363637,
-      "loss": 0.5674,
       "step": 1600
     },
     {
-      "epoch": 1.1,
-      "grad_norm": 0.34938374161720276,
-      "learning_rate": 0.0001295909090909091,
-      "loss": 0.5354,
       "step": 1650
     },
     {
-      "epoch": 1.1333333333333333,
-      "grad_norm": 0.33084195852279663,
-      "learning_rate": 0.00012731818181818184,
-      "loss": 0.5765,
       "step": 1700
     },
     {
-      "epoch": 1.1666666666666667,
-      "grad_norm": 0.3667336404323578,
-      "learning_rate": 0.00012504545454545456,
-      "loss": 0.5486,
       "step": 1750
     },
     {
-      "epoch": 1.1666666666666667,
-      "eval_loss": 0.5557209253311157,
-      "eval_runtime": 80.8386,
-      "eval_samples_per_second": 37.111,
-      "eval_steps_per_second": 9.278,
       "step": 1750
     },
     {
-      "epoch": 1.2,
-      "grad_norm": 0.33248019218444824,
-      "learning_rate": 0.00012277272727272728,
-      "loss": 0.5617,
       "step": 1800
     },
     {
-      "epoch": 1.2333333333333334,
-      "grad_norm": 0.4447474479675293,
-      "learning_rate": 0.00012050000000000002,
-      "loss": 0.567,
       "step": 1850
     },
     {
-      "epoch": 1.2666666666666666,
-      "grad_norm": 0.42134660482406616,
-      "learning_rate": 0.00011822727272727274,
-      "loss": 0.5319,
       "step": 1900
     },
     {
-      "epoch": 1.3,
-      "grad_norm": 0.3942984640598297,
-      "learning_rate": 0.00011595454545454544,
-      "loss": 0.5325,
       "step": 1950
     },
     {
-      "epoch": 1.3333333333333333,
-      "grad_norm": 0.4929428696632385,
-      "learning_rate": 0.00011368181818181818,
-      "loss": 0.5565,
       "step": 2000
     },
     {
-      "epoch": 1.3333333333333333,
-      "eval_loss": 0.5535863637924194,
-      "eval_runtime": 80.8279,
-      "eval_samples_per_second": 37.116,
-      "eval_steps_per_second": 9.279,
       "step": 2000
     },
     {
-      "epoch": 1.3666666666666667,
-      "grad_norm": 0.4141586720943451,
-      "learning_rate": 0.00011140909090909091,
-      "loss": 0.5801,
       "step": 2050
     },
     {
-      "epoch": 1.4,
-      "grad_norm": 0.45937269926071167,
-      "learning_rate": 0.00010913636363636364,
-      "loss": 0.5439,
       "step": 2100
     },
     {
-      "epoch": 1.4333333333333333,
-      "grad_norm": 0.47830042243003845,
-      "learning_rate": 0.00010686363636363637,
-      "loss": 0.547,
       "step": 2150
     },
     {
-      "epoch": 1.4666666666666668,
-      "grad_norm": 0.40260276198387146,
-      "learning_rate": 0.00010459090909090909,
-      "loss": 0.5229,
       "step": 2200
     },
     {
-      "epoch": 1.5,
-      "grad_norm": 0.5281402468681335,
-      "learning_rate": 0.00010231818181818183,
-      "loss": 0.5475,
       "step": 2250
     },
     {
-      "epoch": 1.5,
-      "eval_loss": 0.5505018830299377,
-      "eval_runtime": 80.8409,
-      "eval_samples_per_second": 37.11,
-      "eval_steps_per_second": 9.277,
       "step": 2250
     },
     {
-      "epoch": 1.5333333333333332,
-      "grad_norm": 0.3721947968006134,
-      "learning_rate": 0.00010004545454545455,
-      "loss": 0.5466,
       "step": 2300
     },
     {
-      "epoch": 1.5666666666666667,
-      "grad_norm": 0.3462945818901062,
-      "learning_rate": 9.777272727272728e-05,
-      "loss": 0.5209,
       "step": 2350
     },
     {
-      "epoch": 1.6,
-      "grad_norm": 0.4027090072631836,
-      "learning_rate": 9.55e-05,
-      "loss": 0.5307,
       "step": 2400
     },
     {
-      "epoch": 1.6333333333333333,
-      "grad_norm": 0.3684265613555908,
-      "learning_rate": 9.322727272727273e-05,
-      "loss": 0.5118,
       "step": 2450
     },
     {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 0.4819887578487396,
-      "learning_rate": 9.095454545454546e-05,
-      "loss": 0.561,
       "step": 2500
     },
     {
-      "epoch": 1.6666666666666665,
-      "eval_loss": 0.5476261377334595,
-      "eval_runtime": 80.8288,
-      "eval_samples_per_second": 37.115,
-      "eval_steps_per_second": 9.279,
       "step": 2500
     },
     {
-      "epoch": 1.7,
-      "grad_norm": 0.3161783218383789,
-      "learning_rate": 8.86818181818182e-05,
-      "loss": 0.5413,
       "step": 2550
     },
     {
-      "epoch": 1.7333333333333334,
-      "grad_norm": 0.34697386622428894,
-      "learning_rate": 8.640909090909092e-05,
-      "loss": 0.5366,
       "step": 2600
     },
     {
-      "epoch": 1.7666666666666666,
-      "grad_norm": 0.4084527790546417,
-      "learning_rate": 8.413636363636364e-05,
-      "loss": 0.5426,
       "step": 2650
     },
     {
-      "epoch": 1.8,
-      "grad_norm": 0.4053308963775635,
-      "learning_rate": 8.186363636363636e-05,
-      "loss": 0.532,
       "step": 2700
     },
     {
-      "epoch": 1.8333333333333335,
-      "grad_norm": 0.3551884591579437,
-      "learning_rate": 7.95909090909091e-05,
-      "loss": 0.5399,
       "step": 2750
     },
     {
-      "epoch": 1.8333333333333335,
-      "eval_loss": 0.546008288860321,
-      "eval_runtime": 80.8186,
-      "eval_samples_per_second": 37.12,
-      "eval_steps_per_second": 9.28,
       "step": 2750
     },
     {
-      "epoch": 1.8666666666666667,
-      "grad_norm": 0.40072572231292725,
-      "learning_rate": 7.731818181818183e-05,
-      "loss": 0.5332,
       "step": 2800
     },
     {
-      "epoch": 1.9,
-      "grad_norm": 0.3773200213909149,
-      "learning_rate": 7.504545454545455e-05,
-      "loss": 0.5296,
       "step": 2850
     },
     {
-      "epoch": 1.9333333333333333,
-      "grad_norm": 0.45379436016082764,
-      "learning_rate": 7.277272727272728e-05,
-      "loss": 0.5356,
       "step": 2900
     },
     {
-      "epoch": 1.9666666666666668,
-      "grad_norm": 0.36246028542518616,
-      "learning_rate": 7.05e-05,
-      "loss": 0.5112,
       "step": 2950
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 0.40895622968673706,
-      "learning_rate": 6.822727272727273e-05,
-      "loss": 0.5358,
       "step": 3000
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.5436099171638489,
-      "eval_runtime": 80.8207,
-      "eval_samples_per_second": 37.119,
-      "eval_steps_per_second": 9.28,
       "step": 3000
     },
     {
-      "epoch": 2.033333333333333,
-      "grad_norm": 0.4935952425003052,
-      "learning_rate": 6.595454545454546e-05,
-      "loss": 0.5074,
       "step": 3050
     },
     {
-      "epoch": 2.066666666666667,
-      "grad_norm": 0.505511999130249,
-      "learning_rate": 6.368181818181818e-05,
-      "loss": 0.4716,
       "step": 3100
     },
     {
-      "epoch": 2.1,
-      "grad_norm": 0.47748756408691406,
-      "learning_rate": 6.140909090909092e-05,
-      "loss": 0.4909,
       "step": 3150
     },
     {
-      "epoch": 2.1333333333333333,
-      "grad_norm": 0.3205774426460266,
-      "learning_rate": 5.913636363636363e-05,
-      "loss": 0.5009,
       "step": 3200
     },
     {
-      "epoch": 2.1666666666666665,
-      "grad_norm": 0.437486469745636,
-      "learning_rate": 5.686363636363636e-05,
-      "loss": 0.5224,
       "step": 3250
     },
     {
-      "epoch": 2.1666666666666665,
-      "eval_loss": 0.5484762787818909,
-      "eval_runtime": 80.8314,
-      "eval_samples_per_second": 37.114,
-      "eval_steps_per_second": 9.279,
       "step": 3250
     },
     {
-      "epoch": 2.2,
-      "grad_norm": 0.49795669317245483,
-      "learning_rate": 5.4590909090909096e-05,
-      "loss": 0.516,
       "step": 3300
     },
     {
-      "epoch": 2.2333333333333334,
-      "grad_norm": 0.40953299403190613,
-      "learning_rate": 5.2318181818181824e-05,
-      "loss": 0.5025,
       "step": 3350
     },
     {
-      "epoch": 2.2666666666666666,
-      "grad_norm": 0.5090060830116272,
-      "learning_rate": 5.004545454545455e-05,
-      "loss": 0.5064,
       "step": 3400
     },
     {
-      "epoch": 2.3,
-      "grad_norm": 0.4385254979133606,
-      "learning_rate": 4.777272727272727e-05,
-      "loss": 0.497,
       "step": 3450
     },
     {
-      "epoch": 2.3333333333333335,
-      "grad_norm": 0.4746367037296295,
-      "learning_rate": 4.55e-05,
-      "loss": 0.4696,
       "step": 3500
     },
     {
-      "epoch": 2.3333333333333335,
-      "eval_loss": 0.5463398098945618,
-      "eval_runtime": 80.8383,
-      "eval_samples_per_second": 37.111,
-      "eval_steps_per_second": 9.278,
       "step": 3500
     }
   ],
   "logging_steps": 50,
-  "max_steps": 4500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -629,7 +629,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.2819969754988544e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 3500,
+  "best_metric": 0.6663665175437927,
+  "best_model_checkpoint": "amiya_outputs/llama3.1-8b-amiya-palestinian/checkpoint-3500",
+  "epoch": 1.4500155392106082,
   "eval_steps": 250,
   "global_step": 3500,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.020718947477468146,
+      "grad_norm": 1.0589393377304077,
       "learning_rate": 9.8e-05,
+      "loss": 2.6567,
       "step": 50
     },
     {
+      "epoch": 0.04143789495493629,
+      "grad_norm": 0.9738045334815979,
       "learning_rate": 0.00019800000000000002,
+      "loss": 0.9502,
       "step": 100
     },
     {
+      "epoch": 0.062156842432404436,
+      "grad_norm": 0.8801347017288208,
+      "learning_rate": 0.00019862783534024082,
+      "loss": 0.8496,
       "step": 150
     },
     {
+      "epoch": 0.08287578990987259,
+      "grad_norm": 0.7272312045097351,
+      "learning_rate": 0.00019722766732007841,
+      "loss": 0.8184,
       "step": 200
     },
     {
+      "epoch": 0.10359473738734072,
+      "grad_norm": 0.7850629091262817,
+      "learning_rate": 0.000195827499299916,
+      "loss": 0.8392,
       "step": 250
     },
     {
+      "epoch": 0.10359473738734072,
+      "eval_loss": 0.7402811050415039,
+      "eval_runtime": 85.9367,
+      "eval_samples_per_second": 56.158,
+      "eval_steps_per_second": 14.045,
       "step": 250
     },
     {
+      "epoch": 0.12431368486480887,
+      "grad_norm": 0.40629276633262634,
+      "learning_rate": 0.00019442733127975358,
+      "loss": 0.8108,
       "step": 300
     },
     {
+      "epoch": 0.145032632342277,
+      "grad_norm": 0.5258236527442932,
+      "learning_rate": 0.00019302716325959117,
+      "loss": 0.8116,
       "step": 350
     },
     {
+      "epoch": 0.16575157981974517,
+      "grad_norm": 0.6879925727844238,
+      "learning_rate": 0.00019162699523942874,
+      "loss": 0.9089,
       "step": 400
     },
     {
+      "epoch": 0.1864705272972133,
+      "grad_norm": 0.7583937048912048,
+      "learning_rate": 0.00019022682721926633,
+      "loss": 0.874,
       "step": 450
     },
     {
+      "epoch": 0.20718947477468144,
+      "grad_norm": 0.6399120688438416,
+      "learning_rate": 0.0001888266591991039,
+      "loss": 0.8366,
       "step": 500
     },
     {
+      "epoch": 0.20718947477468144,
+      "eval_loss": 0.7194066047668457,
+      "eval_runtime": 86.2811,
+      "eval_samples_per_second": 55.933,
+      "eval_steps_per_second": 13.989,
       "step": 500
     },
     {
+      "epoch": 0.22790842225214958,
+      "grad_norm": 0.7763131856918335,
+      "learning_rate": 0.0001874264911789415,
+      "loss": 0.7912,
       "step": 550
     },
     {
+      "epoch": 0.24862736972961774,
+      "grad_norm": 0.6845299601554871,
+      "learning_rate": 0.00018602632315877906,
+      "loss": 0.8506,
       "step": 600
     },
     {
+      "epoch": 0.2693463172070859,
+      "grad_norm": 0.8045451045036316,
+      "learning_rate": 0.00018462615513861665,
+      "loss": 0.763,
       "step": 650
     },
     {
+      "epoch": 0.290065264684554,
+      "grad_norm": 0.7035927176475525,
+      "learning_rate": 0.00018322598711845422,
+      "loss": 0.7769,
       "step": 700
     },
     {
+      "epoch": 0.3107842121620222,
+      "grad_norm": 0.465000718832016,
+      "learning_rate": 0.00018182581909829179,
+      "loss": 0.7705,
       "step": 750
     },
     {
+      "epoch": 0.3107842121620222,
+      "eval_loss": 0.7103215456008911,
+      "eval_runtime": 86.1101,
+      "eval_samples_per_second": 56.045,
+      "eval_steps_per_second": 14.017,
       "step": 750
     },
     {
+      "epoch": 0.33150315963949034,
+      "grad_norm": 0.4990151524543762,
+      "learning_rate": 0.00018042565107812938,
+      "loss": 0.8438,
       "step": 800
     },
     {
+      "epoch": 0.35222210711695845,
+      "grad_norm": 0.7391067147254944,
+      "learning_rate": 0.00017902548305796695,
+      "loss": 0.7688,
       "step": 850
     },
     {
+      "epoch": 0.3729410545944266,
+      "grad_norm": 0.8036171197891235,
+      "learning_rate": 0.00017762531503780454,
+      "loss": 0.753,
       "step": 900
     },
     {
+      "epoch": 0.3936600020718947,
+      "grad_norm": 0.44744470715522766,
+      "learning_rate": 0.00017622514701764213,
+      "loss": 0.7793,
       "step": 950
     },
     {
+      "epoch": 0.4143789495493629,
+      "grad_norm": 0.630820631980896,
+      "learning_rate": 0.00017482497899747973,
+      "loss": 0.7555,
       "step": 1000
     },
     {
+      "epoch": 0.4143789495493629,
+      "eval_loss": 0.7030432820320129,
+      "eval_runtime": 86.2543,
+      "eval_samples_per_second": 55.951,
+      "eval_steps_per_second": 13.994,
       "step": 1000
     },
     {
+      "epoch": 0.43509789702683105,
+      "grad_norm": 0.45690879225730896,
+      "learning_rate": 0.0001734248109773173,
+      "loss": 0.793,
       "step": 1050
     },
     {
+      "epoch": 0.45581684450429916,
+      "grad_norm": 0.5000227093696594,
+      "learning_rate": 0.00017202464295715486,
+      "loss": 0.8342,
       "step": 1100
     },
     {
+      "epoch": 0.4765357919817673,
+      "grad_norm": 0.47182488441467285,
+      "learning_rate": 0.00017062447493699246,
+      "loss": 0.7997,
       "step": 1150
     },
     {
+      "epoch": 0.4972547394592355,
+      "grad_norm": 0.7060516476631165,
+      "learning_rate": 0.00016922430691683002,
+      "loss": 0.7788,
       "step": 1200
     },
     {
+      "epoch": 0.5179736869367036,
+      "grad_norm": 0.46701857447624207,
+      "learning_rate": 0.00016782413889666762,
+      "loss": 0.7518,
       "step": 1250
     },
     {
+      "epoch": 0.5179736869367036,
+      "eval_loss": 0.7023425698280334,
+      "eval_runtime": 86.3015,
+      "eval_samples_per_second": 55.92,
+      "eval_steps_per_second": 13.986,
       "step": 1250
     },
     {
+      "epoch": 0.5386926344141718,
+      "grad_norm": 0.668192446231842,
+      "learning_rate": 0.00016642397087650518,
+      "loss": 0.7682,
       "step": 1300
     },
     {
+      "epoch": 0.5594115818916399,
+      "grad_norm": 0.47292283177375793,
+      "learning_rate": 0.00016502380285634278,
+      "loss": 0.7985,
       "step": 1350
     },
     {
+      "epoch": 0.580130529369108,
+      "grad_norm": 0.7327275276184082,
+      "learning_rate": 0.00016362363483618034,
+      "loss": 0.8378,
       "step": 1400
     },
     {
+      "epoch": 0.6008494768465762,
+      "grad_norm": 0.8417996764183044,
+      "learning_rate": 0.0001622234668160179,
+      "loss": 0.7962,
       "step": 1450
     },
     {
+      "epoch": 0.6215684243240444,
+      "grad_norm": 0.6189562678337097,
+      "learning_rate": 0.0001608232987958555,
+      "loss": 0.8028,
       "step": 1500
     },
     {
+      "epoch": 0.6215684243240444,
+      "eval_loss": 0.6915447115898132,
+      "eval_runtime": 86.2147,
+      "eval_samples_per_second": 55.977,
+      "eval_steps_per_second": 14.0,
       "step": 1500
     },
     {
+      "epoch": 0.6422873718015125,
+      "grad_norm": 0.7345826625823975,
+      "learning_rate": 0.0001594231307756931,
+      "loss": 0.7978,
       "step": 1550
     },
     {
+      "epoch": 0.6630063192789807,
+      "grad_norm": 0.6538310050964355,
+      "learning_rate": 0.0001580229627555307,
+      "loss": 0.7672,
       "step": 1600
     },
     {
+      "epoch": 0.6837252667564487,
+      "grad_norm": 0.661582350730896,
+      "learning_rate": 0.00015662279473536826,
+      "loss": 0.7378,
       "step": 1650
     },
     {
+      "epoch": 0.7044442142339169,
+      "grad_norm": 0.3603042960166931,
+      "learning_rate": 0.00015522262671520583,
+      "loss": 0.6741,
       "step": 1700
     },
     {
+      "epoch": 0.7251631617113851,
+      "grad_norm": 0.8882561326026917,
+      "learning_rate": 0.00015382245869504342,
+      "loss": 0.7695,
       "step": 1750
     },
     {
+      "epoch": 0.7251631617113851,
+      "eval_loss": 0.6858941316604614,
+      "eval_runtime": 86.6358,
+      "eval_samples_per_second": 55.704,
+      "eval_steps_per_second": 13.932,
       "step": 1750
     },
     {
+      "epoch": 0.7458821091888532,
+      "grad_norm": 0.5933266282081604,
+      "learning_rate": 0.000152422290674881,
+      "loss": 0.7548,
       "step": 1800
     },
     {
+      "epoch": 0.7666010566663214,
+      "grad_norm": 0.8178608417510986,
+      "learning_rate": 0.00015102212265471858,
+      "loss": 0.7639,
       "step": 1850
     },
     {
+      "epoch": 0.7873200041437894,
+      "grad_norm": 0.4378993511199951,
+      "learning_rate": 0.00014962195463455615,
+      "loss": 0.7985,
       "step": 1900
     },
     {
+      "epoch": 0.8080389516212576,
+      "grad_norm": 0.3732803463935852,
+      "learning_rate": 0.00014822178661439374,
+      "loss": 0.8481,
       "step": 1950
     },
     {
+      "epoch": 0.8287578990987258,
+      "grad_norm": 0.7421035170555115,
+      "learning_rate": 0.0001468216185942313,
+      "loss": 0.7223,
       "step": 2000
     },
     {
+      "epoch": 0.8287578990987258,
+      "eval_loss": 0.6823315024375916,
+      "eval_runtime": 86.5575,
+      "eval_samples_per_second": 55.755,
+      "eval_steps_per_second": 13.944,
       "step": 2000
     },
     {
+      "epoch": 0.8494768465761939,
+      "grad_norm": 0.5109913349151611,
+      "learning_rate": 0.00014542145057406888,
+      "loss": 0.7895,
       "step": 2050
     },
     {
+      "epoch": 0.8701957940536621,
+      "grad_norm": 0.47988179326057434,
+      "learning_rate": 0.00014402128255390647,
+      "loss": 0.7385,
       "step": 2100
     },
     {
+      "epoch": 0.8909147415311303,
+      "grad_norm": 0.7593080997467041,
+      "learning_rate": 0.00014262111453374404,
+      "loss": 0.7744,
       "step": 2150
     },
     {
+      "epoch": 0.9116336890085983,
+      "grad_norm": 0.5866154432296753,
+      "learning_rate": 0.00014122094651358163,
+      "loss": 0.7062,
       "step": 2200
     },
     {
+      "epoch": 0.9323526364860665,
+      "grad_norm": 0.47364088892936707,
+      "learning_rate": 0.00013982077849341922,
+      "loss": 0.7792,
       "step": 2250
     },
     {
+      "epoch": 0.9323526364860665,
+      "eval_loss": 0.6785813570022583,
+      "eval_runtime": 86.3444,
+      "eval_samples_per_second": 55.892,
+      "eval_steps_per_second": 13.979,
       "step": 2250
     },
     {
+      "epoch": 0.9530715839635346,
+      "grad_norm": 0.7610514760017395,
+      "learning_rate": 0.00013842061047325682,
+      "loss": 0.7804,
       "step": 2300
     },
     {
+      "epoch": 0.9737905314410028,
+      "grad_norm": 0.7689616084098816,
+      "learning_rate": 0.00013702044245309438,
+      "loss": 0.7497,
       "step": 2350
     },
     {
+      "epoch": 0.994509478918471,
+      "grad_norm": 0.542168378829956,
+      "learning_rate": 0.00013562027443293195,
+      "loss": 0.7333,
       "step": 2400
     },
     {
+      "epoch": 1.0149176421837771,
+      "grad_norm": 0.33903324604034424,
+      "learning_rate": 0.0001342481097731728,
+      "loss": 0.6952,
       "step": 2450
     },
     {
+      "epoch": 1.0356365896612452,
+      "grad_norm": 0.8183636665344238,
+      "learning_rate": 0.00013284794175301036,
+      "loss": 0.7386,
       "step": 2500
     },
     {
+      "epoch": 1.0356365896612452,
+      "eval_loss": 0.675748348236084,
+      "eval_runtime": 86.2887,
+      "eval_samples_per_second": 55.929,
+      "eval_steps_per_second": 13.988,
       "step": 2500
     },
     {
+      "epoch": 1.0563555371387134,
+      "grad_norm": 0.6831589937210083,
+      "learning_rate": 0.00013144777373284795,
+      "loss": 0.72,
       "step": 2550
     },
     {
+      "epoch": 1.0770744846161815,
+      "grad_norm": 0.6346258521080017,
+      "learning_rate": 0.00013004760571268552,
+      "loss": 0.7026,
       "step": 2600
     },
     {
+      "epoch": 1.0977934320936495,
+      "grad_norm": 0.5658385753631592,
+      "learning_rate": 0.0001286474376925231,
+      "loss": 0.7162,
       "step": 2650
     },
     {
+      "epoch": 1.1185123795711178,
+      "grad_norm": 0.4242883026599884,
+      "learning_rate": 0.00012724726967236068,
+      "loss": 0.7325,
       "step": 2700
     },
     {
+      "epoch": 1.1392313270485859,
+      "grad_norm": 0.5489133596420288,
+      "learning_rate": 0.00012584710165219827,
+      "loss": 0.7138,
       "step": 2750
     },
     {
+      "epoch": 1.1392313270485859,
+      "eval_loss": 0.6747092604637146,
+      "eval_runtime": 86.4239,
+      "eval_samples_per_second": 55.841,
+      "eval_steps_per_second": 13.966,
       "step": 2750
     },
     {
+      "epoch": 1.1599502745260541,
+      "grad_norm": 0.6514728665351868,
+      "learning_rate": 0.00012444693363203587,
+      "loss": 0.7105,
       "step": 2800
     },
     {
+      "epoch": 1.1806692220035222,
+      "grad_norm": 0.48897412419319153,
+      "learning_rate": 0.00012304676561187343,
+      "loss": 0.7271,
       "step": 2850
     },
     {
+      "epoch": 1.2013881694809903,
+      "grad_norm": 0.7159713506698608,
+      "learning_rate": 0.00012164659759171101,
+      "loss": 0.7454,
       "step": 2900
     },
     {
+      "epoch": 1.2221071169584585,
+      "grad_norm": 0.7044214010238647,
+      "learning_rate": 0.0001202464295715486,
+      "loss": 0.6918,
       "step": 2950
     },
     {
+      "epoch": 1.2428260644359266,
+      "grad_norm": 0.7934305667877197,
+      "learning_rate": 0.00011884626155138616,
+      "loss": 0.7018,
       "step": 3000
     },
     {
+      "epoch": 1.2428260644359266,
+      "eval_loss": 0.6727278828620911,
+      "eval_runtime": 86.1985,
+      "eval_samples_per_second": 55.987,
+      "eval_steps_per_second": 14.003,
       "step": 3000
     },
     {
+      "epoch": 1.2635450119133949,
+      "grad_norm": 0.8456618785858154,
+      "learning_rate": 0.00011744609353122375,
+      "loss": 0.763,
       "step": 3050
     },
     {
+      "epoch": 1.284263959390863,
+      "grad_norm": 0.5733729600906372,
+      "learning_rate": 0.00011604592551106132,
+      "loss": 0.7034,
       "step": 3100
     },
     {
+      "epoch": 1.304982906868331,
+      "grad_norm": 0.4783104658126831,
+      "learning_rate": 0.00011464575749089892,
+      "loss": 0.762,
       "step": 3150
     },
     {
+      "epoch": 1.3257018543457992,
+      "grad_norm": 0.7016689777374268,
+      "learning_rate": 0.0001132455894707365,
+      "loss": 0.7049,
       "step": 3200
     },
     {
+      "epoch": 1.3464208018232675,
+      "grad_norm": 0.6739513278007507,
+      "learning_rate": 0.00011184542145057409,
+      "loss": 0.7137,
       "step": 3250
     },
     {
+      "epoch": 1.3464208018232675,
+      "eval_loss": 0.6689812541007996,
+      "eval_runtime": 86.4895,
+      "eval_samples_per_second": 55.799,
+      "eval_steps_per_second": 13.955,
       "step": 3250
     },
     {
+      "epoch": 1.3671397493007356,
+      "grad_norm": 0.8907766938209534,
+      "learning_rate": 0.00011044525343041166,
+      "loss": 0.7476,
       "step": 3300
     },
     {
+      "epoch": 1.3878586967782036,
+      "grad_norm": 0.8889743089675903,
+      "learning_rate": 0.00010904508541024922,
+      "loss": 0.7059,
       "step": 3350
     },
     {
+      "epoch": 1.408577644255672,
+      "grad_norm": 0.5788094401359558,
+      "learning_rate": 0.00010764491739008682,
+      "loss": 0.7018,
       "step": 3400
     },
     {
+      "epoch": 1.42929659173314,
+      "grad_norm": 0.7107548713684082,
+      "learning_rate": 0.00010624474936992438,
+      "loss": 0.6796,
       "step": 3450
     },
     {
+      "epoch": 1.4500155392106082,
+      "grad_norm": 0.6979348063468933,
+      "learning_rate": 0.00010484458134976198,
+      "loss": 0.7212,
       "step": 3500
     },
     {
+      "epoch": 1.4500155392106082,
+      "eval_loss": 0.6663665175437927,
+      "eval_runtime": 86.5532,
+      "eval_samples_per_second": 55.758,
+      "eval_steps_per_second": 13.945,
       "step": 3500
     }
   ],
   "logging_steps": 50,
+  "max_steps": 7242,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 2.2030969497550848e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

checkpoint-3500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb76e3e4d2123d52e529262f1ff37bfc600a160bb369e2338a54f71b47c17108
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a783872a61d64f4d1b4e002fa0fa67fa54dd9c59c4f7fbad58c794a77134069d
 size 5432

checkpoint-4000/adapter_config.json CHANGED Viewed

@@ -29,9 +29,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
-    "q_proj",
     "k_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "o_proj",
     "v_proj",
     "k_proj"
   ],
   "target_parameters": null,