Add lora_tuned

Browse files

Files changed (8) hide show

lora_tuned/checkpoint-550/adapter_config.json +128 -0
lora_tuned/checkpoint-550/adapter_model.safetensors +3 -0
lora_tuned/checkpoint-550/generation_config.json +11 -0
lora_tuned/checkpoint-550/optimizer.pt +3 -0
lora_tuned/checkpoint-550/rng_state.pth +3 -0
lora_tuned/checkpoint-550/scheduler.pt +3 -0
lora_tuned/checkpoint-550/trainer_state.json +306 -0
lora_tuned/checkpoint-550/training_args.bin +3 -0

lora_tuned/checkpoint-550/adapter_config.json ADDED Viewed

	@@ -0,0 +1,128 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "HuggingFaceM4/Idefics3-8B-Llama3",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_lora_weights": "gaussian",
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "text_model.layers.24.self_attn.v_proj",
+    "text_model.layers.21.self_attn.k_proj",
+    "text_model.layers.4.self_attn.k_proj",
+    "text_model.layers.11.self_attn.v_proj",
+    "down_proj",
+    "text_model.layers.19.self_attn.q_proj",
+    "31.self_attn.k_proj",
+    "text_model.layers.1.self_attn.v_proj",
+    "text_model.layers.21.self_attn.q_proj",
+    "text_model.layers.17.self_attn.v_proj",
+    "gate_proj",
+    "text_model.layers.9.self_attn.q_proj",
+    "text_model.layers.9.self_attn.k_proj",
+    "text_model.layers.17.self_attn.q_proj",
+    "text_model.layers.8.self_attn.v_proj",
+    "text_model.layers.3.self_attn.v_proj",
+    "text_model.layers.16.self_attn.q_proj",
+    "text_model.layers.24.self_attn.q_proj",
+    "text_model.layers.9.self_attn.v_proj",
+    "text_model.layers.22.self_attn.k_proj",
+    "text_model.layers.7.self_attn.q_proj",
+    "text_model.layers.12.self_attn.v_proj",
+    "30.self_attn.q_proj",
+    "text_model.layers.5.self_attn.v_proj",
+    "text_model.layers.16.self_attn.v_proj",
+    "text_model.layers.5.self_attn.q_proj",
+    "text_model.layers.25.self_attn.q_proj",
+    "text_model.layers.7.self_attn.v_proj",
+    "text_model.layers.26.self_attn.k_proj",
+    "text_model.layers.19.self_attn.k_proj",
+    "29.self_attn.k_proj",
+    "text_model.layers.2.self_attn.v_proj",
+    "text_model.layers.10.self_attn.q_proj",
+    "lm_head",
+    "text_model.layers.3.self_attn.q_proj",
+    "up_proj",
+    "28.self_attn.q_proj",
+    "text_model.layers.8.self_attn.k_proj",
+    "text_model.layers.3.self_attn.k_proj",
+    "text_model.layers.2.self_attn.q_proj",
+    "28.self_attn.k_proj",
+    "text_model.layers.10.self_attn.k_proj",
+    "text_model.layers.21.self_attn.v_proj",
+    "text_model.layers.20.self_attn.v_proj",
+    "text_model.layers.17.self_attn.k_proj",
+    "text_model.layers.20.self_attn.k_proj",
+    "text_model.layers.26.self_attn.q_proj",
+    "text_model.layers.0.self_attn.v_proj",
+    "text_model.layers.14.self_attn.q_proj",
+    "text_model.layers.11.self_attn.k_proj",
+    "text_model.layers.22.self_attn.q_proj",
+    "text_model.layers.6.self_attn.k_proj",
+    "text_model.layers.23.self_attn.k_proj",
+    "text_model.layers.2.self_attn.k_proj",
+    "text_model.layers.13.self_attn.q_proj",
+    "text_model.layers.12.self_attn.k_proj",
+    "text_model.layers.15.self_attn.q_proj",
+    "text_model.layers.22.self_attn.v_proj",
+    "text_model.layers.4.self_attn.v_proj",
+    "text_model.layers.18.self_attn.k_proj",
+    "text_model.layers.1.self_attn.q_proj",
+    "text_model.layers.7.self_attn.k_proj",
+    "text_model.layers.25.self_attn.k_proj",
+    "text_model.layers.23.self_attn.q_proj",
+    "27.self_attn.k_proj",
+    "text_model.layers.18.self_attn.v_proj",
+    "text_model.layers.18.self_attn.q_proj",
+    "29.self_attn.v_proj",
+    "text_model.layers.13.self_attn.k_proj",
+    "31.self_attn.q_proj",
+    "30.self_attn.v_proj",
+    "text_model.layers.1.self_attn.k_proj",
+    "28.self_attn.v_proj",
+    "30.self_attn.k_proj",
+    "text_model.layers.13.self_attn.v_proj",
+    "text_model.layers.4.self_attn.q_proj",
+    "text_model.layers.15.self_attn.v_proj",
+    "text_model.layers.20.self_attn.q_proj",
+    "text_model.layers.6.self_attn.v_proj",
+    "text_model.layers.15.self_attn.k_proj",
+    "text_model.layers.16.self_attn.k_proj",
+    "text_model.layers.5.self_attn.k_proj",
+    "text_model.layers.8.self_attn.q_proj",
+    "text_model.layers.19.self_attn.v_proj",
+    "text_model.layers.11.self_attn.q_proj",
+    "text_model.layers.26.self_attn.v_proj",
+    "text_model.layers.0.self_attn.q_proj",
+    "27.self_attn.v_proj",
+    "text_model.layers.14.self_attn.v_proj",
+    "text_model.layers.10.self_attn.v_proj",
+    "text_model.layers.14.self_attn.k_proj",
+    "text_model.layers.12.self_attn.q_proj",
+    "text_model.layers.25.self_attn.v_proj",
+    "text_model.layers.24.self_attn.k_proj",
+    "text_model.layers.23.self_attn.v_proj",
+    "29.self_attn.q_proj",
+    "31.self_attn.v_proj",
+    "text_model.layers.6.self_attn.q_proj",
+    "text_model.layers.0.self_attn.k_proj",
+    "27.self_attn.q_proj"
+  ],
+  "task_type": null,
+  "use_dora": false,
+  "use_rslora": false
+}

lora_tuned/checkpoint-550/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a893e5198ce0c4cb0d40b2c3db9a13a464fb6e8d7b49e5070113f32af7891e07
+size 2806433816

lora_tuned/checkpoint-550/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 128000,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "pad_token_id": 128002,
+  "transformers_version": "4.45.0.dev0"
+}

lora_tuned/checkpoint-550/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22a82660fa93c42531056d01fe9ac9515e3f2f8652a0763a443e57e92edcc2f1
+size 358532508

lora_tuned/checkpoint-550/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b2be11a9f88ececcd0ae9e1231c5a237f298073bebeb469193b8fb3c5a0390d
+size 14244

lora_tuned/checkpoint-550/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15d52c5f43e30771e906b4f1303f7dbf43eccd5c5be57a89b69a4de41941b5f9
+size 1064

lora_tuned/checkpoint-550/trainer_state.json ADDED Viewed

	@@ -0,0 +1,306 @@

+{
+  "best_metric": 0.5594422817230225,
+  "best_model_checkpoint": "checkpoints_gradacc1/checkpoint-550",
+  "epoch": 3.3132530120481927,
+  "eval_steps": 50,
+  "global_step": 550,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15060240963855423,
+      "grad_norm": 4.09214973449707,
+      "learning_rate": 5e-06,
+      "loss": 2.1029,
+      "step": 25
+    },
+    {
+      "epoch": 0.30120481927710846,
+      "grad_norm": 2.6950037479400635,
+      "learning_rate": 1e-05,
+      "loss": 1.554,
+      "step": 50
+    },
+    {
+      "epoch": 0.30120481927710846,
+      "eval_accuracy": 91.30434782608695,
+      "eval_loss": 1.2487136125564575,
+      "eval_no_valid_count_percentage": 8.695652173913043,
+      "eval_runtime": 36.6526,
+      "eval_samples_per_second": 0.628,
+      "eval_steps_per_second": 0.628,
+      "step": 50
+    },
+    {
+      "epoch": 0.45180722891566266,
+      "grad_norm": 1.2071181535720825,
+      "learning_rate": 9.844720496894411e-06,
+      "loss": 1.0399,
+      "step": 75
+    },
+    {
+      "epoch": 0.6024096385542169,
+      "grad_norm": 1.5161505937576294,
+      "learning_rate": 9.68944099378882e-06,
+      "loss": 0.9261,
+      "step": 100
+    },
+    {
+      "epoch": 0.6024096385542169,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.8182541131973267,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.2518,
+      "eval_samples_per_second": 0.634,
+      "eval_steps_per_second": 0.634,
+      "step": 100
+    },
+    {
+      "epoch": 0.7530120481927711,
+      "grad_norm": 1.3708404302597046,
+      "learning_rate": 9.53416149068323e-06,
+      "loss": 0.9339,
+      "step": 125
+    },
+    {
+      "epoch": 0.9036144578313253,
+      "grad_norm": 2.2083890438079834,
+      "learning_rate": 9.37888198757764e-06,
+      "loss": 0.7509,
+      "step": 150
+    },
+    {
+      "epoch": 0.9036144578313253,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.7183033227920532,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.3217,
+      "eval_samples_per_second": 0.633,
+      "eval_steps_per_second": 0.633,
+      "step": 150
+    },
+    {
+      "epoch": 1.0542168674698795,
+      "grad_norm": 1.8775794506072998,
+      "learning_rate": 9.22360248447205e-06,
+      "loss": 0.7564,
+      "step": 175
+    },
+    {
+      "epoch": 1.2048192771084336,
+      "grad_norm": 1.949776291847229,
+      "learning_rate": 9.068322981366461e-06,
+      "loss": 0.8138,
+      "step": 200
+    },
+    {
+      "epoch": 1.2048192771084336,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.6786131858825684,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.5439,
+      "eval_samples_per_second": 0.629,
+      "eval_steps_per_second": 0.629,
+      "step": 200
+    },
+    {
+      "epoch": 1.355421686746988,
+      "grad_norm": 2.1677873134613037,
+      "learning_rate": 8.91304347826087e-06,
+      "loss": 0.671,
+      "step": 225
+    },
+    {
+      "epoch": 1.5060240963855422,
+      "grad_norm": 1.3840441703796387,
+      "learning_rate": 8.75776397515528e-06,
+      "loss": 0.767,
+      "step": 250
+    },
+    {
+      "epoch": 1.5060240963855422,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.6524815559387207,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.2966,
+      "eval_samples_per_second": 0.634,
+      "eval_steps_per_second": 0.634,
+      "step": 250
+    },
+    {
+      "epoch": 1.6566265060240963,
+      "grad_norm": 2.0291168689727783,
+      "learning_rate": 8.60248447204969e-06,
+      "loss": 0.6195,
+      "step": 275
+    },
+    {
+      "epoch": 1.8072289156626506,
+      "grad_norm": 1.4875630140304565,
+      "learning_rate": 8.4472049689441e-06,
+      "loss": 0.6076,
+      "step": 300
+    },
+    {
+      "epoch": 1.8072289156626506,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.612907350063324,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.4055,
+      "eval_samples_per_second": 0.632,
+      "eval_steps_per_second": 0.632,
+      "step": 300
+    },
+    {
+      "epoch": 1.9578313253012047,
+      "grad_norm": 1.90384042263031,
+      "learning_rate": 8.29192546583851e-06,
+      "loss": 0.5857,
+      "step": 325
+    },
+    {
+      "epoch": 2.108433734939759,
+      "grad_norm": 2.606180191040039,
+      "learning_rate": 8.13664596273292e-06,
+      "loss": 0.5763,
+      "step": 350
+    },
+    {
+      "epoch": 2.108433734939759,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.6015170812606812,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.3853,
+      "eval_samples_per_second": 0.632,
+      "eval_steps_per_second": 0.632,
+      "step": 350
+    },
+    {
+      "epoch": 2.2590361445783134,
+      "grad_norm": 2.140429735183716,
+      "learning_rate": 7.98136645962733e-06,
+      "loss": 0.4908,
+      "step": 375
+    },
+    {
+      "epoch": 2.4096385542168672,
+      "grad_norm": 3.0130579471588135,
+      "learning_rate": 7.82608695652174e-06,
+      "loss": 0.4804,
+      "step": 400
+    },
+    {
+      "epoch": 2.4096385542168672,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.6012862920761108,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.3165,
+      "eval_samples_per_second": 0.633,
+      "eval_steps_per_second": 0.633,
+      "step": 400
+    },
+    {
+      "epoch": 2.5602409638554215,
+      "grad_norm": 2.587240695953369,
+      "learning_rate": 7.670807453416149e-06,
+      "loss": 0.4906,
+      "step": 425
+    },
+    {
+      "epoch": 2.710843373493976,
+      "grad_norm": 2.6261508464813232,
+      "learning_rate": 7.515527950310559e-06,
+      "loss": 0.5931,
+      "step": 450
+    },
+    {
+      "epoch": 2.710843373493976,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.5865727066993713,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.3197,
+      "eval_samples_per_second": 0.633,
+      "eval_steps_per_second": 0.633,
+      "step": 450
+    },
+    {
+      "epoch": 2.86144578313253,
+      "grad_norm": 2.947445869445801,
+      "learning_rate": 7.36024844720497e-06,
+      "loss": 0.5575,
+      "step": 475
+    },
+    {
+      "epoch": 3.0120481927710845,
+      "grad_norm": 1.6870458126068115,
+      "learning_rate": 7.2049689440993795e-06,
+      "loss": 0.5763,
+      "step": 500
+    },
+    {
+      "epoch": 3.0120481927710845,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.5629354119300842,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.3522,
+      "eval_samples_per_second": 0.633,
+      "eval_steps_per_second": 0.633,
+      "step": 500
+    },
+    {
+      "epoch": 3.1626506024096384,
+      "grad_norm": 4.26260232925415,
+      "learning_rate": 7.04968944099379e-06,
+      "loss": 0.4701,
+      "step": 525
+    },
+    {
+      "epoch": 3.3132530120481927,
+      "grad_norm": 2.8531856536865234,
+      "learning_rate": 6.894409937888199e-06,
+      "loss": 0.4484,
+      "step": 550
+    },
+    {
+      "epoch": 3.3132530120481927,
+      "eval_accuracy": 100.0,
+      "eval_loss": 0.5594422817230225,
+      "eval_no_valid_count_percentage": 0.0,
+      "eval_runtime": 36.3228,
+      "eval_samples_per_second": 0.633,
+      "eval_steps_per_second": 0.633,
+      "step": 550
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 1660,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3664779779290515e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

lora_tuned/checkpoint-550/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fad3251001be4ae1e880dd371b8d8607c21ba2e6f7c08da23ed8f2f907094ad1
+size 5304