martinkorelic commited on Oct 28

Commit

66e58a5

verified ·

1 Parent(s): 21935ca

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r2-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r2-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r2-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r2-a2/training_logs.json +625 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r32-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r32-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r32-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r32-a2/training_logs.json +625 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r8-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r8-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r8-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r8-a2/training_logs.json +625 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r2-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r2-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r2-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r2-a2/training_logs.json +1273 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r32-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r32-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r32-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r32-a2/training_logs.json +1273 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r8-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r8-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r8-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r8-a2/training_logs.json +1273 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r2-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r2-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r2-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r2-a2/training_logs.json +2659 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r32-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r32-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r32-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r32-a2/training_logs.json +2659 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r8-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r8-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r8-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r8-a2/training_logs.json +2659 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r2-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r2-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r2-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r2-a2/training_logs.json +0 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r32-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r32-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r32-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r32-a2/training_logs.json +0 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r8-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r8-a2/eval_results.json +4 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r8-a2/training_configuration.json +38 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r8-a2/training_logs.json +0 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-logiqa-r2-a2/adapter_config.json +30 -0
TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-logiqa-r2-a2/eval_results.json +4 -0

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_c",
+    "results": 0.4513651877133106
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r2-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_C",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 2,
+    "alpha": 4,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 1577576
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-arc_c-r2-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r2-a2",
+  "seed": 42,
+  "timestamp": "2025-08-30T16:35:26.588040"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r2-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,625 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.05714285714285714,
+    "cpu_mem": 1.48738048,
+    "gpu_mem": 4.423850496,
+    "loss": 4.4614,
+    "grad_norm": 329.5343017578125,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.11428571428571428,
+    "cpu_mem": 1.492885504,
+    "gpu_mem": 4.436614144,
+    "loss": 4.6994,
+    "grad_norm": 335.7124328613281,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.17142857142857143,
+    "cpu_mem": 1.492885504,
+    "gpu_mem": 4.436644864,
+    "loss": 2.1292,
+    "grad_norm": 166.02584838867188,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 4,
+    "epoch": 0.22857142857142856,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436611072,
+    "loss": 1.5628,
+    "grad_norm": 19.919021606445312,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 5,
+    "epoch": 0.2857142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436598784,
+    "loss": 1.4114,
+    "grad_norm": 11.660603523254395,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 6,
+    "epoch": 0.34285714285714286,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.43666176,
+    "loss": 1.4434,
+    "grad_norm": 21.82590675354004,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 7,
+    "epoch": 0.4,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436667904,
+    "loss": 1.5455,
+    "grad_norm": 18.506698608398438,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 8,
+    "epoch": 0.45714285714285713,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436626432,
+    "loss": 1.3713,
+    "grad_norm": 6.629955768585205,
+    "learning_rate": 0.00029980111348272456
+  },
+  {
+    "step": 9,
+    "epoch": 0.5142857142857142,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436621824,
+    "loss": 1.3708,
+    "grad_norm": 20.72789192199707,
+    "learning_rate": 0.00029920498134218835
+  },
+  {
+    "step": 10,
+    "epoch": 0.5714285714285714,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436611072,
+    "loss": 1.4826,
+    "grad_norm": 16.597583770751953,
+    "learning_rate": 0.0002982131844136615
+  },
+  {
+    "step": 11,
+    "epoch": 0.6285714285714286,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436621824,
+    "loss": 1.3793,
+    "grad_norm": 8.454121589660645,
+    "learning_rate": 0.0002968283527643036
+  },
+  {
+    "step": 12,
+    "epoch": 0.6857142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.4366464,
+    "loss": 1.4662,
+    "grad_norm": 15.033178329467773,
+    "learning_rate": 0.000295054158718698
+  },
+  {
+    "step": 13,
+    "epoch": 0.7428571428571429,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.4366464,
+    "loss": 1.3175,
+    "grad_norm": 9.481575965881348,
+    "learning_rate": 0.00029289530712050735
+  },
+  {
+    "step": 14,
+    "epoch": 0.8,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436594176,
+    "loss": 1.4611,
+    "grad_norm": 11.892037391662598,
+    "learning_rate": 0.000290357522856074
+  },
+  {
+    "step": 15,
+    "epoch": 0.8571428571428571,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.43666944,
+    "loss": 1.3686,
+    "grad_norm": 5.933671474456787,
+    "learning_rate": 0.0002874475356730507
+  },
+  {
+    "step": 16,
+    "epoch": 0.9142857142857143,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436663296,
+    "loss": 1.6435,
+    "grad_norm": 23.32131576538086,
+    "learning_rate": 0.0002841730623343193
+  },
+  {
+    "step": 17,
+    "epoch": 0.9714285714285714,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436667904,
+    "loss": 1.6087,
+    "grad_norm": 17.27324676513672,
+    "learning_rate": 0.00028054278615452326
+  },
+  {
+    "step": 18,
+    "epoch": 1.0285714285714285,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443011584,
+    "loss": 2.1751,
+    "grad_norm": 17.91927719116211,
+    "learning_rate": 0.0002765663339734778
+  },
+  {
+    "step": 19,
+    "epoch": 1.0857142857142856,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443010048,
+    "loss": 1.4158,
+    "grad_norm": 5.83022928237915,
+    "learning_rate": 0.00027225425062752165
+  },
+  {
+    "step": 20,
+    "epoch": 1.1428571428571428,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.442985472,
+    "loss": 1.3469,
+    "grad_norm": 6.347321510314941,
+    "learning_rate": 0.0002676179709865066
+  },
+  {
+    "step": 21,
+    "epoch": 1.2,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.442993152,
+    "loss": 1.3926,
+    "grad_norm": 6.69634485244751,
+    "learning_rate": 0.0002626697896305779
+  },
+  {
+    "step": 22,
+    "epoch": 1.2571428571428571,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443022336,
+    "loss": 1.4088,
+    "grad_norm": 9.436979293823242,
+    "learning_rate": 0.000257422828247159
+  },
+  {
+    "step": 23,
+    "epoch": 1.3142857142857143,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.44305152,
+    "loss": 1.3046,
+    "grad_norm": 3.0805585384368896,
+    "learning_rate": 0.00025189100083459397
+  },
+  {
+    "step": 24,
+    "epoch": 1.3714285714285714,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.442994688,
+    "loss": 1.3668,
+    "grad_norm": 5.27305269241333,
+    "learning_rate": 0.0002460889768047263
+  },
+  {
+    "step": 25,
+    "epoch": 1.4285714285714286,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443063808,
+    "loss": 1.3333,
+    "grad_norm": 5.636720180511475,
+    "learning_rate": 0.00024003214208225522
+  },
+  {
+    "step": 26,
+    "epoch": 1.4857142857142858,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.4430208,
+    "loss": 1.3928,
+    "grad_norm": 6.520215034484863,
+    "learning_rate": 0.00023373655830402968
+  },
+  {
+    "step": 27,
+    "epoch": 1.5428571428571427,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.442979328,
+    "loss": 1.4101,
+    "grad_norm": 8.386139869689941,
+    "learning_rate": 0.00022721892022647462
+  },
+  {
+    "step": 28,
+    "epoch": 1.6,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443025408,
+    "loss": 1.5088,
+    "grad_norm": 14.999929428100586,
+    "learning_rate": 0.000220496511454098
+  },
+  {
+    "step": 29,
+    "epoch": 1.657142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.4430208,
+    "loss": 1.3617,
+    "grad_norm": 5.525674343109131,
+    "learning_rate": 0.0002135871586064791
+  },
+  {
+    "step": 30,
+    "epoch": 1.7142857142857144,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443010048,
+    "loss": 1.3591,
+    "grad_norm": 5.05485200881958,
+    "learning_rate": 0.00020650918404527775
+  },
+  {
+    "step": 31,
+    "epoch": 1.7714285714285714,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443040768,
+    "loss": 1.3461,
+    "grad_norm": 4.573202133178711,
+    "learning_rate": 0.00019928135728662522
+  },
+  {
+    "step": 32,
+    "epoch": 1.8285714285714287,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443049984,
+    "loss": 1.3656,
+    "grad_norm": 5.207383632659912,
+    "learning_rate": 0.00019192284522774142
+  },
+  {
+    "step": 33,
+    "epoch": 1.8857142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443030016,
+    "loss": 1.3748,
+    "grad_norm": 5.258096694946289,
+    "learning_rate": 0.00018445316131976934
+  },
+  {
+    "step": 34,
+    "epoch": 1.9428571428571428,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443008512,
+    "loss": 1.3884,
+    "grad_norm": 5.586267471313477,
+    "learning_rate": 0.00017689211382161034
+  },
+  {
+    "step": 35,
+    "epoch": 2.0,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.442896384,
+    "loss": 2.0668,
+    "grad_norm": 7.811915874481201,
+    "learning_rate": 0.00016925975327198266
+  },
+  {
+    "step": 36,
+    "epoch": 2.057142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436640256,
+    "loss": 1.3123,
+    "grad_norm": 3.8615543842315674,
+    "learning_rate": 0.00016157631931899697
+  },
+  {
+    "step": 37,
+    "epoch": 2.1142857142857143,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436649472,
+    "loss": 1.3892,
+    "grad_norm": 8.06524658203125,
+    "learning_rate": 0.0001538621870482483
+  },
+  {
+    "step": 38,
+    "epoch": 2.1714285714285713,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436620288,
+    "loss": 1.336,
+    "grad_norm": 4.97226095199585,
+    "learning_rate": 0.00014613781295175172
+  },
+  {
+    "step": 39,
+    "epoch": 2.2285714285714286,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.43663872,
+    "loss": 1.3288,
+    "grad_norm": 4.268495559692383,
+    "learning_rate": 0.00013842368068100303
+  },
+  {
+    "step": 40,
+    "epoch": 2.2857142857142856,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.43661568,
+    "loss": 1.3649,
+    "grad_norm": 5.184421062469482,
+    "learning_rate": 0.00013074024672801731
+  },
+  {
+    "step": 41,
+    "epoch": 2.342857142857143,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436617216,
+    "loss": 1.3795,
+    "grad_norm": 5.0870513916015625,
+    "learning_rate": 0.00012310788617838966
+  },
+  {
+    "step": 42,
+    "epoch": 2.4,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.4366464,
+    "loss": 1.3246,
+    "grad_norm": 6.057374000549316,
+    "learning_rate": 0.00011554683868023067
+  },
+  {
+    "step": 43,
+    "epoch": 2.4571428571428573,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.43666176,
+    "loss": 1.3699,
+    "grad_norm": 8.358153343200684,
+    "learning_rate": 0.00010807715477225858
+  },
+  {
+    "step": 44,
+    "epoch": 2.5142857142857142,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436680192,
+    "loss": 1.3074,
+    "grad_norm": 4.818901062011719,
+    "learning_rate": 0.00010071864271337478
+  },
+  {
+    "step": 45,
+    "epoch": 2.571428571428571,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436634112,
+    "loss": 1.2994,
+    "grad_norm": 5.064252853393555,
+    "learning_rate": 9.34908159547222e-05
+  },
+  {
+    "step": 46,
+    "epoch": 2.6285714285714286,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436627968,
+    "loss": 1.2786,
+    "grad_norm": 4.9510273933410645,
+    "learning_rate": 8.641284139352091e-05
+  },
+  {
+    "step": 47,
+    "epoch": 2.685714285714286,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436621824,
+    "loss": 1.2801,
+    "grad_norm": 4.4370856285095215,
+    "learning_rate": 7.950348854590204e-05
+  },
+  {
+    "step": 48,
+    "epoch": 2.742857142857143,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436626432,
+    "loss": 1.2029,
+    "grad_norm": 4.3672943115234375,
+    "learning_rate": 7.278107977352543e-05
+  },
+  {
+    "step": 49,
+    "epoch": 2.8,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436617216,
+    "loss": 1.2484,
+    "grad_norm": 3.859243154525757,
+    "learning_rate": 6.626344169597031e-05
+  },
+  {
+    "step": 50,
+    "epoch": 2.857142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436598784,
+    "loss": 1.3265,
+    "grad_norm": 7.188536643981934,
+    "learning_rate": 5.996785791774478e-05
+  },
+  {
+    "step": 51,
+    "epoch": 2.914285714285714,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.43662336,
+    "loss": 1.2704,
+    "grad_norm": 5.372682571411133,
+    "learning_rate": 5.391102319527373e-05
+  },
+  {
+    "step": 52,
+    "epoch": 2.9714285714285715,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.436651008,
+    "loss": 1.3735,
+    "grad_norm": 8.921072959899902,
+    "learning_rate": 4.8108999165406026e-05
+  },
+  {
+    "step": 53,
+    "epoch": 3.0285714285714285,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443006976,
+    "loss": 1.832,
+    "grad_norm": 8.732340812683105,
+    "learning_rate": 4.257717175284103e-05
+  },
+  {
+    "step": 54,
+    "epoch": 3.085714285714286,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.442976256,
+    "loss": 1.3082,
+    "grad_norm": 7.223543167114258,
+    "learning_rate": 3.733021036942205e-05
+  },
+  {
+    "step": 55,
+    "epoch": 3.142857142857143,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443010048,
+    "loss": 1.3045,
+    "grad_norm": 8.533186912536621,
+    "learning_rate": 3.238202901349345e-05
+  },
+  {
+    "step": 56,
+    "epoch": 3.2,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443083776,
+    "loss": 1.2201,
+    "grad_norm": 5.6041579246521,
+    "learning_rate": 2.774574937247831e-05
+  },
+  {
+    "step": 57,
+    "epoch": 3.257142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443026944,
+    "loss": 1.2386,
+    "grad_norm": 5.491722583770752,
+    "learning_rate": 2.3433666026522153e-05
+  },
+  {
+    "step": 58,
+    "epoch": 3.314285714285714,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.4430208,
+    "loss": 1.142,
+    "grad_norm": 5.923037052154541,
+    "learning_rate": 1.945721384547671e-05
+  },
+  {
+    "step": 59,
+    "epoch": 3.3714285714285714,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443071488,
+    "loss": 1.2387,
+    "grad_norm": 4.976379871368408,
+    "learning_rate": 1.5826937665680693e-05
+  },
+  {
+    "step": 60,
+    "epoch": 3.4285714285714284,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.44299776,
+    "loss": 1.2988,
+    "grad_norm": 7.554241180419922,
+    "learning_rate": 1.2552464326949302e-05
+  },
+  {
+    "step": 61,
+    "epoch": 3.4857142857142858,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443011584,
+    "loss": 1.2697,
+    "grad_norm": 6.907799243927002,
+    "learning_rate": 9.64247714392597e-06
+  },
+  {
+    "step": 62,
+    "epoch": 3.5428571428571427,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.44301312,
+    "loss": 1.2166,
+    "grad_norm": 5.639773845672607,
+    "learning_rate": 7.104692879492624e-06
+  },
+  {
+    "step": 63,
+    "epoch": 3.6,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443002368,
+    "loss": 1.2443,
+    "grad_norm": 6.010934829711914,
+    "learning_rate": 4.945841281301943e-06
+  },
+  {
+    "step": 64,
+    "epoch": 3.657142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443019264,
+    "loss": 1.2085,
+    "grad_norm": 6.853599548339844,
+    "learning_rate": 3.1716472356963286e-06
+  },
+  {
+    "step": 65,
+    "epoch": 3.7142857142857144,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443040768,
+    "loss": 1.2106,
+    "grad_norm": 6.083324909210205,
+    "learning_rate": 1.7868155863384415e-06
+  },
+  {
+    "step": 66,
+    "epoch": 3.7714285714285714,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443031552,
+    "loss": 1.1881,
+    "grad_norm": 6.191532611846924,
+    "learning_rate": 7.950186578116413e-07
+  },
+  {
+    "step": 67,
+    "epoch": 3.8285714285714287,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443057664,
+    "loss": 1.2379,
+    "grad_norm": 6.098973751068115,
+    "learning_rate": 1.988865172754206e-07
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443008512,
+    "loss": 1.2206,
+    "grad_norm": 6.373558044433594,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 1.493082112,
+    "gpu_mem": 4.443008512,
+    "train_runtime": 374.6823,
+    "train_samples_per_second": 11.946,
+    "train_steps_per_second": 0.181,
+    "total_flos": 0.0,
+    "train_loss": 1.4825304623912363
+  }
+]

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r32-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 64,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 32,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r32-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_c",
+    "results": 0.628839590443686
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r32-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_C",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 32,
+    "alpha": 64,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 25389056
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-arc_c-r32-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r32-a2",
+  "seed": 42,
+  "timestamp": "2025-08-31T06:31:01.002762"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r32-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,625 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.05714285714285714,
+    "cpu_mem": 1.496281088,
+    "gpu_mem": 4.519020032,
+    "loss": 4.4614,
+    "grad_norm": 280.62310791015625,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.11428571428571428,
+    "cpu_mem": 1.501589504,
+    "gpu_mem": 4.722122752,
+    "loss": 4.6994,
+    "grad_norm": 286.9012451171875,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.17142857142857143,
+    "cpu_mem": 1.501786112,
+    "gpu_mem": 4.722153472,
+    "loss": 2.1324,
+    "grad_norm": 415.12750244140625,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 4,
+    "epoch": 0.22857142857142856,
+    "cpu_mem": 1.501786112,
+    "gpu_mem": 4.72211968,
+    "loss": 1.7543,
+    "grad_norm": 44.261512756347656,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 5,
+    "epoch": 0.2857142857142857,
+    "cpu_mem": 1.501786112,
+    "gpu_mem": 4.722107392,
+    "loss": 1.508,
+    "grad_norm": 22.360448837280273,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 6,
+    "epoch": 0.34285714285714286,
+    "cpu_mem": 1.501786112,
+    "gpu_mem": 4.722170368,
+    "loss": 1.4382,
+    "grad_norm": 9.388525009155273,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 7,
+    "epoch": 0.4,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722176512,
+    "loss": 1.4429,
+    "grad_norm": 13.978992462158203,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 8,
+    "epoch": 0.45714285714285713,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.72213504,
+    "loss": 1.564,
+    "grad_norm": 15.369060516357422,
+    "learning_rate": 0.00029980111348272456
+  },
+  {
+    "step": 9,
+    "epoch": 0.5142857142857142,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722130432,
+    "loss": 1.5394,
+    "grad_norm": 17.35812759399414,
+    "learning_rate": 0.00029920498134218835
+  },
+  {
+    "step": 10,
+    "epoch": 0.5714285714285714,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.72211968,
+    "loss": 1.4216,
+    "grad_norm": 7.401285648345947,
+    "learning_rate": 0.0002982131844136615
+  },
+  {
+    "step": 11,
+    "epoch": 0.6285714285714286,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722130432,
+    "loss": 1.7083,
+    "grad_norm": 20.328474044799805,
+    "learning_rate": 0.0002968283527643036
+  },
+  {
+    "step": 12,
+    "epoch": 0.6857142857142857,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722155008,
+    "loss": 1.3558,
+    "grad_norm": 2.454993724822998,
+    "learning_rate": 0.000295054158718698
+  },
+  {
+    "step": 13,
+    "epoch": 0.7428571428571429,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722155008,
+    "loss": 1.5307,
+    "grad_norm": 12.548927307128906,
+    "learning_rate": 0.00029289530712050735
+  },
+  {
+    "step": 14,
+    "epoch": 0.8,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722102784,
+    "loss": 1.4728,
+    "grad_norm": 6.753164768218994,
+    "learning_rate": 0.000290357522856074
+  },
+  {
+    "step": 15,
+    "epoch": 0.8571428571428571,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722178048,
+    "loss": 1.4047,
+    "grad_norm": 5.13401460647583,
+    "learning_rate": 0.0002874475356730507
+  },
+  {
+    "step": 16,
+    "epoch": 0.9142857142857143,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722171904,
+    "loss": 1.7088,
+    "grad_norm": 15.40377140045166,
+    "learning_rate": 0.0002841730623343193
+  },
+  {
+    "step": 17,
+    "epoch": 0.9714285714285714,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722176512,
+    "loss": 1.6083,
+    "grad_norm": 22.233034133911133,
+    "learning_rate": 0.00028054278615452326
+  },
+  {
+    "step": 18,
+    "epoch": 1.0285714285714285,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823689728,
+    "loss": 2.0617,
+    "grad_norm": 4.666072845458984,
+    "learning_rate": 0.0002765663339734778
+  },
+  {
+    "step": 19,
+    "epoch": 1.0857142857142856,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823688192,
+    "loss": 1.3905,
+    "grad_norm": 4.700724124908447,
+    "learning_rate": 0.00027225425062752165
+  },
+  {
+    "step": 20,
+    "epoch": 1.1428571428571428,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823663616,
+    "loss": 1.3482,
+    "grad_norm": 5.293838024139404,
+    "learning_rate": 0.0002676179709865066
+  },
+  {
+    "step": 21,
+    "epoch": 1.2,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823671296,
+    "loss": 1.4783,
+    "grad_norm": 6.684973239898682,
+    "learning_rate": 0.0002626697896305779
+  },
+  {
+    "step": 22,
+    "epoch": 1.2571428571428571,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.82370048,
+    "loss": 1.3886,
+    "grad_norm": 4.591466426849365,
+    "learning_rate": 0.000257422828247159
+  },
+  {
+    "step": 23,
+    "epoch": 1.3142857142857143,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823729664,
+    "loss": 1.3456,
+    "grad_norm": 3.4432966709136963,
+    "learning_rate": 0.00025189100083459397
+  },
+  {
+    "step": 24,
+    "epoch": 1.3714285714285714,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823672832,
+    "loss": 1.3971,
+    "grad_norm": 4.504514694213867,
+    "learning_rate": 0.0002460889768047263
+  },
+  {
+    "step": 25,
+    "epoch": 1.4285714285714286,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823741952,
+    "loss": 1.3702,
+    "grad_norm": 4.352265357971191,
+    "learning_rate": 0.00024003214208225522
+  },
+  {
+    "step": 26,
+    "epoch": 1.4857142857142858,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823698944,
+    "loss": 1.3863,
+    "grad_norm": 3.940533399581909,
+    "learning_rate": 0.00023373655830402968
+  },
+  {
+    "step": 27,
+    "epoch": 1.5428571428571427,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823657472,
+    "loss": 1.3904,
+    "grad_norm": 3.843360662460327,
+    "learning_rate": 0.00022721892022647462
+  },
+  {
+    "step": 28,
+    "epoch": 1.6,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823703552,
+    "loss": 1.6316,
+    "grad_norm": 9.981597900390625,
+    "learning_rate": 0.000220496511454098
+  },
+  {
+    "step": 29,
+    "epoch": 1.657142857142857,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823698944,
+    "loss": 1.5115,
+    "grad_norm": 6.392779350280762,
+    "learning_rate": 0.0002135871586064791
+  },
+  {
+    "step": 30,
+    "epoch": 1.7142857142857144,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823688192,
+    "loss": 1.4569,
+    "grad_norm": 6.152426242828369,
+    "learning_rate": 0.00020650918404527775
+  },
+  {
+    "step": 31,
+    "epoch": 1.7714285714285714,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823718912,
+    "loss": 1.3658,
+    "grad_norm": 3.233621835708618,
+    "learning_rate": 0.00019928135728662522
+  },
+  {
+    "step": 32,
+    "epoch": 1.8285714285714287,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823728128,
+    "loss": 1.3712,
+    "grad_norm": 2.499112129211426,
+    "learning_rate": 0.00019192284522774142
+  },
+  {
+    "step": 33,
+    "epoch": 1.8857142857142857,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.82370816,
+    "loss": 1.4401,
+    "grad_norm": 4.652753829956055,
+    "learning_rate": 0.00018445316131976934
+  },
+  {
+    "step": 34,
+    "epoch": 1.9428571428571428,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823686656,
+    "loss": 1.4205,
+    "grad_norm": 3.1102354526519775,
+    "learning_rate": 0.00017689211382161034
+  },
+  {
+    "step": 35,
+    "epoch": 2.0,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823574528,
+    "loss": 2.0597,
+    "grad_norm": 1.4106764793395996,
+    "learning_rate": 0.00016925975327198266
+  },
+  {
+    "step": 36,
+    "epoch": 2.057142857142857,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722148864,
+    "loss": 1.3446,
+    "grad_norm": 2.1405179500579834,
+    "learning_rate": 0.00016157631931899697
+  },
+  {
+    "step": 37,
+    "epoch": 2.1142857142857143,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.72215808,
+    "loss": 1.4145,
+    "grad_norm": 3.9450926780700684,
+    "learning_rate": 0.0001538621870482483
+  },
+  {
+    "step": 38,
+    "epoch": 2.1714285714285713,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722128896,
+    "loss": 1.3416,
+    "grad_norm": 2.131178617477417,
+    "learning_rate": 0.00014613781295175172
+  },
+  {
+    "step": 39,
+    "epoch": 2.2285714285714286,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722147328,
+    "loss": 1.3367,
+    "grad_norm": 2.133847713470459,
+    "learning_rate": 0.00013842368068100303
+  },
+  {
+    "step": 40,
+    "epoch": 2.2857142857142856,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722124288,
+    "loss": 1.3975,
+    "grad_norm": 3.288180112838745,
+    "learning_rate": 0.00013074024672801731
+  },
+  {
+    "step": 41,
+    "epoch": 2.342857142857143,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722125824,
+    "loss": 1.3958,
+    "grad_norm": 3.1248035430908203,
+    "learning_rate": 0.00012310788617838966
+  },
+  {
+    "step": 42,
+    "epoch": 2.4,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722155008,
+    "loss": 1.335,
+    "grad_norm": 3.862166404724121,
+    "learning_rate": 0.00011554683868023067
+  },
+  {
+    "step": 43,
+    "epoch": 2.4571428571428573,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722170368,
+    "loss": 1.3372,
+    "grad_norm": 3.2153024673461914,
+    "learning_rate": 0.00010807715477225858
+  },
+  {
+    "step": 44,
+    "epoch": 2.5142857142857142,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.7221888,
+    "loss": 1.2856,
+    "grad_norm": 1.854359745979309,
+    "learning_rate": 0.00010071864271337478
+  },
+  {
+    "step": 45,
+    "epoch": 2.571428571428571,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.72214272,
+    "loss": 1.322,
+    "grad_norm": 2.8490543365478516,
+    "learning_rate": 9.34908159547222e-05
+  },
+  {
+    "step": 46,
+    "epoch": 2.6285714285714286,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722136576,
+    "loss": 1.2721,
+    "grad_norm": 2.5255608558654785,
+    "learning_rate": 8.641284139352091e-05
+  },
+  {
+    "step": 47,
+    "epoch": 2.685714285714286,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722130432,
+    "loss": 1.2753,
+    "grad_norm": 2.5269887447357178,
+    "learning_rate": 7.950348854590204e-05
+  },
+  {
+    "step": 48,
+    "epoch": 2.742857142857143,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.72213504,
+    "loss": 1.2814,
+    "grad_norm": 3.4005813598632812,
+    "learning_rate": 7.278107977352543e-05
+  },
+  {
+    "step": 49,
+    "epoch": 2.8,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722125824,
+    "loss": 1.2355,
+    "grad_norm": 2.77209734916687,
+    "learning_rate": 6.626344169597031e-05
+  },
+  {
+    "step": 50,
+    "epoch": 2.857142857142857,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722107392,
+    "loss": 1.2617,
+    "grad_norm": 2.584846258163452,
+    "learning_rate": 5.996785791774478e-05
+  },
+  {
+    "step": 51,
+    "epoch": 2.914285714285714,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722131968,
+    "loss": 1.2872,
+    "grad_norm": 3.403454542160034,
+    "learning_rate": 5.391102319527373e-05
+  },
+  {
+    "step": 52,
+    "epoch": 2.9714285714285715,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.722159616,
+    "loss": 1.323,
+    "grad_norm": 4.359912872314453,
+    "learning_rate": 4.8108999165406026e-05
+  },
+  {
+    "step": 53,
+    "epoch": 3.0285714285714285,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.82368512,
+    "loss": 1.8447,
+    "grad_norm": 5.682162761688232,
+    "learning_rate": 4.257717175284103e-05
+  },
+  {
+    "step": 54,
+    "epoch": 3.085714285714286,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.8236544,
+    "loss": 1.1505,
+    "grad_norm": 3.0071282386779785,
+    "learning_rate": 3.733021036942205e-05
+  },
+  {
+    "step": 55,
+    "epoch": 3.142857142857143,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823688192,
+    "loss": 1.151,
+    "grad_norm": 3.7012956142425537,
+    "learning_rate": 3.238202901349345e-05
+  },
+  {
+    "step": 56,
+    "epoch": 3.2,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.82376192,
+    "loss": 1.1417,
+    "grad_norm": 4.017345905303955,
+    "learning_rate": 2.774574937247831e-05
+  },
+  {
+    "step": 57,
+    "epoch": 3.257142857142857,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823705088,
+    "loss": 1.0821,
+    "grad_norm": 3.950089454650879,
+    "learning_rate": 2.3433666026522153e-05
+  },
+  {
+    "step": 58,
+    "epoch": 3.314285714285714,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823698944,
+    "loss": 1.0089,
+    "grad_norm": 4.133927345275879,
+    "learning_rate": 1.945721384547671e-05
+  },
+  {
+    "step": 59,
+    "epoch": 3.3714285714285714,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823749632,
+    "loss": 1.0377,
+    "grad_norm": 4.262353420257568,
+    "learning_rate": 1.5826937665680693e-05
+  },
+  {
+    "step": 60,
+    "epoch": 3.4285714285714284,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823675904,
+    "loss": 1.0539,
+    "grad_norm": 5.903791904449463,
+    "learning_rate": 1.2552464326949302e-05
+  },
+  {
+    "step": 61,
+    "epoch": 3.4857142857142858,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823689728,
+    "loss": 1.1056,
+    "grad_norm": 5.543725490570068,
+    "learning_rate": 9.64247714392597e-06
+  },
+  {
+    "step": 62,
+    "epoch": 3.5428571428571427,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823691264,
+    "loss": 1.0513,
+    "grad_norm": 5.472988128662109,
+    "learning_rate": 7.104692879492624e-06
+  },
+  {
+    "step": 63,
+    "epoch": 3.6,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823680512,
+    "loss": 1.0188,
+    "grad_norm": 5.62291955947876,
+    "learning_rate": 4.945841281301943e-06
+  },
+  {
+    "step": 64,
+    "epoch": 3.657142857142857,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823697408,
+    "loss": 1.0059,
+    "grad_norm": 5.603131294250488,
+    "learning_rate": 3.1716472356963286e-06
+  },
+  {
+    "step": 65,
+    "epoch": 3.7142857142857144,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823718912,
+    "loss": 1.0754,
+    "grad_norm": 6.040858268737793,
+    "learning_rate": 1.7868155863384415e-06
+  },
+  {
+    "step": 66,
+    "epoch": 3.7714285714285714,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823709696,
+    "loss": 0.9901,
+    "grad_norm": 5.5554585456848145,
+    "learning_rate": 7.950186578116413e-07
+  },
+  {
+    "step": 67,
+    "epoch": 3.8285714285714287,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823735808,
+    "loss": 1.0235,
+    "grad_norm": 6.136469841003418,
+    "learning_rate": 1.988865172754206e-07
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823686656,
+    "loss": 1.0859,
+    "grad_norm": 5.908904075622559,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 1.50198272,
+    "gpu_mem": 4.823686656,
+    "train_runtime": 378.6352,
+    "train_samples_per_second": 11.821,
+    "train_steps_per_second": 0.18,
+    "total_flos": 0.0,
+    "train_loss": 1.4682180960388744
+  }
+]

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r8-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 16,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 8,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r8-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_c",
+    "results": 0.378839590443686
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r8-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_C",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 8,
+    "alpha": 16,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 6317696
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-arc_c-r8-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r8-a2",
+  "seed": 42,
+  "timestamp": "2025-08-30T23:32:37.041918"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_c-r8-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,625 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.05714285714285714,
+    "cpu_mem": 1.489108992,
+    "gpu_mem": 4.442774016,
+    "loss": 4.4614,
+    "grad_norm": 272.1399230957031,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.11428571428571428,
+    "cpu_mem": 1.494614016,
+    "gpu_mem": 4.493384704,
+    "loss": 4.6994,
+    "grad_norm": 279.0349426269531,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.17142857142857143,
+    "cpu_mem": 1.494614016,
+    "gpu_mem": 4.493415424,
+    "loss": 2.3086,
+    "grad_norm": 260.66900634765625,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 4,
+    "epoch": 0.22857142857142856,
+    "cpu_mem": 1.494810624,
+    "gpu_mem": 4.493381632,
+    "loss": 1.572,
+    "grad_norm": 18.902830123901367,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 5,
+    "epoch": 0.2857142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493369344,
+    "loss": 1.5805,
+    "grad_norm": 30.244815826416016,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 6,
+    "epoch": 0.34285714285714286,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.49343232,
+    "loss": 1.3975,
+    "grad_norm": 10.924633026123047,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 7,
+    "epoch": 0.4,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493438464,
+    "loss": 1.4746,
+    "grad_norm": 35.98440933227539,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 8,
+    "epoch": 0.45714285714285713,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493396992,
+    "loss": 1.5768,
+    "grad_norm": 21.909250259399414,
+    "learning_rate": 0.00029980111348272456
+  },
+  {
+    "step": 9,
+    "epoch": 0.5142857142857142,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493392384,
+    "loss": 1.3486,
+    "grad_norm": 8.877981185913086,
+    "learning_rate": 0.00029920498134218835
+  },
+  {
+    "step": 10,
+    "epoch": 0.5714285714285714,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493381632,
+    "loss": 1.6285,
+    "grad_norm": 21.38736915588379,
+    "learning_rate": 0.0002982131844136615
+  },
+  {
+    "step": 11,
+    "epoch": 0.6285714285714286,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493392384,
+    "loss": 1.4523,
+    "grad_norm": 7.3010358810424805,
+    "learning_rate": 0.0002968283527643036
+  },
+  {
+    "step": 12,
+    "epoch": 0.6857142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.49341696,
+    "loss": 1.4579,
+    "grad_norm": 8.112820625305176,
+    "learning_rate": 0.000295054158718698
+  },
+  {
+    "step": 13,
+    "epoch": 0.7428571428571429,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.49341696,
+    "loss": 1.3493,
+    "grad_norm": 11.578926086425781,
+    "learning_rate": 0.00029289530712050735
+  },
+  {
+    "step": 14,
+    "epoch": 0.8,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493364736,
+    "loss": 1.6974,
+    "grad_norm": 17.703752517700195,
+    "learning_rate": 0.000290357522856074
+  },
+  {
+    "step": 15,
+    "epoch": 0.8571428571428571,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.49344,
+    "loss": 1.5182,
+    "grad_norm": 8.22641658782959,
+    "learning_rate": 0.0002874475356730507
+  },
+  {
+    "step": 16,
+    "epoch": 0.9142857142857143,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493433856,
+    "loss": 1.4541,
+    "grad_norm": 7.929551124572754,
+    "learning_rate": 0.0002841730623343193
+  },
+  {
+    "step": 17,
+    "epoch": 0.9714285714285714,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493438464,
+    "loss": 1.3941,
+    "grad_norm": 5.744842052459717,
+    "learning_rate": 0.00028054278615452326
+  },
+  {
+    "step": 18,
+    "epoch": 1.0285714285714285,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518705664,
+    "loss": 2.1397,
+    "grad_norm": 13.66163158416748,
+    "learning_rate": 0.0002765663339734778
+  },
+  {
+    "step": 19,
+    "epoch": 1.0857142857142856,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518704128,
+    "loss": 1.4262,
+    "grad_norm": 6.4307355880737305,
+    "learning_rate": 0.00027225425062752165
+  },
+  {
+    "step": 20,
+    "epoch": 1.1428571428571428,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518679552,
+    "loss": 1.3419,
+    "grad_norm": 18.498199462890625,
+    "learning_rate": 0.0002676179709865066
+  },
+  {
+    "step": 21,
+    "epoch": 1.2,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518687232,
+    "loss": 1.3816,
+    "grad_norm": 3.349029541015625,
+    "learning_rate": 0.0002626697896305779
+  },
+  {
+    "step": 22,
+    "epoch": 1.2571428571428571,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518716416,
+    "loss": 1.3216,
+    "grad_norm": 3.663336753845215,
+    "learning_rate": 0.000257422828247159
+  },
+  {
+    "step": 23,
+    "epoch": 1.3142857142857143,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.5187456,
+    "loss": 1.3365,
+    "grad_norm": 6.960829734802246,
+    "learning_rate": 0.00025189100083459397
+  },
+  {
+    "step": 24,
+    "epoch": 1.3714285714285714,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518688768,
+    "loss": 1.3619,
+    "grad_norm": 5.14816427230835,
+    "learning_rate": 0.0002460889768047263
+  },
+  {
+    "step": 25,
+    "epoch": 1.4285714285714286,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518757888,
+    "loss": 1.3392,
+    "grad_norm": 4.903714656829834,
+    "learning_rate": 0.00024003214208225522
+  },
+  {
+    "step": 26,
+    "epoch": 1.4857142857142858,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.51871488,
+    "loss": 1.3861,
+    "grad_norm": 6.120626926422119,
+    "learning_rate": 0.00023373655830402968
+  },
+  {
+    "step": 27,
+    "epoch": 1.5428571428571427,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518673408,
+    "loss": 1.3876,
+    "grad_norm": 6.803613662719727,
+    "learning_rate": 0.00022721892022647462
+  },
+  {
+    "step": 28,
+    "epoch": 1.6,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518719488,
+    "loss": 1.6675,
+    "grad_norm": 14.671072006225586,
+    "learning_rate": 0.000220496511454098
+  },
+  {
+    "step": 29,
+    "epoch": 1.657142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.51871488,
+    "loss": 1.4052,
+    "grad_norm": 6.3027143478393555,
+    "learning_rate": 0.0002135871586064791
+  },
+  {
+    "step": 30,
+    "epoch": 1.7142857142857144,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518704128,
+    "loss": 1.3962,
+    "grad_norm": 5.853539943695068,
+    "learning_rate": 0.00020650918404527775
+  },
+  {
+    "step": 31,
+    "epoch": 1.7714285714285714,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518734848,
+    "loss": 1.3627,
+    "grad_norm": 4.129302024841309,
+    "learning_rate": 0.00019928135728662522
+  },
+  {
+    "step": 32,
+    "epoch": 1.8285714285714287,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518744064,
+    "loss": 1.347,
+    "grad_norm": 6.030110836029053,
+    "learning_rate": 0.00019192284522774142
+  },
+  {
+    "step": 33,
+    "epoch": 1.8857142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518724096,
+    "loss": 1.4082,
+    "grad_norm": 8.369693756103516,
+    "learning_rate": 0.00018445316131976934
+  },
+  {
+    "step": 34,
+    "epoch": 1.9428571428571428,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518702592,
+    "loss": 1.4094,
+    "grad_norm": 14.688669204711914,
+    "learning_rate": 0.00017689211382161034
+  },
+  {
+    "step": 35,
+    "epoch": 2.0,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518590464,
+    "loss": 2.1062,
+    "grad_norm": 14.797432899475098,
+    "learning_rate": 0.00016925975327198266
+  },
+  {
+    "step": 36,
+    "epoch": 2.057142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493410816,
+    "loss": 1.3897,
+    "grad_norm": 10.996891021728516,
+    "learning_rate": 0.00016157631931899697
+  },
+  {
+    "step": 37,
+    "epoch": 2.1142857142857143,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493420032,
+    "loss": 1.4705,
+    "grad_norm": 15.965860366821289,
+    "learning_rate": 0.0001538621870482483
+  },
+  {
+    "step": 38,
+    "epoch": 2.1714285714285713,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493390848,
+    "loss": 1.3793,
+    "grad_norm": 5.473352432250977,
+    "learning_rate": 0.00014613781295175172
+  },
+  {
+    "step": 39,
+    "epoch": 2.2285714285714286,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.49340928,
+    "loss": 1.3478,
+    "grad_norm": 2.9749255180358887,
+    "learning_rate": 0.00013842368068100303
+  },
+  {
+    "step": 40,
+    "epoch": 2.2857142857142856,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.49338624,
+    "loss": 1.4282,
+    "grad_norm": 7.062312126159668,
+    "learning_rate": 0.00013074024672801731
+  },
+  {
+    "step": 41,
+    "epoch": 2.342857142857143,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493387776,
+    "loss": 1.4169,
+    "grad_norm": 5.1576642990112305,
+    "learning_rate": 0.00012310788617838966
+  },
+  {
+    "step": 42,
+    "epoch": 2.4,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.49341696,
+    "loss": 1.4134,
+    "grad_norm": 9.255854606628418,
+    "learning_rate": 0.00011554683868023067
+  },
+  {
+    "step": 43,
+    "epoch": 2.4571428571428573,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.49343232,
+    "loss": 1.3524,
+    "grad_norm": 5.755366802215576,
+    "learning_rate": 0.00010807715477225858
+  },
+  {
+    "step": 44,
+    "epoch": 2.5142857142857142,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493450752,
+    "loss": 1.3488,
+    "grad_norm": 4.835580348968506,
+    "learning_rate": 0.00010071864271337478
+  },
+  {
+    "step": 45,
+    "epoch": 2.571428571428571,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493404672,
+    "loss": 1.3469,
+    "grad_norm": 6.548555374145508,
+    "learning_rate": 9.34908159547222e-05
+  },
+  {
+    "step": 46,
+    "epoch": 2.6285714285714286,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493398528,
+    "loss": 1.2932,
+    "grad_norm": 3.8608975410461426,
+    "learning_rate": 8.641284139352091e-05
+  },
+  {
+    "step": 47,
+    "epoch": 2.685714285714286,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493392384,
+    "loss": 1.3043,
+    "grad_norm": 4.572495460510254,
+    "learning_rate": 7.950348854590204e-05
+  },
+  {
+    "step": 48,
+    "epoch": 2.742857142857143,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493396992,
+    "loss": 1.2866,
+    "grad_norm": 3.4438271522521973,
+    "learning_rate": 7.278107977352543e-05
+  },
+  {
+    "step": 49,
+    "epoch": 2.8,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493387776,
+    "loss": 1.3026,
+    "grad_norm": 3.738175868988037,
+    "learning_rate": 6.626344169597031e-05
+  },
+  {
+    "step": 50,
+    "epoch": 2.857142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493369344,
+    "loss": 1.3494,
+    "grad_norm": 4.942461967468262,
+    "learning_rate": 5.996785791774478e-05
+  },
+  {
+    "step": 51,
+    "epoch": 2.914285714285714,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.49339392,
+    "loss": 1.3157,
+    "grad_norm": 4.040122985839844,
+    "learning_rate": 5.391102319527373e-05
+  },
+  {
+    "step": 52,
+    "epoch": 2.9714285714285715,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.493421568,
+    "loss": 1.4034,
+    "grad_norm": 4.740878105163574,
+    "learning_rate": 4.8108999165406026e-05
+  },
+  {
+    "step": 53,
+    "epoch": 3.0285714285714285,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518701056,
+    "loss": 1.9696,
+    "grad_norm": 6.076801300048828,
+    "learning_rate": 4.257717175284103e-05
+  },
+  {
+    "step": 54,
+    "epoch": 3.085714285714286,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518670336,
+    "loss": 1.3186,
+    "grad_norm": 6.321723937988281,
+    "learning_rate": 3.733021036942205e-05
+  },
+  {
+    "step": 55,
+    "epoch": 3.142857142857143,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518704128,
+    "loss": 1.3322,
+    "grad_norm": 4.518864154815674,
+    "learning_rate": 3.238202901349345e-05
+  },
+  {
+    "step": 56,
+    "epoch": 3.2,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518777856,
+    "loss": 1.3229,
+    "grad_norm": 3.9502453804016113,
+    "learning_rate": 2.774574937247831e-05
+  },
+  {
+    "step": 57,
+    "epoch": 3.257142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518721024,
+    "loss": 1.2922,
+    "grad_norm": 2.77620530128479,
+    "learning_rate": 2.3433666026522153e-05
+  },
+  {
+    "step": 58,
+    "epoch": 3.314285714285714,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.51871488,
+    "loss": 1.221,
+    "grad_norm": 5.571518898010254,
+    "learning_rate": 1.945721384547671e-05
+  },
+  {
+    "step": 59,
+    "epoch": 3.3714285714285714,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518765568,
+    "loss": 1.2745,
+    "grad_norm": 4.341223239898682,
+    "learning_rate": 1.5826937665680693e-05
+  },
+  {
+    "step": 60,
+    "epoch": 3.4285714285714284,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.51869184,
+    "loss": 1.3552,
+    "grad_norm": 5.9276251792907715,
+    "learning_rate": 1.2552464326949302e-05
+  },
+  {
+    "step": 61,
+    "epoch": 3.4857142857142858,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518705664,
+    "loss": 1.3201,
+    "grad_norm": 4.258768558502197,
+    "learning_rate": 9.64247714392597e-06
+  },
+  {
+    "step": 62,
+    "epoch": 3.5428571428571427,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.5187072,
+    "loss": 1.3376,
+    "grad_norm": 5.822268009185791,
+    "learning_rate": 7.104692879492624e-06
+  },
+  {
+    "step": 63,
+    "epoch": 3.6,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518696448,
+    "loss": 1.3397,
+    "grad_norm": 3.860724925994873,
+    "learning_rate": 4.945841281301943e-06
+  },
+  {
+    "step": 64,
+    "epoch": 3.657142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518713344,
+    "loss": 1.2999,
+    "grad_norm": 4.712264060974121,
+    "learning_rate": 3.1716472356963286e-06
+  },
+  {
+    "step": 65,
+    "epoch": 3.7142857142857144,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518734848,
+    "loss": 1.3846,
+    "grad_norm": 7.827590465545654,
+    "learning_rate": 1.7868155863384415e-06
+  },
+  {
+    "step": 66,
+    "epoch": 3.7714285714285714,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518725632,
+    "loss": 1.255,
+    "grad_norm": 4.00440788269043,
+    "learning_rate": 7.950186578116413e-07
+  },
+  {
+    "step": 67,
+    "epoch": 3.8285714285714287,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518751744,
+    "loss": 1.2525,
+    "grad_norm": 4.9576640129089355,
+    "learning_rate": 1.988865172754206e-07
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518702592,
+    "loss": 1.3006,
+    "grad_norm": 4.395829677581787,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 1.495007232,
+    "gpu_mem": 4.518702592,
+    "train_runtime": 376.1937,
+    "train_samples_per_second": 11.898,
+    "train_steps_per_second": 0.181,
+    "total_flos": 0.0,
+    "train_loss": 1.523840169696247
+  }
+]

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_e",
+    "results": 0.33375420875420875
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r2-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_E",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 2,
+    "alpha": 4,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 1577576
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-arc_e-r2-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r2-a2",
+  "seed": 42,
+  "timestamp": "2025-08-30T15:57:00.430559"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r2-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,1273 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.028169014084507043,
+    "cpu_mem": 1.48697088,
+    "gpu_mem": 4.4237952,
+    "loss": 4.6319,
+    "grad_norm": 334.8832702636719,
+    "learning_rate": 2.1428571428571425e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.056338028169014086,
+    "cpu_mem": 1.492672512,
+    "gpu_mem": 4.436629504,
+    "loss": 4.4578,
+    "grad_norm": 338.71502685546875,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.08450704225352113,
+    "cpu_mem": 1.49286912,
+    "gpu_mem": 4.436608,
+    "loss": 3.0613,
+    "grad_norm": 203.26577758789062,
+    "learning_rate": 6.428571428571427e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.11267605633802817,
+    "cpu_mem": 1.493065728,
+    "gpu_mem": 4.436586496,
+    "loss": 2.1672,
+    "grad_norm": 93.64673614501953,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.14084507042253522,
+    "cpu_mem": 1.493065728,
+    "gpu_mem": 4.436627968,
+    "loss": 1.5508,
+    "grad_norm": 19.551036834716797,
+    "learning_rate": 0.00010714285714285714
+  },
+  {
+    "step": 6,
+    "epoch": 0.16901408450704225,
+    "cpu_mem": 1.493262336,
+    "gpu_mem": 4.436603392,
+    "loss": 1.4936,
+    "grad_norm": 32.31931686401367,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 7,
+    "epoch": 0.19718309859154928,
+    "cpu_mem": 1.493262336,
+    "gpu_mem": 4.436626432,
+    "loss": 1.4445,
+    "grad_norm": 20.193700790405273,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 8,
+    "epoch": 0.22535211267605634,
+    "cpu_mem": 1.493262336,
+    "gpu_mem": 4.43658496,
+    "loss": 1.3912,
+    "grad_norm": 15.018762588500977,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 9,
+    "epoch": 0.2535211267605634,
+    "cpu_mem": 1.493262336,
+    "gpu_mem": 4.436586496,
+    "loss": 1.3628,
+    "grad_norm": 12.806224822998047,
+    "learning_rate": 0.00019285714285714286
+  },
+  {
+    "step": 10,
+    "epoch": 0.28169014084507044,
+    "cpu_mem": 1.493262336,
+    "gpu_mem": 4.436581888,
+    "loss": 1.6795,
+    "grad_norm": 60.71196746826172,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 11,
+    "epoch": 0.30985915492957744,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436660224,
+    "loss": 1.3897,
+    "grad_norm": 14.609763145446777,
+    "learning_rate": 0.00023571428571428569
+  },
+  {
+    "step": 12,
+    "epoch": 0.3380281690140845,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436634112,
+    "loss": 1.3519,
+    "grad_norm": 10.01632308959961,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 13,
+    "epoch": 0.36619718309859156,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.43658496,
+    "loss": 1.3813,
+    "grad_norm": 9.067853927612305,
+    "learning_rate": 0.00027857142857142854
+  },
+  {
+    "step": 14,
+    "epoch": 0.39436619718309857,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436606464,
+    "loss": 1.4137,
+    "grad_norm": 11.54834270477295,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 15,
+    "epoch": 0.4225352112676056,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436583424,
+    "loss": 1.33,
+    "grad_norm": 4.984076499938965,
+    "learning_rate": 0.0002999533773001224
+  },
+  {
+    "step": 16,
+    "epoch": 0.4507042253521127,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436588032,
+    "loss": 1.3787,
+    "grad_norm": 4.959704875946045,
+    "learning_rate": 0.0002998135381828383
+  },
+  {
+    "step": 17,
+    "epoch": 0.4788732394366197,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436624896,
+    "loss": 1.3491,
+    "grad_norm": 6.165195465087891,
+    "learning_rate": 0.00029958056957717696
+  },
+  {
+    "step": 18,
+    "epoch": 0.5070422535211268,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436635648,
+    "loss": 1.3499,
+    "grad_norm": 6.145087242126465,
+    "learning_rate": 0.0002992546163048102
+  },
+  {
+    "step": 19,
+    "epoch": 0.5352112676056338,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436578816,
+    "loss": 1.3647,
+    "grad_norm": 14.54247760772705,
+    "learning_rate": 0.0002988358809900258
+  },
+  {
+    "step": 20,
+    "epoch": 0.5633802816901409,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436649472,
+    "loss": 1.3599,
+    "grad_norm": 6.127029895782471,
+    "learning_rate": 0.0002983246239337692
+  },
+  {
+    "step": 21,
+    "epoch": 0.5915492957746479,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436647936,
+    "loss": 1.3275,
+    "grad_norm": 5.688446521759033,
+    "learning_rate": 0.0002977211629518312
+  },
+  {
+    "step": 22,
+    "epoch": 0.6197183098591549,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436604928,
+    "loss": 1.3288,
+    "grad_norm": 7.160696029663086,
+    "learning_rate": 0.00029702587317728153
+  },
+  {
+    "step": 23,
+    "epoch": 0.647887323943662,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436621824,
+    "loss": 1.3048,
+    "grad_norm": 5.542471408843994,
+    "learning_rate": 0.0002962391868272735
+  },
+  {
+    "step": 24,
+    "epoch": 0.676056338028169,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436578816,
+    "loss": 1.3567,
+    "grad_norm": 9.522262573242188,
+    "learning_rate": 0.00029536159293436166
+  },
+  {
+    "step": 25,
+    "epoch": 0.704225352112676,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436608,
+    "loss": 1.3671,
+    "grad_norm": 9.449694633483887,
+    "learning_rate": 0.00029439363704250176
+  },
+  {
+    "step": 26,
+    "epoch": 0.7323943661971831,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436588032,
+    "loss": 1.4186,
+    "grad_norm": 7.2168426513671875,
+    "learning_rate": 0.00029333592086792107
+  },
+  {
+    "step": 27,
+    "epoch": 0.7605633802816901,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436614144,
+    "loss": 1.3558,
+    "grad_norm": 10.885024070739746,
+    "learning_rate": 0.0002921891019250697
+  },
+  {
+    "step": 28,
+    "epoch": 0.7887323943661971,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436614144,
+    "loss": 1.3774,
+    "grad_norm": 6.4214277267456055,
+    "learning_rate": 0.0002909538931178862
+  },
+  {
+    "step": 29,
+    "epoch": 0.8169014084507042,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.43659264,
+    "loss": 1.2741,
+    "grad_norm": 6.542706489562988,
+    "learning_rate": 0.00028963106229663063
+  },
+  {
+    "step": 30,
+    "epoch": 0.8450704225352113,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436583424,
+    "loss": 1.3852,
+    "grad_norm": 9.458147048950195,
+    "learning_rate": 0.00028822143178056114
+  },
+  {
+    "step": 31,
+    "epoch": 0.8732394366197183,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436601856,
+    "loss": 1.3504,
+    "grad_norm": 16.29282569885254,
+    "learning_rate": 0.00028672587784675096
+  },
+  {
+    "step": 32,
+    "epoch": 0.9014084507042254,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436624896,
+    "loss": 1.3272,
+    "grad_norm": 7.9392499923706055,
+    "learning_rate": 0.0002851453301853628
+  },
+  {
+    "step": 33,
+    "epoch": 0.9295774647887324,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436621824,
+    "loss": 1.3411,
+    "grad_norm": 4.136773109436035,
+    "learning_rate": 0.00028348077132172027
+  },
+  {
+    "step": 34,
+    "epoch": 0.9577464788732394,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436624896,
+    "loss": 1.3751,
+    "grad_norm": 5.5571393966674805,
+    "learning_rate": 0.0002817332360055343
+  },
+  {
+    "step": 35,
+    "epoch": 0.9859154929577465,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436606464,
+    "loss": 1.2823,
+    "grad_norm": 3.0069351196289062,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 36,
+    "epoch": 1.0140845070422535,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442983936,
+    "loss": 1.9088,
+    "grad_norm": 9.872271537780762,
+    "learning_rate": 0.0002779936322448233
+  },
+  {
+    "step": 37,
+    "epoch": 1.0422535211267605,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442988544,
+    "loss": 1.3898,
+    "grad_norm": 9.080979347229004,
+    "learning_rate": 0.0002760038884726157
+  },
+  {
+    "step": 38,
+    "epoch": 1.0704225352112675,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44296704,
+    "loss": 1.2297,
+    "grad_norm": 4.792629718780518,
+    "learning_rate": 0.00027393581614739923
+  },
+  {
+    "step": 39,
+    "epoch": 1.0985915492957747,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442956288,
+    "loss": 1.3502,
+    "grad_norm": 10.400541305541992,
+    "learning_rate": 0.0002717907008573785
+  },
+  {
+    "step": 40,
+    "epoch": 1.1267605633802817,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443019264,
+    "loss": 1.3253,
+    "grad_norm": 4.320893287658691,
+    "learning_rate": 0.0002695698760834384
+  },
+  {
+    "step": 41,
+    "epoch": 1.1549295774647887,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442979328,
+    "loss": 1.3928,
+    "grad_norm": 12.37241268157959,
+    "learning_rate": 0.00026727472237020447
+  },
+  {
+    "step": 42,
+    "epoch": 1.1830985915492958,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443022336,
+    "loss": 1.3985,
+    "grad_norm": 9.03736686706543,
+    "learning_rate": 0.00026490666646784665
+  },
+  {
+    "step": 43,
+    "epoch": 1.2112676056338028,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442971648,
+    "loss": 1.3813,
+    "grad_norm": 5.811436176300049,
+    "learning_rate": 0.0002624671804451601
+  },
+  {
+    "step": 44,
+    "epoch": 1.2394366197183098,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44303616,
+    "loss": 1.3624,
+    "grad_norm": 5.308187961578369,
+    "learning_rate": 0.0002599577807744739
+  },
+  {
+    "step": 45,
+    "epoch": 1.267605633802817,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443003904,
+    "loss": 1.3711,
+    "grad_norm": 4.097907066345215,
+    "learning_rate": 0.0002573800273889577
+  },
+  {
+    "step": 46,
+    "epoch": 1.295774647887324,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443008512,
+    "loss": 1.3712,
+    "grad_norm": 4.213882923126221,
+    "learning_rate": 0.0002547355227129109
+  },
+  {
+    "step": 47,
+    "epoch": 1.323943661971831,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442954752,
+    "loss": 1.3301,
+    "grad_norm": 7.293313503265381,
+    "learning_rate": 0.00025202591066563786
+  },
+  {
+    "step": 48,
+    "epoch": 1.352112676056338,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442968576,
+    "loss": 1.3347,
+    "grad_norm": 8.195301055908203,
+    "learning_rate": 0.0002492528756395289
+  },
+  {
+    "step": 49,
+    "epoch": 1.380281690140845,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442957824,
+    "loss": 1.3941,
+    "grad_norm": 25.371461868286133,
+    "learning_rate": 0.0002464181414529809
+  },
+  {
+    "step": 50,
+    "epoch": 1.408450704225352,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442971648,
+    "loss": 1.4377,
+    "grad_norm": 18.559114456176758,
+    "learning_rate": 0.00024352347027881003
+  },
+  {
+    "step": 51,
+    "epoch": 1.436619718309859,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443023872,
+    "loss": 1.364,
+    "grad_norm": 8.876504898071289,
+    "learning_rate": 0.0002405706615488216
+  },
+  {
+    "step": 52,
+    "epoch": 1.4647887323943662,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442971648,
+    "loss": 1.686,
+    "grad_norm": 56.97942352294922,
+    "learning_rate": 0.00023756155083521846
+  },
+  {
+    "step": 53,
+    "epoch": 1.4929577464788732,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443040768,
+    "loss": 1.4077,
+    "grad_norm": 22.452436447143555,
+    "learning_rate": 0.00023449800870954326
+  },
+  {
+    "step": 54,
+    "epoch": 1.5211267605633803,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443008512,
+    "loss": 1.3135,
+    "grad_norm": 6.5965576171875,
+    "learning_rate": 0.0002313819395798639
+  },
+  {
+    "step": 55,
+    "epoch": 1.5492957746478875,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443017728,
+    "loss": 1.3823,
+    "grad_norm": 6.214559078216553,
+    "learning_rate": 0.0002282152805069247
+  },
+  {
+    "step": 56,
+    "epoch": 1.5774647887323945,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442993152,
+    "loss": 1.3107,
+    "grad_norm": 2.944521903991699,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 57,
+    "epoch": 1.6056338028169015,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443026944,
+    "loss": 1.3232,
+    "grad_norm": 4.46520471572876,
+    "learning_rate": 0.00022173809679319772
+  },
+  {
+    "step": 58,
+    "epoch": 1.6338028169014085,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443008512,
+    "loss": 1.3273,
+    "grad_norm": 3.4397385120391846,
+    "learning_rate": 0.00021843159860297442
+  },
+  {
+    "step": 59,
+    "epoch": 1.6619718309859155,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442994688,
+    "loss": 1.3453,
+    "grad_norm": 3.8322765827178955,
+    "learning_rate": 0.00021508256086763368
+  },
+  {
+    "step": 60,
+    "epoch": 1.6901408450704225,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443033088,
+    "loss": 1.3242,
+    "grad_norm": 4.89071798324585,
+    "learning_rate": 0.00021169306546959174
+  },
+  {
+    "step": 61,
+    "epoch": 1.7183098591549295,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442965504,
+    "loss": 1.2936,
+    "grad_norm": 4.631297588348389,
+    "learning_rate": 0.0002082652194412042
+  },
+  {
+    "step": 62,
+    "epoch": 1.7464788732394365,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44301312,
+    "loss": 1.4406,
+    "grad_norm": 12.51733684539795,
+    "learning_rate": 0.00020480115365495926
+  },
+  {
+    "step": 63,
+    "epoch": 1.7746478873239435,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442962432,
+    "loss": 1.446,
+    "grad_norm": 15.611908912658691,
+    "learning_rate": 0.00020130302149885031
+  },
+  {
+    "step": 64,
+    "epoch": 1.8028169014084507,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443011584,
+    "loss": 1.4236,
+    "grad_norm": 12.190735816955566,
+    "learning_rate": 0.00019777299753775265
+  },
+  {
+    "step": 65,
+    "epoch": 1.8309859154929577,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443010048,
+    "loss": 1.3596,
+    "grad_norm": 5.446914196014404,
+    "learning_rate": 0.00019421327616163563
+  },
+  {
+    "step": 66,
+    "epoch": 1.8591549295774648,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44302848,
+    "loss": 1.2865,
+    "grad_norm": 4.165730953216553,
+    "learning_rate": 0.00019062607022145078
+  },
+  {
+    "step": 67,
+    "epoch": 1.887323943661972,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442970112,
+    "loss": 1.2999,
+    "grad_norm": 3.62854266166687,
+    "learning_rate": 0.00018701360965354402
+  },
+  {
+    "step": 68,
+    "epoch": 1.915492957746479,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.4429824,
+    "loss": 1.3443,
+    "grad_norm": 3.0337541103363037,
+    "learning_rate": 0.00018337814009344714
+  },
+  {
+    "step": 69,
+    "epoch": 1.943661971830986,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443006976,
+    "loss": 1.3273,
+    "grad_norm": 4.934184551239014,
+    "learning_rate": 0.0001797219214799096
+  },
+  {
+    "step": 70,
+    "epoch": 1.971830985915493,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442983936,
+    "loss": 1.2715,
+    "grad_norm": 3.110337495803833,
+    "learning_rate": 0.00017604722665003956
+  },
+  {
+    "step": 71,
+    "epoch": 2.0,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442819584,
+    "loss": 1.9529,
+    "grad_norm": 7.656370639801025,
+    "learning_rate": 0.00017235633992642615
+  },
+  {
+    "step": 72,
+    "epoch": 2.028169014084507,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436617216,
+    "loss": 1.3812,
+    "grad_norm": 5.92775297164917,
+    "learning_rate": 0.00016865155569712278
+  },
+  {
+    "step": 73,
+    "epoch": 2.056338028169014,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436580352,
+    "loss": 1.3011,
+    "grad_norm": 7.2833356857299805,
+    "learning_rate": 0.0001649351769893725
+  },
+  {
+    "step": 74,
+    "epoch": 2.084507042253521,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436640256,
+    "loss": 1.3427,
+    "grad_norm": 14.072025299072266,
+    "learning_rate": 0.00016120951403796364
+  },
+  {
+    "step": 75,
+    "epoch": 2.112676056338028,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436608,
+    "loss": 1.3463,
+    "grad_norm": 7.366079807281494,
+    "learning_rate": 0.00015747688284910457
+  },
+  {
+    "step": 76,
+    "epoch": 2.140845070422535,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436618752,
+    "loss": 1.3097,
+    "grad_norm": 11.609695434570312,
+    "learning_rate": 0.00015373960376071093
+  },
+  {
+    "step": 77,
+    "epoch": 2.169014084507042,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436655616,
+    "loss": 1.3418,
+    "grad_norm": 11.972086906433105,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 78,
+    "epoch": 2.1971830985915495,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436640256,
+    "loss": 1.3932,
+    "grad_norm": 11.582221984863281,
+    "learning_rate": 0.00014626039623928907
+  },
+  {
+    "step": 79,
+    "epoch": 2.2253521126760565,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436591104,
+    "loss": 1.2812,
+    "grad_norm": 7.3847832679748535,
+    "learning_rate": 0.0001425231171508954
+  },
+  {
+    "step": 80,
+    "epoch": 2.2535211267605635,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436635648,
+    "loss": 1.3296,
+    "grad_norm": 6.362971782684326,
+    "learning_rate": 0.00013879048596203636
+  },
+  {
+    "step": 81,
+    "epoch": 2.2816901408450705,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436621824,
+    "loss": 1.3876,
+    "grad_norm": 11.030096054077148,
+    "learning_rate": 0.0001350648230106275
+  },
+  {
+    "step": 82,
+    "epoch": 2.3098591549295775,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436589568,
+    "loss": 1.4036,
+    "grad_norm": 9.106473922729492,
+    "learning_rate": 0.00013134844430287725
+  },
+  {
+    "step": 83,
+    "epoch": 2.3380281690140845,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436640256,
+    "loss": 1.3261,
+    "grad_norm": 11.944342613220215,
+    "learning_rate": 0.0001276436600735738
+  },
+  {
+    "step": 84,
+    "epoch": 2.3661971830985915,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436578816,
+    "loss": 1.3887,
+    "grad_norm": 12.192349433898926,
+    "learning_rate": 0.00012395277334996044
+  },
+  {
+    "step": 85,
+    "epoch": 2.3943661971830985,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436624896,
+    "loss": 1.3469,
+    "grad_norm": 7.058681488037109,
+    "learning_rate": 0.00012027807852009038
+  },
+  {
+    "step": 86,
+    "epoch": 2.4225352112676055,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436578816,
+    "loss": 1.3328,
+    "grad_norm": 5.5536932945251465,
+    "learning_rate": 0.00011662185990655284
+  },
+  {
+    "step": 87,
+    "epoch": 2.4507042253521125,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436609536,
+    "loss": 1.3939,
+    "grad_norm": 7.393185138702393,
+    "learning_rate": 0.00011298639034645593
+  },
+  {
+    "step": 88,
+    "epoch": 2.4788732394366195,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.43658496,
+    "loss": 1.3269,
+    "grad_norm": 7.776304721832275,
+    "learning_rate": 0.00010937392977854923
+  },
+  {
+    "step": 89,
+    "epoch": 2.507042253521127,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.43663872,
+    "loss": 1.3153,
+    "grad_norm": 5.972353935241699,
+    "learning_rate": 0.00010578672383836435
+  },
+  {
+    "step": 90,
+    "epoch": 2.535211267605634,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436620288,
+    "loss": 1.3751,
+    "grad_norm": 6.654686450958252,
+    "learning_rate": 0.00010222700246224735
+  },
+  {
+    "step": 91,
+    "epoch": 2.563380281690141,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.4365696,
+    "loss": 1.3689,
+    "grad_norm": 8.81556224822998,
+    "learning_rate": 9.869697850114969e-05
+  },
+  {
+    "step": 92,
+    "epoch": 2.591549295774648,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436594176,
+    "loss": 1.3643,
+    "grad_norm": 6.586201190948486,
+    "learning_rate": 9.519884634504074e-05
+  },
+  {
+    "step": 93,
+    "epoch": 2.619718309859155,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436597248,
+    "loss": 1.2994,
+    "grad_norm": 4.92837381362915,
+    "learning_rate": 9.17347805587958e-05
+  },
+  {
+    "step": 94,
+    "epoch": 2.647887323943662,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436589568,
+    "loss": 1.2857,
+    "grad_norm": 4.152866840362549,
+    "learning_rate": 8.830693453040829e-05
+  },
+  {
+    "step": 95,
+    "epoch": 2.676056338028169,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436627968,
+    "loss": 1.3404,
+    "grad_norm": 4.53918981552124,
+    "learning_rate": 8.491743913236628e-05
+  },
+  {
+    "step": 96,
+    "epoch": 2.704225352112676,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436637184,
+    "loss": 1.2617,
+    "grad_norm": 6.160858631134033,
+    "learning_rate": 8.156840139702554e-05
+  },
+  {
+    "step": 97,
+    "epoch": 2.732394366197183,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436580352,
+    "loss": 1.3543,
+    "grad_norm": 4.770242691040039,
+    "learning_rate": 7.82619032068023e-05
+  },
+  {
+    "step": 98,
+    "epoch": 2.76056338028169,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436580352,
+    "loss": 1.327,
+    "grad_norm": 2.966948986053467,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 99,
+    "epoch": 2.788732394366197,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.43657728,
+    "loss": 1.3015,
+    "grad_norm": 3.1356072425842285,
+    "learning_rate": 7.17847194930753e-05
+  },
+  {
+    "step": 100,
+    "epoch": 2.816901408450704,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436575744,
+    "loss": 1.272,
+    "grad_norm": 5.338186264038086,
+    "learning_rate": 6.86180604201361e-05
+  },
+  {
+    "step": 101,
+    "epoch": 2.845070422535211,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436618752,
+    "loss": 1.2616,
+    "grad_norm": 4.881860733032227,
+    "learning_rate": 6.550199129045668e-05
+  },
+  {
+    "step": 102,
+    "epoch": 2.873239436619718,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436557312,
+    "loss": 1.3467,
+    "grad_norm": 5.19181489944458,
+    "learning_rate": 6.243844916478155e-05
+  },
+  {
+    "step": 103,
+    "epoch": 2.9014084507042255,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436606464,
+    "loss": 1.309,
+    "grad_norm": 3.279639959335327,
+    "learning_rate": 5.9429338451178355e-05
+  },
+  {
+    "step": 104,
+    "epoch": 2.9295774647887325,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.43666944,
+    "loss": 1.3868,
+    "grad_norm": 6.660994052886963,
+    "learning_rate": 5.6476529721189974e-05
+  },
+  {
+    "step": 105,
+    "epoch": 2.9577464788732395,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436621824,
+    "loss": 1.2845,
+    "grad_norm": 3.30313777923584,
+    "learning_rate": 5.358185854701909e-05
+  },
+  {
+    "step": 106,
+    "epoch": 2.9859154929577465,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.436603392,
+    "loss": 1.3232,
+    "grad_norm": 3.6408579349517822,
+    "learning_rate": 5.074712436047112e-05
+  },
+  {
+    "step": 107,
+    "epoch": 3.0140845070422535,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443006976,
+    "loss": 1.8794,
+    "grad_norm": 7.724911212921143,
+    "learning_rate": 4.7974089334362057e-05
+  },
+  {
+    "step": 108,
+    "epoch": 3.0422535211267605,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442988544,
+    "loss": 1.3102,
+    "grad_norm": 3.513817310333252,
+    "learning_rate": 4.526447728708908e-05
+  },
+  {
+    "step": 109,
+    "epoch": 3.0704225352112675,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442977792,
+    "loss": 1.3073,
+    "grad_norm": 2.583456516265869,
+    "learning_rate": 4.261997261104223e-05
+  },
+  {
+    "step": 110,
+    "epoch": 3.0985915492957745,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443031552,
+    "loss": 1.327,
+    "grad_norm": 5.944295406341553,
+    "learning_rate": 4.004221922552608e-05
+  },
+  {
+    "step": 111,
+    "epoch": 3.1267605633802815,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442991616,
+    "loss": 1.3193,
+    "grad_norm": 3.914555072784424,
+    "learning_rate": 3.753281955483985e-05
+  },
+  {
+    "step": 112,
+    "epoch": 3.1549295774647885,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443010048,
+    "loss": 1.2872,
+    "grad_norm": 2.4625840187072754,
+    "learning_rate": 3.509333353215331e-05
+  },
+  {
+    "step": 113,
+    "epoch": 3.183098591549296,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443073024,
+    "loss": 1.3187,
+    "grad_norm": 3.991567611694336,
+    "learning_rate": 3.2725277629795526e-05
+  },
+  {
+    "step": 114,
+    "epoch": 3.211267605633803,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443000832,
+    "loss": 1.3259,
+    "grad_norm": 3.1732451915740967,
+    "learning_rate": 3.0430123916561672e-05
+  },
+  {
+    "step": 115,
+    "epoch": 3.23943661971831,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442994688,
+    "loss": 1.3577,
+    "grad_norm": 4.750394821166992,
+    "learning_rate": 2.8209299142621522e-05
+  },
+  {
+    "step": 116,
+    "epoch": 3.267605633802817,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443010048,
+    "loss": 1.3211,
+    "grad_norm": 3.380751132965088,
+    "learning_rate": 2.6064183852600797e-05
+  },
+  {
+    "step": 117,
+    "epoch": 3.295774647887324,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443025408,
+    "loss": 1.29,
+    "grad_norm": 4.058185577392578,
+    "learning_rate": 2.3996111527384288e-05
+  },
+  {
+    "step": 118,
+    "epoch": 3.323943661971831,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443016192,
+    "loss": 1.2777,
+    "grad_norm": 5.971620082855225,
+    "learning_rate": 2.2006367755176655e-05
+  },
+  {
+    "step": 119,
+    "epoch": 3.352112676056338,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443006976,
+    "loss": 1.2883,
+    "grad_norm": 3.4085781574249268,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 120,
+    "epoch": 3.380281690140845,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443025408,
+    "loss": 1.2777,
+    "grad_norm": 2.7961478233337402,
+    "learning_rate": 1.82667639944657e-05
+  },
+  {
+    "step": 121,
+    "epoch": 3.408450704225352,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443023872,
+    "loss": 1.2971,
+    "grad_norm": 4.205790042877197,
+    "learning_rate": 1.6519228678279718e-05
+  },
+  {
+    "step": 122,
+    "epoch": 3.436619718309859,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442980864,
+    "loss": 1.2862,
+    "grad_norm": 4.291749000549316,
+    "learning_rate": 1.4854669814637143e-05
+  },
+  {
+    "step": 123,
+    "epoch": 3.464788732394366,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44301312,
+    "loss": 1.2822,
+    "grad_norm": 4.5682053565979,
+    "learning_rate": 1.3274122153249028e-05
+  },
+  {
+    "step": 124,
+    "epoch": 3.492957746478873,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44296704,
+    "loss": 1.3005,
+    "grad_norm": 2.844740867614746,
+    "learning_rate": 1.1778568219438839e-05
+  },
+  {
+    "step": 125,
+    "epoch": 3.52112676056338,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443011584,
+    "loss": 1.2295,
+    "grad_norm": 5.023967266082764,
+    "learning_rate": 1.036893770336938e-05
+  },
+  {
+    "step": 126,
+    "epoch": 3.5492957746478875,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442962432,
+    "loss": 1.2662,
+    "grad_norm": 4.076255798339844,
+    "learning_rate": 9.046106882113751e-06
+  },
+  {
+    "step": 127,
+    "epoch": 3.5774647887323945,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44297472,
+    "loss": 1.2682,
+    "grad_norm": 3.1658072471618652,
+    "learning_rate": 7.810898074930243e-06
+  },
+  {
+    "step": 128,
+    "epoch": 3.6056338028169015,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442999296,
+    "loss": 1.2845,
+    "grad_norm": 3.069446325302124,
+    "learning_rate": 6.664079132078881e-06
+  },
+  {
+    "step": 129,
+    "epoch": 3.6338028169014085,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442960896,
+    "loss": 1.3036,
+    "grad_norm": 3.197641372680664,
+    "learning_rate": 5.606362957498195e-06
+  },
+  {
+    "step": 130,
+    "epoch": 3.6619718309859155,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442963968,
+    "loss": 1.3179,
+    "grad_norm": 3.2924671173095703,
+    "learning_rate": 4.638407065638322e-06
+  },
+  {
+    "step": 131,
+    "epoch": 3.6901408450704225,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442976256,
+    "loss": 1.2769,
+    "grad_norm": 4.022733211517334,
+    "learning_rate": 3.760813172726457e-06
+  },
+  {
+    "step": 132,
+    "epoch": 3.7183098591549295,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442940928,
+    "loss": 1.2735,
+    "grad_norm": 3.0946011543273926,
+    "learning_rate": 2.9741268227184255e-06
+  },
+  {
+    "step": 133,
+    "epoch": 3.7464788732394365,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.4429824,
+    "loss": 1.2261,
+    "grad_norm": 3.561920166015625,
+    "learning_rate": 2.2788370481687965e-06
+  },
+  {
+    "step": 134,
+    "epoch": 3.7746478873239435,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44299776,
+    "loss": 1.248,
+    "grad_norm": 3.3285350799560547,
+    "learning_rate": 1.6753760662307215e-06
+  },
+  {
+    "step": 135,
+    "epoch": 3.802816901408451,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442962432,
+    "loss": 1.3244,
+    "grad_norm": 4.943061828613281,
+    "learning_rate": 1.1641190099741904e-06
+  },
+  {
+    "step": 136,
+    "epoch": 3.830985915492958,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442970112,
+    "loss": 1.3367,
+    "grad_norm": 4.610203266143799,
+    "learning_rate": 7.453836951897885e-07
+  },
+  {
+    "step": 137,
+    "epoch": 3.859154929577465,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442991616,
+    "loss": 1.3017,
+    "grad_norm": 4.349905967712402,
+    "learning_rate": 4.194304228229806e-07
+  },
+  {
+    "step": 138,
+    "epoch": 3.887323943661972,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.443002368,
+    "loss": 1.3214,
+    "grad_norm": 3.8690969944000244,
+    "learning_rate": 1.8646181716164831e-07
+  },
+  {
+    "step": 139,
+    "epoch": 3.915492957746479,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.442994688,
+    "loss": 1.3432,
+    "grad_norm": 3.9236385822296143,
+    "learning_rate": 4.662269987756317e-08
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44302848,
+    "loss": 1.3178,
+    "grad_norm": 3.8790531158447266,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 1.493458944,
+    "gpu_mem": 4.44302848,
+    "train_runtime": 672.9448,
+    "train_samples_per_second": 13.38,
+    "train_steps_per_second": 0.208,
+    "total_flos": 0.0,
+    "train_loss": 1.4192385068961553
+  }
+]

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r32-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 64,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 32,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r32-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_e",
+    "results": 0.37247474747474746
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r32-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_E",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 32,
+    "alpha": 64,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 25389056
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-arc_e-r32-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r32-a2",
+  "seed": 42,
+  "timestamp": "2025-08-31T05:51:47.380869"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r32-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,1273 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.028169014084507043,
+    "cpu_mem": 1.496137728,
+    "gpu_mem": 4.518964736,
+    "loss": 4.6319,
+    "grad_norm": 285.1859436035156,
+    "learning_rate": 2.1428571428571425e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.056338028169014086,
+    "cpu_mem": 1.501642752,
+    "gpu_mem": 4.722138112,
+    "loss": 4.4578,
+    "grad_norm": 290.5561218261719,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.08450704225352113,
+    "cpu_mem": 1.50183936,
+    "gpu_mem": 4.722116608,
+    "loss": 2.8478,
+    "grad_norm": 381.0905456542969,
+    "learning_rate": 6.428571428571427e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.11267605633802817,
+    "cpu_mem": 1.502035968,
+    "gpu_mem": 4.722095104,
+    "loss": 1.6686,
+    "grad_norm": 25.219541549682617,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.14084507042253522,
+    "cpu_mem": 1.502035968,
+    "gpu_mem": 4.722136576,
+    "loss": 1.5693,
+    "grad_norm": 22.9230899810791,
+    "learning_rate": 0.00010714285714285714
+  },
+  {
+    "step": 6,
+    "epoch": 0.16901408450704225,
+    "cpu_mem": 1.502035968,
+    "gpu_mem": 4.722112,
+    "loss": 1.4612,
+    "grad_norm": 21.357065200805664,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 7,
+    "epoch": 0.19718309859154928,
+    "cpu_mem": 1.502232576,
+    "gpu_mem": 4.72213504,
+    "loss": 1.6244,
+    "grad_norm": 26.6319637298584,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 8,
+    "epoch": 0.22535211267605634,
+    "cpu_mem": 1.502232576,
+    "gpu_mem": 4.722093568,
+    "loss": 1.3759,
+    "grad_norm": 7.972470760345459,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 9,
+    "epoch": 0.2535211267605634,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722095104,
+    "loss": 1.398,
+    "grad_norm": 12.75944995880127,
+    "learning_rate": 0.00019285714285714286
+  },
+  {
+    "step": 10,
+    "epoch": 0.28169014084507044,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722090496,
+    "loss": 1.7315,
+    "grad_norm": 20.16497802734375,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 11,
+    "epoch": 0.30985915492957744,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722168832,
+    "loss": 1.5034,
+    "grad_norm": 12.408662796020508,
+    "learning_rate": 0.00023571428571428569
+  },
+  {
+    "step": 12,
+    "epoch": 0.3380281690140845,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.72214272,
+    "loss": 1.3497,
+    "grad_norm": 6.996767044067383,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 13,
+    "epoch": 0.36619718309859156,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722093568,
+    "loss": 2.105,
+    "grad_norm": 52.36497116088867,
+    "learning_rate": 0.00027857142857142854
+  },
+  {
+    "step": 14,
+    "epoch": 0.39436619718309857,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722115072,
+    "loss": 1.4537,
+    "grad_norm": 8.213821411132812,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 15,
+    "epoch": 0.4225352112676056,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722092032,
+    "loss": 1.4046,
+    "grad_norm": 8.018381118774414,
+    "learning_rate": 0.0002999533773001224
+  },
+  {
+    "step": 16,
+    "epoch": 0.4507042253521127,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.72209664,
+    "loss": 1.4606,
+    "grad_norm": 8.81755256652832,
+    "learning_rate": 0.0002998135381828383
+  },
+  {
+    "step": 17,
+    "epoch": 0.4788732394366197,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722133504,
+    "loss": 1.535,
+    "grad_norm": 16.856678009033203,
+    "learning_rate": 0.00029958056957717696
+  },
+  {
+    "step": 18,
+    "epoch": 0.5070422535211268,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722144256,
+    "loss": 1.4464,
+    "grad_norm": 6.95269775390625,
+    "learning_rate": 0.0002992546163048102
+  },
+  {
+    "step": 19,
+    "epoch": 0.5352112676056338,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722087424,
+    "loss": 1.2935,
+    "grad_norm": 4.264415264129639,
+    "learning_rate": 0.0002988358809900258
+  },
+  {
+    "step": 20,
+    "epoch": 0.5633802816901409,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.72215808,
+    "loss": 1.6446,
+    "grad_norm": 16.577444076538086,
+    "learning_rate": 0.0002983246239337692
+  },
+  {
+    "step": 21,
+    "epoch": 0.5915492957746479,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722156544,
+    "loss": 1.4246,
+    "grad_norm": 9.108543395996094,
+    "learning_rate": 0.0002977211629518312
+  },
+  {
+    "step": 22,
+    "epoch": 0.6197183098591549,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722113536,
+    "loss": 1.4405,
+    "grad_norm": 8.338932991027832,
+    "learning_rate": 0.00029702587317728153
+  },
+  {
+    "step": 23,
+    "epoch": 0.647887323943662,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722130432,
+    "loss": 1.3325,
+    "grad_norm": 4.5872039794921875,
+    "learning_rate": 0.0002962391868272735
+  },
+  {
+    "step": 24,
+    "epoch": 0.676056338028169,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722087424,
+    "loss": 1.346,
+    "grad_norm": 3.732668161392212,
+    "learning_rate": 0.00029536159293436166
+  },
+  {
+    "step": 25,
+    "epoch": 0.704225352112676,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722116608,
+    "loss": 1.4111,
+    "grad_norm": 3.657146692276001,
+    "learning_rate": 0.00029439363704250176
+  },
+  {
+    "step": 26,
+    "epoch": 0.7323943661971831,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.72209664,
+    "loss": 1.5039,
+    "grad_norm": 3.2886135578155518,
+    "learning_rate": 0.00029333592086792107
+  },
+  {
+    "step": 27,
+    "epoch": 0.7605633802816901,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722122752,
+    "loss": 1.358,
+    "grad_norm": 2.674607276916504,
+    "learning_rate": 0.0002921891019250697
+  },
+  {
+    "step": 28,
+    "epoch": 0.7887323943661971,
+    "cpu_mem": 1.502429184,
+    "gpu_mem": 4.722122752,
+    "loss": 1.4135,
+    "grad_norm": 3.7271816730499268,
+    "learning_rate": 0.0002909538931178862
+  },
+  {
+    "step": 29,
+    "epoch": 0.8169014084507042,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722101248,
+    "loss": 1.2997,
+    "grad_norm": 3.6826894283294678,
+    "learning_rate": 0.00028963106229663063
+  },
+  {
+    "step": 30,
+    "epoch": 0.8450704225352113,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722092032,
+    "loss": 1.3454,
+    "grad_norm": 2.921555757522583,
+    "learning_rate": 0.00028822143178056114
+  },
+  {
+    "step": 31,
+    "epoch": 0.8732394366197183,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722110464,
+    "loss": 1.4119,
+    "grad_norm": 6.010624885559082,
+    "learning_rate": 0.00028672587784675096
+  },
+  {
+    "step": 32,
+    "epoch": 0.9014084507042254,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722133504,
+    "loss": 1.3421,
+    "grad_norm": 3.9047536849975586,
+    "learning_rate": 0.0002851453301853628
+  },
+  {
+    "step": 33,
+    "epoch": 0.9295774647887324,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722130432,
+    "loss": 1.38,
+    "grad_norm": 3.3717494010925293,
+    "learning_rate": 0.00028348077132172027
+  },
+  {
+    "step": 34,
+    "epoch": 0.9577464788732394,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722133504,
+    "loss": 1.3892,
+    "grad_norm": 2.1161556243896484,
+    "learning_rate": 0.0002817332360055343
+  },
+  {
+    "step": 35,
+    "epoch": 0.9859154929577465,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722115072,
+    "loss": 1.3076,
+    "grad_norm": 1.9025923013687134,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 36,
+    "epoch": 1.0140845070422535,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82366208,
+    "loss": 1.9438,
+    "grad_norm": 4.72139835357666,
+    "learning_rate": 0.0002779936322448233
+  },
+  {
+    "step": 37,
+    "epoch": 1.0422535211267605,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823666688,
+    "loss": 1.3326,
+    "grad_norm": 4.325397968292236,
+    "learning_rate": 0.0002760038884726157
+  },
+  {
+    "step": 38,
+    "epoch": 1.0704225352112675,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823645184,
+    "loss": 1.2542,
+    "grad_norm": 3.8574061393737793,
+    "learning_rate": 0.00027393581614739923
+  },
+  {
+    "step": 39,
+    "epoch": 1.0985915492957747,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823634432,
+    "loss": 1.3937,
+    "grad_norm": 8.146137237548828,
+    "learning_rate": 0.0002717907008573785
+  },
+  {
+    "step": 40,
+    "epoch": 1.1267605633802817,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823697408,
+    "loss": 1.398,
+    "grad_norm": 4.23073148727417,
+    "learning_rate": 0.0002695698760834384
+  },
+  {
+    "step": 41,
+    "epoch": 1.1549295774647887,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823657472,
+    "loss": 1.5805,
+    "grad_norm": 9.995660781860352,
+    "learning_rate": 0.00026727472237020447
+  },
+  {
+    "step": 42,
+    "epoch": 1.1830985915492958,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82370048,
+    "loss": 1.3628,
+    "grad_norm": 3.161339521408081,
+    "learning_rate": 0.00026490666646784665
+  },
+  {
+    "step": 43,
+    "epoch": 1.2112676056338028,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823649792,
+    "loss": 1.4042,
+    "grad_norm": 4.245759010314941,
+    "learning_rate": 0.0002624671804451601
+  },
+  {
+    "step": 44,
+    "epoch": 1.2394366197183098,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823714304,
+    "loss": 1.3295,
+    "grad_norm": 3.277341365814209,
+    "learning_rate": 0.0002599577807744739
+  },
+  {
+    "step": 45,
+    "epoch": 1.267605633802817,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823682048,
+    "loss": 1.4885,
+    "grad_norm": 4.2645487785339355,
+    "learning_rate": 0.0002573800273889577
+  },
+  {
+    "step": 46,
+    "epoch": 1.295774647887324,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823686656,
+    "loss": 1.4298,
+    "grad_norm": 5.765285015106201,
+    "learning_rate": 0.0002547355227129109
+  },
+  {
+    "step": 47,
+    "epoch": 1.323943661971831,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823632896,
+    "loss": 1.3327,
+    "grad_norm": 3.2660598754882812,
+    "learning_rate": 0.00025202591066563786
+  },
+  {
+    "step": 48,
+    "epoch": 1.352112676056338,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82364672,
+    "loss": 1.3981,
+    "grad_norm": 4.678296089172363,
+    "learning_rate": 0.0002492528756395289
+  },
+  {
+    "step": 49,
+    "epoch": 1.380281690140845,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823635968,
+    "loss": 2.184,
+    "grad_norm": 293.4337463378906,
+    "learning_rate": 0.0002464181414529809
+  },
+  {
+    "step": 50,
+    "epoch": 1.408450704225352,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823649792,
+    "loss": 1.4052,
+    "grad_norm": 5.673724174499512,
+    "learning_rate": 0.00024352347027881003
+  },
+  {
+    "step": 51,
+    "epoch": 1.436619718309859,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823702016,
+    "loss": 1.4252,
+    "grad_norm": 6.799444198608398,
+    "learning_rate": 0.0002405706615488216
+  },
+  {
+    "step": 52,
+    "epoch": 1.4647887323943662,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823649792,
+    "loss": 1.3539,
+    "grad_norm": 2.679464340209961,
+    "learning_rate": 0.00023756155083521846
+  },
+  {
+    "step": 53,
+    "epoch": 1.4929577464788732,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823718912,
+    "loss": 1.4057,
+    "grad_norm": 4.1786208152771,
+    "learning_rate": 0.00023449800870954326
+  },
+  {
+    "step": 54,
+    "epoch": 1.5211267605633803,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823686656,
+    "loss": 1.4722,
+    "grad_norm": 5.400444507598877,
+    "learning_rate": 0.0002313819395798639
+  },
+  {
+    "step": 55,
+    "epoch": 1.5492957746478875,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823695872,
+    "loss": 1.3521,
+    "grad_norm": 1.586466908454895,
+    "learning_rate": 0.0002282152805069247
+  },
+  {
+    "step": 56,
+    "epoch": 1.5774647887323945,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823671296,
+    "loss": 1.3238,
+    "grad_norm": 1.901183843612671,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 57,
+    "epoch": 1.6056338028169015,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823705088,
+    "loss": 1.3406,
+    "grad_norm": 2.266773223876953,
+    "learning_rate": 0.00022173809679319772
+  },
+  {
+    "step": 58,
+    "epoch": 1.6338028169014085,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823686656,
+    "loss": 1.3164,
+    "grad_norm": 0.935617983341217,
+    "learning_rate": 0.00021843159860297442
+  },
+  {
+    "step": 59,
+    "epoch": 1.6619718309859155,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823672832,
+    "loss": 1.3413,
+    "grad_norm": 1.1456469297409058,
+    "learning_rate": 0.00021508256086763368
+  },
+  {
+    "step": 60,
+    "epoch": 1.6901408450704225,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823711232,
+    "loss": 1.2904,
+    "grad_norm": 1.728401780128479,
+    "learning_rate": 0.00021169306546959174
+  },
+  {
+    "step": 61,
+    "epoch": 1.7183098591549295,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823643648,
+    "loss": 1.3529,
+    "grad_norm": 3.0350029468536377,
+    "learning_rate": 0.0002082652194412042
+  },
+  {
+    "step": 62,
+    "epoch": 1.7464788732394365,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823691264,
+    "loss": 1.4544,
+    "grad_norm": 3.896820068359375,
+    "learning_rate": 0.00020480115365495926
+  },
+  {
+    "step": 63,
+    "epoch": 1.7746478873239435,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823640576,
+    "loss": 1.4155,
+    "grad_norm": 3.300171136856079,
+    "learning_rate": 0.00020130302149885031
+  },
+  {
+    "step": 64,
+    "epoch": 1.8028169014084507,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823689728,
+    "loss": 1.3494,
+    "grad_norm": 2.4495275020599365,
+    "learning_rate": 0.00019777299753775265
+  },
+  {
+    "step": 65,
+    "epoch": 1.8309859154929577,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823688192,
+    "loss": 1.4032,
+    "grad_norm": 3.058351993560791,
+    "learning_rate": 0.00019421327616163563
+  },
+  {
+    "step": 66,
+    "epoch": 1.8591549295774648,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823706624,
+    "loss": 1.4233,
+    "grad_norm": 4.7667107582092285,
+    "learning_rate": 0.00019062607022145078
+  },
+  {
+    "step": 67,
+    "epoch": 1.887323943661972,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823648256,
+    "loss": 1.3687,
+    "grad_norm": 5.0993218421936035,
+    "learning_rate": 0.00018701360965354402
+  },
+  {
+    "step": 68,
+    "epoch": 1.915492957746479,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823660544,
+    "loss": 20.6412,
+    "grad_norm": 727.7623901367188,
+    "learning_rate": 0.00018337814009344714
+  },
+  {
+    "step": 69,
+    "epoch": 1.943661971830986,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82368512,
+    "loss": 5.2158,
+    "grad_norm": 216.47073364257812,
+    "learning_rate": 0.0001797219214799096
+  },
+  {
+    "step": 70,
+    "epoch": 1.971830985915493,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82366208,
+    "loss": 1.9586,
+    "grad_norm": 153.92445373535156,
+    "learning_rate": 0.00017604722665003956
+  },
+  {
+    "step": 71,
+    "epoch": 2.0,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823497728,
+    "loss": 2.0123,
+    "grad_norm": 5.384662628173828,
+    "learning_rate": 0.00017235633992642615
+  },
+  {
+    "step": 72,
+    "epoch": 2.028169014084507,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722125824,
+    "loss": 1.3851,
+    "grad_norm": 2.2103421688079834,
+    "learning_rate": 0.00016865155569712278
+  },
+  {
+    "step": 73,
+    "epoch": 2.056338028169014,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.72208896,
+    "loss": 1.3777,
+    "grad_norm": 1.1181278228759766,
+    "learning_rate": 0.0001649351769893725
+  },
+  {
+    "step": 74,
+    "epoch": 2.084507042253521,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722148864,
+    "loss": 1.3305,
+    "grad_norm": 0.8732612133026123,
+    "learning_rate": 0.00016120951403796364
+  },
+  {
+    "step": 75,
+    "epoch": 2.112676056338028,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722116608,
+    "loss": 1.344,
+    "grad_norm": 1.5410144329071045,
+    "learning_rate": 0.00015747688284910457
+  },
+  {
+    "step": 76,
+    "epoch": 2.140845070422535,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.72212736,
+    "loss": 1.2997,
+    "grad_norm": 0.754600465297699,
+    "learning_rate": 0.00015373960376071093
+  },
+  {
+    "step": 77,
+    "epoch": 2.169014084507042,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722164224,
+    "loss": 1.3713,
+    "grad_norm": 1.0481202602386475,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 78,
+    "epoch": 2.1971830985915495,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722148864,
+    "loss": 1.4209,
+    "grad_norm": 2.4341037273406982,
+    "learning_rate": 0.00014626039623928907
+  },
+  {
+    "step": 79,
+    "epoch": 2.2253521126760565,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722099712,
+    "loss": 1.291,
+    "grad_norm": 1.7542685270309448,
+    "learning_rate": 0.0001425231171508954
+  },
+  {
+    "step": 80,
+    "epoch": 2.2535211267605635,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722144256,
+    "loss": 1.346,
+    "grad_norm": 1.6453899145126343,
+    "learning_rate": 0.00013879048596203636
+  },
+  {
+    "step": 81,
+    "epoch": 2.2816901408450705,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722130432,
+    "loss": 1.4232,
+    "grad_norm": 2.9081246852874756,
+    "learning_rate": 0.0001350648230106275
+  },
+  {
+    "step": 82,
+    "epoch": 2.3098591549295775,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722098176,
+    "loss": 1.4118,
+    "grad_norm": 3.444525718688965,
+    "learning_rate": 0.00013134844430287725
+  },
+  {
+    "step": 83,
+    "epoch": 2.3380281690140845,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722148864,
+    "loss": 1.3006,
+    "grad_norm": 2.5711867809295654,
+    "learning_rate": 0.0001276436600735738
+  },
+  {
+    "step": 84,
+    "epoch": 2.3661971830985915,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722087424,
+    "loss": 1.4037,
+    "grad_norm": 2.308828115463257,
+    "learning_rate": 0.00012395277334996044
+  },
+  {
+    "step": 85,
+    "epoch": 2.3943661971830985,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722133504,
+    "loss": 1.3524,
+    "grad_norm": 2.286288261413574,
+    "learning_rate": 0.00012027807852009038
+  },
+  {
+    "step": 86,
+    "epoch": 2.4225352112676055,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722087424,
+    "loss": 1.3171,
+    "grad_norm": 0.8145406246185303,
+    "learning_rate": 0.00011662185990655284
+  },
+  {
+    "step": 87,
+    "epoch": 2.4507042253521125,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722118144,
+    "loss": 1.4024,
+    "grad_norm": 2.189497232437134,
+    "learning_rate": 0.00011298639034645593
+  },
+  {
+    "step": 88,
+    "epoch": 2.4788732394366195,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722093568,
+    "loss": 1.3276,
+    "grad_norm": 2.225213050842285,
+    "learning_rate": 0.00010937392977854923
+  },
+  {
+    "step": 89,
+    "epoch": 2.507042253521127,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722147328,
+    "loss": 1.3019,
+    "grad_norm": 1.4794793128967285,
+    "learning_rate": 0.00010578672383836435
+  },
+  {
+    "step": 90,
+    "epoch": 2.535211267605634,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722128896,
+    "loss": 1.3902,
+    "grad_norm": 2.832213878631592,
+    "learning_rate": 0.00010222700246224735
+  },
+  {
+    "step": 91,
+    "epoch": 2.563380281690141,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722078208,
+    "loss": 1.3622,
+    "grad_norm": 2.659364700317383,
+    "learning_rate": 9.869697850114969e-05
+  },
+  {
+    "step": 92,
+    "epoch": 2.591549295774648,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722102784,
+    "loss": 1.3862,
+    "grad_norm": 2.9223179817199707,
+    "learning_rate": 9.519884634504074e-05
+  },
+  {
+    "step": 93,
+    "epoch": 2.619718309859155,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722105856,
+    "loss": 1.3254,
+    "grad_norm": 2.7396914958953857,
+    "learning_rate": 9.17347805587958e-05
+  },
+  {
+    "step": 94,
+    "epoch": 2.647887323943662,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722098176,
+    "loss": 1.3504,
+    "grad_norm": 2.2619333267211914,
+    "learning_rate": 8.830693453040829e-05
+  },
+  {
+    "step": 95,
+    "epoch": 2.676056338028169,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722136576,
+    "loss": 1.375,
+    "grad_norm": 2.095527172088623,
+    "learning_rate": 8.491743913236628e-05
+  },
+  {
+    "step": 96,
+    "epoch": 2.704225352112676,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722145792,
+    "loss": 1.2863,
+    "grad_norm": 2.3975515365600586,
+    "learning_rate": 8.156840139702554e-05
+  },
+  {
+    "step": 97,
+    "epoch": 2.732394366197183,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.72208896,
+    "loss": 1.3655,
+    "grad_norm": 2.111492395401001,
+    "learning_rate": 7.82619032068023e-05
+  },
+  {
+    "step": 98,
+    "epoch": 2.76056338028169,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.72208896,
+    "loss": 1.3394,
+    "grad_norm": 0.9519637823104858,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 99,
+    "epoch": 2.788732394366197,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722085888,
+    "loss": 1.2922,
+    "grad_norm": 1.1138625144958496,
+    "learning_rate": 7.17847194930753e-05
+  },
+  {
+    "step": 100,
+    "epoch": 2.816901408450704,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722084352,
+    "loss": 1.2824,
+    "grad_norm": 1.63324773311615,
+    "learning_rate": 6.86180604201361e-05
+  },
+  {
+    "step": 101,
+    "epoch": 2.845070422535211,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.72212736,
+    "loss": 1.2767,
+    "grad_norm": 1.6835689544677734,
+    "learning_rate": 6.550199129045668e-05
+  },
+  {
+    "step": 102,
+    "epoch": 2.873239436619718,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.72206592,
+    "loss": 1.3731,
+    "grad_norm": 2.8863682746887207,
+    "learning_rate": 6.243844916478155e-05
+  },
+  {
+    "step": 103,
+    "epoch": 2.9014084507042255,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722115072,
+    "loss": 1.3284,
+    "grad_norm": 1.9598286151885986,
+    "learning_rate": 5.9429338451178355e-05
+  },
+  {
+    "step": 104,
+    "epoch": 2.9295774647887325,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722178048,
+    "loss": 1.3901,
+    "grad_norm": 3.4294772148132324,
+    "learning_rate": 5.6476529721189974e-05
+  },
+  {
+    "step": 105,
+    "epoch": 2.9577464788732395,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722130432,
+    "loss": 1.3027,
+    "grad_norm": 1.786590814590454,
+    "learning_rate": 5.358185854701909e-05
+  },
+  {
+    "step": 106,
+    "epoch": 2.9859154929577465,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.722112,
+    "loss": 1.3242,
+    "grad_norm": 1.6533207893371582,
+    "learning_rate": 5.074712436047112e-05
+  },
+  {
+    "step": 107,
+    "epoch": 3.0140845070422535,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82368512,
+    "loss": 1.8733,
+    "grad_norm": 3.4330568313598633,
+    "learning_rate": 4.7974089334362057e-05
+  },
+  {
+    "step": 108,
+    "epoch": 3.0422535211267605,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823666688,
+    "loss": 1.2738,
+    "grad_norm": 1.685111403465271,
+    "learning_rate": 4.526447728708908e-05
+  },
+  {
+    "step": 109,
+    "epoch": 3.0704225352112675,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823655936,
+    "loss": 1.3244,
+    "grad_norm": 1.720697045326233,
+    "learning_rate": 4.261997261104223e-05
+  },
+  {
+    "step": 110,
+    "epoch": 3.0985915492957745,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823709696,
+    "loss": 1.2854,
+    "grad_norm": 2.801140308380127,
+    "learning_rate": 4.004221922552608e-05
+  },
+  {
+    "step": 111,
+    "epoch": 3.1267605633802815,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82366976,
+    "loss": 1.3167,
+    "grad_norm": 1.9198555946350098,
+    "learning_rate": 3.753281955483985e-05
+  },
+  {
+    "step": 112,
+    "epoch": 3.1549295774647885,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823688192,
+    "loss": 1.2922,
+    "grad_norm": 1.4882051944732666,
+    "learning_rate": 3.509333353215331e-05
+  },
+  {
+    "step": 113,
+    "epoch": 3.183098591549296,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823751168,
+    "loss": 1.2862,
+    "grad_norm": 1.7628090381622314,
+    "learning_rate": 3.2725277629795526e-05
+  },
+  {
+    "step": 114,
+    "epoch": 3.211267605633803,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823678976,
+    "loss": 1.3162,
+    "grad_norm": 1.6963146924972534,
+    "learning_rate": 3.0430123916561672e-05
+  },
+  {
+    "step": 115,
+    "epoch": 3.23943661971831,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823672832,
+    "loss": 1.3671,
+    "grad_norm": 2.351639747619629,
+    "learning_rate": 2.8209299142621522e-05
+  },
+  {
+    "step": 116,
+    "epoch": 3.267605633802817,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823688192,
+    "loss": 1.3129,
+    "grad_norm": 1.3395206928253174,
+    "learning_rate": 2.6064183852600797e-05
+  },
+  {
+    "step": 117,
+    "epoch": 3.295774647887324,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823703552,
+    "loss": 1.276,
+    "grad_norm": 1.8355594873428345,
+    "learning_rate": 2.3996111527384288e-05
+  },
+  {
+    "step": 118,
+    "epoch": 3.323943661971831,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823694336,
+    "loss": 1.2855,
+    "grad_norm": 1.5066239833831787,
+    "learning_rate": 2.2006367755176655e-05
+  },
+  {
+    "step": 119,
+    "epoch": 3.352112676056338,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82368512,
+    "loss": 1.2956,
+    "grad_norm": 1.6072317361831665,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 120,
+    "epoch": 3.380281690140845,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823703552,
+    "loss": 1.2925,
+    "grad_norm": 1.6089941263198853,
+    "learning_rate": 1.82667639944657e-05
+  },
+  {
+    "step": 121,
+    "epoch": 3.408450704225352,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823702016,
+    "loss": 1.2467,
+    "grad_norm": 1.8599209785461426,
+    "learning_rate": 1.6519228678279718e-05
+  },
+  {
+    "step": 122,
+    "epoch": 3.436619718309859,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823659008,
+    "loss": 1.2741,
+    "grad_norm": 1.5860140323638916,
+    "learning_rate": 1.4854669814637143e-05
+  },
+  {
+    "step": 123,
+    "epoch": 3.464788732394366,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823691264,
+    "loss": 1.2627,
+    "grad_norm": 1.814361810684204,
+    "learning_rate": 1.3274122153249028e-05
+  },
+  {
+    "step": 124,
+    "epoch": 3.492957746478873,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823645184,
+    "loss": 1.2697,
+    "grad_norm": 1.6075295209884644,
+    "learning_rate": 1.1778568219438839e-05
+  },
+  {
+    "step": 125,
+    "epoch": 3.52112676056338,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823689728,
+    "loss": 1.2082,
+    "grad_norm": 2.1656956672668457,
+    "learning_rate": 1.036893770336938e-05
+  },
+  {
+    "step": 126,
+    "epoch": 3.5492957746478875,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823640576,
+    "loss": 1.2388,
+    "grad_norm": 1.7753299474716187,
+    "learning_rate": 9.046106882113751e-06
+  },
+  {
+    "step": 127,
+    "epoch": 3.5774647887323945,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823652864,
+    "loss": 1.2669,
+    "grad_norm": 1.6709108352661133,
+    "learning_rate": 7.810898074930243e-06
+  },
+  {
+    "step": 128,
+    "epoch": 3.6056338028169015,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82367744,
+    "loss": 1.28,
+    "grad_norm": 2.1730709075927734,
+    "learning_rate": 6.664079132078881e-06
+  },
+  {
+    "step": 129,
+    "epoch": 3.6338028169014085,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82363904,
+    "loss": 1.2608,
+    "grad_norm": 1.86732017993927,
+    "learning_rate": 5.606362957498195e-06
+  },
+  {
+    "step": 130,
+    "epoch": 3.6619718309859155,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823642112,
+    "loss": 1.3212,
+    "grad_norm": 2.1604793071746826,
+    "learning_rate": 4.638407065638322e-06
+  },
+  {
+    "step": 131,
+    "epoch": 3.6901408450704225,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.8236544,
+    "loss": 1.2794,
+    "grad_norm": 2.1699371337890625,
+    "learning_rate": 3.760813172726457e-06
+  },
+  {
+    "step": 132,
+    "epoch": 3.7183098591549295,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823619072,
+    "loss": 1.2438,
+    "grad_norm": 1.8384634256362915,
+    "learning_rate": 2.9741268227184255e-06
+  },
+  {
+    "step": 133,
+    "epoch": 3.7464788732394365,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823660544,
+    "loss": 1.206,
+    "grad_norm": 1.811904788017273,
+    "learning_rate": 2.2788370481687965e-06
+  },
+  {
+    "step": 134,
+    "epoch": 3.7746478873239435,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823675904,
+    "loss": 1.2126,
+    "grad_norm": 1.9175496101379395,
+    "learning_rate": 1.6753760662307215e-06
+  },
+  {
+    "step": 135,
+    "epoch": 3.802816901408451,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823640576,
+    "loss": 1.3218,
+    "grad_norm": 2.67806077003479,
+    "learning_rate": 1.1641190099741904e-06
+  },
+  {
+    "step": 136,
+    "epoch": 3.830985915492958,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823648256,
+    "loss": 1.2947,
+    "grad_norm": 2.2404983043670654,
+    "learning_rate": 7.453836951897885e-07
+  },
+  {
+    "step": 137,
+    "epoch": 3.859154929577465,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.82366976,
+    "loss": 1.2894,
+    "grad_norm": 2.716714382171631,
+    "learning_rate": 4.194304228229806e-07
+  },
+  {
+    "step": 138,
+    "epoch": 3.887323943661972,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823680512,
+    "loss": 1.2933,
+    "grad_norm": 1.7514668703079224,
+    "learning_rate": 1.8646181716164831e-07
+  },
+  {
+    "step": 139,
+    "epoch": 3.915492957746479,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823672832,
+    "loss": 1.3346,
+    "grad_norm": 1.9952417612075806,
+    "learning_rate": 4.662269987756317e-08
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823706624,
+    "loss": 1.3088,
+    "grad_norm": 2.4654135704040527,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 1.502625792,
+    "gpu_mem": 4.823706624,
+    "train_runtime": 678.9966,
+    "train_samples_per_second": 13.261,
+    "train_steps_per_second": 0.206,
+    "total_flos": 0.0,
+    "train_loss": 1.6106574450220381
+  }
+]

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r8-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 16,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 8,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r8-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_e",
+    "results": 0.6611952861952862
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r8-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_E",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 8,
+    "alpha": 16,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 6317696
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-arc_e-r8-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r8-a2",
+  "seed": 42,
+  "timestamp": "2025-08-30T22:53:40.430500"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-arc_e-r8-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,1273 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.028169014084507043,
+    "cpu_mem": 1.488003072,
+    "gpu_mem": 4.44271872,
+    "loss": 4.6319,
+    "grad_norm": 276.5605773925781,
+    "learning_rate": 2.1428571428571425e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.056338028169014086,
+    "cpu_mem": 1.493704704,
+    "gpu_mem": 4.493400064,
+    "loss": 4.4578,
+    "grad_norm": 282.3363952636719,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.08450704225352113,
+    "cpu_mem": 1.493901312,
+    "gpu_mem": 4.49337856,
+    "loss": 2.9702,
+    "grad_norm": 613.773193359375,
+    "learning_rate": 6.428571428571427e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.11267605633802817,
+    "cpu_mem": 1.493901312,
+    "gpu_mem": 4.493357056,
+    "loss": 1.9283,
+    "grad_norm": 45.13872146606445,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.14084507042253522,
+    "cpu_mem": 1.49409792,
+    "gpu_mem": 4.493398528,
+    "loss": 1.493,
+    "grad_norm": 16.81772232055664,
+    "learning_rate": 0.00010714285714285714
+  },
+  {
+    "step": 6,
+    "epoch": 0.16901408450704225,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493373952,
+    "loss": 1.3415,
+    "grad_norm": 12.790365219116211,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 7,
+    "epoch": 0.19718309859154928,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493396992,
+    "loss": 1.5003,
+    "grad_norm": 25.754161834716797,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 8,
+    "epoch": 0.22535211267605634,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.49335552,
+    "loss": 1.3258,
+    "grad_norm": 6.1254353523254395,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 9,
+    "epoch": 0.2535211267605634,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493357056,
+    "loss": 1.4644,
+    "grad_norm": 34.32180404663086,
+    "learning_rate": 0.00019285714285714286
+  },
+  {
+    "step": 10,
+    "epoch": 0.28169014084507044,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493352448,
+    "loss": 1.4288,
+    "grad_norm": 23.392850875854492,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 11,
+    "epoch": 0.30985915492957744,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493430784,
+    "loss": 1.5429,
+    "grad_norm": 20.585525512695312,
+    "learning_rate": 0.00023571428571428569
+  },
+  {
+    "step": 12,
+    "epoch": 0.3380281690140845,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493404672,
+    "loss": 1.305,
+    "grad_norm": 5.136800765991211,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 13,
+    "epoch": 0.36619718309859156,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.49335552,
+    "loss": 1.3883,
+    "grad_norm": 26.17745590209961,
+    "learning_rate": 0.00027857142857142854
+  },
+  {
+    "step": 14,
+    "epoch": 0.39436619718309857,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493377024,
+    "loss": 1.4056,
+    "grad_norm": 12.29943561553955,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 15,
+    "epoch": 0.4225352112676056,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493353984,
+    "loss": 1.3972,
+    "grad_norm": 5.9298176765441895,
+    "learning_rate": 0.0002999533773001224
+  },
+  {
+    "step": 16,
+    "epoch": 0.4507042253521127,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493358592,
+    "loss": 1.3433,
+    "grad_norm": 2.671994924545288,
+    "learning_rate": 0.0002998135381828383
+  },
+  {
+    "step": 17,
+    "epoch": 0.4788732394366197,
+    "cpu_mem": 1.494294528,
+    "gpu_mem": 4.493395456,
+    "loss": 1.3402,
+    "grad_norm": 5.09276008605957,
+    "learning_rate": 0.00029958056957717696
+  },
+  {
+    "step": 18,
+    "epoch": 0.5070422535211268,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493406208,
+    "loss": 1.3272,
+    "grad_norm": 4.426205635070801,
+    "learning_rate": 0.0002992546163048102
+  },
+  {
+    "step": 19,
+    "epoch": 0.5352112676056338,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493349376,
+    "loss": 1.4243,
+    "grad_norm": 10.765657424926758,
+    "learning_rate": 0.0002988358809900258
+  },
+  {
+    "step": 20,
+    "epoch": 0.5633802816901409,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493420032,
+    "loss": 1.4339,
+    "grad_norm": 7.541872024536133,
+    "learning_rate": 0.0002983246239337692
+  },
+  {
+    "step": 21,
+    "epoch": 0.5915492957746479,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493418496,
+    "loss": 1.349,
+    "grad_norm": 5.185708522796631,
+    "learning_rate": 0.0002977211629518312
+  },
+  {
+    "step": 22,
+    "epoch": 0.6197183098591549,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493375488,
+    "loss": 1.3539,
+    "grad_norm": 6.7187676429748535,
+    "learning_rate": 0.00029702587317728153
+  },
+  {
+    "step": 23,
+    "epoch": 0.647887323943662,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493392384,
+    "loss": 1.3318,
+    "grad_norm": 6.468657493591309,
+    "learning_rate": 0.0002962391868272735
+  },
+  {
+    "step": 24,
+    "epoch": 0.676056338028169,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493349376,
+    "loss": 1.306,
+    "grad_norm": 3.4460861682891846,
+    "learning_rate": 0.00029536159293436166
+  },
+  {
+    "step": 25,
+    "epoch": 0.704225352112676,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.49337856,
+    "loss": 1.5276,
+    "grad_norm": 12.144696235656738,
+    "learning_rate": 0.00029439363704250176
+  },
+  {
+    "step": 26,
+    "epoch": 0.7323943661971831,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493358592,
+    "loss": 1.4864,
+    "grad_norm": 5.351874351501465,
+    "learning_rate": 0.00029333592086792107
+  },
+  {
+    "step": 27,
+    "epoch": 0.7605633802816901,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493384704,
+    "loss": 1.3675,
+    "grad_norm": 5.478825092315674,
+    "learning_rate": 0.0002921891019250697
+  },
+  {
+    "step": 28,
+    "epoch": 0.7887323943661971,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493384704,
+    "loss": 1.4199,
+    "grad_norm": 5.453819274902344,
+    "learning_rate": 0.0002909538931178862
+  },
+  {
+    "step": 29,
+    "epoch": 0.8169014084507042,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.4933632,
+    "loss": 1.2599,
+    "grad_norm": 2.9942517280578613,
+    "learning_rate": 0.00028963106229663063
+  },
+  {
+    "step": 30,
+    "epoch": 0.8450704225352113,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493353984,
+    "loss": 1.3457,
+    "grad_norm": 3.5960090160369873,
+    "learning_rate": 0.00028822143178056114
+  },
+  {
+    "step": 31,
+    "epoch": 0.8732394366197183,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493372416,
+    "loss": 1.3961,
+    "grad_norm": 5.403853416442871,
+    "learning_rate": 0.00028672587784675096
+  },
+  {
+    "step": 32,
+    "epoch": 0.9014084507042254,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493395456,
+    "loss": 1.3711,
+    "grad_norm": 6.018552303314209,
+    "learning_rate": 0.0002851453301853628
+  },
+  {
+    "step": 33,
+    "epoch": 0.9295774647887324,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493392384,
+    "loss": 1.3374,
+    "grad_norm": 2.8503122329711914,
+    "learning_rate": 0.00028348077132172027
+  },
+  {
+    "step": 34,
+    "epoch": 0.9577464788732394,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493395456,
+    "loss": 1.386,
+    "grad_norm": 4.291422367095947,
+    "learning_rate": 0.0002817332360055343
+  },
+  {
+    "step": 35,
+    "epoch": 0.9859154929577465,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493377024,
+    "loss": 1.3118,
+    "grad_norm": 3.1133341789245605,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 36,
+    "epoch": 1.0140845070422535,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518678016,
+    "loss": 1.9673,
+    "grad_norm": 5.740923881530762,
+    "learning_rate": 0.0002779936322448233
+  },
+  {
+    "step": 37,
+    "epoch": 1.0422535211267605,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518682624,
+    "loss": 1.339,
+    "grad_norm": 3.4668984413146973,
+    "learning_rate": 0.0002760038884726157
+  },
+  {
+    "step": 38,
+    "epoch": 1.0704225352112675,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.51866112,
+    "loss": 1.2514,
+    "grad_norm": 3.128293514251709,
+    "learning_rate": 0.00027393581614739923
+  },
+  {
+    "step": 39,
+    "epoch": 1.0985915492957747,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518650368,
+    "loss": 1.3329,
+    "grad_norm": 4.251654148101807,
+    "learning_rate": 0.0002717907008573785
+  },
+  {
+    "step": 40,
+    "epoch": 1.1267605633802817,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518713344,
+    "loss": 1.3431,
+    "grad_norm": 3.2362022399902344,
+    "learning_rate": 0.0002695698760834384
+  },
+  {
+    "step": 41,
+    "epoch": 1.1549295774647887,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518673408,
+    "loss": 1.3388,
+    "grad_norm": 3.327332019805908,
+    "learning_rate": 0.00026727472237020447
+  },
+  {
+    "step": 42,
+    "epoch": 1.1830985915492958,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518716416,
+    "loss": 1.3812,
+    "grad_norm": 3.0941553115844727,
+    "learning_rate": 0.00026490666646784665
+  },
+  {
+    "step": 43,
+    "epoch": 1.2112676056338028,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518665728,
+    "loss": 1.3735,
+    "grad_norm": 2.356278419494629,
+    "learning_rate": 0.0002624671804451601
+  },
+  {
+    "step": 44,
+    "epoch": 1.2394366197183098,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.51873024,
+    "loss": 1.3766,
+    "grad_norm": 3.27545428276062,
+    "learning_rate": 0.0002599577807744739
+  },
+  {
+    "step": 45,
+    "epoch": 1.267605633802817,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518697984,
+    "loss": 1.3891,
+    "grad_norm": 2.333723306655884,
+    "learning_rate": 0.0002573800273889577
+  },
+  {
+    "step": 46,
+    "epoch": 1.295774647887324,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518702592,
+    "loss": 1.3937,
+    "grad_norm": 3.481844425201416,
+    "learning_rate": 0.0002547355227129109
+  },
+  {
+    "step": 47,
+    "epoch": 1.323943661971831,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518648832,
+    "loss": 1.3532,
+    "grad_norm": 4.956977844238281,
+    "learning_rate": 0.00025202591066563786
+  },
+  {
+    "step": 48,
+    "epoch": 1.352112676056338,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518662656,
+    "loss": 1.3068,
+    "grad_norm": 3.1343212127685547,
+    "learning_rate": 0.0002492528756395289
+  },
+  {
+    "step": 49,
+    "epoch": 1.380281690140845,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518651904,
+    "loss": 1.3936,
+    "grad_norm": 8.055434226989746,
+    "learning_rate": 0.0002464181414529809
+  },
+  {
+    "step": 50,
+    "epoch": 1.408450704225352,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518665728,
+    "loss": 1.4007,
+    "grad_norm": 16.459016799926758,
+    "learning_rate": 0.00024352347027881003
+  },
+  {
+    "step": 51,
+    "epoch": 1.436619718309859,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518717952,
+    "loss": 1.4211,
+    "grad_norm": 16.374134063720703,
+    "learning_rate": 0.0002405706615488216
+  },
+  {
+    "step": 52,
+    "epoch": 1.4647887323943662,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518665728,
+    "loss": 1.3547,
+    "grad_norm": 4.7861762046813965,
+    "learning_rate": 0.00023756155083521846
+  },
+  {
+    "step": 53,
+    "epoch": 1.4929577464788732,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518734848,
+    "loss": 1.3086,
+    "grad_norm": 5.092458724975586,
+    "learning_rate": 0.00023449800870954326
+  },
+  {
+    "step": 54,
+    "epoch": 1.5211267605633803,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518702592,
+    "loss": 1.3138,
+    "grad_norm": 3.623900890350342,
+    "learning_rate": 0.0002313819395798639
+  },
+  {
+    "step": 55,
+    "epoch": 1.5492957746478875,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518711808,
+    "loss": 1.3956,
+    "grad_norm": 4.312674522399902,
+    "learning_rate": 0.0002282152805069247
+  },
+  {
+    "step": 56,
+    "epoch": 1.5774647887323945,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518687232,
+    "loss": 1.341,
+    "grad_norm": 3.958331346511841,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 57,
+    "epoch": 1.6056338028169015,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518721024,
+    "loss": 1.3175,
+    "grad_norm": 3.097858190536499,
+    "learning_rate": 0.00022173809679319772
+  },
+  {
+    "step": 58,
+    "epoch": 1.6338028169014085,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518702592,
+    "loss": 1.3063,
+    "grad_norm": 3.0172431468963623,
+    "learning_rate": 0.00021843159860297442
+  },
+  {
+    "step": 59,
+    "epoch": 1.6619718309859155,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518688768,
+    "loss": 1.3144,
+    "grad_norm": 2.152859687805176,
+    "learning_rate": 0.00021508256086763368
+  },
+  {
+    "step": 60,
+    "epoch": 1.6901408450704225,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518727168,
+    "loss": 1.3108,
+    "grad_norm": 3.8040716648101807,
+    "learning_rate": 0.00021169306546959174
+  },
+  {
+    "step": 61,
+    "epoch": 1.7183098591549295,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518659584,
+    "loss": 1.3203,
+    "grad_norm": 3.8633904457092285,
+    "learning_rate": 0.0002082652194412042
+  },
+  {
+    "step": 62,
+    "epoch": 1.7464788732394365,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.5187072,
+    "loss": 1.3983,
+    "grad_norm": 4.749051094055176,
+    "learning_rate": 0.00020480115365495926
+  },
+  {
+    "step": 63,
+    "epoch": 1.7746478873239435,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518656512,
+    "loss": 1.3682,
+    "grad_norm": 5.358827114105225,
+    "learning_rate": 0.00020130302149885031
+  },
+  {
+    "step": 64,
+    "epoch": 1.8028169014084507,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518705664,
+    "loss": 1.4047,
+    "grad_norm": 5.390880584716797,
+    "learning_rate": 0.00019777299753775265
+  },
+  {
+    "step": 65,
+    "epoch": 1.8309859154929577,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518704128,
+    "loss": 1.3214,
+    "grad_norm": 4.8978447914123535,
+    "learning_rate": 0.00019421327616163563
+  },
+  {
+    "step": 66,
+    "epoch": 1.8591549295774648,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.51872256,
+    "loss": 1.3365,
+    "grad_norm": 4.024534225463867,
+    "learning_rate": 0.00019062607022145078
+  },
+  {
+    "step": 67,
+    "epoch": 1.887323943661972,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518664192,
+    "loss": 1.3593,
+    "grad_norm": 10.947258949279785,
+    "learning_rate": 0.00018701360965354402
+  },
+  {
+    "step": 68,
+    "epoch": 1.915492957746479,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.51867648,
+    "loss": 1.3801,
+    "grad_norm": 7.698343276977539,
+    "learning_rate": 0.00018337814009344714
+  },
+  {
+    "step": 69,
+    "epoch": 1.943661971830986,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518701056,
+    "loss": 1.365,
+    "grad_norm": 6.346189022064209,
+    "learning_rate": 0.0001797219214799096
+  },
+  {
+    "step": 70,
+    "epoch": 1.971830985915493,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518678016,
+    "loss": 1.2689,
+    "grad_norm": 4.332313060760498,
+    "learning_rate": 0.00017604722665003956
+  },
+  {
+    "step": 71,
+    "epoch": 2.0,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518513664,
+    "loss": 1.9494,
+    "grad_norm": 61.389652252197266,
+    "learning_rate": 0.00017235633992642615
+  },
+  {
+    "step": 72,
+    "epoch": 2.028169014084507,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493387776,
+    "loss": 1.369,
+    "grad_norm": 5.659824848175049,
+    "learning_rate": 0.00016865155569712278
+  },
+  {
+    "step": 73,
+    "epoch": 2.056338028169014,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493350912,
+    "loss": 1.3145,
+    "grad_norm": 4.936837673187256,
+    "learning_rate": 0.0001649351769893725
+  },
+  {
+    "step": 74,
+    "epoch": 2.084507042253521,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493410816,
+    "loss": 1.2625,
+    "grad_norm": 3.075138568878174,
+    "learning_rate": 0.00016120951403796364
+  },
+  {
+    "step": 75,
+    "epoch": 2.112676056338028,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.49337856,
+    "loss": 1.34,
+    "grad_norm": 2.8183681964874268,
+    "learning_rate": 0.00015747688284910457
+  },
+  {
+    "step": 76,
+    "epoch": 2.140845070422535,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493389312,
+    "loss": 1.2405,
+    "grad_norm": 2.041452169418335,
+    "learning_rate": 0.00015373960376071093
+  },
+  {
+    "step": 77,
+    "epoch": 2.169014084507042,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493426176,
+    "loss": 1.3003,
+    "grad_norm": 3.310304880142212,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 78,
+    "epoch": 2.1971830985915495,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493410816,
+    "loss": 1.3301,
+    "grad_norm": 4.006730079650879,
+    "learning_rate": 0.00014626039623928907
+  },
+  {
+    "step": 79,
+    "epoch": 2.2253521126760565,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493361664,
+    "loss": 1.2198,
+    "grad_norm": 3.7885594367980957,
+    "learning_rate": 0.0001425231171508954
+  },
+  {
+    "step": 80,
+    "epoch": 2.2535211267605635,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493406208,
+    "loss": 1.3053,
+    "grad_norm": 3.224207639694214,
+    "learning_rate": 0.00013879048596203636
+  },
+  {
+    "step": 81,
+    "epoch": 2.2816901408450705,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493392384,
+    "loss": 1.3576,
+    "grad_norm": 5.85601282119751,
+    "learning_rate": 0.0001350648230106275
+  },
+  {
+    "step": 82,
+    "epoch": 2.3098591549295775,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493360128,
+    "loss": 1.3497,
+    "grad_norm": 6.43959903717041,
+    "learning_rate": 0.00013134844430287725
+  },
+  {
+    "step": 83,
+    "epoch": 2.3380281690140845,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493410816,
+    "loss": 1.2215,
+    "grad_norm": 5.418457508087158,
+    "learning_rate": 0.0001276436600735738
+  },
+  {
+    "step": 84,
+    "epoch": 2.3661971830985915,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493349376,
+    "loss": 1.3708,
+    "grad_norm": 6.882091045379639,
+    "learning_rate": 0.00012395277334996044
+  },
+  {
+    "step": 85,
+    "epoch": 2.3943661971830985,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493395456,
+    "loss": 1.3319,
+    "grad_norm": 6.375625133514404,
+    "learning_rate": 0.00012027807852009038
+  },
+  {
+    "step": 86,
+    "epoch": 2.4225352112676055,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493349376,
+    "loss": 1.29,
+    "grad_norm": 4.537503719329834,
+    "learning_rate": 0.00011662185990655284
+  },
+  {
+    "step": 87,
+    "epoch": 2.4507042253521125,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493380096,
+    "loss": 1.2986,
+    "grad_norm": 5.286020278930664,
+    "learning_rate": 0.00011298639034645593
+  },
+  {
+    "step": 88,
+    "epoch": 2.4788732394366195,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.49335552,
+    "loss": 1.2059,
+    "grad_norm": 4.801527500152588,
+    "learning_rate": 0.00010937392977854923
+  },
+  {
+    "step": 89,
+    "epoch": 2.507042253521127,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.49340928,
+    "loss": 1.2417,
+    "grad_norm": 4.618600845336914,
+    "learning_rate": 0.00010578672383836435
+  },
+  {
+    "step": 90,
+    "epoch": 2.535211267605634,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493390848,
+    "loss": 1.3213,
+    "grad_norm": 5.864246845245361,
+    "learning_rate": 0.00010222700246224735
+  },
+  {
+    "step": 91,
+    "epoch": 2.563380281690141,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.49334016,
+    "loss": 1.3045,
+    "grad_norm": 5.989525318145752,
+    "learning_rate": 9.869697850114969e-05
+  },
+  {
+    "step": 92,
+    "epoch": 2.591549295774648,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493364736,
+    "loss": 1.3411,
+    "grad_norm": 6.808497905731201,
+    "learning_rate": 9.519884634504074e-05
+  },
+  {
+    "step": 93,
+    "epoch": 2.619718309859155,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493367808,
+    "loss": 1.2999,
+    "grad_norm": 7.139451026916504,
+    "learning_rate": 9.17347805587958e-05
+  },
+  {
+    "step": 94,
+    "epoch": 2.647887323943662,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493360128,
+    "loss": 1.2241,
+    "grad_norm": 5.613903522491455,
+    "learning_rate": 8.830693453040829e-05
+  },
+  {
+    "step": 95,
+    "epoch": 2.676056338028169,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493398528,
+    "loss": 1.2218,
+    "grad_norm": 4.103054523468018,
+    "learning_rate": 8.491743913236628e-05
+  },
+  {
+    "step": 96,
+    "epoch": 2.704225352112676,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493407744,
+    "loss": 1.1553,
+    "grad_norm": 4.9666829109191895,
+    "learning_rate": 8.156840139702554e-05
+  },
+  {
+    "step": 97,
+    "epoch": 2.732394366197183,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493350912,
+    "loss": 1.2102,
+    "grad_norm": 4.077977180480957,
+    "learning_rate": 7.82619032068023e-05
+  },
+  {
+    "step": 98,
+    "epoch": 2.76056338028169,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493350912,
+    "loss": 1.276,
+    "grad_norm": 4.605331897735596,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 99,
+    "epoch": 2.788732394366197,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.49334784,
+    "loss": 1.2602,
+    "grad_norm": 7.203280448913574,
+    "learning_rate": 7.17847194930753e-05
+  },
+  {
+    "step": 100,
+    "epoch": 2.816901408450704,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493346304,
+    "loss": 1.2185,
+    "grad_norm": 4.943838119506836,
+    "learning_rate": 6.86180604201361e-05
+  },
+  {
+    "step": 101,
+    "epoch": 2.845070422535211,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493389312,
+    "loss": 1.1767,
+    "grad_norm": 4.598587512969971,
+    "learning_rate": 6.550199129045668e-05
+  },
+  {
+    "step": 102,
+    "epoch": 2.873239436619718,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493327872,
+    "loss": 1.2838,
+    "grad_norm": 4.879561901092529,
+    "learning_rate": 6.243844916478155e-05
+  },
+  {
+    "step": 103,
+    "epoch": 2.9014084507042255,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493377024,
+    "loss": 1.2128,
+    "grad_norm": 4.067531108856201,
+    "learning_rate": 5.9429338451178355e-05
+  },
+  {
+    "step": 104,
+    "epoch": 2.9295774647887325,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.49344,
+    "loss": 1.2998,
+    "grad_norm": 5.858630180358887,
+    "learning_rate": 5.6476529721189974e-05
+  },
+  {
+    "step": 105,
+    "epoch": 2.9577464788732395,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493392384,
+    "loss": 1.1456,
+    "grad_norm": 4.226877689361572,
+    "learning_rate": 5.358185854701909e-05
+  },
+  {
+    "step": 106,
+    "epoch": 2.9859154929577465,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.493373952,
+    "loss": 1.2223,
+    "grad_norm": 4.734609127044678,
+    "learning_rate": 5.074712436047112e-05
+  },
+  {
+    "step": 107,
+    "epoch": 3.0140845070422535,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518701056,
+    "loss": 1.625,
+    "grad_norm": 12.016558647155762,
+    "learning_rate": 4.7974089334362057e-05
+  },
+  {
+    "step": 108,
+    "epoch": 3.0422535211267605,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518682624,
+    "loss": 1.025,
+    "grad_norm": 5.136899948120117,
+    "learning_rate": 4.526447728708908e-05
+  },
+  {
+    "step": 109,
+    "epoch": 3.0704225352112675,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518671872,
+    "loss": 1.0919,
+    "grad_norm": 6.250692844390869,
+    "learning_rate": 4.261997261104223e-05
+  },
+  {
+    "step": 110,
+    "epoch": 3.0985915492957745,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518725632,
+    "loss": 0.9629,
+    "grad_norm": 6.343587875366211,
+    "learning_rate": 4.004221922552608e-05
+  },
+  {
+    "step": 111,
+    "epoch": 3.1267605633802815,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518685696,
+    "loss": 1.0155,
+    "grad_norm": 6.334781169891357,
+    "learning_rate": 3.753281955483985e-05
+  },
+  {
+    "step": 112,
+    "epoch": 3.1549295774647885,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518704128,
+    "loss": 1.039,
+    "grad_norm": 8.391195297241211,
+    "learning_rate": 3.509333353215331e-05
+  },
+  {
+    "step": 113,
+    "epoch": 3.183098591549296,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518767104,
+    "loss": 0.9537,
+    "grad_norm": 7.252392768859863,
+    "learning_rate": 3.2725277629795526e-05
+  },
+  {
+    "step": 114,
+    "epoch": 3.211267605633803,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518694912,
+    "loss": 1.0189,
+    "grad_norm": 8.310603141784668,
+    "learning_rate": 3.0430123916561672e-05
+  },
+  {
+    "step": 115,
+    "epoch": 3.23943661971831,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518688768,
+    "loss": 1.0358,
+    "grad_norm": 7.496110916137695,
+    "learning_rate": 2.8209299142621522e-05
+  },
+  {
+    "step": 116,
+    "epoch": 3.267605633802817,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518704128,
+    "loss": 0.962,
+    "grad_norm": 8.337830543518066,
+    "learning_rate": 2.6064183852600797e-05
+  },
+  {
+    "step": 117,
+    "epoch": 3.295774647887324,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518719488,
+    "loss": 0.9699,
+    "grad_norm": 7.644598007202148,
+    "learning_rate": 2.3996111527384288e-05
+  },
+  {
+    "step": 118,
+    "epoch": 3.323943661971831,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518710272,
+    "loss": 0.89,
+    "grad_norm": 6.858006000518799,
+    "learning_rate": 2.2006367755176655e-05
+  },
+  {
+    "step": 119,
+    "epoch": 3.352112676056338,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518701056,
+    "loss": 0.8971,
+    "grad_norm": 8.39448356628418,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 120,
+    "epoch": 3.380281690140845,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518719488,
+    "loss": 0.9552,
+    "grad_norm": 8.790838241577148,
+    "learning_rate": 1.82667639944657e-05
+  },
+  {
+    "step": 121,
+    "epoch": 3.408450704225352,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518717952,
+    "loss": 0.7973,
+    "grad_norm": 9.548598289489746,
+    "learning_rate": 1.6519228678279718e-05
+  },
+  {
+    "step": 122,
+    "epoch": 3.436619718309859,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518674944,
+    "loss": 0.8216,
+    "grad_norm": 9.652661323547363,
+    "learning_rate": 1.4854669814637143e-05
+  },
+  {
+    "step": 123,
+    "epoch": 3.464788732394366,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.5187072,
+    "loss": 0.804,
+    "grad_norm": 8.80784797668457,
+    "learning_rate": 1.3274122153249028e-05
+  },
+  {
+    "step": 124,
+    "epoch": 3.492957746478873,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.51866112,
+    "loss": 0.8326,
+    "grad_norm": 9.57839584350586,
+    "learning_rate": 1.1778568219438839e-05
+  },
+  {
+    "step": 125,
+    "epoch": 3.52112676056338,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518705664,
+    "loss": 0.8423,
+    "grad_norm": 11.19555377960205,
+    "learning_rate": 1.036893770336938e-05
+  },
+  {
+    "step": 126,
+    "epoch": 3.5492957746478875,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518656512,
+    "loss": 0.7886,
+    "grad_norm": 10.461869239807129,
+    "learning_rate": 9.046106882113751e-06
+  },
+  {
+    "step": 127,
+    "epoch": 3.5774647887323945,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.5186688,
+    "loss": 0.8942,
+    "grad_norm": 10.252334594726562,
+    "learning_rate": 7.810898074930243e-06
+  },
+  {
+    "step": 128,
+    "epoch": 3.6056338028169015,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518693376,
+    "loss": 0.9278,
+    "grad_norm": 11.462838172912598,
+    "learning_rate": 6.664079132078881e-06
+  },
+  {
+    "step": 129,
+    "epoch": 3.6338028169014085,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518654976,
+    "loss": 0.7816,
+    "grad_norm": 10.681913375854492,
+    "learning_rate": 5.606362957498195e-06
+  },
+  {
+    "step": 130,
+    "epoch": 3.6619718309859155,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518658048,
+    "loss": 0.9345,
+    "grad_norm": 15.080108642578125,
+    "learning_rate": 4.638407065638322e-06
+  },
+  {
+    "step": 131,
+    "epoch": 3.6901408450704225,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518670336,
+    "loss": 0.8457,
+    "grad_norm": 11.008662223815918,
+    "learning_rate": 3.760813172726457e-06
+  },
+  {
+    "step": 132,
+    "epoch": 3.7183098591549295,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518635008,
+    "loss": 0.8203,
+    "grad_norm": 9.407642364501953,
+    "learning_rate": 2.9741268227184255e-06
+  },
+  {
+    "step": 133,
+    "epoch": 3.7464788732394365,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.51867648,
+    "loss": 0.8339,
+    "grad_norm": 9.52961254119873,
+    "learning_rate": 2.2788370481687965e-06
+  },
+  {
+    "step": 134,
+    "epoch": 3.7746478873239435,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.51869184,
+    "loss": 0.8828,
+    "grad_norm": 9.80649185180664,
+    "learning_rate": 1.6753760662307215e-06
+  },
+  {
+    "step": 135,
+    "epoch": 3.802816901408451,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518656512,
+    "loss": 0.9178,
+    "grad_norm": 12.667458534240723,
+    "learning_rate": 1.1641190099741904e-06
+  },
+  {
+    "step": 136,
+    "epoch": 3.830985915492958,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518664192,
+    "loss": 0.7627,
+    "grad_norm": 11.412312507629395,
+    "learning_rate": 7.453836951897885e-07
+  },
+  {
+    "step": 137,
+    "epoch": 3.859154929577465,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518685696,
+    "loss": 0.7683,
+    "grad_norm": 11.488083839416504,
+    "learning_rate": 4.194304228229806e-07
+  },
+  {
+    "step": 138,
+    "epoch": 3.887323943661972,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518696448,
+    "loss": 0.816,
+    "grad_norm": 10.21458911895752,
+    "learning_rate": 1.8646181716164831e-07
+  },
+  {
+    "step": 139,
+    "epoch": 3.915492957746479,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.518688768,
+    "loss": 0.9006,
+    "grad_norm": 12.040121078491211,
+    "learning_rate": 4.662269987756317e-08
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.51872256,
+    "loss": 0.8363,
+    "grad_norm": 12.032706260681152,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 1.494491136,
+    "gpu_mem": 4.51872256,
+    "train_runtime": 674.8012,
+    "train_samples_per_second": 13.343,
+    "train_steps_per_second": 0.207,
+    "total_flos": 0.0,
+    "train_loss": 1.3040791460445949
+  }
+]

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "boolq",
+    "results": 0.7926605504587156
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r2-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "BOOLQ",
+    "dataset_id": "google/boolq",
+    "preprocess_id": "boolq_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 2,
+    "alpha": 4,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 1577576
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 2,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-boolq-r2-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r2-a2",
+  "seed": 42,
+  "timestamp": "2025-08-30T12:13:11.031630"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r2-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,2659 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.006779661016949152,
+    "cpu_mem": 1.4856192,
+    "gpu_mem": 4.424159232,
+    "loss": 8.869,
+    "grad_norm": 265.7165832519531,
+    "learning_rate": 9.999999999999999e-06
+  },
+  {
+    "step": 2,
+    "epoch": 0.013559322033898305,
+    "cpu_mem": 1.491910656,
+    "gpu_mem": 4.437070336,
+    "loss": 8.9376,
+    "grad_norm": 272.0975036621094,
+    "learning_rate": 1.9999999999999998e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.020338983050847456,
+    "cpu_mem": 1.492697088,
+    "gpu_mem": 4.436988928,
+    "loss": 8.2439,
+    "grad_norm": 279.63671875,
+    "learning_rate": 2.9999999999999997e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.02711864406779661,
+    "cpu_mem": 1.49348352,
+    "gpu_mem": 4.436988928,
+    "loss": 6.7912,
+    "grad_norm": 283.7794494628906,
+    "learning_rate": 3.9999999999999996e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.03389830508474576,
+    "cpu_mem": 1.493876736,
+    "gpu_mem": 4.436924416,
+    "loss": 4.9316,
+    "grad_norm": 254.95008850097656,
+    "learning_rate": 4.9999999999999996e-05
+  },
+  {
+    "step": 6,
+    "epoch": 0.04067796610169491,
+    "cpu_mem": 1.49446656,
+    "gpu_mem": 4.436944384,
+    "loss": 3.114,
+    "grad_norm": 200.49691772460938,
+    "learning_rate": 5.9999999999999995e-05
+  },
+  {
+    "step": 7,
+    "epoch": 0.04745762711864407,
+    "cpu_mem": 1.495056384,
+    "gpu_mem": 4.436996608,
+    "loss": 1.6758,
+    "grad_norm": 93.27091217041016,
+    "learning_rate": 7e-05
+  },
+  {
+    "step": 8,
+    "epoch": 0.05423728813559322,
+    "cpu_mem": 1.495646208,
+    "gpu_mem": 4.437082624,
+    "loss": 1.039,
+    "grad_norm": 57.26808547973633,
+    "learning_rate": 7.999999999999999e-05
+  },
+  {
+    "step": 9,
+    "epoch": 0.061016949152542375,
+    "cpu_mem": 1.496039424,
+    "gpu_mem": 4.436990464,
+    "loss": 1.0551,
+    "grad_norm": 59.7805061340332,
+    "learning_rate": 8.999999999999999e-05
+  },
+  {
+    "step": 10,
+    "epoch": 0.06779661016949153,
+    "cpu_mem": 1.49643264,
+    "gpu_mem": 4.436890624,
+    "loss": 0.7487,
+    "grad_norm": 19.48933982849121,
+    "learning_rate": 9.999999999999999e-05
+  },
+  {
+    "step": 11,
+    "epoch": 0.07457627118644068,
+    "cpu_mem": 1.496825856,
+    "gpu_mem": 4.436995072,
+    "loss": 1.1287,
+    "grad_norm": 91.75373840332031,
+    "learning_rate": 0.00010999999999999998
+  },
+  {
+    "step": 12,
+    "epoch": 0.08135593220338982,
+    "cpu_mem": 1.49741568,
+    "gpu_mem": 4.437366784,
+    "loss": 1.0336,
+    "grad_norm": 73.30252838134766,
+    "learning_rate": 0.00011999999999999999
+  },
+  {
+    "step": 13,
+    "epoch": 0.08813559322033898,
+    "cpu_mem": 1.497808896,
+    "gpu_mem": 4.436970496,
+    "loss": 0.6842,
+    "grad_norm": 6.66005802154541,
+    "learning_rate": 0.00013
+  },
+  {
+    "step": 14,
+    "epoch": 0.09491525423728814,
+    "cpu_mem": 1.498202112,
+    "gpu_mem": 4.436947456,
+    "loss": 0.745,
+    "grad_norm": 33.216796875,
+    "learning_rate": 0.00014
+  },
+  {
+    "step": 15,
+    "epoch": 0.1016949152542373,
+    "cpu_mem": 1.49839872,
+    "gpu_mem": 4.436886016,
+    "loss": 0.8204,
+    "grad_norm": 36.137210845947266,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 16,
+    "epoch": 0.10847457627118644,
+    "cpu_mem": 1.498791936,
+    "gpu_mem": 4.436970496,
+    "loss": 0.7792,
+    "grad_norm": 31.646080017089844,
+    "learning_rate": 0.00015999999999999999
+  },
+  {
+    "step": 17,
+    "epoch": 0.1152542372881356,
+    "cpu_mem": 1.499185152,
+    "gpu_mem": 4.437010432,
+    "loss": 0.7334,
+    "grad_norm": 24.66205596923828,
+    "learning_rate": 0.00016999999999999999
+  },
+  {
+    "step": 18,
+    "epoch": 0.12203389830508475,
+    "cpu_mem": 1.499578368,
+    "gpu_mem": 4.437073408,
+    "loss": 0.6744,
+    "grad_norm": 3.4665486812591553,
+    "learning_rate": 0.00017999999999999998
+  },
+  {
+    "step": 19,
+    "epoch": 0.1288135593220339,
+    "cpu_mem": 1.499971584,
+    "gpu_mem": 4.436910592,
+    "loss": 0.8234,
+    "grad_norm": 28.424806594848633,
+    "learning_rate": 0.00018999999999999998
+  },
+  {
+    "step": 20,
+    "epoch": 0.13559322033898305,
+    "cpu_mem": 1.500168192,
+    "gpu_mem": 4.43702272,
+    "loss": 0.6248,
+    "grad_norm": 3.359628677368164,
+    "learning_rate": 0.00019999999999999998
+  },
+  {
+    "step": 21,
+    "epoch": 0.1423728813559322,
+    "cpu_mem": 1.500561408,
+    "gpu_mem": 4.437180928,
+    "loss": 0.6311,
+    "grad_norm": 10.9364595413208,
+    "learning_rate": 0.00020999999999999998
+  },
+  {
+    "step": 22,
+    "epoch": 0.14915254237288136,
+    "cpu_mem": 1.500954624,
+    "gpu_mem": 4.437073408,
+    "loss": 0.7505,
+    "grad_norm": 14.361480712890625,
+    "learning_rate": 0.00021999999999999995
+  },
+  {
+    "step": 23,
+    "epoch": 0.15593220338983052,
+    "cpu_mem": 1.501151232,
+    "gpu_mem": 4.43704576,
+    "loss": 0.6607,
+    "grad_norm": 11.354830741882324,
+    "learning_rate": 0.00023
+  },
+  {
+    "step": 24,
+    "epoch": 0.16271186440677965,
+    "cpu_mem": 1.50134784,
+    "gpu_mem": 4.437102592,
+    "loss": 0.608,
+    "grad_norm": 5.800236225128174,
+    "learning_rate": 0.00023999999999999998
+  },
+  {
+    "step": 25,
+    "epoch": 0.1694915254237288,
+    "cpu_mem": 1.501741056,
+    "gpu_mem": 4.436887552,
+    "loss": 0.8785,
+    "grad_norm": 32.040443420410156,
+    "learning_rate": 0.00025
+  },
+  {
+    "step": 26,
+    "epoch": 0.17627118644067796,
+    "cpu_mem": 1.501937664,
+    "gpu_mem": 4.436942848,
+    "loss": 1.0202,
+    "grad_norm": 42.82334899902344,
+    "learning_rate": 0.00026
+  },
+  {
+    "step": 27,
+    "epoch": 0.18305084745762712,
+    "cpu_mem": 1.50233088,
+    "gpu_mem": 4.437234688,
+    "loss": 0.6503,
+    "grad_norm": 10.639617919921875,
+    "learning_rate": 0.00027
+  },
+  {
+    "step": 28,
+    "epoch": 0.18983050847457628,
+    "cpu_mem": 1.502527488,
+    "gpu_mem": 4.436913664,
+    "loss": 0.7747,
+    "grad_norm": 29.44213104248047,
+    "learning_rate": 0.00028
+  },
+  {
+    "step": 29,
+    "epoch": 0.19661016949152543,
+    "cpu_mem": 1.502920704,
+    "gpu_mem": 4.436978176,
+    "loss": 1.0303,
+    "grad_norm": 55.7458381652832,
+    "learning_rate": 0.00029
+  },
+  {
+    "step": 30,
+    "epoch": 0.2033898305084746,
+    "cpu_mem": 1.503117312,
+    "gpu_mem": 4.437056512,
+    "loss": 0.7492,
+    "grad_norm": 22.058603286743164,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 31,
+    "epoch": 0.21016949152542372,
+    "cpu_mem": 1.50331392,
+    "gpu_mem": 4.436859904,
+    "loss": 0.5481,
+    "grad_norm": 3.686203956604004,
+    "learning_rate": 0.0002999893794250036
+  },
+  {
+    "step": 32,
+    "epoch": 0.21694915254237288,
+    "cpu_mem": 1.503510528,
+    "gpu_mem": 4.436973568,
+    "loss": 0.834,
+    "grad_norm": 23.762094497680664,
+    "learning_rate": 0.00029995751920396937
+  },
+  {
+    "step": 33,
+    "epoch": 0.22372881355932203,
+    "cpu_mem": 1.503707136,
+    "gpu_mem": 4.437211648,
+    "loss": 0.8735,
+    "grad_norm": 20.501628875732422,
+    "learning_rate": 0.00029990442384854874
+  },
+  {
+    "step": 34,
+    "epoch": 0.2305084745762712,
+    "cpu_mem": 1.503903744,
+    "gpu_mem": 4.436913664,
+    "loss": 0.5833,
+    "grad_norm": 5.7299933433532715,
+    "learning_rate": 0.0002998301008774512
+  },
+  {
+    "step": 35,
+    "epoch": 0.23728813559322035,
+    "cpu_mem": 1.504100352,
+    "gpu_mem": 4.437124096,
+    "loss": 0.6658,
+    "grad_norm": 7.160278797149658,
+    "learning_rate": 0.0002997345608153792
+  },
+  {
+    "step": 36,
+    "epoch": 0.2440677966101695,
+    "cpu_mem": 1.50429696,
+    "gpu_mem": 4.437074944,
+    "loss": 0.711,
+    "grad_norm": 18.156116485595703,
+    "learning_rate": 0.000299617817191538
+  },
+  {
+    "step": 37,
+    "epoch": 0.25084745762711863,
+    "cpu_mem": 1.504493568,
+    "gpu_mem": 4.436886016,
+    "loss": 0.5941,
+    "grad_norm": 4.312148094177246,
+    "learning_rate": 0.0002994798865377198
+  },
+  {
+    "step": 38,
+    "epoch": 0.2576271186440678,
+    "cpu_mem": 1.504690176,
+    "gpu_mem": 4.437133312,
+    "loss": 0.8683,
+    "grad_norm": 32.92335891723633,
+    "learning_rate": 0.0002993207883859627
+  },
+  {
+    "step": 39,
+    "epoch": 0.26440677966101694,
+    "cpu_mem": 1.504886784,
+    "gpu_mem": 4.437512704,
+    "loss": 0.7286,
+    "grad_norm": 17.68904685974121,
+    "learning_rate": 0.0002991405452657846
+  },
+  {
+    "step": 40,
+    "epoch": 0.2711864406779661,
+    "cpu_mem": 1.505083392,
+    "gpu_mem": 4.437082624,
+    "loss": 0.5857,
+    "grad_norm": 4.258547782897949,
+    "learning_rate": 0.00029893918270099324
+  },
+  {
+    "step": 41,
+    "epoch": 0.27796610169491526,
+    "cpu_mem": 1.50528,
+    "gpu_mem": 4.437309952,
+    "loss": 0.6943,
+    "grad_norm": 15.192357063293457,
+    "learning_rate": 0.00029871672920607153
+  },
+  {
+    "step": 42,
+    "epoch": 0.2847457627118644,
+    "cpu_mem": 1.505476608,
+    "gpu_mem": 4.43720704,
+    "loss": 0.5717,
+    "grad_norm": 10.226648330688477,
+    "learning_rate": 0.0002984732162821399
+  },
+  {
+    "step": 43,
+    "epoch": 0.29152542372881357,
+    "cpu_mem": 1.505673216,
+    "gpu_mem": 4.437028864,
+    "loss": 0.6568,
+    "grad_norm": 8.291679382324219,
+    "learning_rate": 0.0002982086784124952
+  },
+  {
+    "step": 44,
+    "epoch": 0.2983050847457627,
+    "cpu_mem": 1.505869824,
+    "gpu_mem": 4.437171712,
+    "loss": 0.6187,
+    "grad_norm": 9.696277618408203,
+    "learning_rate": 0.00029792315305772796
+  },
+  {
+    "step": 45,
+    "epoch": 0.3050847457627119,
+    "cpu_mem": 1.505869824,
+    "gpu_mem": 4.436952064,
+    "loss": 0.8114,
+    "grad_norm": 17.778474807739258,
+    "learning_rate": 0.0002976166806504174
+  },
+  {
+    "step": 46,
+    "epoch": 0.31186440677966104,
+    "cpu_mem": 1.506066432,
+    "gpu_mem": 4.437194752,
+    "loss": 0.7589,
+    "grad_norm": 25.64463996887207,
+    "learning_rate": 0.00029728930458940595
+  },
+  {
+    "step": 47,
+    "epoch": 0.31864406779661014,
+    "cpu_mem": 1.50626304,
+    "gpu_mem": 4.436918272,
+    "loss": 0.8276,
+    "grad_norm": 28.21428108215332,
+    "learning_rate": 0.00029694107123365385
+  },
+  {
+    "step": 48,
+    "epoch": 0.3254237288135593,
+    "cpu_mem": 1.50626304,
+    "gpu_mem": 4.436995072,
+    "loss": 0.6789,
+    "grad_norm": 26.740333557128906,
+    "learning_rate": 0.00029657202989567393
+  },
+  {
+    "step": 49,
+    "epoch": 0.33220338983050846,
+    "cpu_mem": 1.506459648,
+    "gpu_mem": 4.437011968,
+    "loss": 0.7783,
+    "grad_norm": 16.810571670532227,
+    "learning_rate": 0.00029618223283454893
+  },
+  {
+    "step": 50,
+    "epoch": 0.3389830508474576,
+    "cpu_mem": 1.506459648,
+    "gpu_mem": 4.436950528,
+    "loss": 0.6132,
+    "grad_norm": 5.90757942199707,
+    "learning_rate": 0.00029577173524853123
+  },
+  {
+    "step": 51,
+    "epoch": 0.34576271186440677,
+    "cpu_mem": 1.506656256,
+    "gpu_mem": 4.436955136,
+    "loss": 0.5682,
+    "grad_norm": 6.385296821594238,
+    "learning_rate": 0.0002953405952672261
+  },
+  {
+    "step": 52,
+    "epoch": 0.3525423728813559,
+    "cpu_mem": 1.506656256,
+    "gpu_mem": 4.437035008,
+    "loss": 0.5911,
+    "grad_norm": 4.772059917449951,
+    "learning_rate": 0.0002948888739433602
+  },
+  {
+    "step": 53,
+    "epoch": 0.3593220338983051,
+    "cpu_mem": 1.506852864,
+    "gpu_mem": 4.437058048,
+    "loss": 0.5848,
+    "grad_norm": 9.717635154724121,
+    "learning_rate": 0.0002944166352441363
+  },
+  {
+    "step": 54,
+    "epoch": 0.36610169491525424,
+    "cpu_mem": 1.507049472,
+    "gpu_mem": 4.436985856,
+    "loss": 0.6352,
+    "grad_norm": 10.524502754211426,
+    "learning_rate": 0.0002939239460421746
+  },
+  {
+    "step": 55,
+    "epoch": 0.3728813559322034,
+    "cpu_mem": 1.507049472,
+    "gpu_mem": 4.437256192,
+    "loss": 0.6172,
+    "grad_norm": 6.137028694152832,
+    "learning_rate": 0.00029341087610604337
+  },
+  {
+    "step": 56,
+    "epoch": 0.37966101694915255,
+    "cpu_mem": 1.50724608,
+    "gpu_mem": 4.437042688,
+    "loss": 0.7273,
+    "grad_norm": 11.40707015991211,
+    "learning_rate": 0.00029287749809037904
+  },
+  {
+    "step": 57,
+    "epoch": 0.3864406779661017,
+    "cpu_mem": 1.50724608,
+    "gpu_mem": 4.437036544,
+    "loss": 0.5833,
+    "grad_norm": 8.116436958312988,
+    "learning_rate": 0.0002923238875255979
+  },
+  {
+    "step": 58,
+    "epoch": 0.39322033898305087,
+    "cpu_mem": 1.507442688,
+    "gpu_mem": 4.436932096,
+    "loss": 0.5561,
+    "grad_norm": 4.918622016906738,
+    "learning_rate": 0.00029175012280720024
+  },
+  {
+    "step": 59,
+    "epoch": 0.4,
+    "cpu_mem": 1.507442688,
+    "gpu_mem": 4.436948992,
+    "loss": 0.6541,
+    "grad_norm": 8.79553508758545,
+    "learning_rate": 0.000291156285184669
+  },
+  {
+    "step": 60,
+    "epoch": 0.4067796610169492,
+    "cpu_mem": 1.507639296,
+    "gpu_mem": 4.437042688,
+    "loss": 0.5448,
+    "grad_norm": 4.7404704093933105,
+    "learning_rate": 0.00029054245874996426
+  },
+  {
+    "step": 61,
+    "epoch": 0.4135593220338983,
+    "cpu_mem": 1.507639296,
+    "gpu_mem": 4.43705344,
+    "loss": 0.5885,
+    "grad_norm": 4.77510929107666,
+    "learning_rate": 0.0002899087304256151
+  },
+  {
+    "step": 62,
+    "epoch": 0.42033898305084744,
+    "cpu_mem": 1.507835904,
+    "gpu_mem": 4.437041152,
+    "loss": 0.7054,
+    "grad_norm": 11.460348129272461,
+    "learning_rate": 0.0002892551899524109
+  },
+  {
+    "step": 63,
+    "epoch": 0.4271186440677966,
+    "cpu_mem": 1.507835904,
+    "gpu_mem": 4.437033472,
+    "loss": 0.5369,
+    "grad_norm": 31.070810317993164,
+    "learning_rate": 0.000288581929876693
+  },
+  {
+    "step": 64,
+    "epoch": 0.43389830508474575,
+    "cpu_mem": 1.507835904,
+    "gpu_mem": 4.436962816,
+    "loss": 0.609,
+    "grad_norm": 15.022584915161133,
+    "learning_rate": 0.0002878890455372498
+  },
+  {
+    "step": 65,
+    "epoch": 0.4406779661016949,
+    "cpu_mem": 1.507835904,
+    "gpu_mem": 4.43700736,
+    "loss": 0.5679,
+    "grad_norm": 5.917741775512695,
+    "learning_rate": 0.0002871766350518159
+  },
+  {
+    "step": 66,
+    "epoch": 0.44745762711864406,
+    "cpu_mem": 1.507835904,
+    "gpu_mem": 4.437200896,
+    "loss": 0.5544,
+    "grad_norm": 6.815539836883545,
+    "learning_rate": 0.00028644479930317775
+  },
+  {
+    "step": 67,
+    "epoch": 0.4542372881355932,
+    "cpu_mem": 1.508032512,
+    "gpu_mem": 4.436910592,
+    "loss": 0.6308,
+    "grad_norm": 13.951557159423828,
+    "learning_rate": 0.00028569364192488803
+  },
+  {
+    "step": 68,
+    "epoch": 0.4610169491525424,
+    "cpu_mem": 1.508032512,
+    "gpu_mem": 4.436878336,
+    "loss": 0.7345,
+    "grad_norm": 16.037248611450195,
+    "learning_rate": 0.00028492326928659045
+  },
+  {
+    "step": 69,
+    "epoch": 0.46779661016949153,
+    "cpu_mem": 1.50822912,
+    "gpu_mem": 4.436944384,
+    "loss": 0.6223,
+    "grad_norm": 8.664552688598633,
+    "learning_rate": 0.00028413379047895665
+  },
+  {
+    "step": 70,
+    "epoch": 0.4745762711864407,
+    "cpu_mem": 1.50822912,
+    "gpu_mem": 4.43693824,
+    "loss": 0.5409,
+    "grad_norm": 9.303351402282715,
+    "learning_rate": 0.0002833253172982385
+  },
+  {
+    "step": 71,
+    "epoch": 0.48135593220338985,
+    "cpu_mem": 1.50822912,
+    "gpu_mem": 4.437167104,
+    "loss": 0.5304,
+    "grad_norm": 7.759465217590332,
+    "learning_rate": 0.0002824979642304366
+  },
+  {
+    "step": 72,
+    "epoch": 0.488135593220339,
+    "cpu_mem": 1.50822912,
+    "gpu_mem": 4.437159424,
+    "loss": 0.5726,
+    "grad_norm": 8.323700904846191,
+    "learning_rate": 0.0002816518484350883
+  },
+  {
+    "step": 73,
+    "epoch": 0.49491525423728816,
+    "cpu_mem": 1.508425728,
+    "gpu_mem": 4.437125632,
+    "loss": 0.8418,
+    "grad_norm": 20.5197696685791,
+    "learning_rate": 0.0002807870897286772
+  },
+  {
+    "step": 74,
+    "epoch": 0.5016949152542373,
+    "cpu_mem": 1.508622336,
+    "gpu_mem": 4.436985856,
+    "loss": 0.506,
+    "grad_norm": 8.913507461547852,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 75,
+    "epoch": 0.5084745762711864,
+    "cpu_mem": 1.508622336,
+    "gpu_mem": 4.436910592,
+    "loss": 0.5309,
+    "grad_norm": 10.124161720275879,
+    "learning_rate": 0.000279002136031155
+  },
+  {
+    "step": 76,
+    "epoch": 0.5152542372881356,
+    "cpu_mem": 1.508622336,
+    "gpu_mem": 4.436850688,
+    "loss": 0.6009,
+    "grad_norm": 12.703954696655273,
+    "learning_rate": 0.00027808219380317216
+  },
+  {
+    "step": 77,
+    "epoch": 0.5220338983050847,
+    "cpu_mem": 1.508622336,
+    "gpu_mem": 4.436924416,
+    "loss": 0.5558,
+    "grad_norm": 10.466872215270996,
+    "learning_rate": 0.0002771441141545895
+  },
+  {
+    "step": 78,
+    "epoch": 0.5288135593220339,
+    "cpu_mem": 1.508622336,
+    "gpu_mem": 4.43697664,
+    "loss": 0.7043,
+    "grad_norm": 20.635786056518555,
+    "learning_rate": 0.0002761880299246772
+  },
+  {
+    "step": 79,
+    "epoch": 0.535593220338983,
+    "cpu_mem": 1.508622336,
+    "gpu_mem": 4.437108736,
+    "loss": 0.6018,
+    "grad_norm": 11.645002365112305,
+    "learning_rate": 0.000275214076502292
+  },
+  {
+    "step": 80,
+    "epoch": 0.5423728813559322,
+    "cpu_mem": 1.508622336,
+    "gpu_mem": 4.43699968,
+    "loss": 0.5279,
+    "grad_norm": 6.659698963165283,
+    "learning_rate": 0.0002742223918067056
+  },
+  {
+    "step": 81,
+    "epoch": 0.5491525423728814,
+    "cpu_mem": 1.508622336,
+    "gpu_mem": 4.436879872,
+    "loss": 0.5791,
+    "grad_norm": 6.4264235496521,
+    "learning_rate": 0.00027321311626807374
+  },
+  {
+    "step": 82,
+    "epoch": 0.5559322033898305,
+    "cpu_mem": 1.508622336,
+    "gpu_mem": 4.436948992,
+    "loss": 0.6501,
+    "grad_norm": 9.969060897827148,
+    "learning_rate": 0.0002721863928075503
+  },
+  {
+    "step": 83,
+    "epoch": 0.5627118644067797,
+    "cpu_mem": 1.508818944,
+    "gpu_mem": 4.437048832,
+    "loss": 0.6573,
+    "grad_norm": 8.324270248413086,
+    "learning_rate": 0.000271142366817049
+  },
+  {
+    "step": 84,
+    "epoch": 0.5694915254237288,
+    "cpu_mem": 1.508818944,
+    "gpu_mem": 4.437011968,
+    "loss": 0.5463,
+    "grad_norm": 8.097661972045898,
+    "learning_rate": 0.00027008118613865406
+  },
+  {
+    "step": 85,
+    "epoch": 0.576271186440678,
+    "cpu_mem": 1.508818944,
+    "gpu_mem": 4.437044224,
+    "loss": 0.5767,
+    "grad_norm": 6.6934494972229,
+    "learning_rate": 0.00026900300104368524
+  },
+  {
+    "step": 86,
+    "epoch": 0.5830508474576271,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.436995072,
+    "loss": 0.6116,
+    "grad_norm": 9.769342422485352,
+    "learning_rate": 0.00026790796421141813
+  },
+  {
+    "step": 87,
+    "epoch": 0.5898305084745763,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.437002752,
+    "loss": 0.564,
+    "grad_norm": 9.166972160339355,
+    "learning_rate": 0.00026679623070746325
+  },
+  {
+    "step": 88,
+    "epoch": 0.5966101694915255,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.437147136,
+    "loss": 0.5411,
+    "grad_norm": 5.252224445343018,
+    "learning_rate": 0.0002656679579618081
+  },
+  {
+    "step": 89,
+    "epoch": 0.6033898305084746,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.436929024,
+    "loss": 0.6234,
+    "grad_norm": 6.647994518280029,
+    "learning_rate": 0.0002645233057465235
+  },
+  {
+    "step": 90,
+    "epoch": 0.6101694915254238,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.436982784,
+    "loss": 0.5256,
+    "grad_norm": 7.916544437408447,
+    "learning_rate": 0.00026336243615313873
+  },
+  {
+    "step": 91,
+    "epoch": 0.6169491525423729,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.436950528,
+    "loss": 0.4528,
+    "grad_norm": 6.592220306396484,
+    "learning_rate": 0.00026218551356968814
+  },
+  {
+    "step": 92,
+    "epoch": 0.6237288135593221,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.437031936,
+    "loss": 0.6788,
+    "grad_norm": 12.278592109680176,
+    "learning_rate": 0.00026099270465743254
+  },
+  {
+    "step": 93,
+    "epoch": 0.6305084745762712,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.436835328,
+    "loss": 0.8175,
+    "grad_norm": 13.33436393737793,
+    "learning_rate": 0.0002597841783272588
+  },
+  {
+    "step": 94,
+    "epoch": 0.6372881355932203,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.436948992,
+    "loss": 0.5207,
+    "grad_norm": 6.806389331817627,
+    "learning_rate": 0.0002585601057157605
+  },
+  {
+    "step": 95,
+    "epoch": 0.6440677966101694,
+    "cpu_mem": 1.509015552,
+    "gpu_mem": 4.43696896,
+    "loss": 0.5228,
+    "grad_norm": 6.125219821929932,
+    "learning_rate": 0.00025732066016100394
+  },
+  {
+    "step": 96,
+    "epoch": 0.6508474576271186,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.43700736,
+    "loss": 0.4348,
+    "grad_norm": 6.964541912078857,
+    "learning_rate": 0.00025606601717798207
+  },
+  {
+    "step": 97,
+    "epoch": 0.6576271186440678,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.436992,
+    "loss": 0.6261,
+    "grad_norm": 8.247956275939941,
+    "learning_rate": 0.0002547963544337602
+  },
+  {
+    "step": 98,
+    "epoch": 0.6644067796610169,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.436904448,
+    "loss": 0.4827,
+    "grad_norm": 8.204977035522461,
+    "learning_rate": 0.0002535118517223168
+  },
+  {
+    "step": 99,
+    "epoch": 0.6711864406779661,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.43685376,
+    "loss": 0.5029,
+    "grad_norm": 11.964973449707031,
+    "learning_rate": 0.00025221269093908365
+  },
+  {
+    "step": 100,
+    "epoch": 0.6779661016949152,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.436970496,
+    "loss": 0.51,
+    "grad_norm": 11.552522659301758,
+    "learning_rate": 0.0002508990560551879
+  },
+  {
+    "step": 101,
+    "epoch": 0.6847457627118644,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.437002752,
+    "loss": 0.5467,
+    "grad_norm": 13.213567733764648,
+    "learning_rate": 0.0002495711330914001
+  },
+  {
+    "step": 102,
+    "epoch": 0.6915254237288135,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.437036544,
+    "loss": 0.5372,
+    "grad_norm": 8.773509979248047,
+    "learning_rate": 0.00024822911009179276
+  },
+  {
+    "step": 103,
+    "epoch": 0.6983050847457627,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.437087232,
+    "loss": 0.6076,
+    "grad_norm": 12.28891372680664,
+    "learning_rate": 0.0002468731770971113
+  },
+  {
+    "step": 104,
+    "epoch": 0.7050847457627119,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.436992,
+    "loss": 0.5038,
+    "grad_norm": 11.784523010253906,
+    "learning_rate": 0.0002455035261178632
+  },
+  {
+    "step": 105,
+    "epoch": 0.711864406779661,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.437093376,
+    "loss": 0.4978,
+    "grad_norm": 8.252092361450195,
+    "learning_rate": 0.0002441203511071278
+  },
+  {
+    "step": 106,
+    "epoch": 0.7186440677966102,
+    "cpu_mem": 1.50921216,
+    "gpu_mem": 4.437044224,
+    "loss": 0.5585,
+    "grad_norm": 9.146671295166016,
+    "learning_rate": 0.00024272384793309077
+  },
+  {
+    "step": 107,
+    "epoch": 0.7254237288135593,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436932096,
+    "loss": 0.512,
+    "grad_norm": 7.901447772979736,
+    "learning_rate": 0.00024131421435130807
+  },
+  {
+    "step": 108,
+    "epoch": 0.7322033898305085,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437116416,
+    "loss": 0.5794,
+    "grad_norm": 7.828333377838135,
+    "learning_rate": 0.00023989164997670202
+  },
+  {
+    "step": 109,
+    "epoch": 0.7389830508474576,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436970496,
+    "loss": 0.5699,
+    "grad_norm": 5.465837478637695,
+    "learning_rate": 0.0002384563562552943
+  },
+  {
+    "step": 110,
+    "epoch": 0.7457627118644068,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436973568,
+    "loss": 0.5263,
+    "grad_norm": 5.203726768493652,
+    "learning_rate": 0.0002370085364356797
+  },
+  {
+    "step": 111,
+    "epoch": 0.752542372881356,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436942848,
+    "loss": 0.5348,
+    "grad_norm": 6.427229881286621,
+    "learning_rate": 0.0002355483955402446
+  },
+  {
+    "step": 112,
+    "epoch": 0.7593220338983051,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436988928,
+    "loss": 0.5472,
+    "grad_norm": 6.567240238189697,
+    "learning_rate": 0.00023407614033613407
+  },
+  {
+    "step": 113,
+    "epoch": 0.7661016949152543,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436979712,
+    "loss": 0.5146,
+    "grad_norm": 5.874990463256836,
+    "learning_rate": 0.0002325919793059723
+  },
+  {
+    "step": 114,
+    "epoch": 0.7728813559322034,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.43696128,
+    "loss": 0.4087,
+    "grad_norm": 6.523895740509033,
+    "learning_rate": 0.00023109612261833963
+  },
+  {
+    "step": 115,
+    "epoch": 0.7796610169491526,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437036544,
+    "loss": 0.4837,
+    "grad_norm": 6.8895134925842285,
+    "learning_rate": 0.0002295887820980112
+  },
+  {
+    "step": 116,
+    "epoch": 0.7864406779661017,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436956672,
+    "loss": 0.53,
+    "grad_norm": 12.884737968444824,
+    "learning_rate": 0.0002280701711959608
+  },
+  {
+    "step": 117,
+    "epoch": 0.7932203389830509,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436847616,
+    "loss": 0.418,
+    "grad_norm": 8.543777465820312,
+    "learning_rate": 0.00022654050495913495
+  },
+  {
+    "step": 118,
+    "epoch": 0.8,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437085696,
+    "loss": 0.6238,
+    "grad_norm": 18.599990844726562,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 119,
+    "epoch": 0.8067796610169492,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437256192,
+    "loss": 0.4314,
+    "grad_norm": 8.732511520385742,
+    "learning_rate": 0.00022344887446586865
+  },
+  {
+    "step": 120,
+    "epoch": 0.8135593220338984,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436988928,
+    "loss": 0.4056,
+    "grad_norm": 9.370827674865723,
+    "learning_rate": 0.00022188734800800852
+  },
+  {
+    "step": 121,
+    "epoch": 0.8203389830508474,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437016576,
+    "loss": 0.6384,
+    "grad_norm": 15.165224075317383,
+    "learning_rate": 0.00022031564175053754
+  },
+  {
+    "step": 122,
+    "epoch": 0.8271186440677966,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437067264,
+    "loss": 0.5406,
+    "grad_norm": 14.913131713867188,
+    "learning_rate": 0.00021873397825911153
+  },
+  {
+    "step": 123,
+    "epoch": 0.8338983050847457,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.4368768,
+    "loss": 0.429,
+    "grad_norm": 10.716595649719238,
+    "learning_rate": 0.00021714258150940685
+  },
+  {
+    "step": 124,
+    "epoch": 0.8406779661016949,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437319168,
+    "loss": 0.3996,
+    "grad_norm": 7.652353286743164,
+    "learning_rate": 0.0002155416768554039
+  },
+  {
+    "step": 125,
+    "epoch": 0.847457627118644,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.43704576,
+    "loss": 0.5075,
+    "grad_norm": 13.265007972717285,
+    "learning_rate": 0.00021393149099747523
+  },
+  {
+    "step": 126,
+    "epoch": 0.8542372881355932,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436929024,
+    "loss": 0.4667,
+    "grad_norm": 9.696459770202637,
+    "learning_rate": 0.00021231225195028297
+  },
+  {
+    "step": 127,
+    "epoch": 0.8610169491525423,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.43736832,
+    "loss": 0.5595,
+    "grad_norm": 15.351218223571777,
+    "learning_rate": 0.00021068418901049025
+  },
+  {
+    "step": 128,
+    "epoch": 0.8677966101694915,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437144064,
+    "loss": 0.5056,
+    "grad_norm": 10.441043853759766,
+    "learning_rate": 0.0002090475327242912
+  },
+  {
+    "step": 129,
+    "epoch": 0.8745762711864407,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437184,
+    "loss": 0.6595,
+    "grad_norm": 13.417473793029785,
+    "learning_rate": 0.00020740251485476345
+  },
+  {
+    "step": 130,
+    "epoch": 0.8813559322033898,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436965888,
+    "loss": 0.6462,
+    "grad_norm": 7.923618316650391,
+    "learning_rate": 0.0002057493683490491
+  },
+  {
+    "step": 131,
+    "epoch": 0.888135593220339,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437094912,
+    "loss": 0.5114,
+    "grad_norm": 6.110599994659424,
+    "learning_rate": 0.00020408832730536746
+  },
+  {
+    "step": 132,
+    "epoch": 0.8949152542372881,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.43717632,
+    "loss": 0.4793,
+    "grad_norm": 12.383698463439941,
+    "learning_rate": 0.00020241962693986476
+  },
+  {
+    "step": 133,
+    "epoch": 0.9016949152542373,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.436959744,
+    "loss": 0.5583,
+    "grad_norm": 12.624692916870117,
+    "learning_rate": 0.0002007435035533061
+  },
+  {
+    "step": 134,
+    "epoch": 0.9084745762711864,
+    "cpu_mem": 1.509408768,
+    "gpu_mem": 4.437093376,
+    "loss": 0.4981,
+    "grad_norm": 12.406174659729004,
+    "learning_rate": 0.00019906019449761325
+  },
+  {
+    "step": 135,
+    "epoch": 0.9152542372881356,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.437116416,
+    "loss": 0.4536,
+    "grad_norm": 7.415020942687988,
+    "learning_rate": 0.00019736993814225374
+  },
+  {
+    "step": 136,
+    "epoch": 0.9220338983050848,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.4369536,
+    "loss": 0.5096,
+    "grad_norm": 9.677729606628418,
+    "learning_rate": 0.00019567297384048604
+  },
+  {
+    "step": 137,
+    "epoch": 0.9288135593220339,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.436833792,
+    "loss": 0.5439,
+    "grad_norm": 11.361948013305664,
+    "learning_rate": 0.0001939695418954653
+  },
+  {
+    "step": 138,
+    "epoch": 0.9355932203389831,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.43701504,
+    "loss": 0.5307,
+    "grad_norm": 11.554671287536621,
+    "learning_rate": 0.00019225988352621445
+  },
+  {
+    "step": 139,
+    "epoch": 0.9423728813559322,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.436913664,
+    "loss": 0.4409,
+    "grad_norm": 7.895120620727539,
+    "learning_rate": 0.00019054424083346592
+  },
+  {
+    "step": 140,
+    "epoch": 0.9491525423728814,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.436965888,
+    "loss": 0.4858,
+    "grad_norm": 10.334193229675293,
+    "learning_rate": 0.0001888228567653781
+  },
+  {
+    "step": 141,
+    "epoch": 0.9559322033898305,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.436998144,
+    "loss": 0.6513,
+    "grad_norm": 19.94317626953125,
+    "learning_rate": 0.0001870959750831323
+  },
+  {
+    "step": 142,
+    "epoch": 0.9627118644067797,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.43713792,
+    "loss": 0.5677,
+    "grad_norm": 16.330734252929688,
+    "learning_rate": 0.0001853638403264141
+  },
+  {
+    "step": 143,
+    "epoch": 0.9694915254237289,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.437121024,
+    "loss": 0.5919,
+    "grad_norm": 11.14167308807373,
+    "learning_rate": 0.00018362669777878453
+  },
+  {
+    "step": 144,
+    "epoch": 0.976271186440678,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.437313024,
+    "loss": 0.5742,
+    "grad_norm": 7.925104141235352,
+    "learning_rate": 0.00018188479343294648
+  },
+  {
+    "step": 145,
+    "epoch": 0.9830508474576272,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.437024256,
+    "loss": 0.4559,
+    "grad_norm": 6.353579044342041,
+    "learning_rate": 0.0001801383739559098
+  },
+  {
+    "step": 146,
+    "epoch": 0.9898305084745763,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.437059584,
+    "loss": 0.579,
+    "grad_norm": 9.637496948242188,
+    "learning_rate": 0.0001783876866540615
+  },
+  {
+    "step": 147,
+    "epoch": 0.9966101694915255,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.436958208,
+    "loss": 0.5382,
+    "grad_norm": 7.5189595222473145,
+    "learning_rate": 0.00017663297943814552
+  },
+  {
+    "step": 148,
+    "epoch": 1.0033898305084745,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443509248,
+    "loss": 0.6157,
+    "grad_norm": 11.473037719726562,
+    "learning_rate": 0.0001748745007881561
+  },
+  {
+    "step": 149,
+    "epoch": 1.0101694915254238,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443444736,
+    "loss": 0.3944,
+    "grad_norm": 5.674694538116455,
+    "learning_rate": 0.00017311249971815185
+  },
+  {
+    "step": 150,
+    "epoch": 1.0169491525423728,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44328192,
+    "loss": 0.3795,
+    "grad_norm": 6.071469783782959,
+    "learning_rate": 0.00017134722574099276
+  },
+  {
+    "step": 151,
+    "epoch": 1.023728813559322,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443354112,
+    "loss": 0.3988,
+    "grad_norm": 5.714435577392578,
+    "learning_rate": 0.00016957892883300775
+  },
+  {
+    "step": 152,
+    "epoch": 1.0305084745762711,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44338944,
+    "loss": 0.3796,
+    "grad_norm": 6.586073875427246,
+    "learning_rate": 0.00016780785939859576
+  },
+  {
+    "step": 153,
+    "epoch": 1.0372881355932204,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443414016,
+    "loss": 0.452,
+    "grad_norm": 6.130358695983887,
+    "learning_rate": 0.00016603426823476693
+  },
+  {
+    "step": 154,
+    "epoch": 1.0440677966101695,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443375616,
+    "loss": 0.3782,
+    "grad_norm": 6.469320774078369,
+    "learning_rate": 0.00016425840649562736
+  },
+  {
+    "step": 155,
+    "epoch": 1.0508474576271187,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.4435968,
+    "loss": 0.4447,
+    "grad_norm": 9.796608924865723,
+    "learning_rate": 0.00016248052565681436
+  },
+  {
+    "step": 156,
+    "epoch": 1.0576271186440678,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44350464,
+    "loss": 0.3952,
+    "grad_norm": 10.653168678283691,
+    "learning_rate": 0.00016070087747988482
+  },
+  {
+    "step": 157,
+    "epoch": 1.064406779661017,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443410944,
+    "loss": 0.4352,
+    "grad_norm": 10.047937393188477,
+    "learning_rate": 0.00015891971397666464
+  },
+  {
+    "step": 158,
+    "epoch": 1.071186440677966,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443337216,
+    "loss": 0.3561,
+    "grad_norm": 7.982423782348633,
+    "learning_rate": 0.00015713728737356137
+  },
+  {
+    "step": 159,
+    "epoch": 1.0779661016949154,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443685888,
+    "loss": 0.3552,
+    "grad_norm": 8.629858016967773,
+    "learning_rate": 0.00015535385007584706
+  },
+  {
+    "step": 160,
+    "epoch": 1.0847457627118644,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443280384,
+    "loss": 0.3805,
+    "grad_norm": 10.6151123046875,
+    "learning_rate": 0.0001535696546319161
+  },
+  {
+    "step": 161,
+    "epoch": 1.0915254237288137,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443226624,
+    "loss": 0.38,
+    "grad_norm": 8.782222747802734,
+    "learning_rate": 0.00015178495369752213
+  },
+  {
+    "step": 162,
+    "epoch": 1.0983050847457627,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.444002304,
+    "loss": 0.26,
+    "grad_norm": 7.612800598144531,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 163,
+    "epoch": 1.1050847457627118,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443478528,
+    "loss": 0.3393,
+    "grad_norm": 7.5802998542785645,
+    "learning_rate": 0.00014821504630247785
+  },
+  {
+    "step": 164,
+    "epoch": 1.111864406779661,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443390976,
+    "loss": 0.429,
+    "grad_norm": 9.032646179199219,
+    "learning_rate": 0.00014643034536808387
+  },
+  {
+    "step": 165,
+    "epoch": 1.11864406779661,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443340288,
+    "loss": 0.3151,
+    "grad_norm": 8.619991302490234,
+    "learning_rate": 0.00014464614992415294
+  },
+  {
+    "step": 166,
+    "epoch": 1.1254237288135593,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44343552,
+    "loss": 0.3742,
+    "grad_norm": 9.681302070617676,
+    "learning_rate": 0.00014286271262643866
+  },
+  {
+    "step": 167,
+    "epoch": 1.1322033898305084,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443352576,
+    "loss": 0.4062,
+    "grad_norm": 14.850049018859863,
+    "learning_rate": 0.00014108028602333536
+  },
+  {
+    "step": 168,
+    "epoch": 1.1389830508474577,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443371008,
+    "loss": 0.4535,
+    "grad_norm": 10.279086112976074,
+    "learning_rate": 0.00013929912252011516
+  },
+  {
+    "step": 169,
+    "epoch": 1.1457627118644067,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44345856,
+    "loss": 0.3463,
+    "grad_norm": 9.80820369720459,
+    "learning_rate": 0.00013751947434318564
+  },
+  {
+    "step": 170,
+    "epoch": 1.152542372881356,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44334336,
+    "loss": 0.3783,
+    "grad_norm": 10.852489471435547,
+    "learning_rate": 0.00013574159350437261
+  },
+  {
+    "step": 171,
+    "epoch": 1.159322033898305,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443406336,
+    "loss": 0.4453,
+    "grad_norm": 11.156643867492676,
+    "learning_rate": 0.0001339657317652331
+  },
+  {
+    "step": 172,
+    "epoch": 1.1661016949152543,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443314176,
+    "loss": 0.3344,
+    "grad_norm": 8.870190620422363,
+    "learning_rate": 0.00013219214060140424
+  },
+  {
+    "step": 173,
+    "epoch": 1.1728813559322033,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443613696,
+    "loss": 0.4352,
+    "grad_norm": 9.64120101928711,
+    "learning_rate": 0.00013042107116699228
+  },
+  {
+    "step": 174,
+    "epoch": 1.1796610169491526,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443337216,
+    "loss": 0.333,
+    "grad_norm": 8.450601577758789,
+    "learning_rate": 0.00012865277425900724
+  },
+  {
+    "step": 175,
+    "epoch": 1.1864406779661016,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443303424,
+    "loss": 0.3363,
+    "grad_norm": 7.288397312164307,
+    "learning_rate": 0.00012688750028184818
+  },
+  {
+    "step": 176,
+    "epoch": 1.193220338983051,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443441664,
+    "loss": 0.3218,
+    "grad_norm": 10.227561950683594,
+    "learning_rate": 0.0001251254992118439
+  },
+  {
+    "step": 177,
+    "epoch": 1.2,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443539968,
+    "loss": 0.351,
+    "grad_norm": 7.246642112731934,
+    "learning_rate": 0.00012336702056185453
+  },
+  {
+    "step": 178,
+    "epoch": 1.2067796610169492,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443286528,
+    "loss": 0.5062,
+    "grad_norm": 15.948833465576172,
+    "learning_rate": 0.00012161231334593851
+  },
+  {
+    "step": 179,
+    "epoch": 1.2135593220338983,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443386368,
+    "loss": 0.413,
+    "grad_norm": 9.143070220947266,
+    "learning_rate": 0.00011986162604409015
+  },
+  {
+    "step": 180,
+    "epoch": 1.2203389830508475,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44335872,
+    "loss": 0.314,
+    "grad_norm": 9.495607376098633,
+    "learning_rate": 0.00011811520656705348
+  },
+  {
+    "step": 181,
+    "epoch": 1.2271186440677966,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443295744,
+    "loss": 0.3162,
+    "grad_norm": 9.015178680419922,
+    "learning_rate": 0.00011637330222121543
+  },
+  {
+    "step": 182,
+    "epoch": 1.2338983050847459,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443513856,
+    "loss": 0.4318,
+    "grad_norm": 10.653160095214844,
+    "learning_rate": 0.00011463615967358588
+  },
+  {
+    "step": 183,
+    "epoch": 1.240677966101695,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443410944,
+    "loss": 0.3551,
+    "grad_norm": 11.33315372467041,
+    "learning_rate": 0.00011290402491686766
+  },
+  {
+    "step": 184,
+    "epoch": 1.2474576271186442,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44335872,
+    "loss": 0.3593,
+    "grad_norm": 9.929872512817383,
+    "learning_rate": 0.00011117714323462186
+  },
+  {
+    "step": 185,
+    "epoch": 1.2542372881355932,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443337216,
+    "loss": 0.3663,
+    "grad_norm": 9.877488136291504,
+    "learning_rate": 0.00010945575916653407
+  },
+  {
+    "step": 186,
+    "epoch": 1.2610169491525425,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443346432,
+    "loss": 0.2439,
+    "grad_norm": 6.803407192230225,
+    "learning_rate": 0.00010774011647378553
+  },
+  {
+    "step": 187,
+    "epoch": 1.2677966101694915,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443278848,
+    "loss": 0.4327,
+    "grad_norm": 13.585451126098633,
+    "learning_rate": 0.00010603045810453468
+  },
+  {
+    "step": 188,
+    "epoch": 1.2745762711864406,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443441664,
+    "loss": 0.245,
+    "grad_norm": 10.62351131439209,
+    "learning_rate": 0.00010432702615951396
+  },
+  {
+    "step": 189,
+    "epoch": 1.2813559322033898,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443311104,
+    "loss": 0.4337,
+    "grad_norm": 9.73697280883789,
+    "learning_rate": 0.00010263006185774627
+  },
+  {
+    "step": 190,
+    "epoch": 1.288135593220339,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443430912,
+    "loss": 0.3561,
+    "grad_norm": 11.984561920166016,
+    "learning_rate": 0.00010093980550238675
+  },
+  {
+    "step": 191,
+    "epoch": 1.2949152542372881,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443249664,
+    "loss": 0.3225,
+    "grad_norm": 12.810022354125977,
+    "learning_rate": 9.925649644669391e-05
+  },
+  {
+    "step": 192,
+    "epoch": 1.3016949152542372,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44338176,
+    "loss": 0.2664,
+    "grad_norm": 10.05370807647705,
+    "learning_rate": 9.758037306013526e-05
+  },
+  {
+    "step": 193,
+    "epoch": 1.3084745762711865,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443355648,
+    "loss": 0.4455,
+    "grad_norm": 14.030529975891113,
+    "learning_rate": 9.591167269463255e-05
+  },
+  {
+    "step": 194,
+    "epoch": 1.3152542372881357,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443321856,
+    "loss": 0.3602,
+    "grad_norm": 12.235883712768555,
+    "learning_rate": 9.425063165095088e-05
+  },
+  {
+    "step": 195,
+    "epoch": 1.3220338983050848,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443426304,
+    "loss": 0.2762,
+    "grad_norm": 9.612601280212402,
+    "learning_rate": 9.259748514523653e-05
+  },
+  {
+    "step": 196,
+    "epoch": 1.3288135593220338,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443421696,
+    "loss": 0.3528,
+    "grad_norm": 8.862492561340332,
+    "learning_rate": 9.095246727570879e-05
+  },
+  {
+    "step": 197,
+    "epoch": 1.335593220338983,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443280384,
+    "loss": 0.2842,
+    "grad_norm": 11.436196327209473,
+    "learning_rate": 8.931581098950973e-05
+  },
+  {
+    "step": 198,
+    "epoch": 1.3423728813559321,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443472384,
+    "loss": 0.3027,
+    "grad_norm": 10.520874977111816,
+    "learning_rate": 8.768774804971705e-05
+  },
+  {
+    "step": 199,
+    "epoch": 1.3491525423728814,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443323392,
+    "loss": 0.3717,
+    "grad_norm": 14.724334716796875,
+    "learning_rate": 8.606850900252478e-05
+  },
+  {
+    "step": 200,
+    "epoch": 1.3559322033898304,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443426304,
+    "loss": 0.3074,
+    "grad_norm": 12.475892066955566,
+    "learning_rate": 8.445832314459608e-05
+  },
+  {
+    "step": 201,
+    "epoch": 1.3627118644067797,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443629056,
+    "loss": 0.2782,
+    "grad_norm": 8.169771194458008,
+    "learning_rate": 8.285741849059311e-05
+  },
+  {
+    "step": 202,
+    "epoch": 1.3694915254237288,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443430912,
+    "loss": 0.2923,
+    "grad_norm": 9.363910675048828,
+    "learning_rate": 8.126602174088843e-05
+  },
+  {
+    "step": 203,
+    "epoch": 1.376271186440678,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443317248,
+    "loss": 0.2826,
+    "grad_norm": 7.223607063293457,
+    "learning_rate": 7.968435824946242e-05
+  },
+  {
+    "step": 204,
+    "epoch": 1.383050847457627,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443331072,
+    "loss": 0.262,
+    "grad_norm": 8.399836540222168,
+    "learning_rate": 7.811265199199152e-05
+  },
+  {
+    "step": 205,
+    "epoch": 1.3898305084745763,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443375616,
+    "loss": 0.2814,
+    "grad_norm": 8.11514663696289,
+    "learning_rate": 7.655112553413135e-05
+  },
+  {
+    "step": 206,
+    "epoch": 1.3966101694915254,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443317248,
+    "loss": 0.2771,
+    "grad_norm": 9.344612121582031,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 207,
+    "epoch": 1.4033898305084747,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44355072,
+    "loss": 0.3327,
+    "grad_norm": 10.335131645202637,
+    "learning_rate": 7.345949504086507e-05
+  },
+  {
+    "step": 208,
+    "epoch": 1.4101694915254237,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44358144,
+    "loss": 0.2319,
+    "grad_norm": 12.18466567993164,
+    "learning_rate": 7.192982880403917e-05
+  },
+  {
+    "step": 209,
+    "epoch": 1.4169491525423727,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443507712,
+    "loss": 0.3699,
+    "grad_norm": 11.099276542663574,
+    "learning_rate": 7.041121790198881e-05
+  },
+  {
+    "step": 210,
+    "epoch": 1.423728813559322,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443395584,
+    "loss": 0.4507,
+    "grad_norm": 12.702630996704102,
+    "learning_rate": 6.890387738166041e-05
+  },
+  {
+    "step": 211,
+    "epoch": 1.4305084745762713,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443344896,
+    "loss": 0.4079,
+    "grad_norm": 10.903487205505371,
+    "learning_rate": 6.740802069402771e-05
+  },
+  {
+    "step": 212,
+    "epoch": 1.4372881355932203,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443314176,
+    "loss": 0.3,
+    "grad_norm": 10.615644454956055,
+    "learning_rate": 6.592385966386588e-05
+  },
+  {
+    "step": 213,
+    "epoch": 1.4440677966101694,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443337216,
+    "loss": 0.3518,
+    "grad_norm": 10.656424522399902,
+    "learning_rate": 6.445160445975536e-05
+  },
+  {
+    "step": 214,
+    "epoch": 1.4508474576271186,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.44342016,
+    "loss": 0.4096,
+    "grad_norm": 16.58029556274414,
+    "learning_rate": 6.299146356432029e-05
+  },
+  {
+    "step": 215,
+    "epoch": 1.457627118644068,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443347968,
+    "loss": 0.4284,
+    "grad_norm": 16.37483024597168,
+    "learning_rate": 6.154364374470568e-05
+  },
+  {
+    "step": 216,
+    "epoch": 1.464406779661017,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443513856,
+    "loss": 0.2537,
+    "grad_norm": 8.520498275756836,
+    "learning_rate": 6.010835002329795e-05
+  },
+  {
+    "step": 217,
+    "epoch": 1.471186440677966,
+    "cpu_mem": 1.509605376,
+    "gpu_mem": 4.443355648,
+    "loss": 0.3216,
+    "grad_norm": 15.882022857666016,
+    "learning_rate": 5.8685785648691894e-05
+  },
+  {
+    "step": 218,
+    "epoch": 1.4779661016949153,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443332608,
+    "loss": 0.3527,
+    "grad_norm": 11.748701095581055,
+    "learning_rate": 5.72761520669092e-05
+  },
+  {
+    "step": 219,
+    "epoch": 1.4847457627118645,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.44345856,
+    "loss": 0.4225,
+    "grad_norm": 10.945619583129883,
+    "learning_rate": 5.587964889287218e-05
+  },
+  {
+    "step": 220,
+    "epoch": 1.4915254237288136,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443492352,
+    "loss": 0.3201,
+    "grad_norm": 10.223454475402832,
+    "learning_rate": 5.449647388213678e-05
+  },
+  {
+    "step": 221,
+    "epoch": 1.4983050847457626,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443360256,
+    "loss": 0.2756,
+    "grad_norm": 8.79985237121582,
+    "learning_rate": 5.312682290288869e-05
+  },
+  {
+    "step": 222,
+    "epoch": 1.505084745762712,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.44349696,
+    "loss": 0.3005,
+    "grad_norm": 9.963611602783203,
+    "learning_rate": 5.1770889908207245e-05
+  },
+  {
+    "step": 223,
+    "epoch": 1.5118644067796612,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443410944,
+    "loss": 0.2828,
+    "grad_norm": 13.369943618774414,
+    "learning_rate": 5.0428866908599864e-05
+  },
+  {
+    "step": 224,
+    "epoch": 1.5186440677966102,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443375616,
+    "loss": 0.2504,
+    "grad_norm": 8.19646167755127,
+    "learning_rate": 4.9100943944812114e-05
+  },
+  {
+    "step": 225,
+    "epoch": 1.5254237288135593,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443340288,
+    "loss": 0.2712,
+    "grad_norm": 10.986623764038086,
+    "learning_rate": 4.778730906091632e-05
+  },
+  {
+    "step": 226,
+    "epoch": 1.5322033898305085,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.44348928,
+    "loss": 0.3418,
+    "grad_norm": 9.064874649047852,
+    "learning_rate": 4.648814827768322e-05
+  },
+  {
+    "step": 227,
+    "epoch": 1.5389830508474578,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443378688,
+    "loss": 0.3776,
+    "grad_norm": 13.318199157714844,
+    "learning_rate": 4.5203645566239816e-05
+  },
+  {
+    "step": 228,
+    "epoch": 1.5457627118644068,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443323392,
+    "loss": 0.4031,
+    "grad_norm": 11.604644775390625,
+    "learning_rate": 4.3933982822017876e-05
+  },
+  {
+    "step": 229,
+    "epoch": 1.5525423728813559,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443265024,
+    "loss": 0.2382,
+    "grad_norm": 7.073112487792969,
+    "learning_rate": 4.267933983899601e-05
+  },
+  {
+    "step": 230,
+    "epoch": 1.559322033898305,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443321856,
+    "loss": 0.2682,
+    "grad_norm": 8.373688697814941,
+    "learning_rate": 4.143989428423947e-05
+  },
+  {
+    "step": 231,
+    "epoch": 1.5661016949152542,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443599872,
+    "loss": 0.4171,
+    "grad_norm": 13.975024223327637,
+    "learning_rate": 4.0215821672741213e-05
+  },
+  {
+    "step": 232,
+    "epoch": 1.5728813559322035,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443323392,
+    "loss": 0.3271,
+    "grad_norm": 9.13338851928711,
+    "learning_rate": 3.900729534256745e-05
+  },
+  {
+    "step": 233,
+    "epoch": 1.5796610169491525,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443636736,
+    "loss": 0.3622,
+    "grad_norm": 12.784040451049805,
+    "learning_rate": 3.781448643031187e-05
+  },
+  {
+    "step": 234,
+    "epoch": 1.5864406779661016,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.44351232,
+    "loss": 0.2907,
+    "grad_norm": 9.858100891113281,
+    "learning_rate": 3.663756384686127e-05
+  },
+  {
+    "step": 235,
+    "epoch": 1.5932203389830508,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443268096,
+    "loss": 0.2375,
+    "grad_norm": 7.437261581420898,
+    "learning_rate": 3.547669425347647e-05
+  },
+  {
+    "step": 236,
+    "epoch": 1.6,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443328,
+    "loss": 0.3846,
+    "grad_norm": 15.018045425415039,
+    "learning_rate": 3.433204203819185e-05
+  },
+  {
+    "step": 237,
+    "epoch": 1.6067796610169491,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.44338944,
+    "loss": 0.4068,
+    "grad_norm": 13.178804397583008,
+    "learning_rate": 3.3203769292536764e-05
+  },
+  {
+    "step": 238,
+    "epoch": 1.6135593220338982,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443390976,
+    "loss": 0.3033,
+    "grad_norm": 11.403144836425781,
+    "learning_rate": 3.209203578858191e-05
+  },
+  {
+    "step": 239,
+    "epoch": 1.6203389830508474,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443644416,
+    "loss": 0.3641,
+    "grad_norm": 11.864053726196289,
+    "learning_rate": 3.099699895631474e-05
+  },
+  {
+    "step": 240,
+    "epoch": 1.6271186440677967,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443294208,
+    "loss": 0.5409,
+    "grad_norm": 16.487295150756836,
+    "learning_rate": 2.9918813861345952e-05
+  },
+  {
+    "step": 241,
+    "epoch": 1.6338983050847458,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443590656,
+    "loss": 0.2953,
+    "grad_norm": 10.208303451538086,
+    "learning_rate": 2.885763318295102e-05
+  },
+  {
+    "step": 242,
+    "epoch": 1.6406779661016948,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443452416,
+    "loss": 0.3304,
+    "grad_norm": 12.945493698120117,
+    "learning_rate": 2.781360719244964e-05
+  },
+  {
+    "step": 243,
+    "epoch": 1.647457627118644,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.44330496,
+    "loss": 0.4223,
+    "grad_norm": 10.953478813171387,
+    "learning_rate": 2.6786883731926306e-05
+  },
+  {
+    "step": 244,
+    "epoch": 1.6542372881355933,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443444736,
+    "loss": 0.2251,
+    "grad_norm": 8.908162117004395,
+    "learning_rate": 2.5777608193294396e-05
+  },
+  {
+    "step": 245,
+    "epoch": 1.6610169491525424,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443323392,
+    "loss": 0.3956,
+    "grad_norm": 11.671682357788086,
+    "learning_rate": 2.4785923497707956e-05
+  },
+  {
+    "step": 246,
+    "epoch": 1.6677966101694914,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443417088,
+    "loss": 0.4087,
+    "grad_norm": 10.720558166503906,
+    "learning_rate": 2.38119700753228e-05
+  },
+  {
+    "step": 247,
+    "epoch": 1.6745762711864407,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.44343552,
+    "loss": 0.2392,
+    "grad_norm": 7.951722621917725,
+    "learning_rate": 2.285588584541047e-05
+  },
+  {
+    "step": 248,
+    "epoch": 1.68135593220339,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443387904,
+    "loss": 0.286,
+    "grad_norm": 8.448762893676758,
+    "learning_rate": 2.1917806196827792e-05
+  },
+  {
+    "step": 249,
+    "epoch": 1.688135593220339,
+    "cpu_mem": 1.509801984,
+    "gpu_mem": 4.443294208,
+    "loss": 0.2903,
+    "grad_norm": 7.876997947692871,
+    "learning_rate": 2.0997863968844914e-05
+  },
+  {
+    "step": 250,
+    "epoch": 1.694915254237288,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443386368,
+    "loss": 0.3307,
+    "grad_norm": 11.870707511901855,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 251,
+    "epoch": 1.7016949152542373,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443298816,
+    "loss": 0.2187,
+    "grad_norm": 9.706609725952148,
+    "learning_rate": 1.921291027132278e-05
+  },
+  {
+    "step": 252,
+    "epoch": 1.7084745762711866,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443341824,
+    "loss": 0.3021,
+    "grad_norm": 8.621807098388672,
+    "learning_rate": 1.834815156491165e-05
+  },
+  {
+    "step": 253,
+    "epoch": 1.7152542372881356,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.44353536,
+    "loss": 0.3015,
+    "grad_norm": 10.553934097290039,
+    "learning_rate": 1.750203576956341e-05
+  },
+  {
+    "step": 254,
+    "epoch": 1.7220338983050847,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443331072,
+    "loss": 0.3854,
+    "grad_norm": 11.682550430297852,
+    "learning_rate": 1.6674682701761493e-05
+  },
+  {
+    "step": 255,
+    "epoch": 1.7288135593220337,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443487744,
+    "loss": 0.3721,
+    "grad_norm": 12.575425148010254,
+    "learning_rate": 1.5866209521043304e-05
+  },
+  {
+    "step": 256,
+    "epoch": 1.735593220338983,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443314176,
+    "loss": 0.3563,
+    "grad_norm": 13.305479049682617,
+    "learning_rate": 1.5076730713409523e-05
+  },
+  {
+    "step": 257,
+    "epoch": 1.7423728813559323,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.44372736,
+    "loss": 0.372,
+    "grad_norm": 8.018106460571289,
+    "learning_rate": 1.4306358075111923e-05
+  },
+  {
+    "step": 258,
+    "epoch": 1.7491525423728813,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443386368,
+    "loss": 0.3647,
+    "grad_norm": 11.9230375289917,
+    "learning_rate": 1.3555200696822232e-05
+  },
+  {
+    "step": 259,
+    "epoch": 1.7559322033898304,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443303424,
+    "loss": 0.3188,
+    "grad_norm": 9.143546104431152,
+    "learning_rate": 1.2823364948184095e-05
+  },
+  {
+    "step": 260,
+    "epoch": 1.7627118644067796,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.44342016,
+    "loss": 0.2007,
+    "grad_norm": 7.097804069519043,
+    "learning_rate": 1.2110954462750166e-05
+  },
+  {
+    "step": 261,
+    "epoch": 1.769491525423729,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443375616,
+    "loss": 0.1669,
+    "grad_norm": 6.277010440826416,
+    "learning_rate": 1.1418070123306989e-05
+  },
+  {
+    "step": 262,
+    "epoch": 1.776271186440678,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443332608,
+    "loss": 0.2355,
+    "grad_norm": 8.6841459274292,
+    "learning_rate": 1.0744810047589115e-05
+  },
+  {
+    "step": 263,
+    "epoch": 1.783050847457627,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443369472,
+    "loss": 0.273,
+    "grad_norm": 7.298412322998047,
+    "learning_rate": 1.0091269574384874e-05
+  },
+  {
+    "step": 264,
+    "epoch": 1.7898305084745763,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443457024,
+    "loss": 0.2702,
+    "grad_norm": 10.429343223571777,
+    "learning_rate": 9.45754125003576e-06
+  },
+  {
+    "step": 265,
+    "epoch": 1.7966101694915255,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443375616,
+    "loss": 0.3714,
+    "grad_norm": 10.106574058532715,
+    "learning_rate": 8.843714815330987e-06
+  },
+  {
+    "step": 266,
+    "epoch": 1.8033898305084746,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443590656,
+    "loss": 0.3821,
+    "grad_norm": 12.320114135742188,
+    "learning_rate": 8.249877192799731e-06
+  },
+  {
+    "step": 267,
+    "epoch": 1.8101694915254236,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443383296,
+    "loss": 0.2547,
+    "grad_norm": 9.98828125,
+    "learning_rate": 7.676112474402068e-06
+  },
+  {
+    "step": 268,
+    "epoch": 1.8169491525423729,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443387904,
+    "loss": 0.2823,
+    "grad_norm": 10.371786117553711,
+    "learning_rate": 7.122501909620926e-06
+  },
+  {
+    "step": 269,
+    "epoch": 1.8237288135593221,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443398656,
+    "loss": 0.3287,
+    "grad_norm": 9.897567749023438,
+    "learning_rate": 6.5891238939566275e-06
+  },
+  {
+    "step": 270,
+    "epoch": 1.8305084745762712,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443437056,
+    "loss": 0.2544,
+    "grad_norm": 10.063066482543945,
+    "learning_rate": 6.076053957825411e-06
+  },
+  {
+    "step": 271,
+    "epoch": 1.8372881355932202,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.44348928,
+    "loss": 0.3142,
+    "grad_norm": 10.186683654785156,
+    "learning_rate": 5.583364755863701e-06
+  },
+  {
+    "step": 272,
+    "epoch": 1.8440677966101695,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443347968,
+    "loss": 0.3402,
+    "grad_norm": 8.863958358764648,
+    "learning_rate": 5.11112605663977e-06
+  },
+  {
+    "step": 273,
+    "epoch": 1.8508474576271188,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.44322816,
+    "loss": 0.2973,
+    "grad_norm": 9.513245582580566,
+    "learning_rate": 4.659404732773908e-06
+  },
+  {
+    "step": 274,
+    "epoch": 1.8576271186440678,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443455488,
+    "loss": 0.279,
+    "grad_norm": 10.836873054504395,
+    "learning_rate": 4.228264751468752e-06
+  },
+  {
+    "step": 275,
+    "epoch": 1.8644067796610169,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443699712,
+    "loss": 0.32,
+    "grad_norm": 11.420705795288086,
+    "learning_rate": 3.817767165451041e-06
+  },
+  {
+    "step": 276,
+    "epoch": 1.8711864406779661,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443360256,
+    "loss": 0.3155,
+    "grad_norm": 10.466375350952148,
+    "learning_rate": 3.4279701043260886e-06
+  },
+  {
+    "step": 277,
+    "epoch": 1.8779661016949154,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443306496,
+    "loss": 0.3167,
+    "grad_norm": 10.945162773132324,
+    "learning_rate": 3.0589287663461472e-06
+  },
+  {
+    "step": 278,
+    "epoch": 1.8847457627118644,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443469312,
+    "loss": 0.4518,
+    "grad_norm": 12.45777416229248,
+    "learning_rate": 2.710695410593994e-06
+  },
+  {
+    "step": 279,
+    "epoch": 1.8915254237288135,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443409408,
+    "loss": 0.2909,
+    "grad_norm": 8.404402732849121,
+    "learning_rate": 2.3833193495825853e-06
+  },
+  {
+    "step": 280,
+    "epoch": 1.8983050847457628,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.44338944,
+    "loss": 0.3295,
+    "grad_norm": 10.143949508666992,
+    "learning_rate": 2.076846942272026e-06
+  },
+  {
+    "step": 281,
+    "epoch": 1.905084745762712,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443324928,
+    "loss": 0.3426,
+    "grad_norm": 10.10682201385498,
+    "learning_rate": 1.791321587504768e-06
+  },
+  {
+    "step": 282,
+    "epoch": 1.911864406779661,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443753472,
+    "loss": 0.2746,
+    "grad_norm": 8.048744201660156,
+    "learning_rate": 1.5267837178600972e-06
+  },
+  {
+    "step": 283,
+    "epoch": 1.9186440677966101,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443460096,
+    "loss": 0.3007,
+    "grad_norm": 10.570841789245605,
+    "learning_rate": 1.2832707939284427e-06
+  },
+  {
+    "step": 284,
+    "epoch": 1.9254237288135592,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443315712,
+    "loss": 0.3486,
+    "grad_norm": 8.057785987854004,
+    "learning_rate": 1.0608172990067553e-06
+  },
+  {
+    "step": 285,
+    "epoch": 1.9322033898305084,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443369472,
+    "loss": 0.3287,
+    "grad_norm": 9.795562744140625,
+    "learning_rate": 8.594547342153979e-07
+  },
+  {
+    "step": 286,
+    "epoch": 1.9389830508474577,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443787264,
+    "loss": 0.2857,
+    "grad_norm": 13.503580093383789,
+    "learning_rate": 6.792116140373116e-07
+  },
+  {
+    "step": 287,
+    "epoch": 1.9457627118644067,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443556864,
+    "loss": 0.2571,
+    "grad_norm": 9.61729621887207,
+    "learning_rate": 5.201134622801473e-07
+  },
+  {
+    "step": 288,
+    "epoch": 1.9525423728813558,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443341824,
+    "loss": 0.4314,
+    "grad_norm": 11.989745140075684,
+    "learning_rate": 3.821828084619727e-07
+  },
+  {
+    "step": 289,
+    "epoch": 1.959322033898305,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443426304,
+    "loss": 0.3231,
+    "grad_norm": 10.468039512634277,
+    "learning_rate": 2.654391846207915e-07
+  },
+  {
+    "step": 290,
+    "epoch": 1.9661016949152543,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.44335104,
+    "loss": 0.3028,
+    "grad_norm": 13.236854553222656,
+    "learning_rate": 1.6989912254880556e-07
+  },
+  {
+    "step": 291,
+    "epoch": 1.9728813559322034,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443386368,
+    "loss": 0.3675,
+    "grad_norm": 10.517420768737793,
+    "learning_rate": 9.557615145123765e-08
+  },
+  {
+    "step": 292,
+    "epoch": 1.9796610169491524,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443469312,
+    "loss": 0.3511,
+    "grad_norm": 9.854143142700195,
+    "learning_rate": 4.248079603064724e-08
+  },
+  {
+    "step": 293,
+    "epoch": 1.9864406779661017,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.443386368,
+    "loss": 0.4175,
+    "grad_norm": 13.601873397827148,
+    "learning_rate": 1.0620574996372811e-08
+  },
+  {
+    "step": 294,
+    "epoch": 1.993220338983051,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.44341248,
+    "loss": 0.3715,
+    "grad_norm": 12.147957801818848,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 294,
+    "epoch": 1.993220338983051,
+    "cpu_mem": 1.510785024,
+    "gpu_mem": 4.44341248,
+    "train_runtime": 4455.2502,
+    "train_samples_per_second": 4.232,
+    "train_steps_per_second": 0.066,
+    "total_flos": 0.0,
+    "train_loss": 0.610709656562124
+  }
+]

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r32-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 64,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 32,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r32-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "boolq",
+    "results": 0.7929663608562691
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r32-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "BOOLQ",
+    "dataset_id": "google/boolq",
+    "preprocess_id": "boolq_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 32,
+    "alpha": 64,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 25389056
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 2,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-boolq-r32-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r32-a2",
+  "seed": 42,
+  "timestamp": "2025-08-31T02:06:30.838829"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r32-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,2659 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.006779661016949152,
+    "cpu_mem": 1.503981568,
+    "gpu_mem": 4.519328768,
+    "loss": 8.869,
+    "grad_norm": 233.80860900878906,
+    "learning_rate": 9.999999999999999e-06
+  },
+  {
+    "step": 2,
+    "epoch": 0.013559322033898305,
+    "cpu_mem": 1.510076416,
+    "gpu_mem": 4.722578944,
+    "loss": 8.9376,
+    "grad_norm": 239.66294860839844,
+    "learning_rate": 1.9999999999999998e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.020338983050847456,
+    "cpu_mem": 1.510862848,
+    "gpu_mem": 4.722497536,
+    "loss": 6.3632,
+    "grad_norm": 227.827392578125,
+    "learning_rate": 2.9999999999999997e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.02711864406779661,
+    "cpu_mem": 1.511452672,
+    "gpu_mem": 4.722497536,
+    "loss": 2.6529,
+    "grad_norm": 144.43919372558594,
+    "learning_rate": 3.9999999999999996e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.03389830508474576,
+    "cpu_mem": 1.512042496,
+    "gpu_mem": 4.722433024,
+    "loss": 1.212,
+    "grad_norm": 47.84184265136719,
+    "learning_rate": 4.9999999999999996e-05
+  },
+  {
+    "step": 6,
+    "epoch": 0.04067796610169491,
+    "cpu_mem": 1.51263232,
+    "gpu_mem": 4.722452992,
+    "loss": 0.8617,
+    "grad_norm": 43.27740478515625,
+    "learning_rate": 5.9999999999999995e-05
+  },
+  {
+    "step": 7,
+    "epoch": 0.04745762711864407,
+    "cpu_mem": 1.513222144,
+    "gpu_mem": 4.722505216,
+    "loss": 1.1695,
+    "grad_norm": 69.79517364501953,
+    "learning_rate": 7e-05
+  },
+  {
+    "step": 8,
+    "epoch": 0.05423728813559322,
+    "cpu_mem": 1.51361536,
+    "gpu_mem": 4.722591232,
+    "loss": 0.6559,
+    "grad_norm": 18.012210845947266,
+    "learning_rate": 7.999999999999999e-05
+  },
+  {
+    "step": 9,
+    "epoch": 0.061016949152542375,
+    "cpu_mem": 1.514008576,
+    "gpu_mem": 4.722499072,
+    "loss": 2.141,
+    "grad_norm": 79.17948913574219,
+    "learning_rate": 8.999999999999999e-05
+  },
+  {
+    "step": 10,
+    "epoch": 0.06779661016949153,
+    "cpu_mem": 1.5145984,
+    "gpu_mem": 4.722399232,
+    "loss": 1.456,
+    "grad_norm": 58.11606979370117,
+    "learning_rate": 9.999999999999999e-05
+  },
+  {
+    "step": 11,
+    "epoch": 0.07457627118644068,
+    "cpu_mem": 1.515188224,
+    "gpu_mem": 4.72250368,
+    "loss": 0.6457,
+    "grad_norm": 6.229933738708496,
+    "learning_rate": 0.00010999999999999998
+  },
+  {
+    "step": 12,
+    "epoch": 0.08135593220338982,
+    "cpu_mem": 1.51558144,
+    "gpu_mem": 4.722875392,
+    "loss": 1.2234,
+    "grad_norm": 116.1498794555664,
+    "learning_rate": 0.00011999999999999999
+  },
+  {
+    "step": 13,
+    "epoch": 0.08813559322033898,
+    "cpu_mem": 1.515974656,
+    "gpu_mem": 4.722479104,
+    "loss": 1.2587,
+    "grad_norm": 52.9954719543457,
+    "learning_rate": 0.00013
+  },
+  {
+    "step": 14,
+    "epoch": 0.09491525423728814,
+    "cpu_mem": 1.516367872,
+    "gpu_mem": 4.722456064,
+    "loss": 0.686,
+    "grad_norm": 9.985751152038574,
+    "learning_rate": 0.00014
+  },
+  {
+    "step": 15,
+    "epoch": 0.1016949152542373,
+    "cpu_mem": 1.516761088,
+    "gpu_mem": 4.722394624,
+    "loss": 1.1792,
+    "grad_norm": 29.390972137451172,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 16,
+    "epoch": 0.10847457627118644,
+    "cpu_mem": 1.516957696,
+    "gpu_mem": 4.722479104,
+    "loss": 1.8027,
+    "grad_norm": 77.97930908203125,
+    "learning_rate": 0.00015999999999999999
+  },
+  {
+    "step": 17,
+    "epoch": 0.1152542372881356,
+    "cpu_mem": 1.517350912,
+    "gpu_mem": 4.72251904,
+    "loss": 0.9339,
+    "grad_norm": 31.851720809936523,
+    "learning_rate": 0.00016999999999999999
+  },
+  {
+    "step": 18,
+    "epoch": 0.12203389830508475,
+    "cpu_mem": 1.517744128,
+    "gpu_mem": 4.722582016,
+    "loss": 1.2629,
+    "grad_norm": 45.89571762084961,
+    "learning_rate": 0.00017999999999999998
+  },
+  {
+    "step": 19,
+    "epoch": 0.1288135593220339,
+    "cpu_mem": 1.518137344,
+    "gpu_mem": 4.7224192,
+    "loss": 1.2291,
+    "grad_norm": 32.983150482177734,
+    "learning_rate": 0.00018999999999999998
+  },
+  {
+    "step": 20,
+    "epoch": 0.13559322033898305,
+    "cpu_mem": 1.51853056,
+    "gpu_mem": 4.722531328,
+    "loss": 0.8234,
+    "grad_norm": 22.25924301147461,
+    "learning_rate": 0.00019999999999999998
+  },
+  {
+    "step": 21,
+    "epoch": 0.1423728813559322,
+    "cpu_mem": 1.518727168,
+    "gpu_mem": 4.722689536,
+    "loss": 0.6795,
+    "grad_norm": 8.868040084838867,
+    "learning_rate": 0.00020999999999999998
+  },
+  {
+    "step": 22,
+    "epoch": 0.14915254237288136,
+    "cpu_mem": 1.519120384,
+    "gpu_mem": 4.722582016,
+    "loss": 1.0734,
+    "grad_norm": 22.563232421875,
+    "learning_rate": 0.00021999999999999995
+  },
+  {
+    "step": 23,
+    "epoch": 0.15593220338983052,
+    "cpu_mem": 1.519316992,
+    "gpu_mem": 4.722554368,
+    "loss": 0.8224,
+    "grad_norm": 13.91633415222168,
+    "learning_rate": 0.00023
+  },
+  {
+    "step": 24,
+    "epoch": 0.16271186440677965,
+    "cpu_mem": 1.5195136,
+    "gpu_mem": 4.7226112,
+    "loss": 0.7573,
+    "grad_norm": 16.691375732421875,
+    "learning_rate": 0.00023999999999999998
+  },
+  {
+    "step": 25,
+    "epoch": 0.1694915254237288,
+    "cpu_mem": 1.519906816,
+    "gpu_mem": 4.72239616,
+    "loss": 0.6975,
+    "grad_norm": 6.51262092590332,
+    "learning_rate": 0.00025
+  },
+  {
+    "step": 26,
+    "epoch": 0.17627118644067796,
+    "cpu_mem": 1.520300032,
+    "gpu_mem": 4.722451456,
+    "loss": 0.882,
+    "grad_norm": 14.44697093963623,
+    "learning_rate": 0.00026
+  },
+  {
+    "step": 27,
+    "epoch": 0.18305084745762712,
+    "cpu_mem": 1.52049664,
+    "gpu_mem": 4.722743296,
+    "loss": 0.6362,
+    "grad_norm": 3.7360706329345703,
+    "learning_rate": 0.00027
+  },
+  {
+    "step": 28,
+    "epoch": 0.18983050847457628,
+    "cpu_mem": 1.520693248,
+    "gpu_mem": 4.722422272,
+    "loss": 0.7593,
+    "grad_norm": 8.032002449035645,
+    "learning_rate": 0.00028
+  },
+  {
+    "step": 29,
+    "epoch": 0.19661016949152543,
+    "cpu_mem": 1.521086464,
+    "gpu_mem": 4.722486784,
+    "loss": 0.7451,
+    "grad_norm": 12.261842727661133,
+    "learning_rate": 0.00029
+  },
+  {
+    "step": 30,
+    "epoch": 0.2033898305084746,
+    "cpu_mem": 1.521283072,
+    "gpu_mem": 4.72256512,
+    "loss": 0.7261,
+    "grad_norm": 7.222959518432617,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 31,
+    "epoch": 0.21016949152542372,
+    "cpu_mem": 1.52147968,
+    "gpu_mem": 4.722368512,
+    "loss": 0.6136,
+    "grad_norm": 2.5524110794067383,
+    "learning_rate": 0.0002999893794250036
+  },
+  {
+    "step": 32,
+    "epoch": 0.21694915254237288,
+    "cpu_mem": 1.521676288,
+    "gpu_mem": 4.722482176,
+    "loss": 0.7509,
+    "grad_norm": 9.033954620361328,
+    "learning_rate": 0.00029995751920396937
+  },
+  {
+    "step": 33,
+    "epoch": 0.22372881355932203,
+    "cpu_mem": 1.521872896,
+    "gpu_mem": 4.722720256,
+    "loss": 0.7194,
+    "grad_norm": 8.025568008422852,
+    "learning_rate": 0.00029990442384854874
+  },
+  {
+    "step": 34,
+    "epoch": 0.2305084745762712,
+    "cpu_mem": 1.522069504,
+    "gpu_mem": 4.722422272,
+    "loss": 0.5858,
+    "grad_norm": 2.7295961380004883,
+    "learning_rate": 0.0002998301008774512
+  },
+  {
+    "step": 35,
+    "epoch": 0.23728813559322035,
+    "cpu_mem": 1.522266112,
+    "gpu_mem": 4.722632704,
+    "loss": 0.8056,
+    "grad_norm": 10.636892318725586,
+    "learning_rate": 0.0002997345608153792
+  },
+  {
+    "step": 36,
+    "epoch": 0.2440677966101695,
+    "cpu_mem": 1.52246272,
+    "gpu_mem": 4.722583552,
+    "loss": 0.6826,
+    "grad_norm": 2.589643955230713,
+    "learning_rate": 0.000299617817191538
+  },
+  {
+    "step": 37,
+    "epoch": 0.25084745762711863,
+    "cpu_mem": 1.522659328,
+    "gpu_mem": 4.722394624,
+    "loss": 0.6468,
+    "grad_norm": 4.602322101593018,
+    "learning_rate": 0.0002994798865377198
+  },
+  {
+    "step": 38,
+    "epoch": 0.2576271186440678,
+    "cpu_mem": 1.522855936,
+    "gpu_mem": 4.72264192,
+    "loss": 0.8638,
+    "grad_norm": 11.864049911499023,
+    "learning_rate": 0.0002993207883859627
+  },
+  {
+    "step": 39,
+    "epoch": 0.26440677966101694,
+    "cpu_mem": 1.523052544,
+    "gpu_mem": 4.723021312,
+    "loss": 0.7293,
+    "grad_norm": 7.218650817871094,
+    "learning_rate": 0.0002991405452657846
+  },
+  {
+    "step": 40,
+    "epoch": 0.2711864406779661,
+    "cpu_mem": 1.523249152,
+    "gpu_mem": 4.722591232,
+    "loss": 0.6592,
+    "grad_norm": 2.3266420364379883,
+    "learning_rate": 0.00029893918270099324
+  },
+  {
+    "step": 41,
+    "epoch": 0.27796610169491526,
+    "cpu_mem": 1.52344576,
+    "gpu_mem": 4.72281856,
+    "loss": 0.6739,
+    "grad_norm": 2.876038074493408,
+    "learning_rate": 0.00029871672920607153
+  },
+  {
+    "step": 42,
+    "epoch": 0.2847457627118644,
+    "cpu_mem": 1.523642368,
+    "gpu_mem": 4.722715648,
+    "loss": 0.6569,
+    "grad_norm": 5.236875057220459,
+    "learning_rate": 0.0002984732162821399
+  },
+  {
+    "step": 43,
+    "epoch": 0.29152542372881357,
+    "cpu_mem": 1.523838976,
+    "gpu_mem": 4.722537472,
+    "loss": 0.6302,
+    "grad_norm": 2.8164334297180176,
+    "learning_rate": 0.0002982086784124952
+  },
+  {
+    "step": 44,
+    "epoch": 0.2983050847457627,
+    "cpu_mem": 1.524035584,
+    "gpu_mem": 4.72268032,
+    "loss": 0.6166,
+    "grad_norm": 4.41773796081543,
+    "learning_rate": 0.00029792315305772796
+  },
+  {
+    "step": 45,
+    "epoch": 0.3050847457627119,
+    "cpu_mem": 1.524232192,
+    "gpu_mem": 4.722460672,
+    "loss": 0.8092,
+    "grad_norm": 9.20035457611084,
+    "learning_rate": 0.0002976166806504174
+  },
+  {
+    "step": 46,
+    "epoch": 0.31186440677966104,
+    "cpu_mem": 1.524232192,
+    "gpu_mem": 4.72270336,
+    "loss": 0.8993,
+    "grad_norm": 15.634708404541016,
+    "learning_rate": 0.00029728930458940595
+  },
+  {
+    "step": 47,
+    "epoch": 0.31864406779661014,
+    "cpu_mem": 1.5244288,
+    "gpu_mem": 4.72242688,
+    "loss": 0.8146,
+    "grad_norm": 14.326847076416016,
+    "learning_rate": 0.00029694107123365385
+  },
+  {
+    "step": 48,
+    "epoch": 0.3254237288135593,
+    "cpu_mem": 1.524625408,
+    "gpu_mem": 4.72250368,
+    "loss": 0.6621,
+    "grad_norm": 7.587663650512695,
+    "learning_rate": 0.00029657202989567393
+  },
+  {
+    "step": 49,
+    "epoch": 0.33220338983050846,
+    "cpu_mem": 1.524822016,
+    "gpu_mem": 4.722520576,
+    "loss": 0.9905,
+    "grad_norm": 13.618229866027832,
+    "learning_rate": 0.00029618223283454893
+  },
+  {
+    "step": 50,
+    "epoch": 0.3389830508474576,
+    "cpu_mem": 1.524822016,
+    "gpu_mem": 4.722459136,
+    "loss": 0.8435,
+    "grad_norm": 9.786823272705078,
+    "learning_rate": 0.00029577173524853123
+  },
+  {
+    "step": 51,
+    "epoch": 0.34576271186440677,
+    "cpu_mem": 1.524822016,
+    "gpu_mem": 4.722463744,
+    "loss": 0.6079,
+    "grad_norm": 3.4515862464904785,
+    "learning_rate": 0.0002953405952672261
+  },
+  {
+    "step": 52,
+    "epoch": 0.3525423728813559,
+    "cpu_mem": 1.525018624,
+    "gpu_mem": 4.722543616,
+    "loss": 0.6645,
+    "grad_norm": 2.619760751724243,
+    "learning_rate": 0.0002948888739433602
+  },
+  {
+    "step": 53,
+    "epoch": 0.3593220338983051,
+    "cpu_mem": 1.525018624,
+    "gpu_mem": 4.722566656,
+    "loss": 0.7463,
+    "grad_norm": 10.795845031738281,
+    "learning_rate": 0.0002944166352441363
+  },
+  {
+    "step": 54,
+    "epoch": 0.36610169491525424,
+    "cpu_mem": 1.525215232,
+    "gpu_mem": 4.722494464,
+    "loss": 0.6756,
+    "grad_norm": 3.1487743854522705,
+    "learning_rate": 0.0002939239460421746
+  },
+  {
+    "step": 55,
+    "epoch": 0.3728813559322034,
+    "cpu_mem": 1.52541184,
+    "gpu_mem": 4.7227648,
+    "loss": 0.6088,
+    "grad_norm": 2.5326249599456787,
+    "learning_rate": 0.00029341087610604337
+  },
+  {
+    "step": 56,
+    "epoch": 0.37966101694915255,
+    "cpu_mem": 1.525608448,
+    "gpu_mem": 4.722551296,
+    "loss": 0.8536,
+    "grad_norm": 9.061946868896484,
+    "learning_rate": 0.00029287749809037904
+  },
+  {
+    "step": 57,
+    "epoch": 0.3864406779661017,
+    "cpu_mem": 1.525608448,
+    "gpu_mem": 4.722545152,
+    "loss": 0.6668,
+    "grad_norm": 4.727614879608154,
+    "learning_rate": 0.0002923238875255979
+  },
+  {
+    "step": 58,
+    "epoch": 0.39322033898305087,
+    "cpu_mem": 1.525805056,
+    "gpu_mem": 4.722440704,
+    "loss": 0.6361,
+    "grad_norm": 3.2904443740844727,
+    "learning_rate": 0.00029175012280720024
+  },
+  {
+    "step": 59,
+    "epoch": 0.4,
+    "cpu_mem": 1.525805056,
+    "gpu_mem": 4.7224576,
+    "loss": 0.6821,
+    "grad_norm": 1.5682965517044067,
+    "learning_rate": 0.000291156285184669
+  },
+  {
+    "step": 60,
+    "epoch": 0.4067796610169492,
+    "cpu_mem": 1.526001664,
+    "gpu_mem": 4.722551296,
+    "loss": 0.6106,
+    "grad_norm": 5.173000812530518,
+    "learning_rate": 0.00029054245874996426
+  },
+  {
+    "step": 61,
+    "epoch": 0.4135593220338983,
+    "cpu_mem": 1.526001664,
+    "gpu_mem": 4.722562048,
+    "loss": 0.6116,
+    "grad_norm": 2.3430614471435547,
+    "learning_rate": 0.0002899087304256151
+  },
+  {
+    "step": 62,
+    "epoch": 0.42033898305084744,
+    "cpu_mem": 1.526198272,
+    "gpu_mem": 4.72254976,
+    "loss": 0.7339,
+    "grad_norm": 6.764347553253174,
+    "learning_rate": 0.0002892551899524109
+  },
+  {
+    "step": 63,
+    "epoch": 0.4271186440677966,
+    "cpu_mem": 1.526198272,
+    "gpu_mem": 4.72254208,
+    "loss": 0.5956,
+    "grad_norm": 6.654665946960449,
+    "learning_rate": 0.000288581929876693
+  },
+  {
+    "step": 64,
+    "epoch": 0.43389830508474575,
+    "cpu_mem": 1.526198272,
+    "gpu_mem": 4.722471424,
+    "loss": 0.6023,
+    "grad_norm": 3.233610153198242,
+    "learning_rate": 0.0002878890455372498
+  },
+  {
+    "step": 65,
+    "epoch": 0.4406779661016949,
+    "cpu_mem": 1.52639488,
+    "gpu_mem": 4.722515968,
+    "loss": 0.6724,
+    "grad_norm": 5.837782382965088,
+    "learning_rate": 0.0002871766350518159
+  },
+  {
+    "step": 66,
+    "epoch": 0.44745762711864406,
+    "cpu_mem": 1.52639488,
+    "gpu_mem": 4.722709504,
+    "loss": 0.6014,
+    "grad_norm": 4.1243205070495605,
+    "learning_rate": 0.00028644479930317775
+  },
+  {
+    "step": 67,
+    "epoch": 0.4542372881355932,
+    "cpu_mem": 1.52639488,
+    "gpu_mem": 4.7224192,
+    "loss": 0.6198,
+    "grad_norm": 4.467631816864014,
+    "learning_rate": 0.00028569364192488803
+  },
+  {
+    "step": 68,
+    "epoch": 0.4610169491525424,
+    "cpu_mem": 1.526591488,
+    "gpu_mem": 4.722386944,
+    "loss": 0.6373,
+    "grad_norm": 3.114952802658081,
+    "learning_rate": 0.00028492326928659045
+  },
+  {
+    "step": 69,
+    "epoch": 0.46779661016949153,
+    "cpu_mem": 1.526591488,
+    "gpu_mem": 4.722452992,
+    "loss": 0.6229,
+    "grad_norm": 4.952956199645996,
+    "learning_rate": 0.00028413379047895665
+  },
+  {
+    "step": 70,
+    "epoch": 0.4745762711864407,
+    "cpu_mem": 1.526591488,
+    "gpu_mem": 4.722446848,
+    "loss": 0.6326,
+    "grad_norm": 3.901777744293213,
+    "learning_rate": 0.0002833253172982385
+  },
+  {
+    "step": 71,
+    "epoch": 0.48135593220338985,
+    "cpu_mem": 1.526591488,
+    "gpu_mem": 4.722675712,
+    "loss": 0.525,
+    "grad_norm": 4.247412204742432,
+    "learning_rate": 0.0002824979642304366
+  },
+  {
+    "step": 72,
+    "epoch": 0.488135593220339,
+    "cpu_mem": 1.526788096,
+    "gpu_mem": 4.722668032,
+    "loss": 0.5622,
+    "grad_norm": 5.4284772872924805,
+    "learning_rate": 0.0002816518484350883
+  },
+  {
+    "step": 73,
+    "epoch": 0.49491525423728816,
+    "cpu_mem": 1.526984704,
+    "gpu_mem": 4.72263424,
+    "loss": 0.7902,
+    "grad_norm": 8.788385391235352,
+    "learning_rate": 0.0002807870897286772
+  },
+  {
+    "step": 74,
+    "epoch": 0.5016949152542373,
+    "cpu_mem": 1.526984704,
+    "gpu_mem": 4.722494464,
+    "loss": 0.5742,
+    "grad_norm": 8.913131713867188,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 75,
+    "epoch": 0.5084745762711864,
+    "cpu_mem": 1.526984704,
+    "gpu_mem": 4.7224192,
+    "loss": 0.6146,
+    "grad_norm": 8.38949203491211,
+    "learning_rate": 0.000279002136031155
+  },
+  {
+    "step": 76,
+    "epoch": 0.5152542372881356,
+    "cpu_mem": 1.526984704,
+    "gpu_mem": 4.722359296,
+    "loss": 0.5725,
+    "grad_norm": 4.2171711921691895,
+    "learning_rate": 0.00027808219380317216
+  },
+  {
+    "step": 77,
+    "epoch": 0.5220338983050847,
+    "cpu_mem": 1.526984704,
+    "gpu_mem": 4.722433024,
+    "loss": 0.6514,
+    "grad_norm": 6.086472988128662,
+    "learning_rate": 0.0002771441141545895
+  },
+  {
+    "step": 78,
+    "epoch": 0.5288135593220339,
+    "cpu_mem": 1.526984704,
+    "gpu_mem": 4.722485248,
+    "loss": 0.8012,
+    "grad_norm": 10.957486152648926,
+    "learning_rate": 0.0002761880299246772
+  },
+  {
+    "step": 79,
+    "epoch": 0.535593220338983,
+    "cpu_mem": 1.527181312,
+    "gpu_mem": 4.722617344,
+    "loss": 0.5858,
+    "grad_norm": 3.74336576461792,
+    "learning_rate": 0.000275214076502292
+  },
+  {
+    "step": 80,
+    "epoch": 0.5423728813559322,
+    "cpu_mem": 1.527181312,
+    "gpu_mem": 4.722508288,
+    "loss": 0.6445,
+    "grad_norm": 7.315963268280029,
+    "learning_rate": 0.0002742223918067056
+  },
+  {
+    "step": 81,
+    "epoch": 0.5491525423728814,
+    "cpu_mem": 1.527181312,
+    "gpu_mem": 4.72238848,
+    "loss": 0.6349,
+    "grad_norm": 4.654501438140869,
+    "learning_rate": 0.00027321311626807374
+  },
+  {
+    "step": 82,
+    "epoch": 0.5559322033898305,
+    "cpu_mem": 1.527181312,
+    "gpu_mem": 4.7224576,
+    "loss": 0.6408,
+    "grad_norm": 4.707687854766846,
+    "learning_rate": 0.0002721863928075503
+  },
+  {
+    "step": 83,
+    "epoch": 0.5627118644067797,
+    "cpu_mem": 1.527181312,
+    "gpu_mem": 4.72255744,
+    "loss": 0.7144,
+    "grad_norm": 7.812034606933594,
+    "learning_rate": 0.000271142366817049
+  },
+  {
+    "step": 84,
+    "epoch": 0.5694915254237288,
+    "cpu_mem": 1.527181312,
+    "gpu_mem": 4.722520576,
+    "loss": 0.5678,
+    "grad_norm": 3.4686105251312256,
+    "learning_rate": 0.00027008118613865406
+  },
+  {
+    "step": 85,
+    "epoch": 0.576271186440678,
+    "cpu_mem": 1.527181312,
+    "gpu_mem": 4.722552832,
+    "loss": 0.5893,
+    "grad_norm": 5.409703254699707,
+    "learning_rate": 0.00026900300104368524
+  },
+  {
+    "step": 86,
+    "epoch": 0.5830508474576271,
+    "cpu_mem": 1.52737792,
+    "gpu_mem": 4.72250368,
+    "loss": 0.6168,
+    "grad_norm": 7.087602138519287,
+    "learning_rate": 0.00026790796421141813
+  },
+  {
+    "step": 87,
+    "epoch": 0.5898305084745763,
+    "cpu_mem": 1.52737792,
+    "gpu_mem": 4.72251136,
+    "loss": 0.5399,
+    "grad_norm": 5.04774284362793,
+    "learning_rate": 0.00026679623070746325
+  },
+  {
+    "step": 88,
+    "epoch": 0.5966101694915255,
+    "cpu_mem": 1.52737792,
+    "gpu_mem": 4.722655744,
+    "loss": 0.512,
+    "grad_norm": 4.10666561126709,
+    "learning_rate": 0.0002656679579618081
+  },
+  {
+    "step": 89,
+    "epoch": 0.6033898305084746,
+    "cpu_mem": 1.52737792,
+    "gpu_mem": 4.722437632,
+    "loss": 0.5958,
+    "grad_norm": 5.078695774078369,
+    "learning_rate": 0.0002645233057465235
+  },
+  {
+    "step": 90,
+    "epoch": 0.6101694915254238,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722491392,
+    "loss": 0.5342,
+    "grad_norm": 4.536576747894287,
+    "learning_rate": 0.00026336243615313873
+  },
+  {
+    "step": 91,
+    "epoch": 0.6169491525423729,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722459136,
+    "loss": 0.4877,
+    "grad_norm": 4.9868693351745605,
+    "learning_rate": 0.00026218551356968814
+  },
+  {
+    "step": 92,
+    "epoch": 0.6237288135593221,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722540544,
+    "loss": 0.7501,
+    "grad_norm": 11.705029487609863,
+    "learning_rate": 0.00026099270465743254
+  },
+  {
+    "step": 93,
+    "epoch": 0.6305084745762712,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722343936,
+    "loss": 0.7142,
+    "grad_norm": 9.641088485717773,
+    "learning_rate": 0.0002597841783272588
+  },
+  {
+    "step": 94,
+    "epoch": 0.6372881355932203,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.7224576,
+    "loss": 0.5724,
+    "grad_norm": 6.110875129699707,
+    "learning_rate": 0.0002585601057157605
+  },
+  {
+    "step": 95,
+    "epoch": 0.6440677966101694,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722477568,
+    "loss": 0.6165,
+    "grad_norm": 4.48118257522583,
+    "learning_rate": 0.00025732066016100394
+  },
+  {
+    "step": 96,
+    "epoch": 0.6508474576271186,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722515968,
+    "loss": 0.5351,
+    "grad_norm": 2.5242867469787598,
+    "learning_rate": 0.00025606601717798207
+  },
+  {
+    "step": 97,
+    "epoch": 0.6576271186440678,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722500608,
+    "loss": 0.7382,
+    "grad_norm": 7.024951457977295,
+    "learning_rate": 0.0002547963544337602
+  },
+  {
+    "step": 98,
+    "epoch": 0.6644067796610169,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722413056,
+    "loss": 0.6812,
+    "grad_norm": 5.02927827835083,
+    "learning_rate": 0.0002535118517223168
+  },
+  {
+    "step": 99,
+    "epoch": 0.6711864406779661,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722362368,
+    "loss": 0.5979,
+    "grad_norm": 5.04942512512207,
+    "learning_rate": 0.00025221269093908365
+  },
+  {
+    "step": 100,
+    "epoch": 0.6779661016949152,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722479104,
+    "loss": 0.6131,
+    "grad_norm": 6.651904106140137,
+    "learning_rate": 0.0002508990560551879
+  },
+  {
+    "step": 101,
+    "epoch": 0.6847457627118644,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.72251136,
+    "loss": 0.6984,
+    "grad_norm": 3.8917150497436523,
+    "learning_rate": 0.0002495711330914001
+  },
+  {
+    "step": 102,
+    "epoch": 0.6915254237288135,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722545152,
+    "loss": 0.5914,
+    "grad_norm": 2.322913885116577,
+    "learning_rate": 0.00024822911009179276
+  },
+  {
+    "step": 103,
+    "epoch": 0.6983050847457627,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.72259584,
+    "loss": 0.6322,
+    "grad_norm": 3.5212390422821045,
+    "learning_rate": 0.0002468731770971113
+  },
+  {
+    "step": 104,
+    "epoch": 0.7050847457627119,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722500608,
+    "loss": 0.5647,
+    "grad_norm": 3.077224016189575,
+    "learning_rate": 0.0002455035261178632
+  },
+  {
+    "step": 105,
+    "epoch": 0.711864406779661,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722601984,
+    "loss": 0.5667,
+    "grad_norm": 3.436150550842285,
+    "learning_rate": 0.0002441203511071278
+  },
+  {
+    "step": 106,
+    "epoch": 0.7186440677966102,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722552832,
+    "loss": 0.5603,
+    "grad_norm": 5.609046936035156,
+    "learning_rate": 0.00024272384793309077
+  },
+  {
+    "step": 107,
+    "epoch": 0.7254237288135593,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722440704,
+    "loss": 0.4929,
+    "grad_norm": 4.49297571182251,
+    "learning_rate": 0.00024131421435130807
+  },
+  {
+    "step": 108,
+    "epoch": 0.7322033898305085,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722625024,
+    "loss": 0.5647,
+    "grad_norm": 5.14377498626709,
+    "learning_rate": 0.00023989164997670202
+  },
+  {
+    "step": 109,
+    "epoch": 0.7389830508474576,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722479104,
+    "loss": 0.591,
+    "grad_norm": 4.947544574737549,
+    "learning_rate": 0.0002384563562552943
+  },
+  {
+    "step": 110,
+    "epoch": 0.7457627118644068,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722482176,
+    "loss": 0.5745,
+    "grad_norm": 4.043002605438232,
+    "learning_rate": 0.0002370085364356797
+  },
+  {
+    "step": 111,
+    "epoch": 0.752542372881356,
+    "cpu_mem": 1.527574528,
+    "gpu_mem": 4.722451456,
+    "loss": 0.5688,
+    "grad_norm": 6.002414703369141,
+    "learning_rate": 0.0002355483955402446
+  },
+  {
+    "step": 112,
+    "epoch": 0.7593220338983051,
+    "cpu_mem": 1.527771136,
+    "gpu_mem": 4.722497536,
+    "loss": 0.6035,
+    "grad_norm": 5.334151268005371,
+    "learning_rate": 0.00023407614033613407
+  },
+  {
+    "step": 113,
+    "epoch": 0.7661016949152543,
+    "cpu_mem": 1.527771136,
+    "gpu_mem": 4.72248832,
+    "loss": 0.5538,
+    "grad_norm": 4.7518310546875,
+    "learning_rate": 0.0002325919793059723
+  },
+  {
+    "step": 114,
+    "epoch": 0.7728813559322034,
+    "cpu_mem": 1.527771136,
+    "gpu_mem": 4.722469888,
+    "loss": 0.4641,
+    "grad_norm": 4.555304527282715,
+    "learning_rate": 0.00023109612261833963
+  },
+  {
+    "step": 115,
+    "epoch": 0.7796610169491526,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722545152,
+    "loss": 0.6187,
+    "grad_norm": 5.561794281005859,
+    "learning_rate": 0.0002295887820980112
+  },
+  {
+    "step": 116,
+    "epoch": 0.7864406779661017,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.72246528,
+    "loss": 0.5549,
+    "grad_norm": 4.324403285980225,
+    "learning_rate": 0.0002280701711959608
+  },
+  {
+    "step": 117,
+    "epoch": 0.7932203389830509,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722356224,
+    "loss": 0.4801,
+    "grad_norm": 2.37454891204834,
+    "learning_rate": 0.00022654050495913495
+  },
+  {
+    "step": 118,
+    "epoch": 0.8,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722594304,
+    "loss": 0.6734,
+    "grad_norm": 4.633813858032227,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 119,
+    "epoch": 0.8067796610169492,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.7227648,
+    "loss": 0.4906,
+    "grad_norm": 4.976076126098633,
+    "learning_rate": 0.00022344887446586865
+  },
+  {
+    "step": 120,
+    "epoch": 0.8135593220338984,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722497536,
+    "loss": 0.4778,
+    "grad_norm": 4.014054775238037,
+    "learning_rate": 0.00022188734800800852
+  },
+  {
+    "step": 121,
+    "epoch": 0.8203389830508474,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722525184,
+    "loss": 0.5773,
+    "grad_norm": 4.499019622802734,
+    "learning_rate": 0.00022031564175053754
+  },
+  {
+    "step": 122,
+    "epoch": 0.8271186440677966,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722575872,
+    "loss": 0.4382,
+    "grad_norm": 4.889860153198242,
+    "learning_rate": 0.00021873397825911153
+  },
+  {
+    "step": 123,
+    "epoch": 0.8338983050847457,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722385408,
+    "loss": 0.5738,
+    "grad_norm": 6.226327419281006,
+    "learning_rate": 0.00021714258150940685
+  },
+  {
+    "step": 124,
+    "epoch": 0.8406779661016949,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722827776,
+    "loss": 0.5588,
+    "grad_norm": 5.272500514984131,
+    "learning_rate": 0.0002155416768554039
+  },
+  {
+    "step": 125,
+    "epoch": 0.847457627118644,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722554368,
+    "loss": 0.6352,
+    "grad_norm": 8.107681274414062,
+    "learning_rate": 0.00021393149099747523
+  },
+  {
+    "step": 126,
+    "epoch": 0.8542372881355932,
+    "cpu_mem": 1.527967744,
+    "gpu_mem": 4.722437632,
+    "loss": 0.5789,
+    "grad_norm": 6.859676837921143,
+    "learning_rate": 0.00021231225195028297
+  },
+  {
+    "step": 127,
+    "epoch": 0.8610169491525423,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722876928,
+    "loss": 0.5435,
+    "grad_norm": 4.632746696472168,
+    "learning_rate": 0.00021068418901049025
+  },
+  {
+    "step": 128,
+    "epoch": 0.8677966101694915,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722652672,
+    "loss": 0.4812,
+    "grad_norm": 3.7110488414764404,
+    "learning_rate": 0.0002090475327242912
+  },
+  {
+    "step": 129,
+    "epoch": 0.8745762711864407,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722692608,
+    "loss": 0.5938,
+    "grad_norm": 6.665708541870117,
+    "learning_rate": 0.00020740251485476345
+  },
+  {
+    "step": 130,
+    "epoch": 0.8813559322033898,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722474496,
+    "loss": 0.5986,
+    "grad_norm": 3.7718665599823,
+    "learning_rate": 0.0002057493683490491
+  },
+  {
+    "step": 131,
+    "epoch": 0.888135593220339,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.72260352,
+    "loss": 0.5023,
+    "grad_norm": 3.4843013286590576,
+    "learning_rate": 0.00020408832730536746
+  },
+  {
+    "step": 132,
+    "epoch": 0.8949152542372881,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722684928,
+    "loss": 0.5568,
+    "grad_norm": 6.419014930725098,
+    "learning_rate": 0.00020241962693986476
+  },
+  {
+    "step": 133,
+    "epoch": 0.9016949152542373,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722468352,
+    "loss": 0.4996,
+    "grad_norm": 4.196140766143799,
+    "learning_rate": 0.0002007435035533061
+  },
+  {
+    "step": 134,
+    "epoch": 0.9084745762711864,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722601984,
+    "loss": 0.4804,
+    "grad_norm": 3.8392629623413086,
+    "learning_rate": 0.00019906019449761325
+  },
+  {
+    "step": 135,
+    "epoch": 0.9152542372881356,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722625024,
+    "loss": 0.664,
+    "grad_norm": 9.533957481384277,
+    "learning_rate": 0.00019736993814225374
+  },
+  {
+    "step": 136,
+    "epoch": 0.9220338983050848,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722462208,
+    "loss": 0.526,
+    "grad_norm": 6.26369047164917,
+    "learning_rate": 0.00019567297384048604
+  },
+  {
+    "step": 137,
+    "epoch": 0.9288135593220339,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.7223424,
+    "loss": 0.5442,
+    "grad_norm": 5.538697719573975,
+    "learning_rate": 0.0001939695418954653
+  },
+  {
+    "step": 138,
+    "epoch": 0.9355932203389831,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722523648,
+    "loss": 0.4846,
+    "grad_norm": 3.0243053436279297,
+    "learning_rate": 0.00019225988352621445
+  },
+  {
+    "step": 139,
+    "epoch": 0.9423728813559322,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722422272,
+    "loss": 0.5617,
+    "grad_norm": 5.228503704071045,
+    "learning_rate": 0.00019054424083346592
+  },
+  {
+    "step": 140,
+    "epoch": 0.9491525423728814,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722474496,
+    "loss": 0.5831,
+    "grad_norm": 6.361831188201904,
+    "learning_rate": 0.0001888228567653781
+  },
+  {
+    "step": 141,
+    "epoch": 0.9559322033898305,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722506752,
+    "loss": 0.5879,
+    "grad_norm": 5.449702262878418,
+    "learning_rate": 0.0001870959750831323
+  },
+  {
+    "step": 142,
+    "epoch": 0.9627118644067797,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722646528,
+    "loss": 0.4928,
+    "grad_norm": 4.112429141998291,
+    "learning_rate": 0.0001853638403264141
+  },
+  {
+    "step": 143,
+    "epoch": 0.9694915254237289,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722629632,
+    "loss": 0.6331,
+    "grad_norm": 4.983449459075928,
+    "learning_rate": 0.00018362669777878453
+  },
+  {
+    "step": 144,
+    "epoch": 0.976271186440678,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722821632,
+    "loss": 0.6526,
+    "grad_norm": 6.455733299255371,
+    "learning_rate": 0.00018188479343294648
+  },
+  {
+    "step": 145,
+    "epoch": 0.9830508474576272,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722532864,
+    "loss": 0.505,
+    "grad_norm": 3.729292392730713,
+    "learning_rate": 0.0001801383739559098
+  },
+  {
+    "step": 146,
+    "epoch": 0.9898305084745763,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722568192,
+    "loss": 0.5684,
+    "grad_norm": 3.6822805404663086,
+    "learning_rate": 0.0001783876866540615
+  },
+  {
+    "step": 147,
+    "epoch": 0.9966101694915255,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.722466816,
+    "loss": 0.5114,
+    "grad_norm": 3.8303308486938477,
+    "learning_rate": 0.00017663297943814552
+  },
+  {
+    "step": 148,
+    "epoch": 1.0033898305084745,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824187392,
+    "loss": 0.7086,
+    "grad_norm": 4.2697529792785645,
+    "learning_rate": 0.0001748745007881561
+  },
+  {
+    "step": 149,
+    "epoch": 1.0101694915254238,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82412288,
+    "loss": 0.4824,
+    "grad_norm": 3.1086933612823486,
+    "learning_rate": 0.00017311249971815185
+  },
+  {
+    "step": 150,
+    "epoch": 1.0169491525423728,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823960064,
+    "loss": 0.4912,
+    "grad_norm": 3.0585293769836426,
+    "learning_rate": 0.00017134722574099276
+  },
+  {
+    "step": 151,
+    "epoch": 1.023728813559322,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824032256,
+    "loss": 0.5404,
+    "grad_norm": 4.751421928405762,
+    "learning_rate": 0.00016957892883300775
+  },
+  {
+    "step": 152,
+    "epoch": 1.0305084745762711,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824067584,
+    "loss": 0.4155,
+    "grad_norm": 3.7576749324798584,
+    "learning_rate": 0.00016780785939859576
+  },
+  {
+    "step": 153,
+    "epoch": 1.0372881355932204,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82409216,
+    "loss": 0.5912,
+    "grad_norm": 4.714956283569336,
+    "learning_rate": 0.00016603426823476693
+  },
+  {
+    "step": 154,
+    "epoch": 1.0440677966101695,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82405376,
+    "loss": 0.4068,
+    "grad_norm": 6.185878753662109,
+    "learning_rate": 0.00016425840649562736
+  },
+  {
+    "step": 155,
+    "epoch": 1.0508474576271187,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824274944,
+    "loss": 0.5478,
+    "grad_norm": 5.617146015167236,
+    "learning_rate": 0.00016248052565681436
+  },
+  {
+    "step": 156,
+    "epoch": 1.0576271186440678,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824182784,
+    "loss": 0.3949,
+    "grad_norm": 3.8420050144195557,
+    "learning_rate": 0.00016070087747988482
+  },
+  {
+    "step": 157,
+    "epoch": 1.064406779661017,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824089088,
+    "loss": 0.3574,
+    "grad_norm": 3.955946683883667,
+    "learning_rate": 0.00015891971397666464
+  },
+  {
+    "step": 158,
+    "epoch": 1.071186440677966,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82401536,
+    "loss": 0.478,
+    "grad_norm": 5.138974189758301,
+    "learning_rate": 0.00015713728737356137
+  },
+  {
+    "step": 159,
+    "epoch": 1.0779661016949154,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824364032,
+    "loss": 0.3684,
+    "grad_norm": 5.789059638977051,
+    "learning_rate": 0.00015535385007584706
+  },
+  {
+    "step": 160,
+    "epoch": 1.0847457627118644,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823958528,
+    "loss": 0.417,
+    "grad_norm": 4.242332935333252,
+    "learning_rate": 0.0001535696546319161
+  },
+  {
+    "step": 161,
+    "epoch": 1.0915254237288137,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823904768,
+    "loss": 0.4055,
+    "grad_norm": 5.762329578399658,
+    "learning_rate": 0.00015178495369752213
+  },
+  {
+    "step": 162,
+    "epoch": 1.0983050847457627,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824680448,
+    "loss": 0.3548,
+    "grad_norm": 4.2064528465271,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 163,
+    "epoch": 1.1050847457627118,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824156672,
+    "loss": 0.4353,
+    "grad_norm": 7.034615993499756,
+    "learning_rate": 0.00014821504630247785
+  },
+  {
+    "step": 164,
+    "epoch": 1.111864406779661,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82406912,
+    "loss": 0.4521,
+    "grad_norm": 5.314269065856934,
+    "learning_rate": 0.00014643034536808387
+  },
+  {
+    "step": 165,
+    "epoch": 1.11864406779661,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824018432,
+    "loss": 0.4232,
+    "grad_norm": 4.84352970123291,
+    "learning_rate": 0.00014464614992415294
+  },
+  {
+    "step": 166,
+    "epoch": 1.1254237288135593,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824113664,
+    "loss": 0.2749,
+    "grad_norm": 6.184368133544922,
+    "learning_rate": 0.00014286271262643866
+  },
+  {
+    "step": 167,
+    "epoch": 1.1322033898305084,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82403072,
+    "loss": 0.5079,
+    "grad_norm": 6.006751537322998,
+    "learning_rate": 0.00014108028602333536
+  },
+  {
+    "step": 168,
+    "epoch": 1.1389830508474577,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824049152,
+    "loss": 0.4548,
+    "grad_norm": 6.466878414154053,
+    "learning_rate": 0.00013929912252011516
+  },
+  {
+    "step": 169,
+    "epoch": 1.1457627118644067,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824136704,
+    "loss": 0.4594,
+    "grad_norm": 6.34998083114624,
+    "learning_rate": 0.00013751947434318564
+  },
+  {
+    "step": 170,
+    "epoch": 1.152542372881356,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824021504,
+    "loss": 0.5691,
+    "grad_norm": 7.32921028137207,
+    "learning_rate": 0.00013574159350437261
+  },
+  {
+    "step": 171,
+    "epoch": 1.159322033898305,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82408448,
+    "loss": 0.5156,
+    "grad_norm": 7.228818416595459,
+    "learning_rate": 0.0001339657317652331
+  },
+  {
+    "step": 172,
+    "epoch": 1.1661016949152543,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82399232,
+    "loss": 0.3484,
+    "grad_norm": 5.381630897521973,
+    "learning_rate": 0.00013219214060140424
+  },
+  {
+    "step": 173,
+    "epoch": 1.1728813559322033,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82429184,
+    "loss": 0.4047,
+    "grad_norm": 7.392773151397705,
+    "learning_rate": 0.00013042107116699228
+  },
+  {
+    "step": 174,
+    "epoch": 1.1796610169491526,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82401536,
+    "loss": 0.5447,
+    "grad_norm": 7.2776360511779785,
+    "learning_rate": 0.00012865277425900724
+  },
+  {
+    "step": 175,
+    "epoch": 1.1864406779661016,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823981568,
+    "loss": 0.422,
+    "grad_norm": 5.06213903427124,
+    "learning_rate": 0.00012688750028184818
+  },
+  {
+    "step": 176,
+    "epoch": 1.193220338983051,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824119808,
+    "loss": 0.4156,
+    "grad_norm": 7.205942630767822,
+    "learning_rate": 0.0001251254992118439
+  },
+  {
+    "step": 177,
+    "epoch": 1.2,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824218112,
+    "loss": 0.4374,
+    "grad_norm": 4.606486797332764,
+    "learning_rate": 0.00012336702056185453
+  },
+  {
+    "step": 178,
+    "epoch": 1.2067796610169492,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823964672,
+    "loss": 0.4501,
+    "grad_norm": 5.773846626281738,
+    "learning_rate": 0.00012161231334593851
+  },
+  {
+    "step": 179,
+    "epoch": 1.2135593220338983,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824064512,
+    "loss": 0.4543,
+    "grad_norm": 5.905703544616699,
+    "learning_rate": 0.00011986162604409015
+  },
+  {
+    "step": 180,
+    "epoch": 1.2203389830508475,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824036864,
+    "loss": 0.4158,
+    "grad_norm": 5.3787360191345215,
+    "learning_rate": 0.00011811520656705348
+  },
+  {
+    "step": 181,
+    "epoch": 1.2271186440677966,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823973888,
+    "loss": 0.3065,
+    "grad_norm": 4.495090007781982,
+    "learning_rate": 0.00011637330222121543
+  },
+  {
+    "step": 182,
+    "epoch": 1.2338983050847459,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824192,
+    "loss": 0.5224,
+    "grad_norm": 7.384599685668945,
+    "learning_rate": 0.00011463615967358588
+  },
+  {
+    "step": 183,
+    "epoch": 1.240677966101695,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824089088,
+    "loss": 0.3435,
+    "grad_norm": 5.406001091003418,
+    "learning_rate": 0.00011290402491686766
+  },
+  {
+    "step": 184,
+    "epoch": 1.2474576271186442,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824036864,
+    "loss": 0.396,
+    "grad_norm": 5.245143890380859,
+    "learning_rate": 0.00011117714323462186
+  },
+  {
+    "step": 185,
+    "epoch": 1.2542372881355932,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82401536,
+    "loss": 0.5028,
+    "grad_norm": 8.920019149780273,
+    "learning_rate": 0.00010945575916653407
+  },
+  {
+    "step": 186,
+    "epoch": 1.2610169491525425,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824024576,
+    "loss": 0.315,
+    "grad_norm": 6.18515682220459,
+    "learning_rate": 0.00010774011647378553
+  },
+  {
+    "step": 187,
+    "epoch": 1.2677966101694915,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823956992,
+    "loss": 0.4535,
+    "grad_norm": 10.364043235778809,
+    "learning_rate": 0.00010603045810453468
+  },
+  {
+    "step": 188,
+    "epoch": 1.2745762711864406,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824119808,
+    "loss": 0.2713,
+    "grad_norm": 4.690507888793945,
+    "learning_rate": 0.00010432702615951396
+  },
+  {
+    "step": 189,
+    "epoch": 1.2813559322033898,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823989248,
+    "loss": 0.4559,
+    "grad_norm": 5.3982133865356445,
+    "learning_rate": 0.00010263006185774627
+  },
+  {
+    "step": 190,
+    "epoch": 1.288135593220339,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824109056,
+    "loss": 0.3843,
+    "grad_norm": 4.67440128326416,
+    "learning_rate": 0.00010093980550238675
+  },
+  {
+    "step": 191,
+    "epoch": 1.2949152542372881,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823927808,
+    "loss": 0.3162,
+    "grad_norm": 5.031257152557373,
+    "learning_rate": 9.925649644669391e-05
+  },
+  {
+    "step": 192,
+    "epoch": 1.3016949152542372,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824059904,
+    "loss": 0.2999,
+    "grad_norm": 5.343701362609863,
+    "learning_rate": 9.758037306013526e-05
+  },
+  {
+    "step": 193,
+    "epoch": 1.3084745762711865,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824033792,
+    "loss": 0.3915,
+    "grad_norm": 7.458854675292969,
+    "learning_rate": 9.591167269463255e-05
+  },
+  {
+    "step": 194,
+    "epoch": 1.3152542372881357,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824,
+    "loss": 0.345,
+    "grad_norm": 7.649142265319824,
+    "learning_rate": 9.425063165095088e-05
+  },
+  {
+    "step": 195,
+    "epoch": 1.3220338983050848,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824104448,
+    "loss": 0.2545,
+    "grad_norm": 6.707334518432617,
+    "learning_rate": 9.259748514523653e-05
+  },
+  {
+    "step": 196,
+    "epoch": 1.3288135593220338,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82409984,
+    "loss": 0.4273,
+    "grad_norm": 6.2424116134643555,
+    "learning_rate": 9.095246727570879e-05
+  },
+  {
+    "step": 197,
+    "epoch": 1.335593220338983,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823958528,
+    "loss": 0.3421,
+    "grad_norm": 6.736060619354248,
+    "learning_rate": 8.931581098950973e-05
+  },
+  {
+    "step": 198,
+    "epoch": 1.3423728813559321,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824150528,
+    "loss": 0.409,
+    "grad_norm": 6.864956378936768,
+    "learning_rate": 8.768774804971705e-05
+  },
+  {
+    "step": 199,
+    "epoch": 1.3491525423728814,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824001536,
+    "loss": 0.4033,
+    "grad_norm": 8.16348934173584,
+    "learning_rate": 8.606850900252478e-05
+  },
+  {
+    "step": 200,
+    "epoch": 1.3559322033898304,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824104448,
+    "loss": 0.2264,
+    "grad_norm": 4.169793605804443,
+    "learning_rate": 8.445832314459608e-05
+  },
+  {
+    "step": 201,
+    "epoch": 1.3627118644067797,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.8243072,
+    "loss": 0.301,
+    "grad_norm": 5.401573657989502,
+    "learning_rate": 8.285741849059311e-05
+  },
+  {
+    "step": 202,
+    "epoch": 1.3694915254237288,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824109056,
+    "loss": 0.2946,
+    "grad_norm": 5.444881439208984,
+    "learning_rate": 8.126602174088843e-05
+  },
+  {
+    "step": 203,
+    "epoch": 1.376271186440678,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823995392,
+    "loss": 0.3586,
+    "grad_norm": 7.087218284606934,
+    "learning_rate": 7.968435824946242e-05
+  },
+  {
+    "step": 204,
+    "epoch": 1.383050847457627,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824009216,
+    "loss": 0.2954,
+    "grad_norm": 5.234076976776123,
+    "learning_rate": 7.811265199199152e-05
+  },
+  {
+    "step": 205,
+    "epoch": 1.3898305084745763,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82405376,
+    "loss": 0.3908,
+    "grad_norm": 6.1905012130737305,
+    "learning_rate": 7.655112553413135e-05
+  },
+  {
+    "step": 206,
+    "epoch": 1.3966101694915254,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823995392,
+    "loss": 0.3348,
+    "grad_norm": 5.874136447906494,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 207,
+    "epoch": 1.4033898305084747,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824228864,
+    "loss": 0.3414,
+    "grad_norm": 5.023383617401123,
+    "learning_rate": 7.345949504086507e-05
+  },
+  {
+    "step": 208,
+    "epoch": 1.4101694915254237,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824259584,
+    "loss": 0.2438,
+    "grad_norm": 7.677697658538818,
+    "learning_rate": 7.192982880403917e-05
+  },
+  {
+    "step": 209,
+    "epoch": 1.4169491525423727,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824185856,
+    "loss": 0.3552,
+    "grad_norm": 5.987409591674805,
+    "learning_rate": 7.041121790198881e-05
+  },
+  {
+    "step": 210,
+    "epoch": 1.423728813559322,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824073728,
+    "loss": 0.4027,
+    "grad_norm": 5.519845485687256,
+    "learning_rate": 6.890387738166041e-05
+  },
+  {
+    "step": 211,
+    "epoch": 1.4305084745762713,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82402304,
+    "loss": 0.3283,
+    "grad_norm": 6.361313819885254,
+    "learning_rate": 6.740802069402771e-05
+  },
+  {
+    "step": 212,
+    "epoch": 1.4372881355932203,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82399232,
+    "loss": 0.3592,
+    "grad_norm": 5.429263591766357,
+    "learning_rate": 6.592385966386588e-05
+  },
+  {
+    "step": 213,
+    "epoch": 1.4440677966101694,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82401536,
+    "loss": 0.4217,
+    "grad_norm": 8.665788650512695,
+    "learning_rate": 6.445160445975536e-05
+  },
+  {
+    "step": 214,
+    "epoch": 1.4508474576271186,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824098304,
+    "loss": 0.421,
+    "grad_norm": 7.960748195648193,
+    "learning_rate": 6.299146356432029e-05
+  },
+  {
+    "step": 215,
+    "epoch": 1.457627118644068,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824026112,
+    "loss": 0.397,
+    "grad_norm": 8.969430923461914,
+    "learning_rate": 6.154364374470568e-05
+  },
+  {
+    "step": 216,
+    "epoch": 1.464406779661017,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824192,
+    "loss": 0.373,
+    "grad_norm": 5.677824020385742,
+    "learning_rate": 6.010835002329795e-05
+  },
+  {
+    "step": 217,
+    "epoch": 1.471186440677966,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824033792,
+    "loss": 0.4046,
+    "grad_norm": 6.211999893188477,
+    "learning_rate": 5.8685785648691894e-05
+  },
+  {
+    "step": 218,
+    "epoch": 1.4779661016949153,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824010752,
+    "loss": 0.3678,
+    "grad_norm": 5.141634464263916,
+    "learning_rate": 5.72761520669092e-05
+  },
+  {
+    "step": 219,
+    "epoch": 1.4847457627118645,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824136704,
+    "loss": 0.4164,
+    "grad_norm": 5.972975254058838,
+    "learning_rate": 5.587964889287218e-05
+  },
+  {
+    "step": 220,
+    "epoch": 1.4915254237288136,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824170496,
+    "loss": 0.3468,
+    "grad_norm": 5.6360673904418945,
+    "learning_rate": 5.449647388213678e-05
+  },
+  {
+    "step": 221,
+    "epoch": 1.4983050847457626,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.8240384,
+    "loss": 0.3753,
+    "grad_norm": 5.116311550140381,
+    "learning_rate": 5.312682290288869e-05
+  },
+  {
+    "step": 222,
+    "epoch": 1.505084745762712,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824175104,
+    "loss": 0.3698,
+    "grad_norm": 6.675261974334717,
+    "learning_rate": 5.1770889908207245e-05
+  },
+  {
+    "step": 223,
+    "epoch": 1.5118644067796612,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824089088,
+    "loss": 0.4058,
+    "grad_norm": 6.807044982910156,
+    "learning_rate": 5.0428866908599864e-05
+  },
+  {
+    "step": 224,
+    "epoch": 1.5186440677966102,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82405376,
+    "loss": 0.2952,
+    "grad_norm": 4.836634635925293,
+    "learning_rate": 4.9100943944812114e-05
+  },
+  {
+    "step": 225,
+    "epoch": 1.5254237288135593,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824018432,
+    "loss": 0.2557,
+    "grad_norm": 3.945059299468994,
+    "learning_rate": 4.778730906091632e-05
+  },
+  {
+    "step": 226,
+    "epoch": 1.5322033898305085,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824167424,
+    "loss": 0.3338,
+    "grad_norm": 4.126738548278809,
+    "learning_rate": 4.648814827768322e-05
+  },
+  {
+    "step": 227,
+    "epoch": 1.5389830508474578,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824056832,
+    "loss": 0.2903,
+    "grad_norm": 6.6302809715271,
+    "learning_rate": 4.5203645566239816e-05
+  },
+  {
+    "step": 228,
+    "epoch": 1.5457627118644068,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824001536,
+    "loss": 0.4299,
+    "grad_norm": 7.667603015899658,
+    "learning_rate": 4.3933982822017876e-05
+  },
+  {
+    "step": 229,
+    "epoch": 1.5525423728813559,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823943168,
+    "loss": 0.2388,
+    "grad_norm": 4.576896667480469,
+    "learning_rate": 4.267933983899601e-05
+  },
+  {
+    "step": 230,
+    "epoch": 1.559322033898305,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824,
+    "loss": 0.3806,
+    "grad_norm": 6.581130027770996,
+    "learning_rate": 4.143989428423947e-05
+  },
+  {
+    "step": 231,
+    "epoch": 1.5661016949152542,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824278016,
+    "loss": 0.3558,
+    "grad_norm": 4.444263458251953,
+    "learning_rate": 4.0215821672741213e-05
+  },
+  {
+    "step": 232,
+    "epoch": 1.5728813559322035,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824001536,
+    "loss": 0.3733,
+    "grad_norm": 6.31781005859375,
+    "learning_rate": 3.900729534256745e-05
+  },
+  {
+    "step": 233,
+    "epoch": 1.5796610169491525,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82431488,
+    "loss": 0.2761,
+    "grad_norm": 4.112189769744873,
+    "learning_rate": 3.781448643031187e-05
+  },
+  {
+    "step": 234,
+    "epoch": 1.5864406779661016,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824190464,
+    "loss": 0.218,
+    "grad_norm": 3.6443135738372803,
+    "learning_rate": 3.663756384686127e-05
+  },
+  {
+    "step": 235,
+    "epoch": 1.5932203389830508,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82394624,
+    "loss": 0.3588,
+    "grad_norm": 6.56972599029541,
+    "learning_rate": 3.547669425347647e-05
+  },
+  {
+    "step": 236,
+    "epoch": 1.6,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824006144,
+    "loss": 0.3269,
+    "grad_norm": 5.762430191040039,
+    "learning_rate": 3.433204203819185e-05
+  },
+  {
+    "step": 237,
+    "epoch": 1.6067796610169491,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824067584,
+    "loss": 0.4199,
+    "grad_norm": 6.846770763397217,
+    "learning_rate": 3.3203769292536764e-05
+  },
+  {
+    "step": 238,
+    "epoch": 1.6135593220338982,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82406912,
+    "loss": 0.3317,
+    "grad_norm": 5.823359489440918,
+    "learning_rate": 3.209203578858191e-05
+  },
+  {
+    "step": 239,
+    "epoch": 1.6203389830508474,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82432256,
+    "loss": 0.3896,
+    "grad_norm": 7.253147125244141,
+    "learning_rate": 3.099699895631474e-05
+  },
+  {
+    "step": 240,
+    "epoch": 1.6271186440677967,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823972352,
+    "loss": 0.5372,
+    "grad_norm": 7.62632417678833,
+    "learning_rate": 2.9918813861345952e-05
+  },
+  {
+    "step": 241,
+    "epoch": 1.6338983050847458,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.8242688,
+    "loss": 0.2841,
+    "grad_norm": 5.374094009399414,
+    "learning_rate": 2.885763318295102e-05
+  },
+  {
+    "step": 242,
+    "epoch": 1.6406779661016948,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82413056,
+    "loss": 0.2746,
+    "grad_norm": 5.998660564422607,
+    "learning_rate": 2.781360719244964e-05
+  },
+  {
+    "step": 243,
+    "epoch": 1.647457627118644,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823983104,
+    "loss": 0.4833,
+    "grad_norm": 7.127227306365967,
+    "learning_rate": 2.6786883731926306e-05
+  },
+  {
+    "step": 244,
+    "epoch": 1.6542372881355933,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82412288,
+    "loss": 0.1932,
+    "grad_norm": 3.3074233531951904,
+    "learning_rate": 2.5777608193294396e-05
+  },
+  {
+    "step": 245,
+    "epoch": 1.6610169491525424,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824001536,
+    "loss": 0.4678,
+    "grad_norm": 7.167958736419678,
+    "learning_rate": 2.4785923497707956e-05
+  },
+  {
+    "step": 246,
+    "epoch": 1.6677966101694914,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824095232,
+    "loss": 0.3263,
+    "grad_norm": 5.361066818237305,
+    "learning_rate": 2.38119700753228e-05
+  },
+  {
+    "step": 247,
+    "epoch": 1.6745762711864407,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824113664,
+    "loss": 0.3142,
+    "grad_norm": 7.1523284912109375,
+    "learning_rate": 2.285588584541047e-05
+  },
+  {
+    "step": 248,
+    "epoch": 1.68135593220339,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824066048,
+    "loss": 0.4077,
+    "grad_norm": 5.50556755065918,
+    "learning_rate": 2.1917806196827792e-05
+  },
+  {
+    "step": 249,
+    "epoch": 1.688135593220339,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823972352,
+    "loss": 0.2624,
+    "grad_norm": 4.57589864730835,
+    "learning_rate": 2.0997863968844914e-05
+  },
+  {
+    "step": 250,
+    "epoch": 1.694915254237288,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824064512,
+    "loss": 0.2678,
+    "grad_norm": 6.028458118438721,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 251,
+    "epoch": 1.7016949152542373,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82397696,
+    "loss": 0.2385,
+    "grad_norm": 9.162259101867676,
+    "learning_rate": 1.921291027132278e-05
+  },
+  {
+    "step": 252,
+    "epoch": 1.7084745762711866,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824019968,
+    "loss": 0.3512,
+    "grad_norm": 4.852019309997559,
+    "learning_rate": 1.834815156491165e-05
+  },
+  {
+    "step": 253,
+    "epoch": 1.7152542372881356,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824213504,
+    "loss": 0.3405,
+    "grad_norm": 6.2241082191467285,
+    "learning_rate": 1.750203576956341e-05
+  },
+  {
+    "step": 254,
+    "epoch": 1.7220338983050847,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824009216,
+    "loss": 0.3576,
+    "grad_norm": 5.062891960144043,
+    "learning_rate": 1.6674682701761493e-05
+  },
+  {
+    "step": 255,
+    "epoch": 1.7288135593220337,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824165888,
+    "loss": 0.4266,
+    "grad_norm": 6.995367527008057,
+    "learning_rate": 1.5866209521043304e-05
+  },
+  {
+    "step": 256,
+    "epoch": 1.735593220338983,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82399232,
+    "loss": 0.2653,
+    "grad_norm": 4.953624248504639,
+    "learning_rate": 1.5076730713409523e-05
+  },
+  {
+    "step": 257,
+    "epoch": 1.7423728813559323,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824405504,
+    "loss": 0.4008,
+    "grad_norm": 4.404302597045898,
+    "learning_rate": 1.4306358075111923e-05
+  },
+  {
+    "step": 258,
+    "epoch": 1.7491525423728813,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824064512,
+    "loss": 0.4191,
+    "grad_norm": 7.855671405792236,
+    "learning_rate": 1.3555200696822232e-05
+  },
+  {
+    "step": 259,
+    "epoch": 1.7559322033898304,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823981568,
+    "loss": 0.2937,
+    "grad_norm": 7.6881279945373535,
+    "learning_rate": 1.2823364948184095e-05
+  },
+  {
+    "step": 260,
+    "epoch": 1.7627118644067796,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824098304,
+    "loss": 0.1671,
+    "grad_norm": 4.152520179748535,
+    "learning_rate": 1.2110954462750166e-05
+  },
+  {
+    "step": 261,
+    "epoch": 1.769491525423729,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82405376,
+    "loss": 0.2918,
+    "grad_norm": 4.768893241882324,
+    "learning_rate": 1.1418070123306989e-05
+  },
+  {
+    "step": 262,
+    "epoch": 1.776271186440678,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824010752,
+    "loss": 0.2511,
+    "grad_norm": 3.7594785690307617,
+    "learning_rate": 1.0744810047589115e-05
+  },
+  {
+    "step": 263,
+    "epoch": 1.783050847457627,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824047616,
+    "loss": 0.2518,
+    "grad_norm": 4.245553970336914,
+    "learning_rate": 1.0091269574384874e-05
+  },
+  {
+    "step": 264,
+    "epoch": 1.7898305084745763,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824135168,
+    "loss": 0.2495,
+    "grad_norm": 4.321831226348877,
+    "learning_rate": 9.45754125003576e-06
+  },
+  {
+    "step": 265,
+    "epoch": 1.7966101694915255,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82405376,
+    "loss": 0.3896,
+    "grad_norm": 5.726314067840576,
+    "learning_rate": 8.843714815330987e-06
+  },
+  {
+    "step": 266,
+    "epoch": 1.8033898305084746,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.8242688,
+    "loss": 0.4383,
+    "grad_norm": 5.080480098724365,
+    "learning_rate": 8.249877192799731e-06
+  },
+  {
+    "step": 267,
+    "epoch": 1.8101694915254236,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82406144,
+    "loss": 0.3601,
+    "grad_norm": 5.688658714294434,
+    "learning_rate": 7.676112474402068e-06
+  },
+  {
+    "step": 268,
+    "epoch": 1.8169491525423729,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824066048,
+    "loss": 0.3501,
+    "grad_norm": 6.421919345855713,
+    "learning_rate": 7.122501909620926e-06
+  },
+  {
+    "step": 269,
+    "epoch": 1.8237288135593221,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.8240768,
+    "loss": 0.3546,
+    "grad_norm": 6.48486328125,
+    "learning_rate": 6.5891238939566275e-06
+  },
+  {
+    "step": 270,
+    "epoch": 1.8305084745762712,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.8241152,
+    "loss": 0.2864,
+    "grad_norm": 5.4872260093688965,
+    "learning_rate": 6.076053957825411e-06
+  },
+  {
+    "step": 271,
+    "epoch": 1.8372881355932202,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824167424,
+    "loss": 0.3182,
+    "grad_norm": 5.292596817016602,
+    "learning_rate": 5.583364755863701e-06
+  },
+  {
+    "step": 272,
+    "epoch": 1.8440677966101695,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824026112,
+    "loss": 0.3154,
+    "grad_norm": 4.313265800476074,
+    "learning_rate": 5.11112605663977e-06
+  },
+  {
+    "step": 273,
+    "epoch": 1.8508474576271188,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823906304,
+    "loss": 0.2951,
+    "grad_norm": 5.555436134338379,
+    "learning_rate": 4.659404732773908e-06
+  },
+  {
+    "step": 274,
+    "epoch": 1.8576271186440678,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824133632,
+    "loss": 0.2837,
+    "grad_norm": 4.105805397033691,
+    "learning_rate": 4.228264751468752e-06
+  },
+  {
+    "step": 275,
+    "epoch": 1.8644067796610169,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824377856,
+    "loss": 0.2878,
+    "grad_norm": 6.073948860168457,
+    "learning_rate": 3.817767165451041e-06
+  },
+  {
+    "step": 276,
+    "epoch": 1.8711864406779661,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.8240384,
+    "loss": 0.2768,
+    "grad_norm": 4.70308256149292,
+    "learning_rate": 3.4279701043260886e-06
+  },
+  {
+    "step": 277,
+    "epoch": 1.8779661016949154,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82398464,
+    "loss": 0.3124,
+    "grad_norm": 4.56823205947876,
+    "learning_rate": 3.0589287663461472e-06
+  },
+  {
+    "step": 278,
+    "epoch": 1.8847457627118644,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824147456,
+    "loss": 0.3178,
+    "grad_norm": 6.935946464538574,
+    "learning_rate": 2.710695410593994e-06
+  },
+  {
+    "step": 279,
+    "epoch": 1.8915254237288135,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824087552,
+    "loss": 0.4199,
+    "grad_norm": 5.427887439727783,
+    "learning_rate": 2.3833193495825853e-06
+  },
+  {
+    "step": 280,
+    "epoch": 1.8983050847457628,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824067584,
+    "loss": 0.3266,
+    "grad_norm": 4.603908538818359,
+    "learning_rate": 2.076846942272026e-06
+  },
+  {
+    "step": 281,
+    "epoch": 1.905084745762712,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824003072,
+    "loss": 0.3995,
+    "grad_norm": 4.938188076019287,
+    "learning_rate": 1.791321587504768e-06
+  },
+  {
+    "step": 282,
+    "epoch": 1.911864406779661,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824431616,
+    "loss": 0.2409,
+    "grad_norm": 4.201538562774658,
+    "learning_rate": 1.5267837178600972e-06
+  },
+  {
+    "step": 283,
+    "epoch": 1.9186440677966101,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.82413824,
+    "loss": 0.3625,
+    "grad_norm": 6.524600982666016,
+    "learning_rate": 1.2832707939284427e-06
+  },
+  {
+    "step": 284,
+    "epoch": 1.9254237288135592,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.823993856,
+    "loss": 0.3915,
+    "grad_norm": 4.94792366027832,
+    "learning_rate": 1.0608172990067553e-06
+  },
+  {
+    "step": 285,
+    "epoch": 1.9322033898305084,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824047616,
+    "loss": 0.3007,
+    "grad_norm": 6.609028339385986,
+    "learning_rate": 8.594547342153979e-07
+  },
+  {
+    "step": 286,
+    "epoch": 1.9389830508474577,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824465408,
+    "loss": 0.293,
+    "grad_norm": 4.769420623779297,
+    "learning_rate": 6.792116140373116e-07
+  },
+  {
+    "step": 287,
+    "epoch": 1.9457627118644067,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824235008,
+    "loss": 0.3999,
+    "grad_norm": 8.176187515258789,
+    "learning_rate": 5.201134622801473e-07
+  },
+  {
+    "step": 288,
+    "epoch": 1.9525423728813558,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824019968,
+    "loss": 0.4427,
+    "grad_norm": 6.034461975097656,
+    "learning_rate": 3.821828084619727e-07
+  },
+  {
+    "step": 289,
+    "epoch": 1.959322033898305,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824104448,
+    "loss": 0.254,
+    "grad_norm": 7.134485721588135,
+    "learning_rate": 2.654391846207915e-07
+  },
+  {
+    "step": 290,
+    "epoch": 1.9661016949152543,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824029184,
+    "loss": 0.405,
+    "grad_norm": 6.609726905822754,
+    "learning_rate": 1.6989912254880556e-07
+  },
+  {
+    "step": 291,
+    "epoch": 1.9728813559322034,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824064512,
+    "loss": 0.4325,
+    "grad_norm": 6.219490051269531,
+    "learning_rate": 9.557615145123765e-08
+  },
+  {
+    "step": 292,
+    "epoch": 1.9796610169491524,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824147456,
+    "loss": 0.3779,
+    "grad_norm": 4.7131218910217285,
+    "learning_rate": 4.248079603064724e-08
+  },
+  {
+    "step": 293,
+    "epoch": 1.9864406779661017,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824064512,
+    "loss": 0.4359,
+    "grad_norm": 6.299029350280762,
+    "learning_rate": 1.0620574996372811e-08
+  },
+  {
+    "step": 294,
+    "epoch": 1.993220338983051,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824090624,
+    "loss": 0.3799,
+    "grad_norm": 6.89005184173584,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 294,
+    "epoch": 1.993220338983051,
+    "cpu_mem": 1.530130432,
+    "gpu_mem": 4.824090624,
+    "train_runtime": 4484.6084,
+    "train_samples_per_second": 4.204,
+    "train_steps_per_second": 0.066,
+    "total_flos": 0.0,
+    "train_loss": 0.6128277448671204
+  }
+]

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r8-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 16,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 8,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r8-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "boolq",
+    "results": 0.7033639143730887
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r8-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "BOOLQ",
+    "dataset_id": "google/boolq",
+    "preprocess_id": "boolq_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 8,
+    "alpha": 16,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 6317696
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 2,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-boolq-r8-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r8-a2",
+  "seed": 42,
+  "timestamp": "2025-08-30T19:09:28.617533"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-boolq-r8-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,2659 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.006779661016949152,
+    "cpu_mem": 1.48830208,
+    "gpu_mem": 4.443082752,
+    "loss": 8.869,
+    "grad_norm": 234.86416625976562,
+    "learning_rate": 9.999999999999999e-06
+  },
+  {
+    "step": 2,
+    "epoch": 0.013559322033898305,
+    "cpu_mem": 1.494396928,
+    "gpu_mem": 4.493840896,
+    "loss": 8.9376,
+    "grad_norm": 240.33407592773438,
+    "learning_rate": 1.9999999999999998e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.020338983050847456,
+    "cpu_mem": 1.49518336,
+    "gpu_mem": 4.493759488,
+    "loss": 7.5679,
+    "grad_norm": 243.47679138183594,
+    "learning_rate": 2.9999999999999997e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.02711864406779661,
+    "cpu_mem": 1.495773184,
+    "gpu_mem": 4.493759488,
+    "loss": 4.959,
+    "grad_norm": 228.1814727783203,
+    "learning_rate": 3.9999999999999996e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.03389830508474576,
+    "cpu_mem": 1.496363008,
+    "gpu_mem": 4.493694976,
+    "loss": 2.537,
+    "grad_norm": 137.45384216308594,
+    "learning_rate": 4.9999999999999996e-05
+  },
+  {
+    "step": 6,
+    "epoch": 0.04067796610169491,
+    "cpu_mem": 1.496952832,
+    "gpu_mem": 4.493714944,
+    "loss": 1.4387,
+    "grad_norm": 56.679893493652344,
+    "learning_rate": 5.9999999999999995e-05
+  },
+  {
+    "step": 7,
+    "epoch": 0.04745762711864407,
+    "cpu_mem": 1.497542656,
+    "gpu_mem": 4.493767168,
+    "loss": 0.8578,
+    "grad_norm": 21.124313354492188,
+    "learning_rate": 7e-05
+  },
+  {
+    "step": 8,
+    "epoch": 0.05423728813559322,
+    "cpu_mem": 1.497935872,
+    "gpu_mem": 4.493853184,
+    "loss": 0.6193,
+    "grad_norm": 10.238547325134277,
+    "learning_rate": 7.999999999999999e-05
+  },
+  {
+    "step": 9,
+    "epoch": 0.061016949152542375,
+    "cpu_mem": 1.498329088,
+    "gpu_mem": 4.493761024,
+    "loss": 0.6998,
+    "grad_norm": 18.19664764404297,
+    "learning_rate": 8.999999999999999e-05
+  },
+  {
+    "step": 10,
+    "epoch": 0.06779661016949153,
+    "cpu_mem": 1.498918912,
+    "gpu_mem": 4.493661184,
+    "loss": 1.6846,
+    "grad_norm": 192.40335083007812,
+    "learning_rate": 9.999999999999999e-05
+  },
+  {
+    "step": 11,
+    "epoch": 0.07457627118644068,
+    "cpu_mem": 1.499312128,
+    "gpu_mem": 4.493765632,
+    "loss": 1.0755,
+    "grad_norm": 123.23554229736328,
+    "learning_rate": 0.00010999999999999998
+  },
+  {
+    "step": 12,
+    "epoch": 0.08135593220338982,
+    "cpu_mem": 1.499705344,
+    "gpu_mem": 4.494137344,
+    "loss": 1.2442,
+    "grad_norm": 281.9166259765625,
+    "learning_rate": 0.00011999999999999999
+  },
+  {
+    "step": 13,
+    "epoch": 0.08813559322033898,
+    "cpu_mem": 1.50009856,
+    "gpu_mem": 4.493741056,
+    "loss": 1.585,
+    "grad_norm": 92.95726013183594,
+    "learning_rate": 0.00013
+  },
+  {
+    "step": 14,
+    "epoch": 0.09491525423728814,
+    "cpu_mem": 1.500688384,
+    "gpu_mem": 4.493718016,
+    "loss": 0.7672,
+    "grad_norm": 36.01921081542969,
+    "learning_rate": 0.00014
+  },
+  {
+    "step": 15,
+    "epoch": 0.1016949152542373,
+    "cpu_mem": 1.500884992,
+    "gpu_mem": 4.493656576,
+    "loss": 1.018,
+    "grad_norm": 49.682037353515625,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 16,
+    "epoch": 0.10847457627118644,
+    "cpu_mem": 1.501278208,
+    "gpu_mem": 4.493741056,
+    "loss": 0.9599,
+    "grad_norm": 113.08747100830078,
+    "learning_rate": 0.00015999999999999999
+  },
+  {
+    "step": 17,
+    "epoch": 0.1152542372881356,
+    "cpu_mem": 1.501671424,
+    "gpu_mem": 4.493780992,
+    "loss": 0.6904,
+    "grad_norm": 5.700827598571777,
+    "learning_rate": 0.00016999999999999999
+  },
+  {
+    "step": 18,
+    "epoch": 0.12203389830508475,
+    "cpu_mem": 1.50206464,
+    "gpu_mem": 4.493843968,
+    "loss": 1.0158,
+    "grad_norm": 47.9433479309082,
+    "learning_rate": 0.00017999999999999998
+  },
+  {
+    "step": 19,
+    "epoch": 0.1288135593220339,
+    "cpu_mem": 1.502261248,
+    "gpu_mem": 4.493681152,
+    "loss": 1.2045,
+    "grad_norm": 46.0986213684082,
+    "learning_rate": 0.00018999999999999998
+  },
+  {
+    "step": 20,
+    "epoch": 0.13559322033898305,
+    "cpu_mem": 1.502654464,
+    "gpu_mem": 4.49379328,
+    "loss": 0.617,
+    "grad_norm": 4.902522087097168,
+    "learning_rate": 0.00019999999999999998
+  },
+  {
+    "step": 21,
+    "epoch": 0.1423728813559322,
+    "cpu_mem": 1.50304768,
+    "gpu_mem": 4.493951488,
+    "loss": 0.6933,
+    "grad_norm": 14.804486274719238,
+    "learning_rate": 0.00020999999999999998
+  },
+  {
+    "step": 22,
+    "epoch": 0.14915254237288136,
+    "cpu_mem": 1.503244288,
+    "gpu_mem": 4.493843968,
+    "loss": 0.7679,
+    "grad_norm": 14.584829330444336,
+    "learning_rate": 0.00021999999999999995
+  },
+  {
+    "step": 23,
+    "epoch": 0.15593220338983052,
+    "cpu_mem": 1.503440896,
+    "gpu_mem": 4.49381632,
+    "loss": 0.6614,
+    "grad_norm": 6.266756057739258,
+    "learning_rate": 0.00023
+  },
+  {
+    "step": 24,
+    "epoch": 0.16271186440677965,
+    "cpu_mem": 1.503834112,
+    "gpu_mem": 4.493873152,
+    "loss": 0.6063,
+    "grad_norm": 5.272337913513184,
+    "learning_rate": 0.00023999999999999998
+  },
+  {
+    "step": 25,
+    "epoch": 0.1694915254237288,
+    "cpu_mem": 1.504227328,
+    "gpu_mem": 4.493658112,
+    "loss": 0.7254,
+    "grad_norm": 11.210253715515137,
+    "learning_rate": 0.00025
+  },
+  {
+    "step": 26,
+    "epoch": 0.17627118644067796,
+    "cpu_mem": 1.504423936,
+    "gpu_mem": 4.493713408,
+    "loss": 0.7634,
+    "grad_norm": 18.455121994018555,
+    "learning_rate": 0.00026
+  },
+  {
+    "step": 27,
+    "epoch": 0.18305084745762712,
+    "cpu_mem": 1.504620544,
+    "gpu_mem": 4.494005248,
+    "loss": 0.7479,
+    "grad_norm": 19.921911239624023,
+    "learning_rate": 0.00027
+  },
+  {
+    "step": 28,
+    "epoch": 0.18983050847457628,
+    "cpu_mem": 1.50501376,
+    "gpu_mem": 4.493684224,
+    "loss": 0.845,
+    "grad_norm": 19.626916885375977,
+    "learning_rate": 0.00028
+  },
+  {
+    "step": 29,
+    "epoch": 0.19661016949152543,
+    "cpu_mem": 1.505210368,
+    "gpu_mem": 4.493748736,
+    "loss": 0.678,
+    "grad_norm": 8.194727897644043,
+    "learning_rate": 0.00029
+  },
+  {
+    "step": 30,
+    "epoch": 0.2033898305084746,
+    "cpu_mem": 1.505406976,
+    "gpu_mem": 4.493827072,
+    "loss": 0.7646,
+    "grad_norm": 10.00369644165039,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 31,
+    "epoch": 0.21016949152542372,
+    "cpu_mem": 1.505603584,
+    "gpu_mem": 4.493630464,
+    "loss": 0.6244,
+    "grad_norm": 6.776846885681152,
+    "learning_rate": 0.0002999893794250036
+  },
+  {
+    "step": 32,
+    "epoch": 0.21694915254237288,
+    "cpu_mem": 1.505800192,
+    "gpu_mem": 4.493744128,
+    "loss": 0.7586,
+    "grad_norm": 16.354310989379883,
+    "learning_rate": 0.00029995751920396937
+  },
+  {
+    "step": 33,
+    "epoch": 0.22372881355932203,
+    "cpu_mem": 1.506193408,
+    "gpu_mem": 4.493982208,
+    "loss": 0.7397,
+    "grad_norm": 12.160492897033691,
+    "learning_rate": 0.00029990442384854874
+  },
+  {
+    "step": 34,
+    "epoch": 0.2305084745762712,
+    "cpu_mem": 1.506390016,
+    "gpu_mem": 4.493684224,
+    "loss": 0.6239,
+    "grad_norm": 9.15272331237793,
+    "learning_rate": 0.0002998301008774512
+  },
+  {
+    "step": 35,
+    "epoch": 0.23728813559322035,
+    "cpu_mem": 1.506586624,
+    "gpu_mem": 4.493894656,
+    "loss": 0.6729,
+    "grad_norm": 5.571009635925293,
+    "learning_rate": 0.0002997345608153792
+  },
+  {
+    "step": 36,
+    "epoch": 0.2440677966101695,
+    "cpu_mem": 1.506783232,
+    "gpu_mem": 4.493845504,
+    "loss": 0.7223,
+    "grad_norm": 25.372941970825195,
+    "learning_rate": 0.000299617817191538
+  },
+  {
+    "step": 37,
+    "epoch": 0.25084745762711863,
+    "cpu_mem": 1.50697984,
+    "gpu_mem": 4.493656576,
+    "loss": 0.8172,
+    "grad_norm": 16.308820724487305,
+    "learning_rate": 0.0002994798865377198
+  },
+  {
+    "step": 38,
+    "epoch": 0.2576271186440678,
+    "cpu_mem": 1.507373056,
+    "gpu_mem": 4.493903872,
+    "loss": 0.6857,
+    "grad_norm": 4.158070087432861,
+    "learning_rate": 0.0002993207883859627
+  },
+  {
+    "step": 39,
+    "epoch": 0.26440677966101694,
+    "cpu_mem": 1.507569664,
+    "gpu_mem": 4.494283264,
+    "loss": 0.664,
+    "grad_norm": 3.092892646789551,
+    "learning_rate": 0.0002991405452657846
+  },
+  {
+    "step": 40,
+    "epoch": 0.2711864406779661,
+    "cpu_mem": 1.507569664,
+    "gpu_mem": 4.493853184,
+    "loss": 0.6499,
+    "grad_norm": 4.837502956390381,
+    "learning_rate": 0.00029893918270099324
+  },
+  {
+    "step": 41,
+    "epoch": 0.27796610169491526,
+    "cpu_mem": 1.507766272,
+    "gpu_mem": 4.494080512,
+    "loss": 0.6745,
+    "grad_norm": 2.230825424194336,
+    "learning_rate": 0.00029871672920607153
+  },
+  {
+    "step": 42,
+    "epoch": 0.2847457627118644,
+    "cpu_mem": 1.507766272,
+    "gpu_mem": 4.4939776,
+    "loss": 0.6285,
+    "grad_norm": 6.971991539001465,
+    "learning_rate": 0.0002984732162821399
+  },
+  {
+    "step": 43,
+    "epoch": 0.29152542372881357,
+    "cpu_mem": 1.50796288,
+    "gpu_mem": 4.493799424,
+    "loss": 0.6839,
+    "grad_norm": 7.030607223510742,
+    "learning_rate": 0.0002982086784124952
+  },
+  {
+    "step": 44,
+    "epoch": 0.2983050847457627,
+    "cpu_mem": 1.508159488,
+    "gpu_mem": 4.493942272,
+    "loss": 0.6815,
+    "grad_norm": 9.800080299377441,
+    "learning_rate": 0.00029792315305772796
+  },
+  {
+    "step": 45,
+    "epoch": 0.3050847457627119,
+    "cpu_mem": 1.508356096,
+    "gpu_mem": 4.493722624,
+    "loss": 1.188,
+    "grad_norm": 21.56556510925293,
+    "learning_rate": 0.0002976166806504174
+  },
+  {
+    "step": 46,
+    "epoch": 0.31186440677966104,
+    "cpu_mem": 1.508552704,
+    "gpu_mem": 4.493965312,
+    "loss": 0.7325,
+    "grad_norm": 7.097214221954346,
+    "learning_rate": 0.00029728930458940595
+  },
+  {
+    "step": 47,
+    "epoch": 0.31864406779661014,
+    "cpu_mem": 1.508552704,
+    "gpu_mem": 4.493688832,
+    "loss": 0.686,
+    "grad_norm": 10.250021934509277,
+    "learning_rate": 0.00029694107123365385
+  },
+  {
+    "step": 48,
+    "epoch": 0.3254237288135593,
+    "cpu_mem": 1.508749312,
+    "gpu_mem": 4.493765632,
+    "loss": 0.8689,
+    "grad_norm": 17.215639114379883,
+    "learning_rate": 0.00029657202989567393
+  },
+  {
+    "step": 49,
+    "epoch": 0.33220338983050846,
+    "cpu_mem": 1.50894592,
+    "gpu_mem": 4.493782528,
+    "loss": 0.7259,
+    "grad_norm": 3.048801898956299,
+    "learning_rate": 0.00029618223283454893
+  },
+  {
+    "step": 50,
+    "epoch": 0.3389830508474576,
+    "cpu_mem": 1.509142528,
+    "gpu_mem": 4.493721088,
+    "loss": 0.6172,
+    "grad_norm": 2.2575485706329346,
+    "learning_rate": 0.00029577173524853123
+  },
+  {
+    "step": 51,
+    "epoch": 0.34576271186440677,
+    "cpu_mem": 1.509142528,
+    "gpu_mem": 4.493725696,
+    "loss": 0.5723,
+    "grad_norm": 2.044959306716919,
+    "learning_rate": 0.0002953405952672261
+  },
+  {
+    "step": 52,
+    "epoch": 0.3525423728813559,
+    "cpu_mem": 1.509339136,
+    "gpu_mem": 4.493805568,
+    "loss": 0.6726,
+    "grad_norm": 4.235073089599609,
+    "learning_rate": 0.0002948888739433602
+  },
+  {
+    "step": 53,
+    "epoch": 0.3593220338983051,
+    "cpu_mem": 1.509339136,
+    "gpu_mem": 4.493828608,
+    "loss": 0.6754,
+    "grad_norm": 10.029523849487305,
+    "learning_rate": 0.0002944166352441363
+  },
+  {
+    "step": 54,
+    "epoch": 0.36610169491525424,
+    "cpu_mem": 1.509535744,
+    "gpu_mem": 4.493756416,
+    "loss": 0.6683,
+    "grad_norm": 4.766758918762207,
+    "learning_rate": 0.0002939239460421746
+  },
+  {
+    "step": 55,
+    "epoch": 0.3728813559322034,
+    "cpu_mem": 1.509535744,
+    "gpu_mem": 4.494026752,
+    "loss": 0.6831,
+    "grad_norm": 3.753432273864746,
+    "learning_rate": 0.00029341087610604337
+  },
+  {
+    "step": 56,
+    "epoch": 0.37966101694915255,
+    "cpu_mem": 1.509732352,
+    "gpu_mem": 4.493813248,
+    "loss": 0.926,
+    "grad_norm": 12.049140930175781,
+    "learning_rate": 0.00029287749809037904
+  },
+  {
+    "step": 57,
+    "epoch": 0.3864406779661017,
+    "cpu_mem": 1.509732352,
+    "gpu_mem": 4.493807104,
+    "loss": 0.7591,
+    "grad_norm": 7.700575351715088,
+    "learning_rate": 0.0002923238875255979
+  },
+  {
+    "step": 58,
+    "epoch": 0.39322033898305087,
+    "cpu_mem": 1.50992896,
+    "gpu_mem": 4.493702656,
+    "loss": 0.6608,
+    "grad_norm": 2.9501571655273438,
+    "learning_rate": 0.00029175012280720024
+  },
+  {
+    "step": 59,
+    "epoch": 0.4,
+    "cpu_mem": 1.50992896,
+    "gpu_mem": 4.493719552,
+    "loss": 0.7055,
+    "grad_norm": 4.570174217224121,
+    "learning_rate": 0.000291156285184669
+  },
+  {
+    "step": 60,
+    "epoch": 0.4067796610169492,
+    "cpu_mem": 1.510125568,
+    "gpu_mem": 4.493813248,
+    "loss": 0.7155,
+    "grad_norm": 10.250066757202148,
+    "learning_rate": 0.00029054245874996426
+  },
+  {
+    "step": 61,
+    "epoch": 0.4135593220338983,
+    "cpu_mem": 1.510125568,
+    "gpu_mem": 4.493824,
+    "loss": 0.6198,
+    "grad_norm": 1.4150381088256836,
+    "learning_rate": 0.0002899087304256151
+  },
+  {
+    "step": 62,
+    "epoch": 0.42033898305084744,
+    "cpu_mem": 1.510125568,
+    "gpu_mem": 4.493811712,
+    "loss": 0.8658,
+    "grad_norm": 11.572601318359375,
+    "learning_rate": 0.0002892551899524109
+  },
+  {
+    "step": 63,
+    "epoch": 0.4271186440677966,
+    "cpu_mem": 1.510125568,
+    "gpu_mem": 4.493804032,
+    "loss": 0.5689,
+    "grad_norm": 2.9226982593536377,
+    "learning_rate": 0.000288581929876693
+  },
+  {
+    "step": 64,
+    "epoch": 0.43389830508474575,
+    "cpu_mem": 1.510518784,
+    "gpu_mem": 4.493733376,
+    "loss": 0.6423,
+    "grad_norm": 1.547162413597107,
+    "learning_rate": 0.0002878890455372498
+  },
+  {
+    "step": 65,
+    "epoch": 0.4406779661016949,
+    "cpu_mem": 1.510715392,
+    "gpu_mem": 4.49377792,
+    "loss": 0.6797,
+    "grad_norm": 3.6416873931884766,
+    "learning_rate": 0.0002871766350518159
+  },
+  {
+    "step": 66,
+    "epoch": 0.44745762711864406,
+    "cpu_mem": 1.510715392,
+    "gpu_mem": 4.493971456,
+    "loss": 0.6036,
+    "grad_norm": 3.8238625526428223,
+    "learning_rate": 0.00028644479930317775
+  },
+  {
+    "step": 67,
+    "epoch": 0.4542372881355932,
+    "cpu_mem": 1.510715392,
+    "gpu_mem": 4.493681152,
+    "loss": 0.7277,
+    "grad_norm": 8.09846019744873,
+    "learning_rate": 0.00028569364192488803
+  },
+  {
+    "step": 68,
+    "epoch": 0.4610169491525424,
+    "cpu_mem": 1.510912,
+    "gpu_mem": 4.493648896,
+    "loss": 0.8994,
+    "grad_norm": 13.207178115844727,
+    "learning_rate": 0.00028492326928659045
+  },
+  {
+    "step": 69,
+    "epoch": 0.46779661016949153,
+    "cpu_mem": 1.510912,
+    "gpu_mem": 4.493714944,
+    "loss": 0.5864,
+    "grad_norm": 1.9375393390655518,
+    "learning_rate": 0.00028413379047895665
+  },
+  {
+    "step": 70,
+    "epoch": 0.4745762711864407,
+    "cpu_mem": 1.510912,
+    "gpu_mem": 4.4937088,
+    "loss": 0.7792,
+    "grad_norm": 10.860440254211426,
+    "learning_rate": 0.0002833253172982385
+  },
+  {
+    "step": 71,
+    "epoch": 0.48135593220338985,
+    "cpu_mem": 1.511108608,
+    "gpu_mem": 4.493937664,
+    "loss": 0.8567,
+    "grad_norm": 15.644757270812988,
+    "learning_rate": 0.0002824979642304366
+  },
+  {
+    "step": 72,
+    "epoch": 0.488135593220339,
+    "cpu_mem": 1.511108608,
+    "gpu_mem": 4.493929984,
+    "loss": 0.6608,
+    "grad_norm": 6.629893779754639,
+    "learning_rate": 0.0002816518484350883
+  },
+  {
+    "step": 73,
+    "epoch": 0.49491525423728816,
+    "cpu_mem": 1.511108608,
+    "gpu_mem": 4.493896192,
+    "loss": 0.8023,
+    "grad_norm": 10.461833953857422,
+    "learning_rate": 0.0002807870897286772
+  },
+  {
+    "step": 74,
+    "epoch": 0.5016949152542373,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.493756416,
+    "loss": 0.6224,
+    "grad_norm": 7.1698713302612305,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 75,
+    "epoch": 0.5084745762711864,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.493681152,
+    "loss": 0.5662,
+    "grad_norm": 2.1262013912200928,
+    "learning_rate": 0.000279002136031155
+  },
+  {
+    "step": 76,
+    "epoch": 0.5152542372881356,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.493621248,
+    "loss": 0.6138,
+    "grad_norm": 3.743492841720581,
+    "learning_rate": 0.00027808219380317216
+  },
+  {
+    "step": 77,
+    "epoch": 0.5220338983050847,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.493694976,
+    "loss": 0.6539,
+    "grad_norm": 6.320612907409668,
+    "learning_rate": 0.0002771441141545895
+  },
+  {
+    "step": 78,
+    "epoch": 0.5288135593220339,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.4937472,
+    "loss": 0.7095,
+    "grad_norm": 5.929784774780273,
+    "learning_rate": 0.0002761880299246772
+  },
+  {
+    "step": 79,
+    "epoch": 0.535593220338983,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.493879296,
+    "loss": 0.6698,
+    "grad_norm": 1.6754264831542969,
+    "learning_rate": 0.000275214076502292
+  },
+  {
+    "step": 80,
+    "epoch": 0.5423728813559322,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.49377024,
+    "loss": 0.6258,
+    "grad_norm": 1.8663870096206665,
+    "learning_rate": 0.0002742223918067056
+  },
+  {
+    "step": 81,
+    "epoch": 0.5491525423728814,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.493650432,
+    "loss": 0.6314,
+    "grad_norm": 2.4315168857574463,
+    "learning_rate": 0.00027321311626807374
+  },
+  {
+    "step": 82,
+    "epoch": 0.5559322033898305,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.493719552,
+    "loss": 0.635,
+    "grad_norm": 1.932876467704773,
+    "learning_rate": 0.0002721863928075503
+  },
+  {
+    "step": 83,
+    "epoch": 0.5627118644067797,
+    "cpu_mem": 1.511305216,
+    "gpu_mem": 4.493819392,
+    "loss": 0.6554,
+    "grad_norm": 3.4201409816741943,
+    "learning_rate": 0.000271142366817049
+  },
+  {
+    "step": 84,
+    "epoch": 0.5694915254237288,
+    "cpu_mem": 1.511501824,
+    "gpu_mem": 4.493782528,
+    "loss": 0.7156,
+    "grad_norm": 7.90298318862915,
+    "learning_rate": 0.00027008118613865406
+  },
+  {
+    "step": 85,
+    "epoch": 0.576271186440678,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493814784,
+    "loss": 0.5996,
+    "grad_norm": 3.2398500442504883,
+    "learning_rate": 0.00026900300104368524
+  },
+  {
+    "step": 86,
+    "epoch": 0.5830508474576271,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493765632,
+    "loss": 0.731,
+    "grad_norm": 5.571208953857422,
+    "learning_rate": 0.00026790796421141813
+  },
+  {
+    "step": 87,
+    "epoch": 0.5898305084745763,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493773312,
+    "loss": 0.7147,
+    "grad_norm": 7.965809345245361,
+    "learning_rate": 0.00026679623070746325
+  },
+  {
+    "step": 88,
+    "epoch": 0.5966101694915255,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493917696,
+    "loss": 0.5825,
+    "grad_norm": 2.4796321392059326,
+    "learning_rate": 0.0002656679579618081
+  },
+  {
+    "step": 89,
+    "epoch": 0.6033898305084746,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493699584,
+    "loss": 0.6858,
+    "grad_norm": 3.1727724075317383,
+    "learning_rate": 0.0002645233057465235
+  },
+  {
+    "step": 90,
+    "epoch": 0.6101694915254238,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493753344,
+    "loss": 0.7181,
+    "grad_norm": 8.902009010314941,
+    "learning_rate": 0.00026336243615313873
+  },
+  {
+    "step": 91,
+    "epoch": 0.6169491525423729,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493721088,
+    "loss": 0.7394,
+    "grad_norm": 10.157062530517578,
+    "learning_rate": 0.00026218551356968814
+  },
+  {
+    "step": 92,
+    "epoch": 0.6237288135593221,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493802496,
+    "loss": 0.6819,
+    "grad_norm": 2.2884974479675293,
+    "learning_rate": 0.00026099270465743254
+  },
+  {
+    "step": 93,
+    "epoch": 0.6305084745762712,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493605888,
+    "loss": 0.7171,
+    "grad_norm": 3.9411673545837402,
+    "learning_rate": 0.0002597841783272588
+  },
+  {
+    "step": 94,
+    "epoch": 0.6372881355932203,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.493719552,
+    "loss": 0.5627,
+    "grad_norm": 2.8555171489715576,
+    "learning_rate": 0.0002585601057157605
+  },
+  {
+    "step": 95,
+    "epoch": 0.6440677966101694,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.49373952,
+    "loss": 0.6865,
+    "grad_norm": 5.10888147354126,
+    "learning_rate": 0.00025732066016100394
+  },
+  {
+    "step": 96,
+    "epoch": 0.6508474576271186,
+    "cpu_mem": 1.511698432,
+    "gpu_mem": 4.49377792,
+    "loss": 0.631,
+    "grad_norm": 4.621267318725586,
+    "learning_rate": 0.00025606601717798207
+  },
+  {
+    "step": 97,
+    "epoch": 0.6576271186440678,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.49376256,
+    "loss": 0.6521,
+    "grad_norm": 3.2591891288757324,
+    "learning_rate": 0.0002547963544337602
+  },
+  {
+    "step": 98,
+    "epoch": 0.6644067796610169,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.493675008,
+    "loss": 0.6631,
+    "grad_norm": 3.0139002799987793,
+    "learning_rate": 0.0002535118517223168
+  },
+  {
+    "step": 99,
+    "epoch": 0.6711864406779661,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.49362432,
+    "loss": 0.6299,
+    "grad_norm": 2.386324405670166,
+    "learning_rate": 0.00025221269093908365
+  },
+  {
+    "step": 100,
+    "epoch": 0.6779661016949152,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.493741056,
+    "loss": 0.6204,
+    "grad_norm": 1.986992359161377,
+    "learning_rate": 0.0002508990560551879
+  },
+  {
+    "step": 101,
+    "epoch": 0.6847457627118644,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.493773312,
+    "loss": 0.7108,
+    "grad_norm": 6.049999237060547,
+    "learning_rate": 0.0002495711330914001
+  },
+  {
+    "step": 102,
+    "epoch": 0.6915254237288135,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.493807104,
+    "loss": 0.6755,
+    "grad_norm": 5.4609575271606445,
+    "learning_rate": 0.00024822911009179276
+  },
+  {
+    "step": 103,
+    "epoch": 0.6983050847457627,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.493857792,
+    "loss": 0.6327,
+    "grad_norm": 2.271766185760498,
+    "learning_rate": 0.0002468731770971113
+  },
+  {
+    "step": 104,
+    "epoch": 0.7050847457627119,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.49376256,
+    "loss": 0.6587,
+    "grad_norm": 3.347034454345703,
+    "learning_rate": 0.0002455035261178632
+  },
+  {
+    "step": 105,
+    "epoch": 0.711864406779661,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.493863936,
+    "loss": 0.6336,
+    "grad_norm": 4.408857822418213,
+    "learning_rate": 0.0002441203511071278
+  },
+  {
+    "step": 106,
+    "epoch": 0.7186440677966102,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.493814784,
+    "loss": 0.6127,
+    "grad_norm": 4.522818088531494,
+    "learning_rate": 0.00024272384793309077
+  },
+  {
+    "step": 107,
+    "epoch": 0.7254237288135593,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.493702656,
+    "loss": 0.5933,
+    "grad_norm": 1.8976800441741943,
+    "learning_rate": 0.00024131421435130807
+  },
+  {
+    "step": 108,
+    "epoch": 0.7322033898305085,
+    "cpu_mem": 1.51189504,
+    "gpu_mem": 4.493886976,
+    "loss": 0.6641,
+    "grad_norm": 3.7306277751922607,
+    "learning_rate": 0.00023989164997670202
+  },
+  {
+    "step": 109,
+    "epoch": 0.7389830508474576,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493741056,
+    "loss": 0.7569,
+    "grad_norm": 5.521296501159668,
+    "learning_rate": 0.0002384563562552943
+  },
+  {
+    "step": 110,
+    "epoch": 0.7457627118644068,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493744128,
+    "loss": 0.6737,
+    "grad_norm": 4.360266208648682,
+    "learning_rate": 0.0002370085364356797
+  },
+  {
+    "step": 111,
+    "epoch": 0.752542372881356,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493713408,
+    "loss": 0.5683,
+    "grad_norm": 2.3229658603668213,
+    "learning_rate": 0.0002355483955402446
+  },
+  {
+    "step": 112,
+    "epoch": 0.7593220338983051,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493759488,
+    "loss": 0.6631,
+    "grad_norm": 6.712233543395996,
+    "learning_rate": 0.00023407614033613407
+  },
+  {
+    "step": 113,
+    "epoch": 0.7661016949152543,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493750272,
+    "loss": 0.7655,
+    "grad_norm": 6.895766258239746,
+    "learning_rate": 0.0002325919793059723
+  },
+  {
+    "step": 114,
+    "epoch": 0.7728813559322034,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.49373184,
+    "loss": 0.7358,
+    "grad_norm": 8.146341323852539,
+    "learning_rate": 0.00023109612261833963
+  },
+  {
+    "step": 115,
+    "epoch": 0.7796610169491526,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493807104,
+    "loss": 0.601,
+    "grad_norm": 3.9480652809143066,
+    "learning_rate": 0.0002295887820980112
+  },
+  {
+    "step": 116,
+    "epoch": 0.7864406779661017,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493727232,
+    "loss": 0.5963,
+    "grad_norm": 2.6513514518737793,
+    "learning_rate": 0.0002280701711959608
+  },
+  {
+    "step": 117,
+    "epoch": 0.7932203389830509,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493618176,
+    "loss": 0.7067,
+    "grad_norm": 5.624129772186279,
+    "learning_rate": 0.00022654050495913495
+  },
+  {
+    "step": 118,
+    "epoch": 0.8,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493856256,
+    "loss": 0.7582,
+    "grad_norm": 6.480310916900635,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 119,
+    "epoch": 0.8067796610169492,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.494026752,
+    "loss": 0.5894,
+    "grad_norm": 2.979290723800659,
+    "learning_rate": 0.00022344887446586865
+  },
+  {
+    "step": 120,
+    "epoch": 0.8135593220338984,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493759488,
+    "loss": 0.5885,
+    "grad_norm": 1.9377977848052979,
+    "learning_rate": 0.00022188734800800852
+  },
+  {
+    "step": 121,
+    "epoch": 0.8203389830508474,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493787136,
+    "loss": 0.6238,
+    "grad_norm": 3.6376171112060547,
+    "learning_rate": 0.00022031564175053754
+  },
+  {
+    "step": 122,
+    "epoch": 0.8271186440677966,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493837824,
+    "loss": 0.5311,
+    "grad_norm": 4.018235206604004,
+    "learning_rate": 0.00021873397825911153
+  },
+  {
+    "step": 123,
+    "epoch": 0.8338983050847457,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.49364736,
+    "loss": 0.6679,
+    "grad_norm": 5.683865070343018,
+    "learning_rate": 0.00021714258150940685
+  },
+  {
+    "step": 124,
+    "epoch": 0.8406779661016949,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.494089728,
+    "loss": 0.6208,
+    "grad_norm": 5.339485168457031,
+    "learning_rate": 0.0002155416768554039
+  },
+  {
+    "step": 125,
+    "epoch": 0.847457627118644,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.49381632,
+    "loss": 0.5845,
+    "grad_norm": 3.5815553665161133,
+    "learning_rate": 0.00021393149099747523
+  },
+  {
+    "step": 126,
+    "epoch": 0.8542372881355932,
+    "cpu_mem": 1.512091648,
+    "gpu_mem": 4.493699584,
+    "loss": 0.5642,
+    "grad_norm": 4.037660121917725,
+    "learning_rate": 0.00021231225195028297
+  },
+  {
+    "step": 127,
+    "epoch": 0.8610169491525423,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.49413888,
+    "loss": 0.6483,
+    "grad_norm": 5.6473846435546875,
+    "learning_rate": 0.00021068418901049025
+  },
+  {
+    "step": 128,
+    "epoch": 0.8677966101694915,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493914624,
+    "loss": 0.5481,
+    "grad_norm": 3.1490492820739746,
+    "learning_rate": 0.0002090475327242912
+  },
+  {
+    "step": 129,
+    "epoch": 0.8745762711864407,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.49395456,
+    "loss": 0.6907,
+    "grad_norm": 3.3728561401367188,
+    "learning_rate": 0.00020740251485476345
+  },
+  {
+    "step": 130,
+    "epoch": 0.8813559322033898,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493736448,
+    "loss": 0.6776,
+    "grad_norm": 2.8839058876037598,
+    "learning_rate": 0.0002057493683490491
+  },
+  {
+    "step": 131,
+    "epoch": 0.888135593220339,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493865472,
+    "loss": 0.6277,
+    "grad_norm": 2.4115381240844727,
+    "learning_rate": 0.00020408832730536746
+  },
+  {
+    "step": 132,
+    "epoch": 0.8949152542372881,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.49394688,
+    "loss": 0.6367,
+    "grad_norm": 3.60898494720459,
+    "learning_rate": 0.00020241962693986476
+  },
+  {
+    "step": 133,
+    "epoch": 0.9016949152542373,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493730304,
+    "loss": 0.5515,
+    "grad_norm": 2.1373813152313232,
+    "learning_rate": 0.0002007435035533061
+  },
+  {
+    "step": 134,
+    "epoch": 0.9084745762711864,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493863936,
+    "loss": 0.5556,
+    "grad_norm": 2.2262206077575684,
+    "learning_rate": 0.00019906019449761325
+  },
+  {
+    "step": 135,
+    "epoch": 0.9152542372881356,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493886976,
+    "loss": 0.6743,
+    "grad_norm": 6.190613746643066,
+    "learning_rate": 0.00019736993814225374
+  },
+  {
+    "step": 136,
+    "epoch": 0.9220338983050848,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.49372416,
+    "loss": 0.601,
+    "grad_norm": 4.490257263183594,
+    "learning_rate": 0.00019567297384048604
+  },
+  {
+    "step": 137,
+    "epoch": 0.9288135593220339,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493604352,
+    "loss": 0.6619,
+    "grad_norm": 4.613885402679443,
+    "learning_rate": 0.0001939695418954653
+  },
+  {
+    "step": 138,
+    "epoch": 0.9355932203389831,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.4937856,
+    "loss": 0.5927,
+    "grad_norm": 2.2556755542755127,
+    "learning_rate": 0.00019225988352621445
+  },
+  {
+    "step": 139,
+    "epoch": 0.9423728813559322,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493684224,
+    "loss": 0.6136,
+    "grad_norm": 3.3856916427612305,
+    "learning_rate": 0.00019054424083346592
+  },
+  {
+    "step": 140,
+    "epoch": 0.9491525423728814,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493736448,
+    "loss": 0.6362,
+    "grad_norm": 5.717785835266113,
+    "learning_rate": 0.0001888228567653781
+  },
+  {
+    "step": 141,
+    "epoch": 0.9559322033898305,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493768704,
+    "loss": 0.6383,
+    "grad_norm": 5.319495677947998,
+    "learning_rate": 0.0001870959750831323
+  },
+  {
+    "step": 142,
+    "epoch": 0.9627118644067797,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.49390848,
+    "loss": 0.5894,
+    "grad_norm": 4.640230178833008,
+    "learning_rate": 0.0001853638403264141
+  },
+  {
+    "step": 143,
+    "epoch": 0.9694915254237289,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493891584,
+    "loss": 0.6378,
+    "grad_norm": 3.016573905944824,
+    "learning_rate": 0.00018362669777878453
+  },
+  {
+    "step": 144,
+    "epoch": 0.976271186440678,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.494083584,
+    "loss": 0.6572,
+    "grad_norm": 4.5237603187561035,
+    "learning_rate": 0.00018188479343294648
+  },
+  {
+    "step": 145,
+    "epoch": 0.9830508474576272,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493794816,
+    "loss": 0.5759,
+    "grad_norm": 3.0536630153656006,
+    "learning_rate": 0.0001801383739559098
+  },
+  {
+    "step": 146,
+    "epoch": 0.9898305084745763,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493830144,
+    "loss": 0.6313,
+    "grad_norm": 3.5982203483581543,
+    "learning_rate": 0.0001783876866540615
+  },
+  {
+    "step": 147,
+    "epoch": 0.9966101694915255,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.493728768,
+    "loss": 0.5625,
+    "grad_norm": 3.026538133621216,
+    "learning_rate": 0.00017663297943814552
+  },
+  {
+    "step": 148,
+    "epoch": 1.0033898305084745,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519203328,
+    "loss": 0.884,
+    "grad_norm": 3.9491984844207764,
+    "learning_rate": 0.0001748745007881561
+  },
+  {
+    "step": 149,
+    "epoch": 1.0101694915254238,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519138816,
+    "loss": 0.6115,
+    "grad_norm": 2.8990418910980225,
+    "learning_rate": 0.00017311249971815185
+  },
+  {
+    "step": 150,
+    "epoch": 1.0169491525423728,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518976,
+    "loss": 0.5619,
+    "grad_norm": 3.0098154544830322,
+    "learning_rate": 0.00017134722574099276
+  },
+  {
+    "step": 151,
+    "epoch": 1.023728813559322,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519048192,
+    "loss": 0.6179,
+    "grad_norm": 3.9371068477630615,
+    "learning_rate": 0.00016957892883300775
+  },
+  {
+    "step": 152,
+    "epoch": 1.0305084745762711,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51908352,
+    "loss": 0.4941,
+    "grad_norm": 2.8057267665863037,
+    "learning_rate": 0.00016780785939859576
+  },
+  {
+    "step": 153,
+    "epoch": 1.0372881355932204,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519108096,
+    "loss": 0.5268,
+    "grad_norm": 4.285440444946289,
+    "learning_rate": 0.00016603426823476693
+  },
+  {
+    "step": 154,
+    "epoch": 1.0440677966101695,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519069696,
+    "loss": 0.5617,
+    "grad_norm": 4.94078254699707,
+    "learning_rate": 0.00016425840649562736
+  },
+  {
+    "step": 155,
+    "epoch": 1.0508474576271187,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51929088,
+    "loss": 0.5337,
+    "grad_norm": 3.763066291809082,
+    "learning_rate": 0.00016248052565681436
+  },
+  {
+    "step": 156,
+    "epoch": 1.0576271186440678,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51919872,
+    "loss": 0.5724,
+    "grad_norm": 5.346607685089111,
+    "learning_rate": 0.00016070087747988482
+  },
+  {
+    "step": 157,
+    "epoch": 1.064406779661017,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519105024,
+    "loss": 0.5009,
+    "grad_norm": 5.106917381286621,
+    "learning_rate": 0.00015891971397666464
+  },
+  {
+    "step": 158,
+    "epoch": 1.071186440677966,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519031296,
+    "loss": 0.5795,
+    "grad_norm": 4.663048267364502,
+    "learning_rate": 0.00015713728737356137
+  },
+  {
+    "step": 159,
+    "epoch": 1.0779661016949154,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519379968,
+    "loss": 0.4231,
+    "grad_norm": 4.06447696685791,
+    "learning_rate": 0.00015535385007584706
+  },
+  {
+    "step": 160,
+    "epoch": 1.0847457627118644,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518974464,
+    "loss": 0.6225,
+    "grad_norm": 5.922128200531006,
+    "learning_rate": 0.0001535696546319161
+  },
+  {
+    "step": 161,
+    "epoch": 1.0915254237288137,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518920704,
+    "loss": 0.5124,
+    "grad_norm": 5.51249885559082,
+    "learning_rate": 0.00015178495369752213
+  },
+  {
+    "step": 162,
+    "epoch": 1.0983050847457627,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519696384,
+    "loss": 0.5305,
+    "grad_norm": 4.262174129486084,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 163,
+    "epoch": 1.1050847457627118,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519172608,
+    "loss": 0.5712,
+    "grad_norm": 6.790377140045166,
+    "learning_rate": 0.00014821504630247785
+  },
+  {
+    "step": 164,
+    "epoch": 1.111864406779661,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519085056,
+    "loss": 0.6282,
+    "grad_norm": 5.247696876525879,
+    "learning_rate": 0.00014643034536808387
+  },
+  {
+    "step": 165,
+    "epoch": 1.11864406779661,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519034368,
+    "loss": 0.5203,
+    "grad_norm": 5.485547065734863,
+    "learning_rate": 0.00014464614992415294
+  },
+  {
+    "step": 166,
+    "epoch": 1.1254237288135593,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.5191296,
+    "loss": 0.5093,
+    "grad_norm": 4.293337821960449,
+    "learning_rate": 0.00014286271262643866
+  },
+  {
+    "step": 167,
+    "epoch": 1.1322033898305084,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519046656,
+    "loss": 0.5422,
+    "grad_norm": 4.634438991546631,
+    "learning_rate": 0.00014108028602333536
+  },
+  {
+    "step": 168,
+    "epoch": 1.1389830508474577,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519065088,
+    "loss": 0.5884,
+    "grad_norm": 6.198184490203857,
+    "learning_rate": 0.00013929912252011516
+  },
+  {
+    "step": 169,
+    "epoch": 1.1457627118644067,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51915264,
+    "loss": 0.5658,
+    "grad_norm": 6.395980358123779,
+    "learning_rate": 0.00013751947434318564
+  },
+  {
+    "step": 170,
+    "epoch": 1.152542372881356,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51903744,
+    "loss": 0.4778,
+    "grad_norm": 4.4228129386901855,
+    "learning_rate": 0.00013574159350437261
+  },
+  {
+    "step": 171,
+    "epoch": 1.159322033898305,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519100416,
+    "loss": 0.5222,
+    "grad_norm": 6.1567864418029785,
+    "learning_rate": 0.0001339657317652331
+  },
+  {
+    "step": 172,
+    "epoch": 1.1661016949152543,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519008256,
+    "loss": 0.6052,
+    "grad_norm": 6.764645099639893,
+    "learning_rate": 0.00013219214060140424
+  },
+  {
+    "step": 173,
+    "epoch": 1.1728813559322033,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519307776,
+    "loss": 0.4933,
+    "grad_norm": 4.290213108062744,
+    "learning_rate": 0.00013042107116699228
+  },
+  {
+    "step": 174,
+    "epoch": 1.1796610169491526,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519031296,
+    "loss": 0.579,
+    "grad_norm": 4.750498294830322,
+    "learning_rate": 0.00012865277425900724
+  },
+  {
+    "step": 175,
+    "epoch": 1.1864406779661016,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518997504,
+    "loss": 0.4567,
+    "grad_norm": 4.482128620147705,
+    "learning_rate": 0.00012688750028184818
+  },
+  {
+    "step": 176,
+    "epoch": 1.193220338983051,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519135744,
+    "loss": 0.5528,
+    "grad_norm": 7.500720500946045,
+    "learning_rate": 0.0001251254992118439
+  },
+  {
+    "step": 177,
+    "epoch": 1.2,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519234048,
+    "loss": 0.4816,
+    "grad_norm": 5.709393501281738,
+    "learning_rate": 0.00012336702056185453
+  },
+  {
+    "step": 178,
+    "epoch": 1.2067796610169492,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518980608,
+    "loss": 0.6219,
+    "grad_norm": 5.3650712966918945,
+    "learning_rate": 0.00012161231334593851
+  },
+  {
+    "step": 179,
+    "epoch": 1.2135593220338983,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519080448,
+    "loss": 0.6314,
+    "grad_norm": 7.034570693969727,
+    "learning_rate": 0.00011986162604409015
+  },
+  {
+    "step": 180,
+    "epoch": 1.2203389830508475,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.5190528,
+    "loss": 0.5441,
+    "grad_norm": 4.4938225746154785,
+    "learning_rate": 0.00011811520656705348
+  },
+  {
+    "step": 181,
+    "epoch": 1.2271186440677966,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518989824,
+    "loss": 0.4821,
+    "grad_norm": 5.907620906829834,
+    "learning_rate": 0.00011637330222121543
+  },
+  {
+    "step": 182,
+    "epoch": 1.2338983050847459,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519207936,
+    "loss": 0.7578,
+    "grad_norm": 9.750370025634766,
+    "learning_rate": 0.00011463615967358588
+  },
+  {
+    "step": 183,
+    "epoch": 1.240677966101695,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519105024,
+    "loss": 0.5486,
+    "grad_norm": 5.949014663696289,
+    "learning_rate": 0.00011290402491686766
+  },
+  {
+    "step": 184,
+    "epoch": 1.2474576271186442,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.5190528,
+    "loss": 0.4688,
+    "grad_norm": 4.6593017578125,
+    "learning_rate": 0.00011117714323462186
+  },
+  {
+    "step": 185,
+    "epoch": 1.2542372881355932,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519031296,
+    "loss": 0.5701,
+    "grad_norm": 4.530482769012451,
+    "learning_rate": 0.00010945575916653407
+  },
+  {
+    "step": 186,
+    "epoch": 1.2610169491525425,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519040512,
+    "loss": 0.4945,
+    "grad_norm": 3.4325568675994873,
+    "learning_rate": 0.00010774011647378553
+  },
+  {
+    "step": 187,
+    "epoch": 1.2677966101694915,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518972928,
+    "loss": 0.6189,
+    "grad_norm": 4.750690460205078,
+    "learning_rate": 0.00010603045810453468
+  },
+  {
+    "step": 188,
+    "epoch": 1.2745762711864406,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519135744,
+    "loss": 0.5404,
+    "grad_norm": 4.004016399383545,
+    "learning_rate": 0.00010432702615951396
+  },
+  {
+    "step": 189,
+    "epoch": 1.2813559322033898,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519005184,
+    "loss": 0.547,
+    "grad_norm": 4.070260524749756,
+    "learning_rate": 0.00010263006185774627
+  },
+  {
+    "step": 190,
+    "epoch": 1.288135593220339,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519124992,
+    "loss": 0.5295,
+    "grad_norm": 5.301217555999756,
+    "learning_rate": 0.00010093980550238675
+  },
+  {
+    "step": 191,
+    "epoch": 1.2949152542372881,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518943744,
+    "loss": 0.4816,
+    "grad_norm": 3.699140787124634,
+    "learning_rate": 9.925649644669391e-05
+  },
+  {
+    "step": 192,
+    "epoch": 1.3016949152542372,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51907584,
+    "loss": 0.4443,
+    "grad_norm": 4.096963882446289,
+    "learning_rate": 9.758037306013526e-05
+  },
+  {
+    "step": 193,
+    "epoch": 1.3084745762711865,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519049728,
+    "loss": 0.5866,
+    "grad_norm": 4.5070319175720215,
+    "learning_rate": 9.591167269463255e-05
+  },
+  {
+    "step": 194,
+    "epoch": 1.3152542372881357,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519015936,
+    "loss": 0.5797,
+    "grad_norm": 5.173367500305176,
+    "learning_rate": 9.425063165095088e-05
+  },
+  {
+    "step": 195,
+    "epoch": 1.3220338983050848,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519120384,
+    "loss": 0.4506,
+    "grad_norm": 5.948993682861328,
+    "learning_rate": 9.259748514523653e-05
+  },
+  {
+    "step": 196,
+    "epoch": 1.3288135593220338,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519115776,
+    "loss": 0.5417,
+    "grad_norm": 4.922159671783447,
+    "learning_rate": 9.095246727570879e-05
+  },
+  {
+    "step": 197,
+    "epoch": 1.335593220338983,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518974464,
+    "loss": 0.4126,
+    "grad_norm": 4.2993011474609375,
+    "learning_rate": 8.931581098950973e-05
+  },
+  {
+    "step": 198,
+    "epoch": 1.3423728813559321,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519166464,
+    "loss": 0.4516,
+    "grad_norm": 3.3898727893829346,
+    "learning_rate": 8.768774804971705e-05
+  },
+  {
+    "step": 199,
+    "epoch": 1.3491525423728814,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519017472,
+    "loss": 0.5272,
+    "grad_norm": 4.7902374267578125,
+    "learning_rate": 8.606850900252478e-05
+  },
+  {
+    "step": 200,
+    "epoch": 1.3559322033898304,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519120384,
+    "loss": 0.3785,
+    "grad_norm": 3.5034830570220947,
+    "learning_rate": 8.445832314459608e-05
+  },
+  {
+    "step": 201,
+    "epoch": 1.3627118644067797,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519323136,
+    "loss": 0.4795,
+    "grad_norm": 4.421779632568359,
+    "learning_rate": 8.285741849059311e-05
+  },
+  {
+    "step": 202,
+    "epoch": 1.3694915254237288,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519124992,
+    "loss": 0.4514,
+    "grad_norm": 4.375877380371094,
+    "learning_rate": 8.126602174088843e-05
+  },
+  {
+    "step": 203,
+    "epoch": 1.376271186440678,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519011328,
+    "loss": 0.4037,
+    "grad_norm": 5.991669654846191,
+    "learning_rate": 7.968435824946242e-05
+  },
+  {
+    "step": 204,
+    "epoch": 1.383050847457627,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519025152,
+    "loss": 0.4836,
+    "grad_norm": 5.3182172775268555,
+    "learning_rate": 7.811265199199152e-05
+  },
+  {
+    "step": 205,
+    "epoch": 1.3898305084745763,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519069696,
+    "loss": 0.4796,
+    "grad_norm": 5.581629276275635,
+    "learning_rate": 7.655112553413135e-05
+  },
+  {
+    "step": 206,
+    "epoch": 1.3966101694915254,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519011328,
+    "loss": 0.481,
+    "grad_norm": 5.053388595581055,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 207,
+    "epoch": 1.4033898305084747,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.5192448,
+    "loss": 0.4202,
+    "grad_norm": 5.716559886932373,
+    "learning_rate": 7.345949504086507e-05
+  },
+  {
+    "step": 208,
+    "epoch": 1.4101694915254237,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51927552,
+    "loss": 0.3872,
+    "grad_norm": 6.213109493255615,
+    "learning_rate": 7.192982880403917e-05
+  },
+  {
+    "step": 209,
+    "epoch": 1.4169491525423727,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519201792,
+    "loss": 0.5066,
+    "grad_norm": 6.249429225921631,
+    "learning_rate": 7.041121790198881e-05
+  },
+  {
+    "step": 210,
+    "epoch": 1.423728813559322,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519089664,
+    "loss": 0.4701,
+    "grad_norm": 5.749514102935791,
+    "learning_rate": 6.890387738166041e-05
+  },
+  {
+    "step": 211,
+    "epoch": 1.4305084745762713,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519038976,
+    "loss": 0.42,
+    "grad_norm": 6.426360130310059,
+    "learning_rate": 6.740802069402771e-05
+  },
+  {
+    "step": 212,
+    "epoch": 1.4372881355932203,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519008256,
+    "loss": 0.4786,
+    "grad_norm": 5.285887241363525,
+    "learning_rate": 6.592385966386588e-05
+  },
+  {
+    "step": 213,
+    "epoch": 1.4440677966101694,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519031296,
+    "loss": 0.5431,
+    "grad_norm": 8.069002151489258,
+    "learning_rate": 6.445160445975536e-05
+  },
+  {
+    "step": 214,
+    "epoch": 1.4508474576271186,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51911424,
+    "loss": 0.527,
+    "grad_norm": 6.687179088592529,
+    "learning_rate": 6.299146356432029e-05
+  },
+  {
+    "step": 215,
+    "epoch": 1.457627118644068,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519042048,
+    "loss": 0.538,
+    "grad_norm": 7.980434894561768,
+    "learning_rate": 6.154364374470568e-05
+  },
+  {
+    "step": 216,
+    "epoch": 1.464406779661017,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519207936,
+    "loss": 0.4374,
+    "grad_norm": 5.38814640045166,
+    "learning_rate": 6.010835002329795e-05
+  },
+  {
+    "step": 217,
+    "epoch": 1.471186440677966,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519049728,
+    "loss": 0.5355,
+    "grad_norm": 8.008475303649902,
+    "learning_rate": 5.8685785648691894e-05
+  },
+  {
+    "step": 218,
+    "epoch": 1.4779661016949153,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519026688,
+    "loss": 0.4467,
+    "grad_norm": 5.458549499511719,
+    "learning_rate": 5.72761520669092e-05
+  },
+  {
+    "step": 219,
+    "epoch": 1.4847457627118645,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51915264,
+    "loss": 0.477,
+    "grad_norm": 6.730329990386963,
+    "learning_rate": 5.587964889287218e-05
+  },
+  {
+    "step": 220,
+    "epoch": 1.4915254237288136,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519186432,
+    "loss": 0.5097,
+    "grad_norm": 6.172441005706787,
+    "learning_rate": 5.449647388213678e-05
+  },
+  {
+    "step": 221,
+    "epoch": 1.4983050847457626,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519054336,
+    "loss": 0.5732,
+    "grad_norm": 7.062180519104004,
+    "learning_rate": 5.312682290288869e-05
+  },
+  {
+    "step": 222,
+    "epoch": 1.505084745762712,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51919104,
+    "loss": 0.4604,
+    "grad_norm": 6.362549781799316,
+    "learning_rate": 5.1770889908207245e-05
+  },
+  {
+    "step": 223,
+    "epoch": 1.5118644067796612,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519105024,
+    "loss": 0.4812,
+    "grad_norm": 6.742758274078369,
+    "learning_rate": 5.0428866908599864e-05
+  },
+  {
+    "step": 224,
+    "epoch": 1.5186440677966102,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519069696,
+    "loss": 0.5005,
+    "grad_norm": 7.343570709228516,
+    "learning_rate": 4.9100943944812114e-05
+  },
+  {
+    "step": 225,
+    "epoch": 1.5254237288135593,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519034368,
+    "loss": 0.5068,
+    "grad_norm": 5.180023670196533,
+    "learning_rate": 4.778730906091632e-05
+  },
+  {
+    "step": 226,
+    "epoch": 1.5322033898305085,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51918336,
+    "loss": 0.379,
+    "grad_norm": 5.091320991516113,
+    "learning_rate": 4.648814827768322e-05
+  },
+  {
+    "step": 227,
+    "epoch": 1.5389830508474578,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519072768,
+    "loss": 0.4426,
+    "grad_norm": 5.11602258682251,
+    "learning_rate": 4.5203645566239816e-05
+  },
+  {
+    "step": 228,
+    "epoch": 1.5457627118644068,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519017472,
+    "loss": 0.5256,
+    "grad_norm": 5.844997882843018,
+    "learning_rate": 4.3933982822017876e-05
+  },
+  {
+    "step": 229,
+    "epoch": 1.5525423728813559,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518959104,
+    "loss": 0.5054,
+    "grad_norm": 5.75474214553833,
+    "learning_rate": 4.267933983899601e-05
+  },
+  {
+    "step": 230,
+    "epoch": 1.559322033898305,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519015936,
+    "loss": 0.5413,
+    "grad_norm": 6.338455677032471,
+    "learning_rate": 4.143989428423947e-05
+  },
+  {
+    "step": 231,
+    "epoch": 1.5661016949152542,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519293952,
+    "loss": 0.4582,
+    "grad_norm": 5.49623966217041,
+    "learning_rate": 4.0215821672741213e-05
+  },
+  {
+    "step": 232,
+    "epoch": 1.5728813559322035,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519017472,
+    "loss": 0.5658,
+    "grad_norm": 5.572755813598633,
+    "learning_rate": 3.900729534256745e-05
+  },
+  {
+    "step": 233,
+    "epoch": 1.5796610169491525,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519330816,
+    "loss": 0.5023,
+    "grad_norm": 5.0739946365356445,
+    "learning_rate": 3.781448643031187e-05
+  },
+  {
+    "step": 234,
+    "epoch": 1.5864406779661016,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.5192064,
+    "loss": 0.4126,
+    "grad_norm": 5.143454074859619,
+    "learning_rate": 3.663756384686127e-05
+  },
+  {
+    "step": 235,
+    "epoch": 1.5932203389830508,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518962176,
+    "loss": 0.4623,
+    "grad_norm": 5.956307888031006,
+    "learning_rate": 3.547669425347647e-05
+  },
+  {
+    "step": 236,
+    "epoch": 1.6,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51902208,
+    "loss": 0.4677,
+    "grad_norm": 5.250843524932861,
+    "learning_rate": 3.433204203819185e-05
+  },
+  {
+    "step": 237,
+    "epoch": 1.6067796610169491,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51908352,
+    "loss": 0.4254,
+    "grad_norm": 4.902020454406738,
+    "learning_rate": 3.3203769292536764e-05
+  },
+  {
+    "step": 238,
+    "epoch": 1.6135593220338982,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519085056,
+    "loss": 0.4989,
+    "grad_norm": 5.615092754364014,
+    "learning_rate": 3.209203578858191e-05
+  },
+  {
+    "step": 239,
+    "epoch": 1.6203389830508474,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519338496,
+    "loss": 0.5546,
+    "grad_norm": 5.185640335083008,
+    "learning_rate": 3.099699895631474e-05
+  },
+  {
+    "step": 240,
+    "epoch": 1.6271186440677967,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518988288,
+    "loss": 0.6922,
+    "grad_norm": 7.394616603851318,
+    "learning_rate": 2.9918813861345952e-05
+  },
+  {
+    "step": 241,
+    "epoch": 1.6338983050847458,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519284736,
+    "loss": 0.4441,
+    "grad_norm": 5.41588020324707,
+    "learning_rate": 2.885763318295102e-05
+  },
+  {
+    "step": 242,
+    "epoch": 1.6406779661016948,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519146496,
+    "loss": 0.5156,
+    "grad_norm": 6.340667247772217,
+    "learning_rate": 2.781360719244964e-05
+  },
+  {
+    "step": 243,
+    "epoch": 1.647457627118644,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51899904,
+    "loss": 0.5521,
+    "grad_norm": 5.889646053314209,
+    "learning_rate": 2.6786883731926306e-05
+  },
+  {
+    "step": 244,
+    "epoch": 1.6542372881355933,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519138816,
+    "loss": 0.4731,
+    "grad_norm": 5.065695285797119,
+    "learning_rate": 2.5777608193294396e-05
+  },
+  {
+    "step": 245,
+    "epoch": 1.6610169491525424,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519017472,
+    "loss": 0.4947,
+    "grad_norm": 5.03191614151001,
+    "learning_rate": 2.4785923497707956e-05
+  },
+  {
+    "step": 246,
+    "epoch": 1.6677966101694914,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519111168,
+    "loss": 0.4658,
+    "grad_norm": 4.863046169281006,
+    "learning_rate": 2.38119700753228e-05
+  },
+  {
+    "step": 247,
+    "epoch": 1.6745762711864407,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.5191296,
+    "loss": 0.5575,
+    "grad_norm": 5.03303337097168,
+    "learning_rate": 2.285588584541047e-05
+  },
+  {
+    "step": 248,
+    "epoch": 1.68135593220339,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519081984,
+    "loss": 0.4857,
+    "grad_norm": 4.907963752746582,
+    "learning_rate": 2.1917806196827792e-05
+  },
+  {
+    "step": 249,
+    "epoch": 1.688135593220339,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518988288,
+    "loss": 0.4642,
+    "grad_norm": 5.556704521179199,
+    "learning_rate": 2.0997863968844914e-05
+  },
+  {
+    "step": 250,
+    "epoch": 1.694915254237288,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519080448,
+    "loss": 0.458,
+    "grad_norm": 4.857274055480957,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 251,
+    "epoch": 1.7016949152542373,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518992896,
+    "loss": 0.417,
+    "grad_norm": 5.613741874694824,
+    "learning_rate": 1.921291027132278e-05
+  },
+  {
+    "step": 252,
+    "epoch": 1.7084745762711866,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519035904,
+    "loss": 0.4969,
+    "grad_norm": 4.631195068359375,
+    "learning_rate": 1.834815156491165e-05
+  },
+  {
+    "step": 253,
+    "epoch": 1.7152542372881356,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51922944,
+    "loss": 0.4858,
+    "grad_norm": 5.4093122482299805,
+    "learning_rate": 1.750203576956341e-05
+  },
+  {
+    "step": 254,
+    "epoch": 1.7220338983050847,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519025152,
+    "loss": 0.5449,
+    "grad_norm": 5.517231464385986,
+    "learning_rate": 1.6674682701761493e-05
+  },
+  {
+    "step": 255,
+    "epoch": 1.7288135593220337,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519181824,
+    "loss": 0.5259,
+    "grad_norm": 6.029206275939941,
+    "learning_rate": 1.5866209521043304e-05
+  },
+  {
+    "step": 256,
+    "epoch": 1.735593220338983,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519008256,
+    "loss": 0.392,
+    "grad_norm": 4.221251010894775,
+    "learning_rate": 1.5076730713409523e-05
+  },
+  {
+    "step": 257,
+    "epoch": 1.7423728813559323,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51942144,
+    "loss": 0.5529,
+    "grad_norm": 6.13136100769043,
+    "learning_rate": 1.4306358075111923e-05
+  },
+  {
+    "step": 258,
+    "epoch": 1.7491525423728813,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519080448,
+    "loss": 0.4382,
+    "grad_norm": 5.44303035736084,
+    "learning_rate": 1.3555200696822232e-05
+  },
+  {
+    "step": 259,
+    "epoch": 1.7559322033898304,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.518997504,
+    "loss": 0.5205,
+    "grad_norm": 4.832195281982422,
+    "learning_rate": 1.2823364948184095e-05
+  },
+  {
+    "step": 260,
+    "epoch": 1.7627118644067796,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51911424,
+    "loss": 0.3783,
+    "grad_norm": 4.001471519470215,
+    "learning_rate": 1.2110954462750166e-05
+  },
+  {
+    "step": 261,
+    "epoch": 1.769491525423729,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519069696,
+    "loss": 0.3939,
+    "grad_norm": 4.915110111236572,
+    "learning_rate": 1.1418070123306989e-05
+  },
+  {
+    "step": 262,
+    "epoch": 1.776271186440678,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519026688,
+    "loss": 0.381,
+    "grad_norm": 3.9966530799865723,
+    "learning_rate": 1.0744810047589115e-05
+  },
+  {
+    "step": 263,
+    "epoch": 1.783050847457627,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519063552,
+    "loss": 0.4564,
+    "grad_norm": 4.660472393035889,
+    "learning_rate": 1.0091269574384874e-05
+  },
+  {
+    "step": 264,
+    "epoch": 1.7898305084745763,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519151104,
+    "loss": 0.4723,
+    "grad_norm": 5.000064849853516,
+    "learning_rate": 9.45754125003576e-06
+  },
+  {
+    "step": 265,
+    "epoch": 1.7966101694915255,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519069696,
+    "loss": 0.5149,
+    "grad_norm": 5.103734970092773,
+    "learning_rate": 8.843714815330987e-06
+  },
+  {
+    "step": 266,
+    "epoch": 1.8033898305084746,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519284736,
+    "loss": 0.4547,
+    "grad_norm": 5.005780220031738,
+    "learning_rate": 8.249877192799731e-06
+  },
+  {
+    "step": 267,
+    "epoch": 1.8101694915254236,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519077376,
+    "loss": 0.4271,
+    "grad_norm": 5.692404270172119,
+    "learning_rate": 7.676112474402068e-06
+  },
+  {
+    "step": 268,
+    "epoch": 1.8169491525423729,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519081984,
+    "loss": 0.405,
+    "grad_norm": 5.452561855316162,
+    "learning_rate": 7.122501909620926e-06
+  },
+  {
+    "step": 269,
+    "epoch": 1.8237288135593221,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519092736,
+    "loss": 0.4592,
+    "grad_norm": 5.44649600982666,
+    "learning_rate": 6.5891238939566275e-06
+  },
+  {
+    "step": 270,
+    "epoch": 1.8305084745762712,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519131136,
+    "loss": 0.4592,
+    "grad_norm": 5.148582935333252,
+    "learning_rate": 6.076053957825411e-06
+  },
+  {
+    "step": 271,
+    "epoch": 1.8372881355932202,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51918336,
+    "loss": 0.414,
+    "grad_norm": 5.350499153137207,
+    "learning_rate": 5.583364755863701e-06
+  },
+  {
+    "step": 272,
+    "epoch": 1.8440677966101695,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519042048,
+    "loss": 0.4478,
+    "grad_norm": 4.392088413238525,
+    "learning_rate": 5.11112605663977e-06
+  },
+  {
+    "step": 273,
+    "epoch": 1.8508474576271188,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51892224,
+    "loss": 0.4744,
+    "grad_norm": 5.41953706741333,
+    "learning_rate": 4.659404732773908e-06
+  },
+  {
+    "step": 274,
+    "epoch": 1.8576271186440678,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519149568,
+    "loss": 0.4541,
+    "grad_norm": 4.928563594818115,
+    "learning_rate": 4.228264751468752e-06
+  },
+  {
+    "step": 275,
+    "epoch": 1.8644067796610169,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519393792,
+    "loss": 0.396,
+    "grad_norm": 5.382067680358887,
+    "learning_rate": 3.817767165451041e-06
+  },
+  {
+    "step": 276,
+    "epoch": 1.8711864406779661,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519054336,
+    "loss": 0.4373,
+    "grad_norm": 4.41796875,
+    "learning_rate": 3.4279701043260886e-06
+  },
+  {
+    "step": 277,
+    "epoch": 1.8779661016949154,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519000576,
+    "loss": 0.6379,
+    "grad_norm": 5.958452224731445,
+    "learning_rate": 3.0589287663461472e-06
+  },
+  {
+    "step": 278,
+    "epoch": 1.8847457627118644,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519163392,
+    "loss": 0.4834,
+    "grad_norm": 4.944537162780762,
+    "learning_rate": 2.710695410593994e-06
+  },
+  {
+    "step": 279,
+    "epoch": 1.8915254237288135,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519103488,
+    "loss": 0.4909,
+    "grad_norm": 4.551985740661621,
+    "learning_rate": 2.3833193495825853e-06
+  },
+  {
+    "step": 280,
+    "epoch": 1.8983050847457628,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51908352,
+    "loss": 0.5207,
+    "grad_norm": 4.847994327545166,
+    "learning_rate": 2.076846942272026e-06
+  },
+  {
+    "step": 281,
+    "epoch": 1.905084745762712,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519019008,
+    "loss": 0.5324,
+    "grad_norm": 5.380536079406738,
+    "learning_rate": 1.791321587504768e-06
+  },
+  {
+    "step": 282,
+    "epoch": 1.911864406779661,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519447552,
+    "loss": 0.4495,
+    "grad_norm": 5.5009050369262695,
+    "learning_rate": 1.5267837178600972e-06
+  },
+  {
+    "step": 283,
+    "epoch": 1.9186440677966101,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519154176,
+    "loss": 0.4852,
+    "grad_norm": 5.446907997131348,
+    "learning_rate": 1.2832707939284427e-06
+  },
+  {
+    "step": 284,
+    "epoch": 1.9254237288135592,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519009792,
+    "loss": 0.4832,
+    "grad_norm": 4.65576171875,
+    "learning_rate": 1.0608172990067553e-06
+  },
+  {
+    "step": 285,
+    "epoch": 1.9322033898305084,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519063552,
+    "loss": 0.4847,
+    "grad_norm": 4.889958381652832,
+    "learning_rate": 8.594547342153979e-07
+  },
+  {
+    "step": 286,
+    "epoch": 1.9389830508474577,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519481344,
+    "loss": 0.4748,
+    "grad_norm": 5.272000789642334,
+    "learning_rate": 6.792116140373116e-07
+  },
+  {
+    "step": 287,
+    "epoch": 1.9457627118644067,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519250944,
+    "loss": 0.4557,
+    "grad_norm": 4.938218116760254,
+    "learning_rate": 5.201134622801473e-07
+  },
+  {
+    "step": 288,
+    "epoch": 1.9525423728813558,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519035904,
+    "loss": 0.481,
+    "grad_norm": 5.558644771575928,
+    "learning_rate": 3.821828084619727e-07
+  },
+  {
+    "step": 289,
+    "epoch": 1.959322033898305,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519120384,
+    "loss": 0.4614,
+    "grad_norm": 5.039109706878662,
+    "learning_rate": 2.654391846207915e-07
+  },
+  {
+    "step": 290,
+    "epoch": 1.9661016949152543,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51904512,
+    "loss": 0.5343,
+    "grad_norm": 5.333126068115234,
+    "learning_rate": 1.6989912254880556e-07
+  },
+  {
+    "step": 291,
+    "epoch": 1.9728813559322034,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519080448,
+    "loss": 0.6398,
+    "grad_norm": 5.9029459953308105,
+    "learning_rate": 9.557615145123765e-08
+  },
+  {
+    "step": 292,
+    "epoch": 1.9796610169491524,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519163392,
+    "loss": 0.4624,
+    "grad_norm": 5.084424018859863,
+    "learning_rate": 4.248079603064724e-08
+  },
+  {
+    "step": 293,
+    "epoch": 1.9864406779661017,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.519080448,
+    "loss": 0.5694,
+    "grad_norm": 5.880096435546875,
+    "learning_rate": 1.0620574996372811e-08
+  },
+  {
+    "step": 294,
+    "epoch": 1.993220338983051,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51910656,
+    "loss": 0.5335,
+    "grad_norm": 5.264451503753662,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 294,
+    "epoch": 1.993220338983051,
+    "cpu_mem": 1.512288256,
+    "gpu_mem": 4.51910656,
+    "train_runtime": 4458.5149,
+    "train_samples_per_second": 4.229,
+    "train_steps_per_second": 0.066,
+    "total_flos": 0.0,
+    "train_loss": 0.7076091230118355
+  }
+]

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "hellaswag",
+    "results": 0.7826130252937662
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r2-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "HELLASWAG",
+    "dataset_id": "Rowan/hellaswag",
+    "preprocess_id": "hellaswag_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 2,
+    "alpha": 4,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 1577576
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 1,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-hellaswag-r2-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r2-a2",
+  "seed": 42,
+  "timestamp": "2025-08-30T16:43:23.732951"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r2-a2/training_logs.json ADDED Viewed

The diff for this file is too large to render. See raw diff

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r32-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 64,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 32,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r32-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "hellaswag",
+    "results": 0.33917546305516827
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r32-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "HELLASWAG",
+    "dataset_id": "Rowan/hellaswag",
+    "preprocess_id": "hellaswag_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 32,
+    "alpha": 64,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 25389056
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 1,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-hellaswag-r32-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r32-a2",
+  "seed": 42,
+  "timestamp": "2025-08-31T06:39:18.710581"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r32-a2/training_logs.json ADDED Viewed

The diff for this file is too large to render. See raw diff

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r8-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 16,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 8,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r8-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "hellaswag",
+    "results": 0.2504481179047998
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r8-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "HELLASWAG",
+    "dataset_id": "Rowan/hellaswag",
+    "preprocess_id": "hellaswag_train_deepeval"
+  },
+  "peft_config": {
+    "method": "abl_A",
+    "rank": 8,
+    "alpha": 16,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 6317696
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 1,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-abl_A-hellaswag-r8-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r8-a2",
+  "seed": 42,
+  "timestamp": "2025-08-30T23:40:44.452046"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-hellaswag-r8-a2/training_logs.json ADDED Viewed

The diff for this file is too large to render. See raw diff

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-logiqa-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_weight": "kaiming",
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "metric_tracking": false,
+  "modules_to_save": null,
+  "peft_type": "ABLATION",
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "share_weights": false,
+  "target_modules": [
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj"
+  ],
+  "task_type": null,
+  "track_n": 100,
+  "variant": "A"
+}

TinyLlama_v1.1-abl_A/TinyLlama_v1.1-abl_A-logiqa-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "logiqa",
+    "results": 0.28465193141912826
+}