martinkorelic commited on Oct 28, 2025

Commit

cb17bda

verified ·

1 Parent(s): 66e58a5

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r2-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r2-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r2-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r2-a2/training_logs.json +625 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r32-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r32-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r32-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r32-a2/training_logs.json +625 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r8-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r8-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r8-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r8-a2/training_logs.json +625 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r2-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r2-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r2-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r2-a2/training_logs.json +1273 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r32-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r32-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r32-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r32-a2/training_logs.json +1273 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r8-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r8-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r8-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r8-a2/training_logs.json +1273 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-boolq-r2-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-boolq-r2-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-boolq-r2-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-boolq-r2-a2/training_logs.json +2659 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r2-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r2-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r2-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r2-a2/training_logs.json +0 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r32-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r32-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r32-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r32-a2/training_logs.json +0 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r8-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r8-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r8-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r8-a2/training_logs.json +0 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r2-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r2-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r2-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r2-a2/training_logs.json +0 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r8-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r8-a2/eval_results.json +4 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r8-a2/training_configuration.json +38 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r8-a2/training_logs.json +0 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-winogrande-r2-a2/adapter_config.json +40 -0
TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-winogrande-r2-a2/eval_results.json +4 -0

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 2,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_c",
+    "results": 0.5742320819112628
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r2-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_C",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 2,
+    "alpha": 4,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 1307064
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-arc_c-r2-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-arc_c-r2-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T01:26:53.248869"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r2-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,625 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.05714285714285714,
+    "cpu_mem": 2.26033664,
+    "gpu_mem": 1.570594304,
+    "loss": 4.523,
+    "grad_norm": 386.9033203125,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.11428571428571428,
+    "cpu_mem": 2.262106112,
+    "gpu_mem": 1.581082624,
+    "loss": 4.7678,
+    "grad_norm": 397.74127197265625,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.17142857142857143,
+    "cpu_mem": 2.26230272,
+    "gpu_mem": 1.581113344,
+    "loss": 2.1543,
+    "grad_norm": 580.8819580078125,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 4,
+    "epoch": 0.22857142857142856,
+    "cpu_mem": 2.26230272,
+    "gpu_mem": 1.581079552,
+    "loss": 1.549,
+    "grad_norm": 28.669719696044922,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 5,
+    "epoch": 0.2857142857142857,
+    "cpu_mem": 2.262499328,
+    "gpu_mem": 1.581067264,
+    "loss": 1.5365,
+    "grad_norm": 46.89268493652344,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 6,
+    "epoch": 0.34285714285714286,
+    "cpu_mem": 2.262499328,
+    "gpu_mem": 1.58113024,
+    "loss": 1.4569,
+    "grad_norm": 26.04387092590332,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 7,
+    "epoch": 0.4,
+    "cpu_mem": 2.262499328,
+    "gpu_mem": 1.581136384,
+    "loss": 1.4555,
+    "grad_norm": 25.978248596191406,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 8,
+    "epoch": 0.45714285714285713,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581094912,
+    "loss": 1.5001,
+    "grad_norm": 33.86579132080078,
+    "learning_rate": 0.00029980111348272456
+  },
+  {
+    "step": 9,
+    "epoch": 0.5142857142857142,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581090304,
+    "loss": 1.4249,
+    "grad_norm": 32.164085388183594,
+    "learning_rate": 0.00029920498134218835
+  },
+  {
+    "step": 10,
+    "epoch": 0.5714285714285714,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581079552,
+    "loss": 1.5991,
+    "grad_norm": 28.974334716796875,
+    "learning_rate": 0.0002982131844136615
+  },
+  {
+    "step": 11,
+    "epoch": 0.6285714285714286,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581090304,
+    "loss": 1.3896,
+    "grad_norm": 12.336336135864258,
+    "learning_rate": 0.0002968283527643036
+  },
+  {
+    "step": 12,
+    "epoch": 0.6857142857142857,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58111488,
+    "loss": 1.5206,
+    "grad_norm": 24.24568748474121,
+    "learning_rate": 0.000295054158718698
+  },
+  {
+    "step": 13,
+    "epoch": 0.7428571428571429,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58111488,
+    "loss": 1.3429,
+    "grad_norm": 20.367385864257812,
+    "learning_rate": 0.00029289530712050735
+  },
+  {
+    "step": 14,
+    "epoch": 0.8,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581062656,
+    "loss": 1.5003,
+    "grad_norm": 19.901113510131836,
+    "learning_rate": 0.000290357522856074
+  },
+  {
+    "step": 15,
+    "epoch": 0.8571428571428571,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58113792,
+    "loss": 1.4286,
+    "grad_norm": 9.188563346862793,
+    "learning_rate": 0.0002874475356730507
+  },
+  {
+    "step": 16,
+    "epoch": 0.9142857142857143,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581131776,
+    "loss": 1.4626,
+    "grad_norm": 22.184289932250977,
+    "learning_rate": 0.0002841730623343193
+  },
+  {
+    "step": 17,
+    "epoch": 0.9714285714285714,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581136384,
+    "loss": 1.3688,
+    "grad_norm": 10.638352394104004,
+    "learning_rate": 0.00028054278615452326
+  },
+  {
+    "step": 18,
+    "epoch": 1.0285714285714285,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.5863424,
+    "loss": 2.0961,
+    "grad_norm": 25.868715286254883,
+    "learning_rate": 0.0002765663339734778
+  },
+  {
+    "step": 19,
+    "epoch": 1.0857142857142856,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586340864,
+    "loss": 1.4221,
+    "grad_norm": 15.752737045288086,
+    "learning_rate": 0.00027225425062752165
+  },
+  {
+    "step": 20,
+    "epoch": 1.1428571428571428,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586316288,
+    "loss": 1.2975,
+    "grad_norm": 13.059765815734863,
+    "learning_rate": 0.0002676179709865066
+  },
+  {
+    "step": 21,
+    "epoch": 1.2,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586323968,
+    "loss": 1.4209,
+    "grad_norm": 15.304547309875488,
+    "learning_rate": 0.0002626697896305779
+  },
+  {
+    "step": 22,
+    "epoch": 1.2571428571428571,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586353152,
+    "loss": 1.3644,
+    "grad_norm": 14.864243507385254,
+    "learning_rate": 0.000257422828247159
+  },
+  {
+    "step": 23,
+    "epoch": 1.3142857142857143,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586382336,
+    "loss": 1.3023,
+    "grad_norm": 11.402833938598633,
+    "learning_rate": 0.00025189100083459397
+  },
+  {
+    "step": 24,
+    "epoch": 1.3714285714285714,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586325504,
+    "loss": 1.3767,
+    "grad_norm": 12.885428428649902,
+    "learning_rate": 0.0002460889768047263
+  },
+  {
+    "step": 25,
+    "epoch": 1.4285714285714286,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586394624,
+    "loss": 1.3454,
+    "grad_norm": 10.699958801269531,
+    "learning_rate": 0.00024003214208225522
+  },
+  {
+    "step": 26,
+    "epoch": 1.4857142857142858,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586351616,
+    "loss": 1.3789,
+    "grad_norm": 19.259225845336914,
+    "learning_rate": 0.00023373655830402968
+  },
+  {
+    "step": 27,
+    "epoch": 1.5428571428571427,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586310144,
+    "loss": 1.4133,
+    "grad_norm": 10.785472869873047,
+    "learning_rate": 0.00022721892022647462
+  },
+  {
+    "step": 28,
+    "epoch": 1.6,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586356224,
+    "loss": 1.5834,
+    "grad_norm": 21.35184669494629,
+    "learning_rate": 0.000220496511454098
+  },
+  {
+    "step": 29,
+    "epoch": 1.657142857142857,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586351616,
+    "loss": 1.3562,
+    "grad_norm": 7.896946907043457,
+    "learning_rate": 0.0002135871586064791
+  },
+  {
+    "step": 30,
+    "epoch": 1.7142857142857144,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586340864,
+    "loss": 1.3457,
+    "grad_norm": 12.608896255493164,
+    "learning_rate": 0.00020650918404527775
+  },
+  {
+    "step": 31,
+    "epoch": 1.7714285714285714,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586371584,
+    "loss": 1.4318,
+    "grad_norm": 19.986997604370117,
+    "learning_rate": 0.00019928135728662522
+  },
+  {
+    "step": 32,
+    "epoch": 1.8285714285714287,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.5863808,
+    "loss": 1.3923,
+    "grad_norm": 15.040932655334473,
+    "learning_rate": 0.00019192284522774142
+  },
+  {
+    "step": 33,
+    "epoch": 1.8857142857142857,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586360832,
+    "loss": 1.3957,
+    "grad_norm": 10.201010704040527,
+    "learning_rate": 0.00018445316131976934
+  },
+  {
+    "step": 34,
+    "epoch": 1.9428571428571428,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586339328,
+    "loss": 1.4377,
+    "grad_norm": 10.625317573547363,
+    "learning_rate": 0.00017689211382161034
+  },
+  {
+    "step": 35,
+    "epoch": 2.0,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.5862272,
+    "loss": 2.1463,
+    "grad_norm": 13.790069580078125,
+    "learning_rate": 0.00016925975327198266
+  },
+  {
+    "step": 36,
+    "epoch": 2.057142857142857,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581108736,
+    "loss": 1.3124,
+    "grad_norm": 6.783844947814941,
+    "learning_rate": 0.00016157631931899697
+  },
+  {
+    "step": 37,
+    "epoch": 2.1142857142857143,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581117952,
+    "loss": 1.4666,
+    "grad_norm": 18.66895866394043,
+    "learning_rate": 0.0001538621870482483
+  },
+  {
+    "step": 38,
+    "epoch": 2.1714285714285713,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581088768,
+    "loss": 1.4124,
+    "grad_norm": 16.531171798706055,
+    "learning_rate": 0.00014613781295175172
+  },
+  {
+    "step": 39,
+    "epoch": 2.2285714285714286,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.5811072,
+    "loss": 1.4034,
+    "grad_norm": 15.827587127685547,
+    "learning_rate": 0.00013842368068100303
+  },
+  {
+    "step": 40,
+    "epoch": 2.2857142857142856,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58108416,
+    "loss": 1.3581,
+    "grad_norm": 6.456789970397949,
+    "learning_rate": 0.00013074024672801731
+  },
+  {
+    "step": 41,
+    "epoch": 2.342857142857143,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581085696,
+    "loss": 1.3423,
+    "grad_norm": 5.921348571777344,
+    "learning_rate": 0.00012310788617838966
+  },
+  {
+    "step": 42,
+    "epoch": 2.4,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58111488,
+    "loss": 1.2722,
+    "grad_norm": 7.7053327560424805,
+    "learning_rate": 0.00011554683868023067
+  },
+  {
+    "step": 43,
+    "epoch": 2.4571428571428573,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58113024,
+    "loss": 1.3529,
+    "grad_norm": 9.941762924194336,
+    "learning_rate": 0.00010807715477225858
+  },
+  {
+    "step": 44,
+    "epoch": 2.5142857142857142,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581148672,
+    "loss": 1.2702,
+    "grad_norm": 7.22553014755249,
+    "learning_rate": 0.00010071864271337478
+  },
+  {
+    "step": 45,
+    "epoch": 2.571428571428571,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581102592,
+    "loss": 1.2056,
+    "grad_norm": 6.9285888671875,
+    "learning_rate": 9.34908159547222e-05
+  },
+  {
+    "step": 46,
+    "epoch": 2.6285714285714286,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581096448,
+    "loss": 1.2361,
+    "grad_norm": 8.24813461303711,
+    "learning_rate": 8.641284139352091e-05
+  },
+  {
+    "step": 47,
+    "epoch": 2.685714285714286,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581090304,
+    "loss": 1.2144,
+    "grad_norm": 13.11104679107666,
+    "learning_rate": 7.950348854590204e-05
+  },
+  {
+    "step": 48,
+    "epoch": 2.742857142857143,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581094912,
+    "loss": 1.1387,
+    "grad_norm": 10.768682479858398,
+    "learning_rate": 7.278107977352543e-05
+  },
+  {
+    "step": 49,
+    "epoch": 2.8,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581085696,
+    "loss": 1.1511,
+    "grad_norm": 11.449169158935547,
+    "learning_rate": 6.626344169597031e-05
+  },
+  {
+    "step": 50,
+    "epoch": 2.857142857142857,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581067264,
+    "loss": 1.2684,
+    "grad_norm": 17.303821563720703,
+    "learning_rate": 5.996785791774478e-05
+  },
+  {
+    "step": 51,
+    "epoch": 2.914285714285714,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58109184,
+    "loss": 1.132,
+    "grad_norm": 17.978370666503906,
+    "learning_rate": 5.391102319527373e-05
+  },
+  {
+    "step": 52,
+    "epoch": 2.9714285714285715,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.581119488,
+    "loss": 1.3197,
+    "grad_norm": 21.446002960205078,
+    "learning_rate": 4.8108999165406026e-05
+  },
+  {
+    "step": 53,
+    "epoch": 3.0285714285714285,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586337792,
+    "loss": 1.7427,
+    "grad_norm": 33.512630462646484,
+    "learning_rate": 4.257717175284103e-05
+  },
+  {
+    "step": 54,
+    "epoch": 3.085714285714286,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586307072,
+    "loss": 1.0626,
+    "grad_norm": 17.818815231323242,
+    "learning_rate": 3.733021036942205e-05
+  },
+  {
+    "step": 55,
+    "epoch": 3.142857142857143,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586340864,
+    "loss": 1.1322,
+    "grad_norm": 19.490102767944336,
+    "learning_rate": 3.238202901349345e-05
+  },
+  {
+    "step": 56,
+    "epoch": 3.2,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586414592,
+    "loss": 1.0963,
+    "grad_norm": 24.299396514892578,
+    "learning_rate": 2.774574937247831e-05
+  },
+  {
+    "step": 57,
+    "epoch": 3.257142857142857,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58635776,
+    "loss": 1.0444,
+    "grad_norm": 23.322965621948242,
+    "learning_rate": 2.3433666026522153e-05
+  },
+  {
+    "step": 58,
+    "epoch": 3.314285714285714,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586351616,
+    "loss": 0.9757,
+    "grad_norm": 27.589811325073242,
+    "learning_rate": 1.945721384547671e-05
+  },
+  {
+    "step": 59,
+    "epoch": 3.3714285714285714,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586402304,
+    "loss": 0.9909,
+    "grad_norm": 18.960704803466797,
+    "learning_rate": 1.5826937665680693e-05
+  },
+  {
+    "step": 60,
+    "epoch": 3.4285714285714284,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586328576,
+    "loss": 1.0639,
+    "grad_norm": 30.403343200683594,
+    "learning_rate": 1.2552464326949302e-05
+  },
+  {
+    "step": 61,
+    "epoch": 3.4857142857142858,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.5863424,
+    "loss": 1.0703,
+    "grad_norm": 24.316631317138672,
+    "learning_rate": 9.64247714392597e-06
+  },
+  {
+    "step": 62,
+    "epoch": 3.5428571428571427,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586343936,
+    "loss": 1.0999,
+    "grad_norm": 23.189725875854492,
+    "learning_rate": 7.104692879492624e-06
+  },
+  {
+    "step": 63,
+    "epoch": 3.6,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586333184,
+    "loss": 1.0584,
+    "grad_norm": 22.57982063293457,
+    "learning_rate": 4.945841281301943e-06
+  },
+  {
+    "step": 64,
+    "epoch": 3.657142857142857,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58635008,
+    "loss": 0.9975,
+    "grad_norm": 21.49742317199707,
+    "learning_rate": 3.1716472356963286e-06
+  },
+  {
+    "step": 65,
+    "epoch": 3.7142857142857144,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586371584,
+    "loss": 0.8987,
+    "grad_norm": 23.114856719970703,
+    "learning_rate": 1.7868155863384415e-06
+  },
+  {
+    "step": 66,
+    "epoch": 3.7714285714285714,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586362368,
+    "loss": 0.9014,
+    "grad_norm": 20.236783981323242,
+    "learning_rate": 7.950186578116413e-07
+  },
+  {
+    "step": 67,
+    "epoch": 3.8285714285714287,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.58638848,
+    "loss": 1.0798,
+    "grad_norm": 19.5511417388916,
+    "learning_rate": 1.988865172754206e-07
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586339328,
+    "loss": 0.9931,
+    "grad_norm": 20.80122947692871,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 2.262695936,
+    "gpu_mem": 1.586339328,
+    "train_runtime": 387.8643,
+    "train_samples_per_second": 11.54,
+    "train_steps_per_second": 0.175,
+    "total_flos": 0.0,
+    "train_loss": 1.434577746426358
+  }
+]

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r32-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 64,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 32,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 32,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r32-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_c",
+    "results": 0.4786689419795222
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r32-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_C",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 32,
+    "alpha": 64,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 21018624
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-arc_c-r32-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-arc_c-r32-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T16:06:46.886810"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r32-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,625 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.05714285714285714,
+    "cpu_mem": 3.286253568,
+    "gpu_mem": 1.650468352,
+    "loss": 4.523,
+    "grad_norm": 82.09971618652344,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.11428571428571428,
+    "cpu_mem": 3.288219648,
+    "gpu_mem": 1.818607616,
+    "loss": 4.7678,
+    "grad_norm": 84.00991821289062,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.17142857142857143,
+    "cpu_mem": 3.288416256,
+    "gpu_mem": 1.818638336,
+    "loss": 2.4154,
+    "grad_norm": 163.50953674316406,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 4,
+    "epoch": 0.22857142857142856,
+    "cpu_mem": 3.288416256,
+    "gpu_mem": 1.818604544,
+    "loss": 1.5756,
+    "grad_norm": 5.579870700836182,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 5,
+    "epoch": 0.2857142857142857,
+    "cpu_mem": 3.288416256,
+    "gpu_mem": 1.818592256,
+    "loss": 1.4128,
+    "grad_norm": 3.7148215770721436,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 6,
+    "epoch": 0.34285714285714286,
+    "cpu_mem": 3.288416256,
+    "gpu_mem": 1.818655232,
+    "loss": 1.5169,
+    "grad_norm": 8.302370071411133,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 7,
+    "epoch": 0.4,
+    "cpu_mem": 3.288416256,
+    "gpu_mem": 1.818661376,
+    "loss": 1.5872,
+    "grad_norm": 7.169394493103027,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 8,
+    "epoch": 0.45714285714285713,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818619904,
+    "loss": 1.3811,
+    "grad_norm": 2.602477550506592,
+    "learning_rate": 0.00029980111348272456
+  },
+  {
+    "step": 9,
+    "epoch": 0.5142857142857142,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818615296,
+    "loss": 1.3664,
+    "grad_norm": 4.919002056121826,
+    "learning_rate": 0.00029920498134218835
+  },
+  {
+    "step": 10,
+    "epoch": 0.5714285714285714,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818604544,
+    "loss": 1.4621,
+    "grad_norm": 3.9696922302246094,
+    "learning_rate": 0.0002982131844136615
+  },
+  {
+    "step": 11,
+    "epoch": 0.6285714285714286,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818615296,
+    "loss": 1.371,
+    "grad_norm": 2.049038887023926,
+    "learning_rate": 0.0002968283527643036
+  },
+  {
+    "step": 12,
+    "epoch": 0.6857142857142857,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818639872,
+    "loss": 1.5241,
+    "grad_norm": 4.8838067054748535,
+    "learning_rate": 0.000295054158718698
+  },
+  {
+    "step": 13,
+    "epoch": 0.7428571428571429,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818639872,
+    "loss": 1.4337,
+    "grad_norm": 4.761289119720459,
+    "learning_rate": 0.00029289530712050735
+  },
+  {
+    "step": 14,
+    "epoch": 0.8,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818587648,
+    "loss": 1.5096,
+    "grad_norm": 3.6689658164978027,
+    "learning_rate": 0.000290357522856074
+  },
+  {
+    "step": 15,
+    "epoch": 0.8571428571428571,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818662912,
+    "loss": 1.424,
+    "grad_norm": 2.6308181285858154,
+    "learning_rate": 0.0002874475356730507
+  },
+  {
+    "step": 16,
+    "epoch": 0.9142857142857143,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818656768,
+    "loss": 1.5535,
+    "grad_norm": 4.361621379852295,
+    "learning_rate": 0.0002841730623343193
+  },
+  {
+    "step": 17,
+    "epoch": 0.9714285714285714,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818661376,
+    "loss": 1.6281,
+    "grad_norm": 5.062143325805664,
+    "learning_rate": 0.00028054278615452326
+  },
+  {
+    "step": 18,
+    "epoch": 1.0285714285714285,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902692864,
+    "loss": 2.1642,
+    "grad_norm": 3.5901105403900146,
+    "learning_rate": 0.0002765663339734778
+  },
+  {
+    "step": 19,
+    "epoch": 1.0857142857142856,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902691328,
+    "loss": 1.3664,
+    "grad_norm": 0.9835745096206665,
+    "learning_rate": 0.00027225425062752165
+  },
+  {
+    "step": 20,
+    "epoch": 1.1428571428571428,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902666752,
+    "loss": 1.3149,
+    "grad_norm": 1.6624815464019775,
+    "learning_rate": 0.0002676179709865066
+  },
+  {
+    "step": 21,
+    "epoch": 1.2,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902674432,
+    "loss": 1.4204,
+    "grad_norm": 2.086113691329956,
+    "learning_rate": 0.0002626697896305779
+  },
+  {
+    "step": 22,
+    "epoch": 1.2571428571428571,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902703616,
+    "loss": 1.4248,
+    "grad_norm": 2.951725959777832,
+    "learning_rate": 0.000257422828247159
+  },
+  {
+    "step": 23,
+    "epoch": 1.3142857142857143,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.9027328,
+    "loss": 1.3371,
+    "grad_norm": 1.7192511558532715,
+    "learning_rate": 0.00025189100083459397
+  },
+  {
+    "step": 24,
+    "epoch": 1.3714285714285714,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902675968,
+    "loss": 1.3549,
+    "grad_norm": 1.3918964862823486,
+    "learning_rate": 0.0002460889768047263
+  },
+  {
+    "step": 25,
+    "epoch": 1.4285714285714286,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902745088,
+    "loss": 1.4172,
+    "grad_norm": 3.677994728088379,
+    "learning_rate": 0.00024003214208225522
+  },
+  {
+    "step": 26,
+    "epoch": 1.4857142857142858,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.90270208,
+    "loss": 1.4108,
+    "grad_norm": 2.309683084487915,
+    "learning_rate": 0.00023373655830402968
+  },
+  {
+    "step": 27,
+    "epoch": 1.5428571428571427,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902660608,
+    "loss": 1.3956,
+    "grad_norm": 2.2960798740386963,
+    "learning_rate": 0.00022721892022647462
+  },
+  {
+    "step": 28,
+    "epoch": 1.6,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902706688,
+    "loss": 1.5291,
+    "grad_norm": 4.181861400604248,
+    "learning_rate": 0.000220496511454098
+  },
+  {
+    "step": 29,
+    "epoch": 1.657142857142857,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.90270208,
+    "loss": 1.3542,
+    "grad_norm": 1.3037711381912231,
+    "learning_rate": 0.0002135871586064791
+  },
+  {
+    "step": 30,
+    "epoch": 1.7142857142857144,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902691328,
+    "loss": 1.341,
+    "grad_norm": 1.7516839504241943,
+    "learning_rate": 0.00020650918404527775
+  },
+  {
+    "step": 31,
+    "epoch": 1.7714285714285714,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902722048,
+    "loss": 1.3945,
+    "grad_norm": 2.477121591567993,
+    "learning_rate": 0.00019928135728662522
+  },
+  {
+    "step": 32,
+    "epoch": 1.8285714285714287,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902731264,
+    "loss": 1.3733,
+    "grad_norm": 1.7665789127349854,
+    "learning_rate": 0.00019192284522774142
+  },
+  {
+    "step": 33,
+    "epoch": 1.8857142857142857,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902711296,
+    "loss": 1.3785,
+    "grad_norm": 1.5914952754974365,
+    "learning_rate": 0.00018445316131976934
+  },
+  {
+    "step": 34,
+    "epoch": 1.9428571428571428,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902689792,
+    "loss": 1.4217,
+    "grad_norm": 2.3489677906036377,
+    "learning_rate": 0.00017689211382161034
+  },
+  {
+    "step": 35,
+    "epoch": 2.0,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902577664,
+    "loss": 2.1136,
+    "grad_norm": 2.8285887241363525,
+    "learning_rate": 0.00016925975327198266
+  },
+  {
+    "step": 36,
+    "epoch": 2.057142857142857,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818633728,
+    "loss": 1.3195,
+    "grad_norm": 0.946521520614624,
+    "learning_rate": 0.00016157631931899697
+  },
+  {
+    "step": 37,
+    "epoch": 2.1142857142857143,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818642944,
+    "loss": 1.4247,
+    "grad_norm": 2.4699201583862305,
+    "learning_rate": 0.0001538621870482483
+  },
+  {
+    "step": 38,
+    "epoch": 2.1714285714285713,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.81861376,
+    "loss": 1.3203,
+    "grad_norm": 1.1205692291259766,
+    "learning_rate": 0.00014613781295175172
+  },
+  {
+    "step": 39,
+    "epoch": 2.2285714285714286,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818632192,
+    "loss": 1.344,
+    "grad_norm": 0.953203022480011,
+    "learning_rate": 0.00013842368068100303
+  },
+  {
+    "step": 40,
+    "epoch": 2.2857142857142856,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818609152,
+    "loss": 1.4074,
+    "grad_norm": 2.248765707015991,
+    "learning_rate": 0.00013074024672801731
+  },
+  {
+    "step": 41,
+    "epoch": 2.342857142857143,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818610688,
+    "loss": 1.4226,
+    "grad_norm": 2.287403106689453,
+    "learning_rate": 0.00012310788617838966
+  },
+  {
+    "step": 42,
+    "epoch": 2.4,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818639872,
+    "loss": 1.3198,
+    "grad_norm": 2.023106813430786,
+    "learning_rate": 0.00011554683868023067
+  },
+  {
+    "step": 43,
+    "epoch": 2.4571428571428573,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818655232,
+    "loss": 1.3779,
+    "grad_norm": 2.326486587524414,
+    "learning_rate": 0.00010807715477225858
+  },
+  {
+    "step": 44,
+    "epoch": 2.5142857142857142,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818673664,
+    "loss": 1.3048,
+    "grad_norm": 1.1482384204864502,
+    "learning_rate": 0.00010071864271337478
+  },
+  {
+    "step": 45,
+    "epoch": 2.571428571428571,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818627584,
+    "loss": 1.2985,
+    "grad_norm": 1.2250388860702515,
+    "learning_rate": 9.34908159547222e-05
+  },
+  {
+    "step": 46,
+    "epoch": 2.6285714285714286,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.81862144,
+    "loss": 1.239,
+    "grad_norm": 0.9595347046852112,
+    "learning_rate": 8.641284139352091e-05
+  },
+  {
+    "step": 47,
+    "epoch": 2.685714285714286,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818615296,
+    "loss": 1.2764,
+    "grad_norm": 1.3047759532928467,
+    "learning_rate": 7.950348854590204e-05
+  },
+  {
+    "step": 48,
+    "epoch": 2.742857142857143,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818619904,
+    "loss": 1.2382,
+    "grad_norm": 1.3883724212646484,
+    "learning_rate": 7.278107977352543e-05
+  },
+  {
+    "step": 49,
+    "epoch": 2.8,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818610688,
+    "loss": 1.2729,
+    "grad_norm": 1.0796666145324707,
+    "learning_rate": 6.626344169597031e-05
+  },
+  {
+    "step": 50,
+    "epoch": 2.857142857142857,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818592256,
+    "loss": 1.3162,
+    "grad_norm": 1.7300052642822266,
+    "learning_rate": 5.996785791774478e-05
+  },
+  {
+    "step": 51,
+    "epoch": 2.914285714285714,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.818616832,
+    "loss": 1.2545,
+    "grad_norm": 1.2138413190841675,
+    "learning_rate": 5.391102319527373e-05
+  },
+  {
+    "step": 52,
+    "epoch": 2.9714285714285715,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.81864448,
+    "loss": 1.3454,
+    "grad_norm": 1.7738908529281616,
+    "learning_rate": 4.8108999165406026e-05
+  },
+  {
+    "step": 53,
+    "epoch": 3.0285714285714285,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902688256,
+    "loss": 1.878,
+    "grad_norm": 2.353388547897339,
+    "learning_rate": 4.257717175284103e-05
+  },
+  {
+    "step": 54,
+    "epoch": 3.085714285714286,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902657536,
+    "loss": 1.2712,
+    "grad_norm": 1.5192903280258179,
+    "learning_rate": 3.733021036942205e-05
+  },
+  {
+    "step": 55,
+    "epoch": 3.142857142857143,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902691328,
+    "loss": 1.2764,
+    "grad_norm": 1.8985798358917236,
+    "learning_rate": 3.238202901349345e-05
+  },
+  {
+    "step": 56,
+    "epoch": 3.2,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902765056,
+    "loss": 1.2176,
+    "grad_norm": 1.4844719171524048,
+    "learning_rate": 2.774574937247831e-05
+  },
+  {
+    "step": 57,
+    "epoch": 3.257142857142857,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902708224,
+    "loss": 1.1988,
+    "grad_norm": 1.1800713539123535,
+    "learning_rate": 2.3433666026522153e-05
+  },
+  {
+    "step": 58,
+    "epoch": 3.314285714285714,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.90270208,
+    "loss": 1.1535,
+    "grad_norm": 1.6904629468917847,
+    "learning_rate": 1.945721384547671e-05
+  },
+  {
+    "step": 59,
+    "epoch": 3.3714285714285714,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902752768,
+    "loss": 1.1694,
+    "grad_norm": 1.3597590923309326,
+    "learning_rate": 1.5826937665680693e-05
+  },
+  {
+    "step": 60,
+    "epoch": 3.4285714285714284,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.90267904,
+    "loss": 1.3025,
+    "grad_norm": 2.6322078704833984,
+    "learning_rate": 1.2552464326949302e-05
+  },
+  {
+    "step": 61,
+    "epoch": 3.4857142857142858,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902692864,
+    "loss": 1.2436,
+    "grad_norm": 2.03961181640625,
+    "learning_rate": 9.64247714392597e-06
+  },
+  {
+    "step": 62,
+    "epoch": 3.5428571428571427,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.9026944,
+    "loss": 1.2301,
+    "grad_norm": 2.2234535217285156,
+    "learning_rate": 7.104692879492624e-06
+  },
+  {
+    "step": 63,
+    "epoch": 3.6,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902683648,
+    "loss": 1.2626,
+    "grad_norm": 1.904895305633545,
+    "learning_rate": 4.945841281301943e-06
+  },
+  {
+    "step": 64,
+    "epoch": 3.657142857142857,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902700544,
+    "loss": 1.231,
+    "grad_norm": 2.2669050693511963,
+    "learning_rate": 3.1716472356963286e-06
+  },
+  {
+    "step": 65,
+    "epoch": 3.7142857142857144,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902722048,
+    "loss": 1.2184,
+    "grad_norm": 2.1905152797698975,
+    "learning_rate": 1.7868155863384415e-06
+  },
+  {
+    "step": 66,
+    "epoch": 3.7714285714285714,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902712832,
+    "loss": 1.1744,
+    "grad_norm": 1.8609352111816406,
+    "learning_rate": 7.950186578116413e-07
+  },
+  {
+    "step": 67,
+    "epoch": 3.8285714285714287,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902738944,
+    "loss": 1.1777,
+    "grad_norm": 1.5420715808868408,
+    "learning_rate": 1.988865172754206e-07
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902689792,
+    "loss": 1.227,
+    "grad_norm": 2.120975971221924,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 3.288612864,
+    "gpu_mem": 1.902689792,
+    "train_runtime": 391.4503,
+    "train_samples_per_second": 11.434,
+    "train_steps_per_second": 0.174,
+    "total_flos": 0.0,
+    "train_loss": 1.495284583638696
+  }
+]

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r8-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 16,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 8,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 8,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r8-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_c",
+    "results": 0.4931740614334471
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r8-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_C",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 8,
+    "alpha": 16,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 5233536
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-arc_c-r8-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-arc_c-r8-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T08:46:25.215113"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_c-r8-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,625 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.05714285714285714,
+    "cpu_mem": 2.267058176,
+    "gpu_mem": 1.589430784,
+    "loss": 4.523,
+    "grad_norm": 183.94940185546875,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.11428571428571428,
+    "cpu_mem": 2.269024256,
+    "gpu_mem": 1.631300608,
+    "loss": 4.7678,
+    "grad_norm": 189.22462463378906,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.17142857142857143,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631331328,
+    "loss": 2.1307,
+    "grad_norm": 215.5003204345703,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 4,
+    "epoch": 0.22857142857142856,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631297536,
+    "loss": 1.5658,
+    "grad_norm": 12.267834663391113,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 5,
+    "epoch": 0.2857142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631285248,
+    "loss": 1.4716,
+    "grad_norm": 15.389113426208496,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 6,
+    "epoch": 0.34285714285714286,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631348224,
+    "loss": 1.4827,
+    "grad_norm": 13.980608940124512,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 7,
+    "epoch": 0.4,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631354368,
+    "loss": 1.476,
+    "grad_norm": 11.878750801086426,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 8,
+    "epoch": 0.45714285714285713,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631312896,
+    "loss": 1.4347,
+    "grad_norm": 7.746488094329834,
+    "learning_rate": 0.00029980111348272456
+  },
+  {
+    "step": 9,
+    "epoch": 0.5142857142857142,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631308288,
+    "loss": 1.3948,
+    "grad_norm": 10.116765975952148,
+    "learning_rate": 0.00029920498134218835
+  },
+  {
+    "step": 10,
+    "epoch": 0.5714285714285714,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631297536,
+    "loss": 1.502,
+    "grad_norm": 9.356364250183105,
+    "learning_rate": 0.0002982131844136615
+  },
+  {
+    "step": 11,
+    "epoch": 0.6285714285714286,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631308288,
+    "loss": 1.4267,
+    "grad_norm": 6.226222038269043,
+    "learning_rate": 0.0002968283527643036
+  },
+  {
+    "step": 12,
+    "epoch": 0.6857142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631332864,
+    "loss": 1.4326,
+    "grad_norm": 6.319589138031006,
+    "learning_rate": 0.000295054158718698
+  },
+  {
+    "step": 13,
+    "epoch": 0.7428571428571429,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631332864,
+    "loss": 1.349,
+    "grad_norm": 7.3017497062683105,
+    "learning_rate": 0.00029289530712050735
+  },
+  {
+    "step": 14,
+    "epoch": 0.8,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.63128064,
+    "loss": 1.5659,
+    "grad_norm": 7.98867130279541,
+    "learning_rate": 0.000290357522856074
+  },
+  {
+    "step": 15,
+    "epoch": 0.8571428571428571,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631355904,
+    "loss": 1.6127,
+    "grad_norm": 8.264293670654297,
+    "learning_rate": 0.0002874475356730507
+  },
+  {
+    "step": 16,
+    "epoch": 0.9142857142857143,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.63134976,
+    "loss": 1.4507,
+    "grad_norm": 4.270768642425537,
+    "learning_rate": 0.0002841730623343193
+  },
+  {
+    "step": 17,
+    "epoch": 0.9714285714285714,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631354368,
+    "loss": 1.3901,
+    "grad_norm": 3.606339693069458,
+    "learning_rate": 0.00028054278615452326
+  },
+  {
+    "step": 18,
+    "epoch": 1.0285714285714285,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652251136,
+    "loss": 2.027,
+    "grad_norm": 4.613204479217529,
+    "learning_rate": 0.0002765663339734778
+  },
+  {
+    "step": 19,
+    "epoch": 1.0857142857142856,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.6522496,
+    "loss": 1.4172,
+    "grad_norm": 4.635749340057373,
+    "learning_rate": 0.00027225425062752165
+  },
+  {
+    "step": 20,
+    "epoch": 1.1428571428571428,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652225024,
+    "loss": 1.3737,
+    "grad_norm": 5.134657382965088,
+    "learning_rate": 0.0002676179709865066
+  },
+  {
+    "step": 21,
+    "epoch": 1.2,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652232704,
+    "loss": 1.3672,
+    "grad_norm": 2.7773523330688477,
+    "learning_rate": 0.0002626697896305779
+  },
+  {
+    "step": 22,
+    "epoch": 1.2571428571428571,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652261888,
+    "loss": 1.3778,
+    "grad_norm": 8.92182731628418,
+    "learning_rate": 0.000257422828247159
+  },
+  {
+    "step": 23,
+    "epoch": 1.3142857142857143,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652291072,
+    "loss": 1.3223,
+    "grad_norm": 4.256777286529541,
+    "learning_rate": 0.00025189100083459397
+  },
+  {
+    "step": 24,
+    "epoch": 1.3714285714285714,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.65223424,
+    "loss": 1.432,
+    "grad_norm": 5.225455284118652,
+    "learning_rate": 0.0002460889768047263
+  },
+  {
+    "step": 25,
+    "epoch": 1.4285714285714286,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.65230336,
+    "loss": 1.3362,
+    "grad_norm": 4.080379486083984,
+    "learning_rate": 0.00024003214208225522
+  },
+  {
+    "step": 26,
+    "epoch": 1.4857142857142858,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652260352,
+    "loss": 1.3412,
+    "grad_norm": 2.463536024093628,
+    "learning_rate": 0.00023373655830402968
+  },
+  {
+    "step": 27,
+    "epoch": 1.5428571428571427,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.65221888,
+    "loss": 1.3948,
+    "grad_norm": 3.877969980239868,
+    "learning_rate": 0.00022721892022647462
+  },
+  {
+    "step": 28,
+    "epoch": 1.6,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.65226496,
+    "loss": 1.6029,
+    "grad_norm": 8.654217720031738,
+    "learning_rate": 0.000220496511454098
+  },
+  {
+    "step": 29,
+    "epoch": 1.657142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652260352,
+    "loss": 1.3744,
+    "grad_norm": 3.113161563873291,
+    "learning_rate": 0.0002135871586064791
+  },
+  {
+    "step": 30,
+    "epoch": 1.7142857142857144,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.6522496,
+    "loss": 1.3267,
+    "grad_norm": 2.45149827003479,
+    "learning_rate": 0.00020650918404527775
+  },
+  {
+    "step": 31,
+    "epoch": 1.7714285714285714,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.65228032,
+    "loss": 1.34,
+    "grad_norm": 1.9663938283920288,
+    "learning_rate": 0.00019928135728662522
+  },
+  {
+    "step": 32,
+    "epoch": 1.8285714285714287,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652289536,
+    "loss": 1.387,
+    "grad_norm": 3.6047306060791016,
+    "learning_rate": 0.00019192284522774142
+  },
+  {
+    "step": 33,
+    "epoch": 1.8857142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652269568,
+    "loss": 1.4011,
+    "grad_norm": 3.453739643096924,
+    "learning_rate": 0.00018445316131976934
+  },
+  {
+    "step": 34,
+    "epoch": 1.9428571428571428,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652248064,
+    "loss": 1.3625,
+    "grad_norm": 2.226464033126831,
+    "learning_rate": 0.00017689211382161034
+  },
+  {
+    "step": 35,
+    "epoch": 2.0,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652135936,
+    "loss": 2.0998,
+    "grad_norm": 3.2824151515960693,
+    "learning_rate": 0.00016925975327198266
+  },
+  {
+    "step": 36,
+    "epoch": 2.057142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.63132672,
+    "loss": 1.3592,
+    "grad_norm": 2.3378264904022217,
+    "learning_rate": 0.00016157631931899697
+  },
+  {
+    "step": 37,
+    "epoch": 2.1142857142857143,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631335936,
+    "loss": 1.3725,
+    "grad_norm": 2.820693254470825,
+    "learning_rate": 0.0001538621870482483
+  },
+  {
+    "step": 38,
+    "epoch": 2.1714285714285713,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631306752,
+    "loss": 1.3403,
+    "grad_norm": 1.8874971866607666,
+    "learning_rate": 0.00014613781295175172
+  },
+  {
+    "step": 39,
+    "epoch": 2.2285714285714286,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631325184,
+    "loss": 1.3479,
+    "grad_norm": 2.4137139320373535,
+    "learning_rate": 0.00013842368068100303
+  },
+  {
+    "step": 40,
+    "epoch": 2.2857142857142856,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631302144,
+    "loss": 1.3676,
+    "grad_norm": 1.963843584060669,
+    "learning_rate": 0.00013074024672801731
+  },
+  {
+    "step": 41,
+    "epoch": 2.342857142857143,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.63130368,
+    "loss": 1.3756,
+    "grad_norm": 2.127540111541748,
+    "learning_rate": 0.00012310788617838966
+  },
+  {
+    "step": 42,
+    "epoch": 2.4,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631332864,
+    "loss": 1.3251,
+    "grad_norm": 2.7455198764801025,
+    "learning_rate": 0.00011554683868023067
+  },
+  {
+    "step": 43,
+    "epoch": 2.4571428571428573,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631348224,
+    "loss": 1.3266,
+    "grad_norm": 3.228006601333618,
+    "learning_rate": 0.00010807715477225858
+  },
+  {
+    "step": 44,
+    "epoch": 2.5142857142857142,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631366656,
+    "loss": 1.2648,
+    "grad_norm": 2.178924322128296,
+    "learning_rate": 0.00010071864271337478
+  },
+  {
+    "step": 45,
+    "epoch": 2.571428571428571,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631320576,
+    "loss": 1.283,
+    "grad_norm": 2.0270533561706543,
+    "learning_rate": 9.34908159547222e-05
+  },
+  {
+    "step": 46,
+    "epoch": 2.6285714285714286,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631314432,
+    "loss": 1.272,
+    "grad_norm": 2.6357274055480957,
+    "learning_rate": 8.641284139352091e-05
+  },
+  {
+    "step": 47,
+    "epoch": 2.685714285714286,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631308288,
+    "loss": 1.2825,
+    "grad_norm": 2.7534518241882324,
+    "learning_rate": 7.950348854590204e-05
+  },
+  {
+    "step": 48,
+    "epoch": 2.742857142857143,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631312896,
+    "loss": 1.2297,
+    "grad_norm": 2.427360773086548,
+    "learning_rate": 7.278107977352543e-05
+  },
+  {
+    "step": 49,
+    "epoch": 2.8,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.63130368,
+    "loss": 1.2132,
+    "grad_norm": 2.579684019088745,
+    "learning_rate": 6.626344169597031e-05
+  },
+  {
+    "step": 50,
+    "epoch": 2.857142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631285248,
+    "loss": 1.297,
+    "grad_norm": 3.4447336196899414,
+    "learning_rate": 5.996785791774478e-05
+  },
+  {
+    "step": 51,
+    "epoch": 2.914285714285714,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631309824,
+    "loss": 1.2385,
+    "grad_norm": 3.1413519382476807,
+    "learning_rate": 5.391102319527373e-05
+  },
+  {
+    "step": 52,
+    "epoch": 2.9714285714285715,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.631337472,
+    "loss": 1.3316,
+    "grad_norm": 3.923443078994751,
+    "learning_rate": 4.8108999165406026e-05
+  },
+  {
+    "step": 53,
+    "epoch": 3.0285714285714285,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652246528,
+    "loss": 1.8283,
+    "grad_norm": 3.775007724761963,
+    "learning_rate": 4.257717175284103e-05
+  },
+  {
+    "step": 54,
+    "epoch": 3.085714285714286,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652215808,
+    "loss": 1.2183,
+    "grad_norm": 3.3977837562561035,
+    "learning_rate": 3.733021036942205e-05
+  },
+  {
+    "step": 55,
+    "epoch": 3.142857142857143,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.6522496,
+    "loss": 1.2348,
+    "grad_norm": 3.5957634449005127,
+    "learning_rate": 3.238202901349345e-05
+  },
+  {
+    "step": 56,
+    "epoch": 3.2,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652323328,
+    "loss": 1.2134,
+    "grad_norm": 4.578391075134277,
+    "learning_rate": 2.774574937247831e-05
+  },
+  {
+    "step": 57,
+    "epoch": 3.257142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652266496,
+    "loss": 1.1648,
+    "grad_norm": 3.1363987922668457,
+    "learning_rate": 2.3433666026522153e-05
+  },
+  {
+    "step": 58,
+    "epoch": 3.314285714285714,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652260352,
+    "loss": 1.0782,
+    "grad_norm": 3.9204323291778564,
+    "learning_rate": 1.945721384547671e-05
+  },
+  {
+    "step": 59,
+    "epoch": 3.3714285714285714,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.65231104,
+    "loss": 1.1375,
+    "grad_norm": 3.8483402729034424,
+    "learning_rate": 1.5826937665680693e-05
+  },
+  {
+    "step": 60,
+    "epoch": 3.4285714285714284,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652237312,
+    "loss": 1.2112,
+    "grad_norm": 3.2146248817443848,
+    "learning_rate": 1.2552464326949302e-05
+  },
+  {
+    "step": 61,
+    "epoch": 3.4857142857142858,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652251136,
+    "loss": 1.1779,
+    "grad_norm": 3.3050568103790283,
+    "learning_rate": 9.64247714392597e-06
+  },
+  {
+    "step": 62,
+    "epoch": 3.5428571428571427,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652252672,
+    "loss": 1.2063,
+    "grad_norm": 3.480621576309204,
+    "learning_rate": 7.104692879492624e-06
+  },
+  {
+    "step": 63,
+    "epoch": 3.6,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.65224192,
+    "loss": 1.2262,
+    "grad_norm": 3.0599448680877686,
+    "learning_rate": 4.945841281301943e-06
+  },
+  {
+    "step": 64,
+    "epoch": 3.657142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652258816,
+    "loss": 1.1751,
+    "grad_norm": 3.4559524059295654,
+    "learning_rate": 3.1716472356963286e-06
+  },
+  {
+    "step": 65,
+    "epoch": 3.7142857142857144,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.65228032,
+    "loss": 1.2058,
+    "grad_norm": 3.909868001937866,
+    "learning_rate": 1.7868155863384415e-06
+  },
+  {
+    "step": 66,
+    "epoch": 3.7714285714285714,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652271104,
+    "loss": 1.1769,
+    "grad_norm": 4.007200717926025,
+    "learning_rate": 7.950186578116413e-07
+  },
+  {
+    "step": 67,
+    "epoch": 3.8285714285714287,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652297216,
+    "loss": 1.1841,
+    "grad_norm": 3.987147808074951,
+    "learning_rate": 1.988865172754206e-07
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652248064,
+    "loss": 1.1852,
+    "grad_norm": 3.8617331981658936,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 68,
+    "epoch": 3.8857142857142857,
+    "cpu_mem": 2.269220864,
+    "gpu_mem": 1.652248064,
+    "train_runtime": 387.9534,
+    "train_samples_per_second": 11.537,
+    "train_steps_per_second": 0.175,
+    "total_flos": 0.0,
+    "train_loss": 1.472226900212905
+  }
+]

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 2,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_e",
+    "results": 0.4537037037037037
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r2-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_E",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 2,
+    "alpha": 4,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 1307064
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-arc_e-r2-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-arc_e-r2-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T00:43:50.399653"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r2-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,1273 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.028169014084507043,
+    "cpu_mem": 2.265014272,
+    "gpu_mem": 1.56739328,
+    "loss": 4.6935,
+    "grad_norm": 387.9242248535156,
+    "learning_rate": 2.1428571428571425e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.056338028169014086,
+    "cpu_mem": 2.266980352,
+    "gpu_mem": 1.577952256,
+    "loss": 4.5357,
+    "grad_norm": 402.400146484375,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.08450704225352113,
+    "cpu_mem": 2.267373568,
+    "gpu_mem": 1.577930752,
+    "loss": 2.8425,
+    "grad_norm": 678.4750366210938,
+    "learning_rate": 6.428571428571427e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.11267605633802817,
+    "cpu_mem": 2.267373568,
+    "gpu_mem": 1.577909248,
+    "loss": 1.9806,
+    "grad_norm": 68.57826232910156,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.14084507042253522,
+    "cpu_mem": 2.267570176,
+    "gpu_mem": 1.57795072,
+    "loss": 1.4963,
+    "grad_norm": 21.31400489807129,
+    "learning_rate": 0.00010714285714285714
+  },
+  {
+    "step": 6,
+    "epoch": 0.16901408450704225,
+    "cpu_mem": 2.267570176,
+    "gpu_mem": 1.577926144,
+    "loss": 1.4158,
+    "grad_norm": 39.33024597167969,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 7,
+    "epoch": 0.19718309859154928,
+    "cpu_mem": 2.267570176,
+    "gpu_mem": 1.577949184,
+    "loss": 1.5827,
+    "grad_norm": 57.0329704284668,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 8,
+    "epoch": 0.22535211267605634,
+    "cpu_mem": 2.267570176,
+    "gpu_mem": 1.577907712,
+    "loss": 1.3503,
+    "grad_norm": 12.728636741638184,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 9,
+    "epoch": 0.2535211267605634,
+    "cpu_mem": 2.267570176,
+    "gpu_mem": 1.577909248,
+    "loss": 1.4173,
+    "grad_norm": 31.24067497253418,
+    "learning_rate": 0.00019285714285714286
+  },
+  {
+    "step": 10,
+    "epoch": 0.28169014084507044,
+    "cpu_mem": 2.267570176,
+    "gpu_mem": 1.57790464,
+    "loss": 1.4484,
+    "grad_norm": 32.26777267456055,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 11,
+    "epoch": 0.30985915492957744,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577982976,
+    "loss": 1.5226,
+    "grad_norm": 34.87485885620117,
+    "learning_rate": 0.00023571428571428569
+  },
+  {
+    "step": 12,
+    "epoch": 0.3380281690140845,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577956864,
+    "loss": 1.3442,
+    "grad_norm": 10.862824440002441,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 13,
+    "epoch": 0.36619718309859156,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577907712,
+    "loss": 1.5159,
+    "grad_norm": 37.704254150390625,
+    "learning_rate": 0.00027857142857142854
+  },
+  {
+    "step": 14,
+    "epoch": 0.39436619718309857,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577929216,
+    "loss": 1.3849,
+    "grad_norm": 13.6458101272583,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 15,
+    "epoch": 0.4225352112676056,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577906176,
+    "loss": 1.5217,
+    "grad_norm": 27.110424041748047,
+    "learning_rate": 0.0002999533773001224
+  },
+  {
+    "step": 16,
+    "epoch": 0.4507042253521127,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577910784,
+    "loss": 1.3714,
+    "grad_norm": 8.012628555297852,
+    "learning_rate": 0.0002998135381828383
+  },
+  {
+    "step": 17,
+    "epoch": 0.4788732394366197,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577947648,
+    "loss": 1.532,
+    "grad_norm": 47.00474548339844,
+    "learning_rate": 0.00029958056957717696
+  },
+  {
+    "step": 18,
+    "epoch": 0.5070422535211268,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.5779584,
+    "loss": 1.6678,
+    "grad_norm": 57.446075439453125,
+    "learning_rate": 0.0002992546163048102
+  },
+  {
+    "step": 19,
+    "epoch": 0.5352112676056338,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577901568,
+    "loss": 1.3468,
+    "grad_norm": 17.228172302246094,
+    "learning_rate": 0.0002988358809900258
+  },
+  {
+    "step": 20,
+    "epoch": 0.5633802816901409,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577972224,
+    "loss": 1.3959,
+    "grad_norm": 10.988210678100586,
+    "learning_rate": 0.0002983246239337692
+  },
+  {
+    "step": 21,
+    "epoch": 0.5915492957746479,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577970688,
+    "loss": 1.3904,
+    "grad_norm": 12.519684791564941,
+    "learning_rate": 0.0002977211629518312
+  },
+  {
+    "step": 22,
+    "epoch": 0.6197183098591549,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.57792768,
+    "loss": 1.3938,
+    "grad_norm": 12.789338111877441,
+    "learning_rate": 0.00029702587317728153
+  },
+  {
+    "step": 23,
+    "epoch": 0.647887323943662,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577944576,
+    "loss": 1.344,
+    "grad_norm": 7.412827491760254,
+    "learning_rate": 0.0002962391868272735
+  },
+  {
+    "step": 24,
+    "epoch": 0.676056338028169,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577901568,
+    "loss": 1.3602,
+    "grad_norm": 6.341000080108643,
+    "learning_rate": 0.00029536159293436166
+  },
+  {
+    "step": 25,
+    "epoch": 0.704225352112676,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577930752,
+    "loss": 1.4191,
+    "grad_norm": 12.618824005126953,
+    "learning_rate": 0.00029439363704250176
+  },
+  {
+    "step": 26,
+    "epoch": 0.7323943661971831,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577910784,
+    "loss": 1.4534,
+    "grad_norm": 8.628890991210938,
+    "learning_rate": 0.00029333592086792107
+  },
+  {
+    "step": 27,
+    "epoch": 0.7605633802816901,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577936896,
+    "loss": 1.3662,
+    "grad_norm": 11.88647747039795,
+    "learning_rate": 0.0002921891019250697
+  },
+  {
+    "step": 28,
+    "epoch": 0.7887323943661971,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577936896,
+    "loss": 1.5111,
+    "grad_norm": 27.525169372558594,
+    "learning_rate": 0.0002909538931178862
+  },
+  {
+    "step": 29,
+    "epoch": 0.8169014084507042,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577915392,
+    "loss": 1.3126,
+    "grad_norm": 12.335830688476562,
+    "learning_rate": 0.00028963106229663063
+  },
+  {
+    "step": 30,
+    "epoch": 0.8450704225352113,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577906176,
+    "loss": 1.3298,
+    "grad_norm": 6.091091632843018,
+    "learning_rate": 0.00028822143178056114
+  },
+  {
+    "step": 31,
+    "epoch": 0.8732394366197183,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577924608,
+    "loss": 1.3667,
+    "grad_norm": 5.047645568847656,
+    "learning_rate": 0.00028672587784675096
+  },
+  {
+    "step": 32,
+    "epoch": 0.9014084507042254,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577947648,
+    "loss": 1.3291,
+    "grad_norm": 8.144316673278809,
+    "learning_rate": 0.0002851453301853628
+  },
+  {
+    "step": 33,
+    "epoch": 0.9295774647887324,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577944576,
+    "loss": 1.3767,
+    "grad_norm": 7.056203365325928,
+    "learning_rate": 0.00028348077132172027
+  },
+  {
+    "step": 34,
+    "epoch": 0.9577464788732394,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577947648,
+    "loss": 1.3605,
+    "grad_norm": 6.500875473022461,
+    "learning_rate": 0.0002817332360055343
+  },
+  {
+    "step": 35,
+    "epoch": 0.9859154929577465,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577929216,
+    "loss": 1.3749,
+    "grad_norm": 20.8975830078125,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 36,
+    "epoch": 1.0140845070422535,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583169024,
+    "loss": 2.1167,
+    "grad_norm": 38.09403991699219,
+    "learning_rate": 0.0002779936322448233
+  },
+  {
+    "step": 37,
+    "epoch": 1.0422535211267605,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583173632,
+    "loss": 1.4101,
+    "grad_norm": 17.080562591552734,
+    "learning_rate": 0.0002760038884726157
+  },
+  {
+    "step": 38,
+    "epoch": 1.0704225352112675,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583152128,
+    "loss": 1.237,
+    "grad_norm": 6.0900115966796875,
+    "learning_rate": 0.00027393581614739923
+  },
+  {
+    "step": 39,
+    "epoch": 1.0985915492957747,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583141376,
+    "loss": 1.3867,
+    "grad_norm": 11.881949424743652,
+    "learning_rate": 0.0002717907008573785
+  },
+  {
+    "step": 40,
+    "epoch": 1.1267605633802817,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583204352,
+    "loss": 1.3781,
+    "grad_norm": 9.173269271850586,
+    "learning_rate": 0.0002695698760834384
+  },
+  {
+    "step": 41,
+    "epoch": 1.1549295774647887,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583164416,
+    "loss": 1.3495,
+    "grad_norm": 12.694510459899902,
+    "learning_rate": 0.00026727472237020447
+  },
+  {
+    "step": 42,
+    "epoch": 1.1830985915492958,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583207424,
+    "loss": 1.3983,
+    "grad_norm": 8.700448036193848,
+    "learning_rate": 0.00026490666646784665
+  },
+  {
+    "step": 43,
+    "epoch": 1.2112676056338028,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583156736,
+    "loss": 1.3842,
+    "grad_norm": 5.271851539611816,
+    "learning_rate": 0.0002624671804451601
+  },
+  {
+    "step": 44,
+    "epoch": 1.2394366197183098,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583221248,
+    "loss": 1.3936,
+    "grad_norm": 8.918002128601074,
+    "learning_rate": 0.0002599577807744739
+  },
+  {
+    "step": 45,
+    "epoch": 1.267605633802817,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583188992,
+    "loss": 1.3787,
+    "grad_norm": 5.303096294403076,
+    "learning_rate": 0.0002573800273889577
+  },
+  {
+    "step": 46,
+    "epoch": 1.295774647887324,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.5831936,
+    "loss": 1.3903,
+    "grad_norm": 7.693558216094971,
+    "learning_rate": 0.0002547355227129109
+  },
+  {
+    "step": 47,
+    "epoch": 1.323943661971831,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58313984,
+    "loss": 1.3498,
+    "grad_norm": 9.270402908325195,
+    "learning_rate": 0.00025202591066563786
+  },
+  {
+    "step": 48,
+    "epoch": 1.352112676056338,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583153664,
+    "loss": 1.3259,
+    "grad_norm": 5.86254358291626,
+    "learning_rate": 0.0002492528756395289
+  },
+  {
+    "step": 49,
+    "epoch": 1.380281690140845,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583142912,
+    "loss": 1.3812,
+    "grad_norm": 15.352643966674805,
+    "learning_rate": 0.0002464181414529809
+  },
+  {
+    "step": 50,
+    "epoch": 1.408450704225352,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583156736,
+    "loss": 1.4118,
+    "grad_norm": 17.63778305053711,
+    "learning_rate": 0.00024352347027881003
+  },
+  {
+    "step": 51,
+    "epoch": 1.436619718309859,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58320896,
+    "loss": 1.3764,
+    "grad_norm": 11.841841697692871,
+    "learning_rate": 0.0002405706615488216
+  },
+  {
+    "step": 52,
+    "epoch": 1.4647887323943662,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583156736,
+    "loss": 1.4696,
+    "grad_norm": 18.075777053833008,
+    "learning_rate": 0.00023756155083521846
+  },
+  {
+    "step": 53,
+    "epoch": 1.4929577464788732,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583225856,
+    "loss": 1.3317,
+    "grad_norm": 6.4796929359436035,
+    "learning_rate": 0.00023449800870954326
+  },
+  {
+    "step": 54,
+    "epoch": 1.5211267605633803,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.5831936,
+    "loss": 1.3314,
+    "grad_norm": 17.895187377929688,
+    "learning_rate": 0.0002313819395798639
+  },
+  {
+    "step": 55,
+    "epoch": 1.5492957746478875,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583202816,
+    "loss": 1.4675,
+    "grad_norm": 33.634151458740234,
+    "learning_rate": 0.0002282152805069247
+  },
+  {
+    "step": 56,
+    "epoch": 1.5774647887323945,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58317824,
+    "loss": 1.3211,
+    "grad_norm": 7.974305152893066,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 57,
+    "epoch": 1.6056338028169015,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583212032,
+    "loss": 1.4806,
+    "grad_norm": 30.471376419067383,
+    "learning_rate": 0.00022173809679319772
+  },
+  {
+    "step": 58,
+    "epoch": 1.6338028169014085,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.5831936,
+    "loss": 1.4122,
+    "grad_norm": 21.166011810302734,
+    "learning_rate": 0.00021843159860297442
+  },
+  {
+    "step": 59,
+    "epoch": 1.6619718309859155,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583179776,
+    "loss": 1.3415,
+    "grad_norm": 6.54095458984375,
+    "learning_rate": 0.00021508256086763368
+  },
+  {
+    "step": 60,
+    "epoch": 1.6901408450704225,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583218176,
+    "loss": 1.3858,
+    "grad_norm": 14.59696102142334,
+    "learning_rate": 0.00021169306546959174
+  },
+  {
+    "step": 61,
+    "epoch": 1.7183098591549295,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583150592,
+    "loss": 1.2966,
+    "grad_norm": 10.116411209106445,
+    "learning_rate": 0.0002082652194412042
+  },
+  {
+    "step": 62,
+    "epoch": 1.7464788732394365,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583198208,
+    "loss": 1.4485,
+    "grad_norm": 14.308155059814453,
+    "learning_rate": 0.00020480115365495926
+  },
+  {
+    "step": 63,
+    "epoch": 1.7746478873239435,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58314752,
+    "loss": 1.3406,
+    "grad_norm": 6.881035804748535,
+    "learning_rate": 0.00020130302149885031
+  },
+  {
+    "step": 64,
+    "epoch": 1.8028169014084507,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583196672,
+    "loss": 1.3451,
+    "grad_norm": 11.539894104003906,
+    "learning_rate": 0.00019777299753775265
+  },
+  {
+    "step": 65,
+    "epoch": 1.8309859154929577,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583195136,
+    "loss": 1.4033,
+    "grad_norm": 13.667032241821289,
+    "learning_rate": 0.00019421327616163563
+  },
+  {
+    "step": 66,
+    "epoch": 1.8591549295774648,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583213568,
+    "loss": 1.404,
+    "grad_norm": 14.032964706420898,
+    "learning_rate": 0.00019062607022145078
+  },
+  {
+    "step": 67,
+    "epoch": 1.887323943661972,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.5831552,
+    "loss": 1.3399,
+    "grad_norm": 8.294322967529297,
+    "learning_rate": 0.00018701360965354402
+  },
+  {
+    "step": 68,
+    "epoch": 1.915492957746479,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583167488,
+    "loss": 1.3537,
+    "grad_norm": 4.33001708984375,
+    "learning_rate": 0.00018337814009344714
+  },
+  {
+    "step": 69,
+    "epoch": 1.943661971830986,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583192064,
+    "loss": 1.3197,
+    "grad_norm": 9.072599411010742,
+    "learning_rate": 0.0001797219214799096
+  },
+  {
+    "step": 70,
+    "epoch": 1.971830985915493,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583169024,
+    "loss": 1.2934,
+    "grad_norm": 5.792518138885498,
+    "learning_rate": 0.00017604722665003956
+  },
+  {
+    "step": 71,
+    "epoch": 2.0,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583004672,
+    "loss": 1.95,
+    "grad_norm": 12.88838005065918,
+    "learning_rate": 0.00017235633992642615
+  },
+  {
+    "step": 72,
+    "epoch": 2.028169014084507,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577939968,
+    "loss": 1.4181,
+    "grad_norm": 11.97128963470459,
+    "learning_rate": 0.00016865155569712278
+  },
+  {
+    "step": 73,
+    "epoch": 2.056338028169014,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577903104,
+    "loss": 1.2886,
+    "grad_norm": 5.973176002502441,
+    "learning_rate": 0.0001649351769893725
+  },
+  {
+    "step": 74,
+    "epoch": 2.084507042253521,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577963008,
+    "loss": 1.3368,
+    "grad_norm": 13.524489402770996,
+    "learning_rate": 0.00016120951403796364
+  },
+  {
+    "step": 75,
+    "epoch": 2.112676056338028,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577930752,
+    "loss": 1.2792,
+    "grad_norm": 5.348632335662842,
+    "learning_rate": 0.00015747688284910457
+  },
+  {
+    "step": 76,
+    "epoch": 2.140845070422535,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577941504,
+    "loss": 1.2896,
+    "grad_norm": 4.869000434875488,
+    "learning_rate": 0.00015373960376071093
+  },
+  {
+    "step": 77,
+    "epoch": 2.169014084507042,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577978368,
+    "loss": 1.3782,
+    "grad_norm": 10.77273178100586,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 78,
+    "epoch": 2.1971830985915495,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577963008,
+    "loss": 1.4087,
+    "grad_norm": 14.859511375427246,
+    "learning_rate": 0.00014626039623928907
+  },
+  {
+    "step": 79,
+    "epoch": 2.2253521126760565,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577913856,
+    "loss": 1.258,
+    "grad_norm": 9.860651969909668,
+    "learning_rate": 0.0001425231171508954
+  },
+  {
+    "step": 80,
+    "epoch": 2.2535211267605635,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.5779584,
+    "loss": 1.3132,
+    "grad_norm": 7.07096004486084,
+    "learning_rate": 0.00013879048596203636
+  },
+  {
+    "step": 81,
+    "epoch": 2.2816901408450705,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577944576,
+    "loss": 1.5142,
+    "grad_norm": 35.71551513671875,
+    "learning_rate": 0.0001350648230106275
+  },
+  {
+    "step": 82,
+    "epoch": 2.3098591549295775,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.57791232,
+    "loss": 1.5237,
+    "grad_norm": 34.79934310913086,
+    "learning_rate": 0.00013134844430287725
+  },
+  {
+    "step": 83,
+    "epoch": 2.3380281690140845,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577963008,
+    "loss": 1.3283,
+    "grad_norm": 15.516402244567871,
+    "learning_rate": 0.0001276436600735738
+  },
+  {
+    "step": 84,
+    "epoch": 2.3661971830985915,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577901568,
+    "loss": 1.3513,
+    "grad_norm": 9.372213363647461,
+    "learning_rate": 0.00012395277334996044
+  },
+  {
+    "step": 85,
+    "epoch": 2.3943661971830985,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577947648,
+    "loss": 1.3558,
+    "grad_norm": 11.078695297241211,
+    "learning_rate": 0.00012027807852009038
+  },
+  {
+    "step": 86,
+    "epoch": 2.4225352112676055,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577901568,
+    "loss": 1.3629,
+    "grad_norm": 13.846244812011719,
+    "learning_rate": 0.00011662185990655284
+  },
+  {
+    "step": 87,
+    "epoch": 2.4507042253521125,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577932288,
+    "loss": 1.3761,
+    "grad_norm": 8.658803939819336,
+    "learning_rate": 0.00011298639034645593
+  },
+  {
+    "step": 88,
+    "epoch": 2.4788732394366195,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577907712,
+    "loss": 1.2837,
+    "grad_norm": 10.853123664855957,
+    "learning_rate": 0.00010937392977854923
+  },
+  {
+    "step": 89,
+    "epoch": 2.507042253521127,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577961472,
+    "loss": 1.2869,
+    "grad_norm": 6.296206951141357,
+    "learning_rate": 0.00010578672383836435
+  },
+  {
+    "step": 90,
+    "epoch": 2.535211267605634,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.57794304,
+    "loss": 1.3812,
+    "grad_norm": 11.038230895996094,
+    "learning_rate": 0.00010222700246224735
+  },
+  {
+    "step": 91,
+    "epoch": 2.563380281690141,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577892352,
+    "loss": 1.3665,
+    "grad_norm": 11.633645057678223,
+    "learning_rate": 9.869697850114969e-05
+  },
+  {
+    "step": 92,
+    "epoch": 2.591549295774648,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577916928,
+    "loss": 1.3593,
+    "grad_norm": 8.726666450500488,
+    "learning_rate": 9.519884634504074e-05
+  },
+  {
+    "step": 93,
+    "epoch": 2.619718309859155,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.57792,
+    "loss": 1.2704,
+    "grad_norm": 8.788180351257324,
+    "learning_rate": 9.17347805587958e-05
+  },
+  {
+    "step": 94,
+    "epoch": 2.647887323943662,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.57791232,
+    "loss": 1.3275,
+    "grad_norm": 6.910650253295898,
+    "learning_rate": 8.830693453040829e-05
+  },
+  {
+    "step": 95,
+    "epoch": 2.676056338028169,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.57795072,
+    "loss": 1.3308,
+    "grad_norm": 6.377485752105713,
+    "learning_rate": 8.491743913236628e-05
+  },
+  {
+    "step": 96,
+    "epoch": 2.704225352112676,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577959936,
+    "loss": 1.2641,
+    "grad_norm": 8.137248992919922,
+    "learning_rate": 8.156840139702554e-05
+  },
+  {
+    "step": 97,
+    "epoch": 2.732394366197183,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577903104,
+    "loss": 1.3382,
+    "grad_norm": 7.780050277709961,
+    "learning_rate": 7.82619032068023e-05
+  },
+  {
+    "step": 98,
+    "epoch": 2.76056338028169,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577903104,
+    "loss": 1.2993,
+    "grad_norm": 6.235042572021484,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 99,
+    "epoch": 2.788732394366197,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577900032,
+    "loss": 1.2706,
+    "grad_norm": 5.6923041343688965,
+    "learning_rate": 7.17847194930753e-05
+  },
+  {
+    "step": 100,
+    "epoch": 2.816901408450704,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577898496,
+    "loss": 1.2759,
+    "grad_norm": 7.749869346618652,
+    "learning_rate": 6.86180604201361e-05
+  },
+  {
+    "step": 101,
+    "epoch": 2.845070422535211,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577941504,
+    "loss": 1.2566,
+    "grad_norm": 9.361809730529785,
+    "learning_rate": 6.550199129045668e-05
+  },
+  {
+    "step": 102,
+    "epoch": 2.873239436619718,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577880064,
+    "loss": 1.3431,
+    "grad_norm": 13.51416301727295,
+    "learning_rate": 6.243844916478155e-05
+  },
+  {
+    "step": 103,
+    "epoch": 2.9014084507042255,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577929216,
+    "loss": 1.3039,
+    "grad_norm": 6.510090351104736,
+    "learning_rate": 5.9429338451178355e-05
+  },
+  {
+    "step": 104,
+    "epoch": 2.9295774647887325,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577992192,
+    "loss": 1.3544,
+    "grad_norm": 10.343463897705078,
+    "learning_rate": 5.6476529721189974e-05
+  },
+  {
+    "step": 105,
+    "epoch": 2.9577464788732395,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577944576,
+    "loss": 1.2719,
+    "grad_norm": 5.498920917510986,
+    "learning_rate": 5.358185854701909e-05
+  },
+  {
+    "step": 106,
+    "epoch": 2.9859154929577465,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.577926144,
+    "loss": 1.3132,
+    "grad_norm": 5.256633281707764,
+    "learning_rate": 5.074712436047112e-05
+  },
+  {
+    "step": 107,
+    "epoch": 3.0140845070422535,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583192064,
+    "loss": 1.8605,
+    "grad_norm": 11.751715660095215,
+    "learning_rate": 4.7974089334362057e-05
+  },
+  {
+    "step": 108,
+    "epoch": 3.0422535211267605,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583173632,
+    "loss": 1.2496,
+    "grad_norm": 5.319509029388428,
+    "learning_rate": 4.526447728708908e-05
+  },
+  {
+    "step": 109,
+    "epoch": 3.0704225352112675,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58316288,
+    "loss": 1.2938,
+    "grad_norm": 7.404820442199707,
+    "learning_rate": 4.261997261104223e-05
+  },
+  {
+    "step": 110,
+    "epoch": 3.0985915492957745,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58321664,
+    "loss": 1.2956,
+    "grad_norm": 9.645465850830078,
+    "learning_rate": 4.004221922552608e-05
+  },
+  {
+    "step": 111,
+    "epoch": 3.1267605633802815,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583176704,
+    "loss": 1.2614,
+    "grad_norm": 5.74735164642334,
+    "learning_rate": 3.753281955483985e-05
+  },
+  {
+    "step": 112,
+    "epoch": 3.1549295774647885,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583195136,
+    "loss": 1.2525,
+    "grad_norm": 4.955123424530029,
+    "learning_rate": 3.509333353215331e-05
+  },
+  {
+    "step": 113,
+    "epoch": 3.183098591549296,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583258112,
+    "loss": 1.2641,
+    "grad_norm": 6.185914039611816,
+    "learning_rate": 3.2725277629795526e-05
+  },
+  {
+    "step": 114,
+    "epoch": 3.211267605633803,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58318592,
+    "loss": 1.264,
+    "grad_norm": 5.543385982513428,
+    "learning_rate": 3.0430123916561672e-05
+  },
+  {
+    "step": 115,
+    "epoch": 3.23943661971831,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583179776,
+    "loss": 1.3229,
+    "grad_norm": 8.056672096252441,
+    "learning_rate": 2.8209299142621522e-05
+  },
+  {
+    "step": 116,
+    "epoch": 3.267605633802817,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583195136,
+    "loss": 1.2307,
+    "grad_norm": 6.282785415649414,
+    "learning_rate": 2.6064183852600797e-05
+  },
+  {
+    "step": 117,
+    "epoch": 3.295774647887324,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583210496,
+    "loss": 1.1953,
+    "grad_norm": 5.729328632354736,
+    "learning_rate": 2.3996111527384288e-05
+  },
+  {
+    "step": 118,
+    "epoch": 3.323943661971831,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58320128,
+    "loss": 1.2218,
+    "grad_norm": 6.79281759262085,
+    "learning_rate": 2.2006367755176655e-05
+  },
+  {
+    "step": 119,
+    "epoch": 3.352112676056338,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583192064,
+    "loss": 1.2716,
+    "grad_norm": 7.204923152923584,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 120,
+    "epoch": 3.380281690140845,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583210496,
+    "loss": 1.2197,
+    "grad_norm": 8.614418029785156,
+    "learning_rate": 1.82667639944657e-05
+  },
+  {
+    "step": 121,
+    "epoch": 3.408450704225352,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58320896,
+    "loss": 1.2098,
+    "grad_norm": 9.425457954406738,
+    "learning_rate": 1.6519228678279718e-05
+  },
+  {
+    "step": 122,
+    "epoch": 3.436619718309859,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583165952,
+    "loss": 1.1986,
+    "grad_norm": 8.279610633850098,
+    "learning_rate": 1.4854669814637143e-05
+  },
+  {
+    "step": 123,
+    "epoch": 3.464788732394366,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583198208,
+    "loss": 1.1924,
+    "grad_norm": 9.477372169494629,
+    "learning_rate": 1.3274122153249028e-05
+  },
+  {
+    "step": 124,
+    "epoch": 3.492957746478873,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583152128,
+    "loss": 1.2124,
+    "grad_norm": 7.941216945648193,
+    "learning_rate": 1.1778568219438839e-05
+  },
+  {
+    "step": 125,
+    "epoch": 3.52112676056338,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583196672,
+    "loss": 1.1826,
+    "grad_norm": 10.422591209411621,
+    "learning_rate": 1.036893770336938e-05
+  },
+  {
+    "step": 126,
+    "epoch": 3.5492957746478875,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58314752,
+    "loss": 1.1745,
+    "grad_norm": 8.78809928894043,
+    "learning_rate": 9.046106882113751e-06
+  },
+  {
+    "step": 127,
+    "epoch": 3.5774647887323945,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583159808,
+    "loss": 1.2327,
+    "grad_norm": 9.099221229553223,
+    "learning_rate": 7.810898074930243e-06
+  },
+  {
+    "step": 128,
+    "epoch": 3.6056338028169015,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583184384,
+    "loss": 1.2086,
+    "grad_norm": 9.764792442321777,
+    "learning_rate": 6.664079132078881e-06
+  },
+  {
+    "step": 129,
+    "epoch": 3.6338028169014085,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583145984,
+    "loss": 1.1995,
+    "grad_norm": 9.325013160705566,
+    "learning_rate": 5.606362957498195e-06
+  },
+  {
+    "step": 130,
+    "epoch": 3.6619718309859155,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583149056,
+    "loss": 1.2573,
+    "grad_norm": 10.700399398803711,
+    "learning_rate": 4.638407065638322e-06
+  },
+  {
+    "step": 131,
+    "epoch": 3.6901408450704225,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583161344,
+    "loss": 1.1239,
+    "grad_norm": 10.698701858520508,
+    "learning_rate": 3.760813172726457e-06
+  },
+  {
+    "step": 132,
+    "epoch": 3.7183098591549295,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583126016,
+    "loss": 1.1922,
+    "grad_norm": 8.860681533813477,
+    "learning_rate": 2.9741268227184255e-06
+  },
+  {
+    "step": 133,
+    "epoch": 3.7464788732394365,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583167488,
+    "loss": 1.112,
+    "grad_norm": 10.341314315795898,
+    "learning_rate": 2.2788370481687965e-06
+  },
+  {
+    "step": 134,
+    "epoch": 3.7746478873239435,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583182848,
+    "loss": 1.1351,
+    "grad_norm": 9.759340286254883,
+    "learning_rate": 1.6753760662307215e-06
+  },
+  {
+    "step": 135,
+    "epoch": 3.802816901408451,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.58314752,
+    "loss": 1.2383,
+    "grad_norm": 13.044609069824219,
+    "learning_rate": 1.1641190099741904e-06
+  },
+  {
+    "step": 136,
+    "epoch": 3.830985915492958,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.5831552,
+    "loss": 1.2511,
+    "grad_norm": 12.605598449707031,
+    "learning_rate": 7.453836951897885e-07
+  },
+  {
+    "step": 137,
+    "epoch": 3.859154929577465,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583176704,
+    "loss": 1.1776,
+    "grad_norm": 12.512730598449707,
+    "learning_rate": 4.194304228229806e-07
+  },
+  {
+    "step": 138,
+    "epoch": 3.887323943661972,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583187456,
+    "loss": 1.2326,
+    "grad_norm": 10.543280601501465,
+    "learning_rate": 1.8646181716164831e-07
+  },
+  {
+    "step": 139,
+    "epoch": 3.915492957746479,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583179776,
+    "loss": 1.2616,
+    "grad_norm": 9.948535919189453,
+    "learning_rate": 4.662269987756317e-08
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583213568,
+    "loss": 1.2206,
+    "grad_norm": 11.966527938842773,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 2.267766784,
+    "gpu_mem": 1.583213568,
+    "train_runtime": 698.7578,
+    "train_samples_per_second": 12.886,
+    "train_steps_per_second": 0.2,
+    "total_flos": 0.0,
+    "train_loss": 1.4118309472288404
+  }
+]

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r32-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 64,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 32,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 32,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r32-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_e",
+    "results": 0.6447811447811448
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r32-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_E",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 32,
+    "alpha": 64,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 21018624
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-arc_e-r32-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-arc_e-r32-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T15:24:32.855044"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r32-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,1273 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.028169014084507043,
+    "cpu_mem": 3.35321088,
+    "gpu_mem": 1.652510208,
+    "loss": 4.6935,
+    "grad_norm": 81.9864730834961,
+    "learning_rate": 2.1428571428571425e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.056338028169014086,
+    "cpu_mem": 3.355373568,
+    "gpu_mem": 1.820720128,
+    "loss": 4.5357,
+    "grad_norm": 84.7640609741211,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.08450704225352113,
+    "cpu_mem": 3.355570176,
+    "gpu_mem": 1.820698624,
+    "loss": 3.1725,
+    "grad_norm": 151.07528686523438,
+    "learning_rate": 6.428571428571427e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.11267605633802817,
+    "cpu_mem": 3.355766784,
+    "gpu_mem": 1.82067712,
+    "loss": 2.212,
+    "grad_norm": 19.06497573852539,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.14084507042253522,
+    "cpu_mem": 3.355766784,
+    "gpu_mem": 1.820718592,
+    "loss": 1.5609,
+    "grad_norm": 5.8123087882995605,
+    "learning_rate": 0.00010714285714285714
+  },
+  {
+    "step": 6,
+    "epoch": 0.16901408450704225,
+    "cpu_mem": 3.355963392,
+    "gpu_mem": 1.820694016,
+    "loss": 1.4784,
+    "grad_norm": 9.214070320129395,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 7,
+    "epoch": 0.19718309859154928,
+    "cpu_mem": 3.355963392,
+    "gpu_mem": 1.820717056,
+    "loss": 1.4832,
+    "grad_norm": 8.009530067443848,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 8,
+    "epoch": 0.22535211267605634,
+    "cpu_mem": 3.355963392,
+    "gpu_mem": 1.820675584,
+    "loss": 1.3657,
+    "grad_norm": 4.512720584869385,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 9,
+    "epoch": 0.2535211267605634,
+    "cpu_mem": 3.355963392,
+    "gpu_mem": 1.82067712,
+    "loss": 1.4025,
+    "grad_norm": 5.974582672119141,
+    "learning_rate": 0.00019285714285714286
+  },
+  {
+    "step": 10,
+    "epoch": 0.28169014084507044,
+    "cpu_mem": 3.355963392,
+    "gpu_mem": 1.820672512,
+    "loss": 1.5038,
+    "grad_norm": 9.22023868560791,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 11,
+    "epoch": 0.30985915492957744,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820750848,
+    "loss": 1.3828,
+    "grad_norm": 4.30027437210083,
+    "learning_rate": 0.00023571428571428569
+  },
+  {
+    "step": 12,
+    "epoch": 0.3380281690140845,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820724736,
+    "loss": 1.3444,
+    "grad_norm": 3.374626874923706,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 13,
+    "epoch": 0.36619718309859156,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820675584,
+    "loss": 1.4374,
+    "grad_norm": 4.711981773376465,
+    "learning_rate": 0.00027857142857142854
+  },
+  {
+    "step": 14,
+    "epoch": 0.39436619718309857,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820697088,
+    "loss": 1.391,
+    "grad_norm": 3.111585855484009,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 15,
+    "epoch": 0.4225352112676056,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820674048,
+    "loss": 1.3646,
+    "grad_norm": 2.3693125247955322,
+    "learning_rate": 0.0002999533773001224
+  },
+  {
+    "step": 16,
+    "epoch": 0.4507042253521127,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820678656,
+    "loss": 1.4111,
+    "grad_norm": 2.2814691066741943,
+    "learning_rate": 0.0002998135381828383
+  },
+  {
+    "step": 17,
+    "epoch": 0.4788732394366197,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82071552,
+    "loss": 1.3598,
+    "grad_norm": 1.9385331869125366,
+    "learning_rate": 0.00029958056957717696
+  },
+  {
+    "step": 18,
+    "epoch": 0.5070422535211268,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820726272,
+    "loss": 1.3688,
+    "grad_norm": 2.220923900604248,
+    "learning_rate": 0.0002992546163048102
+  },
+  {
+    "step": 19,
+    "epoch": 0.5352112676056338,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82066944,
+    "loss": 1.3524,
+    "grad_norm": 2.5402183532714844,
+    "learning_rate": 0.0002988358809900258
+  },
+  {
+    "step": 20,
+    "epoch": 0.5633802816901409,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820740096,
+    "loss": 1.3742,
+    "grad_norm": 1.5485947132110596,
+    "learning_rate": 0.0002983246239337692
+  },
+  {
+    "step": 21,
+    "epoch": 0.5915492957746479,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82073856,
+    "loss": 1.3328,
+    "grad_norm": 1.8351880311965942,
+    "learning_rate": 0.0002977211629518312
+  },
+  {
+    "step": 22,
+    "epoch": 0.6197183098591549,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820695552,
+    "loss": 1.3738,
+    "grad_norm": 1.9658966064453125,
+    "learning_rate": 0.00029702587317728153
+  },
+  {
+    "step": 23,
+    "epoch": 0.647887323943662,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820712448,
+    "loss": 1.3493,
+    "grad_norm": 1.7647842168807983,
+    "learning_rate": 0.0002962391868272735
+  },
+  {
+    "step": 24,
+    "epoch": 0.676056338028169,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82066944,
+    "loss": 1.3223,
+    "grad_norm": 1.180082082748413,
+    "learning_rate": 0.00029536159293436166
+  },
+  {
+    "step": 25,
+    "epoch": 0.704225352112676,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820698624,
+    "loss": 1.4242,
+    "grad_norm": 2.7960832118988037,
+    "learning_rate": 0.00029439363704250176
+  },
+  {
+    "step": 26,
+    "epoch": 0.7323943661971831,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820678656,
+    "loss": 1.4995,
+    "grad_norm": 2.7815604209899902,
+    "learning_rate": 0.00029333592086792107
+  },
+  {
+    "step": 27,
+    "epoch": 0.7605633802816901,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820704768,
+    "loss": 1.3165,
+    "grad_norm": 0.7974480986595154,
+    "learning_rate": 0.0002921891019250697
+  },
+  {
+    "step": 28,
+    "epoch": 0.7887323943661971,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820704768,
+    "loss": 1.3992,
+    "grad_norm": 1.6349438428878784,
+    "learning_rate": 0.0002909538931178862
+  },
+  {
+    "step": 29,
+    "epoch": 0.8169014084507042,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820683264,
+    "loss": 1.3072,
+    "grad_norm": 1.8837945461273193,
+    "learning_rate": 0.00028963106229663063
+  },
+  {
+    "step": 30,
+    "epoch": 0.8450704225352113,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820674048,
+    "loss": 1.351,
+    "grad_norm": 1.2649332284927368,
+    "learning_rate": 0.00028822143178056114
+  },
+  {
+    "step": 31,
+    "epoch": 0.8732394366197183,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82069248,
+    "loss": 1.3523,
+    "grad_norm": 0.6487420797348022,
+    "learning_rate": 0.00028672587784675096
+  },
+  {
+    "step": 32,
+    "epoch": 0.9014084507042254,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82071552,
+    "loss": 1.3443,
+    "grad_norm": 1.5899792909622192,
+    "learning_rate": 0.0002851453301853628
+  },
+  {
+    "step": 33,
+    "epoch": 0.9295774647887324,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820712448,
+    "loss": 1.3724,
+    "grad_norm": 1.497815728187561,
+    "learning_rate": 0.00028348077132172027
+  },
+  {
+    "step": 34,
+    "epoch": 0.9577464788732394,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82071552,
+    "loss": 1.393,
+    "grad_norm": 1.631191372871399,
+    "learning_rate": 0.0002817332360055343
+  },
+  {
+    "step": 35,
+    "epoch": 0.9859154929577465,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820697088,
+    "loss": 1.2828,
+    "grad_norm": 0.6670944690704346,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 36,
+    "epoch": 1.0140845070422535,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904762368,
+    "loss": 2.0004,
+    "grad_norm": 2.8792665004730225,
+    "learning_rate": 0.0002779936322448233
+  },
+  {
+    "step": 37,
+    "epoch": 1.0422535211267605,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904766976,
+    "loss": 1.3754,
+    "grad_norm": 1.6826180219650269,
+    "learning_rate": 0.0002760038884726157
+  },
+  {
+    "step": 38,
+    "epoch": 1.0704225352112675,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904745472,
+    "loss": 1.2394,
+    "grad_norm": 1.0976940393447876,
+    "learning_rate": 0.00027393581614739923
+  },
+  {
+    "step": 39,
+    "epoch": 1.0985915492957747,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90473472,
+    "loss": 1.3578,
+    "grad_norm": 1.8338680267333984,
+    "learning_rate": 0.0002717907008573785
+  },
+  {
+    "step": 40,
+    "epoch": 1.1267605633802817,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904797696,
+    "loss": 1.3568,
+    "grad_norm": 1.278975248336792,
+    "learning_rate": 0.0002695698760834384
+  },
+  {
+    "step": 41,
+    "epoch": 1.1549295774647887,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90475776,
+    "loss": 1.3333,
+    "grad_norm": 1.2090142965316772,
+    "learning_rate": 0.00026727472237020447
+  },
+  {
+    "step": 42,
+    "epoch": 1.1830985915492958,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904800768,
+    "loss": 1.3686,
+    "grad_norm": 1.252097487449646,
+    "learning_rate": 0.00026490666646784665
+  },
+  {
+    "step": 43,
+    "epoch": 1.2112676056338028,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90475008,
+    "loss": 1.3719,
+    "grad_norm": 0.7772877216339111,
+    "learning_rate": 0.0002624671804451601
+  },
+  {
+    "step": 44,
+    "epoch": 1.2394366197183098,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904814592,
+    "loss": 1.3569,
+    "grad_norm": 1.0584994554519653,
+    "learning_rate": 0.0002599577807744739
+  },
+  {
+    "step": 45,
+    "epoch": 1.267605633802817,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904782336,
+    "loss": 1.3571,
+    "grad_norm": 0.783757746219635,
+    "learning_rate": 0.0002573800273889577
+  },
+  {
+    "step": 46,
+    "epoch": 1.295774647887324,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904786944,
+    "loss": 1.3759,
+    "grad_norm": 1.1785410642623901,
+    "learning_rate": 0.0002547355227129109
+  },
+  {
+    "step": 47,
+    "epoch": 1.323943661971831,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904733184,
+    "loss": 1.3357,
+    "grad_norm": 1.9965938329696655,
+    "learning_rate": 0.00025202591066563786
+  },
+  {
+    "step": 48,
+    "epoch": 1.352112676056338,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904747008,
+    "loss": 1.303,
+    "grad_norm": 0.7584894299507141,
+    "learning_rate": 0.0002492528756395289
+  },
+  {
+    "step": 49,
+    "epoch": 1.380281690140845,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904736256,
+    "loss": 1.3147,
+    "grad_norm": 1.1462693214416504,
+    "learning_rate": 0.0002464181414529809
+  },
+  {
+    "step": 50,
+    "epoch": 1.408450704225352,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90475008,
+    "loss": 1.401,
+    "grad_norm": 2.1255180835723877,
+    "learning_rate": 0.00024352347027881003
+  },
+  {
+    "step": 51,
+    "epoch": 1.436619718309859,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904802304,
+    "loss": 1.3794,
+    "grad_norm": 1.7536078691482544,
+    "learning_rate": 0.0002405706615488216
+  },
+  {
+    "step": 52,
+    "epoch": 1.4647887323943662,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90475008,
+    "loss": 1.3257,
+    "grad_norm": 1.2524150609970093,
+    "learning_rate": 0.00023756155083521846
+  },
+  {
+    "step": 53,
+    "epoch": 1.4929577464788732,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.9048192,
+    "loss": 1.2916,
+    "grad_norm": 0.7183902263641357,
+    "learning_rate": 0.00023449800870954326
+  },
+  {
+    "step": 54,
+    "epoch": 1.5211267605633803,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904786944,
+    "loss": 1.3173,
+    "grad_norm": 1.6396170854568481,
+    "learning_rate": 0.0002313819395798639
+  },
+  {
+    "step": 55,
+    "epoch": 1.5492957746478875,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90479616,
+    "loss": 1.4298,
+    "grad_norm": 2.2417478561401367,
+    "learning_rate": 0.0002282152805069247
+  },
+  {
+    "step": 56,
+    "epoch": 1.5774647887323945,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904771584,
+    "loss": 1.3538,
+    "grad_norm": 1.401225209236145,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 57,
+    "epoch": 1.6056338028169015,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904805376,
+    "loss": 1.2931,
+    "grad_norm": 0.6661651730537415,
+    "learning_rate": 0.00022173809679319772
+  },
+  {
+    "step": 58,
+    "epoch": 1.6338028169014085,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904786944,
+    "loss": 1.3105,
+    "grad_norm": 0.7987121343612671,
+    "learning_rate": 0.00021843159860297442
+  },
+  {
+    "step": 59,
+    "epoch": 1.6619718309859155,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90477312,
+    "loss": 1.311,
+    "grad_norm": 1.006524682044983,
+    "learning_rate": 0.00021508256086763368
+  },
+  {
+    "step": 60,
+    "epoch": 1.6901408450704225,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90481152,
+    "loss": 1.2965,
+    "grad_norm": 1.2677685022354126,
+    "learning_rate": 0.00021169306546959174
+  },
+  {
+    "step": 61,
+    "epoch": 1.7183098591549295,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904743936,
+    "loss": 1.3036,
+    "grad_norm": 1.6080312728881836,
+    "learning_rate": 0.0002082652194412042
+  },
+  {
+    "step": 62,
+    "epoch": 1.7464788732394365,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904791552,
+    "loss": 1.3916,
+    "grad_norm": 1.582788109779358,
+    "learning_rate": 0.00020480115365495926
+  },
+  {
+    "step": 63,
+    "epoch": 1.7746478873239435,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904740864,
+    "loss": 1.3774,
+    "grad_norm": 2.0091729164123535,
+    "learning_rate": 0.00020130302149885031
+  },
+  {
+    "step": 64,
+    "epoch": 1.8028169014084507,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904790016,
+    "loss": 1.401,
+    "grad_norm": 2.015021562576294,
+    "learning_rate": 0.00019777299753775265
+  },
+  {
+    "step": 65,
+    "epoch": 1.8309859154929577,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90478848,
+    "loss": 1.3467,
+    "grad_norm": 1.1769288778305054,
+    "learning_rate": 0.00019421327616163563
+  },
+  {
+    "step": 66,
+    "epoch": 1.8591549295774648,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904806912,
+    "loss": 1.3007,
+    "grad_norm": 1.305434226989746,
+    "learning_rate": 0.00019062607022145078
+  },
+  {
+    "step": 67,
+    "epoch": 1.887323943661972,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904748544,
+    "loss": 1.3223,
+    "grad_norm": 1.276455283164978,
+    "learning_rate": 0.00018701360965354402
+  },
+  {
+    "step": 68,
+    "epoch": 1.915492957746479,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904760832,
+    "loss": 1.3533,
+    "grad_norm": 0.9940769076347351,
+    "learning_rate": 0.00018337814009344714
+  },
+  {
+    "step": 69,
+    "epoch": 1.943661971830986,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904785408,
+    "loss": 1.3161,
+    "grad_norm": 1.365990161895752,
+    "learning_rate": 0.0001797219214799096
+  },
+  {
+    "step": 70,
+    "epoch": 1.971830985915493,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904762368,
+    "loss": 1.2294,
+    "grad_norm": 0.7751104831695557,
+    "learning_rate": 0.00017604722665003956
+  },
+  {
+    "step": 71,
+    "epoch": 2.0,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904598016,
+    "loss": 2.0285,
+    "grad_norm": 2.5267796516418457,
+    "learning_rate": 0.00017235633992642615
+  },
+  {
+    "step": 72,
+    "epoch": 2.028169014084507,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82070784,
+    "loss": 1.3271,
+    "grad_norm": 1.5583995580673218,
+    "learning_rate": 0.00016865155569712278
+  },
+  {
+    "step": 73,
+    "epoch": 2.056338028169014,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820670976,
+    "loss": 1.2622,
+    "grad_norm": 1.4085772037506104,
+    "learning_rate": 0.0001649351769893725
+  },
+  {
+    "step": 74,
+    "epoch": 2.084507042253521,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82073088,
+    "loss": 1.2426,
+    "grad_norm": 1.2474768161773682,
+    "learning_rate": 0.00016120951403796364
+  },
+  {
+    "step": 75,
+    "epoch": 2.112676056338028,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820698624,
+    "loss": 1.2905,
+    "grad_norm": 1.4204754829406738,
+    "learning_rate": 0.00015747688284910457
+  },
+  {
+    "step": 76,
+    "epoch": 2.140845070422535,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820709376,
+    "loss": 1.2587,
+    "grad_norm": 1.3559608459472656,
+    "learning_rate": 0.00015373960376071093
+  },
+  {
+    "step": 77,
+    "epoch": 2.169014084507042,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82074624,
+    "loss": 1.3177,
+    "grad_norm": 1.8520830869674683,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 78,
+    "epoch": 2.1971830985915495,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82073088,
+    "loss": 1.2753,
+    "grad_norm": 1.4194159507751465,
+    "learning_rate": 0.00014626039623928907
+  },
+  {
+    "step": 79,
+    "epoch": 2.2253521126760565,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820681728,
+    "loss": 1.1687,
+    "grad_norm": 1.2779954671859741,
+    "learning_rate": 0.0001425231171508954
+  },
+  {
+    "step": 80,
+    "epoch": 2.2535211267605635,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820726272,
+    "loss": 1.2946,
+    "grad_norm": 1.634787678718567,
+    "learning_rate": 0.00013879048596203636
+  },
+  {
+    "step": 81,
+    "epoch": 2.2816901408450705,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820712448,
+    "loss": 1.3459,
+    "grad_norm": 2.697556972503662,
+    "learning_rate": 0.0001350648230106275
+  },
+  {
+    "step": 82,
+    "epoch": 2.3098591549295775,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820680192,
+    "loss": 1.2763,
+    "grad_norm": 2.162923574447632,
+    "learning_rate": 0.00013134844430287725
+  },
+  {
+    "step": 83,
+    "epoch": 2.3380281690140845,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82073088,
+    "loss": 1.2306,
+    "grad_norm": 2.2317888736724854,
+    "learning_rate": 0.0001276436600735738
+  },
+  {
+    "step": 84,
+    "epoch": 2.3661971830985915,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82066944,
+    "loss": 1.3417,
+    "grad_norm": 1.5752201080322266,
+    "learning_rate": 0.00012395277334996044
+  },
+  {
+    "step": 85,
+    "epoch": 2.3943661971830985,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82071552,
+    "loss": 1.3301,
+    "grad_norm": 2.0932695865631104,
+    "learning_rate": 0.00012027807852009038
+  },
+  {
+    "step": 86,
+    "epoch": 2.4225352112676055,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82066944,
+    "loss": 1.2446,
+    "grad_norm": 1.411714792251587,
+    "learning_rate": 0.00011662185990655284
+  },
+  {
+    "step": 87,
+    "epoch": 2.4507042253521125,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.82070016,
+    "loss": 1.2545,
+    "grad_norm": 1.1710765361785889,
+    "learning_rate": 0.00011298639034645593
+  },
+  {
+    "step": 88,
+    "epoch": 2.4788732394366195,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820675584,
+    "loss": 1.176,
+    "grad_norm": 1.4399785995483398,
+    "learning_rate": 0.00010937392977854923
+  },
+  {
+    "step": 89,
+    "epoch": 2.507042253521127,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820729344,
+    "loss": 1.2088,
+    "grad_norm": 1.4779694080352783,
+    "learning_rate": 0.00010578672383836435
+  },
+  {
+    "step": 90,
+    "epoch": 2.535211267605634,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820710912,
+    "loss": 1.2646,
+    "grad_norm": 1.814059853553772,
+    "learning_rate": 0.00010222700246224735
+  },
+  {
+    "step": 91,
+    "epoch": 2.563380281690141,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820660224,
+    "loss": 1.3137,
+    "grad_norm": 2.912797451019287,
+    "learning_rate": 9.869697850114969e-05
+  },
+  {
+    "step": 92,
+    "epoch": 2.591549295774648,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.8206848,
+    "loss": 1.2847,
+    "grad_norm": 1.7235602140426636,
+    "learning_rate": 9.519884634504074e-05
+  },
+  {
+    "step": 93,
+    "epoch": 2.619718309859155,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820687872,
+    "loss": 1.1973,
+    "grad_norm": 1.7765477895736694,
+    "learning_rate": 9.17347805587958e-05
+  },
+  {
+    "step": 94,
+    "epoch": 2.647887323943662,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820680192,
+    "loss": 1.1483,
+    "grad_norm": 1.4611889123916626,
+    "learning_rate": 8.830693453040829e-05
+  },
+  {
+    "step": 95,
+    "epoch": 2.676056338028169,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820718592,
+    "loss": 1.1896,
+    "grad_norm": 1.6439387798309326,
+    "learning_rate": 8.491743913236628e-05
+  },
+  {
+    "step": 96,
+    "epoch": 2.704225352112676,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820727808,
+    "loss": 1.0802,
+    "grad_norm": 1.8210686445236206,
+    "learning_rate": 8.156840139702554e-05
+  },
+  {
+    "step": 97,
+    "epoch": 2.732394366197183,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820670976,
+    "loss": 1.2072,
+    "grad_norm": 2.035700559616089,
+    "learning_rate": 7.82619032068023e-05
+  },
+  {
+    "step": 98,
+    "epoch": 2.76056338028169,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820670976,
+    "loss": 1.185,
+    "grad_norm": 1.6696794033050537,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 99,
+    "epoch": 2.788732394366197,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820667904,
+    "loss": 1.1511,
+    "grad_norm": 1.774680495262146,
+    "learning_rate": 7.17847194930753e-05
+  },
+  {
+    "step": 100,
+    "epoch": 2.816901408450704,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820666368,
+    "loss": 1.091,
+    "grad_norm": 2.38977313041687,
+    "learning_rate": 6.86180604201361e-05
+  },
+  {
+    "step": 101,
+    "epoch": 2.845070422535211,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820709376,
+    "loss": 1.0598,
+    "grad_norm": 2.5313806533813477,
+    "learning_rate": 6.550199129045668e-05
+  },
+  {
+    "step": 102,
+    "epoch": 2.873239436619718,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820647936,
+    "loss": 1.2758,
+    "grad_norm": 3.1765358448028564,
+    "learning_rate": 6.243844916478155e-05
+  },
+  {
+    "step": 103,
+    "epoch": 2.9014084507042255,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820697088,
+    "loss": 1.1792,
+    "grad_norm": 2.3216633796691895,
+    "learning_rate": 5.9429338451178355e-05
+  },
+  {
+    "step": 104,
+    "epoch": 2.9295774647887325,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820760064,
+    "loss": 1.3839,
+    "grad_norm": 4.054759502410889,
+    "learning_rate": 5.6476529721189974e-05
+  },
+  {
+    "step": 105,
+    "epoch": 2.9577464788732395,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820712448,
+    "loss": 1.1875,
+    "grad_norm": 2.587730884552002,
+    "learning_rate": 5.358185854701909e-05
+  },
+  {
+    "step": 106,
+    "epoch": 2.9859154929577465,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.820694016,
+    "loss": 1.2425,
+    "grad_norm": 2.8117191791534424,
+    "learning_rate": 5.074712436047112e-05
+  },
+  {
+    "step": 107,
+    "epoch": 3.0140845070422535,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904785408,
+    "loss": 1.5796,
+    "grad_norm": 5.7084808349609375,
+    "learning_rate": 4.7974089334362057e-05
+  },
+  {
+    "step": 108,
+    "epoch": 3.0422535211267605,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904766976,
+    "loss": 0.9891,
+    "grad_norm": 2.1359453201293945,
+    "learning_rate": 4.526447728708908e-05
+  },
+  {
+    "step": 109,
+    "epoch": 3.0704225352112675,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904756224,
+    "loss": 0.9248,
+    "grad_norm": 2.321399450302124,
+    "learning_rate": 4.261997261104223e-05
+  },
+  {
+    "step": 110,
+    "epoch": 3.0985915492957745,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904809984,
+    "loss": 0.9902,
+    "grad_norm": 2.2922966480255127,
+    "learning_rate": 4.004221922552608e-05
+  },
+  {
+    "step": 111,
+    "epoch": 3.1267605633802815,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904770048,
+    "loss": 1.03,
+    "grad_norm": 3.497184991836548,
+    "learning_rate": 3.753281955483985e-05
+  },
+  {
+    "step": 112,
+    "epoch": 3.1549295774647885,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90478848,
+    "loss": 1.0531,
+    "grad_norm": 3.832878589630127,
+    "learning_rate": 3.509333353215331e-05
+  },
+  {
+    "step": 113,
+    "epoch": 3.183098591549296,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904851456,
+    "loss": 0.8908,
+    "grad_norm": 2.621711254119873,
+    "learning_rate": 3.2725277629795526e-05
+  },
+  {
+    "step": 114,
+    "epoch": 3.211267605633803,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904779264,
+    "loss": 0.9852,
+    "grad_norm": 3.2300689220428467,
+    "learning_rate": 3.0430123916561672e-05
+  },
+  {
+    "step": 115,
+    "epoch": 3.23943661971831,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90477312,
+    "loss": 1.1226,
+    "grad_norm": 2.926384687423706,
+    "learning_rate": 2.8209299142621522e-05
+  },
+  {
+    "step": 116,
+    "epoch": 3.267605633802817,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90478848,
+    "loss": 0.9271,
+    "grad_norm": 2.808828115463257,
+    "learning_rate": 2.6064183852600797e-05
+  },
+  {
+    "step": 117,
+    "epoch": 3.295774647887324,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90480384,
+    "loss": 0.9244,
+    "grad_norm": 2.575187921524048,
+    "learning_rate": 2.3996111527384288e-05
+  },
+  {
+    "step": 118,
+    "epoch": 3.323943661971831,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904794624,
+    "loss": 0.907,
+    "grad_norm": 2.466205358505249,
+    "learning_rate": 2.2006367755176655e-05
+  },
+  {
+    "step": 119,
+    "epoch": 3.352112676056338,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904785408,
+    "loss": 0.9185,
+    "grad_norm": 2.5773041248321533,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 120,
+    "epoch": 3.380281690140845,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90480384,
+    "loss": 0.9643,
+    "grad_norm": 2.6320464611053467,
+    "learning_rate": 1.82667639944657e-05
+  },
+  {
+    "step": 121,
+    "epoch": 3.408450704225352,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904802304,
+    "loss": 0.8452,
+    "grad_norm": 2.8066372871398926,
+    "learning_rate": 1.6519228678279718e-05
+  },
+  {
+    "step": 122,
+    "epoch": 3.436619718309859,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904759296,
+    "loss": 0.7788,
+    "grad_norm": 2.6877243518829346,
+    "learning_rate": 1.4854669814637143e-05
+  },
+  {
+    "step": 123,
+    "epoch": 3.464788732394366,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904791552,
+    "loss": 0.8496,
+    "grad_norm": 2.811607837677002,
+    "learning_rate": 1.3274122153249028e-05
+  },
+  {
+    "step": 124,
+    "epoch": 3.492957746478873,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904745472,
+    "loss": 0.9168,
+    "grad_norm": 3.270836114883423,
+    "learning_rate": 1.1778568219438839e-05
+  },
+  {
+    "step": 125,
+    "epoch": 3.52112676056338,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904790016,
+    "loss": 0.8047,
+    "grad_norm": 3.4934275150299072,
+    "learning_rate": 1.036893770336938e-05
+  },
+  {
+    "step": 126,
+    "epoch": 3.5492957746478875,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904740864,
+    "loss": 0.8915,
+    "grad_norm": 4.3499064445495605,
+    "learning_rate": 9.046106882113751e-06
+  },
+  {
+    "step": 127,
+    "epoch": 3.5774647887323945,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904753152,
+    "loss": 0.8663,
+    "grad_norm": 3.6024134159088135,
+    "learning_rate": 7.810898074930243e-06
+  },
+  {
+    "step": 128,
+    "epoch": 3.6056338028169015,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904777728,
+    "loss": 0.8417,
+    "grad_norm": 3.112325429916382,
+    "learning_rate": 6.664079132078881e-06
+  },
+  {
+    "step": 129,
+    "epoch": 3.6338028169014085,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904739328,
+    "loss": 0.7377,
+    "grad_norm": 3.261399507522583,
+    "learning_rate": 5.606362957498195e-06
+  },
+  {
+    "step": 130,
+    "epoch": 3.6619718309859155,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.9047424,
+    "loss": 0.8205,
+    "grad_norm": 3.735766649246216,
+    "learning_rate": 4.638407065638322e-06
+  },
+  {
+    "step": 131,
+    "epoch": 3.6901408450704225,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904754688,
+    "loss": 0.8529,
+    "grad_norm": 3.8941218852996826,
+    "learning_rate": 3.760813172726457e-06
+  },
+  {
+    "step": 132,
+    "epoch": 3.7183098591549295,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90471936,
+    "loss": 0.9044,
+    "grad_norm": 3.9655284881591797,
+    "learning_rate": 2.9741268227184255e-06
+  },
+  {
+    "step": 133,
+    "epoch": 3.7464788732394365,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904760832,
+    "loss": 0.9472,
+    "grad_norm": 4.0462965965271,
+    "learning_rate": 2.2788370481687965e-06
+  },
+  {
+    "step": 134,
+    "epoch": 3.7746478873239435,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904776192,
+    "loss": 0.8624,
+    "grad_norm": 3.840670108795166,
+    "learning_rate": 1.6753760662307215e-06
+  },
+  {
+    "step": 135,
+    "epoch": 3.802816901408451,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904740864,
+    "loss": 1.0031,
+    "grad_norm": 4.6597771644592285,
+    "learning_rate": 1.1641190099741904e-06
+  },
+  {
+    "step": 136,
+    "epoch": 3.830985915492958,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904748544,
+    "loss": 0.8918,
+    "grad_norm": 3.974522590637207,
+    "learning_rate": 7.453836951897885e-07
+  },
+  {
+    "step": 137,
+    "epoch": 3.859154929577465,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904770048,
+    "loss": 0.7939,
+    "grad_norm": 3.5985963344573975,
+    "learning_rate": 4.194304228229806e-07
+  },
+  {
+    "step": 138,
+    "epoch": 3.887323943661972,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.9047808,
+    "loss": 0.8105,
+    "grad_norm": 3.1945037841796875,
+    "learning_rate": 1.8646181716164831e-07
+  },
+  {
+    "step": 139,
+    "epoch": 3.915492957746479,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.90477312,
+    "loss": 0.9011,
+    "grad_norm": 3.9432594776153564,
+    "learning_rate": 4.662269987756317e-08
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904806912,
+    "loss": 0.8043,
+    "grad_norm": 3.507493019104004,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 3.35616,
+    "gpu_mem": 1.904806912,
+    "train_runtime": 703.9932,
+    "train_samples_per_second": 12.79,
+    "train_steps_per_second": 0.199,
+    "total_flos": 0.0,
+    "train_loss": 1.2982905549662453
+  }
+]

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r8-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 16,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 8,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 8,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r8-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "arc_e",
+    "results": 0.6839225589225589
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r8-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "ARC_E",
+    "dataset_id": "allenai/ai2_arc",
+    "preprocess_id": "arc_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 8,
+    "alpha": 16,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 5233536
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 4,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-arc_e-r8-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-arc_e-r8-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T08:03:35.730715"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-arc_e-r8-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,1273 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.028169014084507043,
+    "cpu_mem": 2.529038336,
+    "gpu_mem": 1.58622976,
+    "loss": 4.6935,
+    "grad_norm": 183.89422607421875,
+    "learning_rate": 2.1428571428571425e-05
+  },
+  {
+    "step": 2,
+    "epoch": 0.056338028169014086,
+    "cpu_mem": 2.531201024,
+    "gpu_mem": 1.62817024,
+    "loss": 4.5357,
+    "grad_norm": 189.22933959960938,
+    "learning_rate": 4.285714285714285e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.08450704225352113,
+    "cpu_mem": 2.531397632,
+    "gpu_mem": 1.628148736,
+    "loss": 2.9034,
+    "grad_norm": 198.05426025390625,
+    "learning_rate": 6.428571428571427e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.11267605633802817,
+    "cpu_mem": 2.53159424,
+    "gpu_mem": 1.628127232,
+    "loss": 2.0558,
+    "grad_norm": 34.57008743286133,
+    "learning_rate": 8.57142857142857e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.14084507042253522,
+    "cpu_mem": 2.53159424,
+    "gpu_mem": 1.628168704,
+    "loss": 1.5141,
+    "grad_norm": 9.954888343811035,
+    "learning_rate": 0.00010714285714285714
+  },
+  {
+    "step": 6,
+    "epoch": 0.16901408450704225,
+    "cpu_mem": 2.53159424,
+    "gpu_mem": 1.628144128,
+    "loss": 1.4406,
+    "grad_norm": 18.402481079101562,
+    "learning_rate": 0.00012857142857142855
+  },
+  {
+    "step": 7,
+    "epoch": 0.19718309859154928,
+    "cpu_mem": 2.531790848,
+    "gpu_mem": 1.628167168,
+    "loss": 1.5382,
+    "grad_norm": 21.70599937438965,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 8,
+    "epoch": 0.22535211267605634,
+    "cpu_mem": 2.531790848,
+    "gpu_mem": 1.628125696,
+    "loss": 1.3666,
+    "grad_norm": 8.612508773803711,
+    "learning_rate": 0.0001714285714285714
+  },
+  {
+    "step": 9,
+    "epoch": 0.2535211267605634,
+    "cpu_mem": 2.531790848,
+    "gpu_mem": 1.628127232,
+    "loss": 1.4335,
+    "grad_norm": 14.70494270324707,
+    "learning_rate": 0.00019285714285714286
+  },
+  {
+    "step": 10,
+    "epoch": 0.28169014084507044,
+    "cpu_mem": 2.531790848,
+    "gpu_mem": 1.628122624,
+    "loss": 1.538,
+    "grad_norm": 17.99971580505371,
+    "learning_rate": 0.00021428571428571427
+  },
+  {
+    "step": 11,
+    "epoch": 0.30985915492957744,
+    "cpu_mem": 2.531790848,
+    "gpu_mem": 1.62820096,
+    "loss": 1.3729,
+    "grad_norm": 6.285915374755859,
+    "learning_rate": 0.00023571428571428569
+  },
+  {
+    "step": 12,
+    "epoch": 0.3380281690140845,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628174848,
+    "loss": 1.5256,
+    "grad_norm": 18.817567825317383,
+    "learning_rate": 0.0002571428571428571
+  },
+  {
+    "step": 13,
+    "epoch": 0.36619718309859156,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628125696,
+    "loss": 1.3357,
+    "grad_norm": 4.089114189147949,
+    "learning_rate": 0.00027857142857142854
+  },
+  {
+    "step": 14,
+    "epoch": 0.39436619718309857,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.6281472,
+    "loss": 1.3939,
+    "grad_norm": 8.272595405578613,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 15,
+    "epoch": 0.4225352112676056,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62812416,
+    "loss": 1.3336,
+    "grad_norm": 4.772479057312012,
+    "learning_rate": 0.0002999533773001224
+  },
+  {
+    "step": 16,
+    "epoch": 0.4507042253521127,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628128768,
+    "loss": 1.3705,
+    "grad_norm": 4.441692352294922,
+    "learning_rate": 0.0002998135381828383
+  },
+  {
+    "step": 17,
+    "epoch": 0.4788732394366197,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628165632,
+    "loss": 1.3695,
+    "grad_norm": 5.738226413726807,
+    "learning_rate": 0.00029958056957717696
+  },
+  {
+    "step": 18,
+    "epoch": 0.5070422535211268,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628176384,
+    "loss": 1.4602,
+    "grad_norm": 8.853696823120117,
+    "learning_rate": 0.0002992546163048102
+  },
+  {
+    "step": 19,
+    "epoch": 0.5352112676056338,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628119552,
+    "loss": 1.301,
+    "grad_norm": 5.047065258026123,
+    "learning_rate": 0.0002988358809900258
+  },
+  {
+    "step": 20,
+    "epoch": 0.5633802816901409,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628190208,
+    "loss": 1.3813,
+    "grad_norm": 5.146203517913818,
+    "learning_rate": 0.0002983246239337692
+  },
+  {
+    "step": 21,
+    "epoch": 0.5915492957746479,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628188672,
+    "loss": 1.3252,
+    "grad_norm": 4.078402996063232,
+    "learning_rate": 0.0002977211629518312
+  },
+  {
+    "step": 22,
+    "epoch": 0.6197183098591549,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628145664,
+    "loss": 1.3251,
+    "grad_norm": 3.823366641998291,
+    "learning_rate": 0.00029702587317728153
+  },
+  {
+    "step": 23,
+    "epoch": 0.647887323943662,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62816256,
+    "loss": 1.3462,
+    "grad_norm": 3.1414875984191895,
+    "learning_rate": 0.0002962391868272735
+  },
+  {
+    "step": 24,
+    "epoch": 0.676056338028169,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628119552,
+    "loss": 1.3586,
+    "grad_norm": 4.213393211364746,
+    "learning_rate": 0.00029536159293436166
+  },
+  {
+    "step": 25,
+    "epoch": 0.704225352112676,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628148736,
+    "loss": 1.374,
+    "grad_norm": 2.9499149322509766,
+    "learning_rate": 0.00029439363704250176
+  },
+  {
+    "step": 26,
+    "epoch": 0.7323943661971831,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628128768,
+    "loss": 1.4602,
+    "grad_norm": 3.467322826385498,
+    "learning_rate": 0.00029333592086792107
+  },
+  {
+    "step": 27,
+    "epoch": 0.7605633802816901,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62815488,
+    "loss": 1.3166,
+    "grad_norm": 1.3668574094772339,
+    "learning_rate": 0.0002921891019250697
+  },
+  {
+    "step": 28,
+    "epoch": 0.7887323943661971,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62815488,
+    "loss": 1.4116,
+    "grad_norm": 3.6738901138305664,
+    "learning_rate": 0.0002909538931178862
+  },
+  {
+    "step": 29,
+    "epoch": 0.8169014084507042,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628133376,
+    "loss": 1.26,
+    "grad_norm": 2.2090518474578857,
+    "learning_rate": 0.00028963106229663063
+  },
+  {
+    "step": 30,
+    "epoch": 0.8450704225352113,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62812416,
+    "loss": 1.3387,
+    "grad_norm": 2.738809823989868,
+    "learning_rate": 0.00028822143178056114
+  },
+  {
+    "step": 31,
+    "epoch": 0.8732394366197183,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628142592,
+    "loss": 1.3622,
+    "grad_norm": 1.6162611246109009,
+    "learning_rate": 0.00028672587784675096
+  },
+  {
+    "step": 32,
+    "epoch": 0.9014084507042254,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628165632,
+    "loss": 1.3308,
+    "grad_norm": 3.204833507537842,
+    "learning_rate": 0.0002851453301853628
+  },
+  {
+    "step": 33,
+    "epoch": 0.9295774647887324,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62816256,
+    "loss": 1.3762,
+    "grad_norm": 2.8587379455566406,
+    "learning_rate": 0.00028348077132172027
+  },
+  {
+    "step": 34,
+    "epoch": 0.9577464788732394,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628165632,
+    "loss": 1.4294,
+    "grad_norm": 3.531189441680908,
+    "learning_rate": 0.0002817332360055343
+  },
+  {
+    "step": 35,
+    "epoch": 0.9859154929577465,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.6281472,
+    "loss": 1.3384,
+    "grad_norm": 2.4379618167877197,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 36,
+    "epoch": 1.0140845070422535,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.64907776,
+    "loss": 1.961,
+    "grad_norm": 3.7823243141174316,
+    "learning_rate": 0.0002779936322448233
+  },
+  {
+    "step": 37,
+    "epoch": 1.0422535211267605,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649082368,
+    "loss": 1.3818,
+    "grad_norm": 3.630120038986206,
+    "learning_rate": 0.0002760038884726157
+  },
+  {
+    "step": 38,
+    "epoch": 1.0704225352112675,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649060864,
+    "loss": 1.2186,
+    "grad_norm": 2.131730794906616,
+    "learning_rate": 0.00027393581614739923
+  },
+  {
+    "step": 39,
+    "epoch": 1.0985915492957747,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649050112,
+    "loss": 1.4261,
+    "grad_norm": 5.274710655212402,
+    "learning_rate": 0.0002717907008573785
+  },
+  {
+    "step": 40,
+    "epoch": 1.1267605633802817,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649113088,
+    "loss": 1.3845,
+    "grad_norm": 6.914450168609619,
+    "learning_rate": 0.0002695698760834384
+  },
+  {
+    "step": 41,
+    "epoch": 1.1549295774647887,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649073152,
+    "loss": 1.2903,
+    "grad_norm": 1.467061996459961,
+    "learning_rate": 0.00026727472237020447
+  },
+  {
+    "step": 42,
+    "epoch": 1.1830985915492958,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.64911616,
+    "loss": 1.3445,
+    "grad_norm": 2.253526449203491,
+    "learning_rate": 0.00026490666646784665
+  },
+  {
+    "step": 43,
+    "epoch": 1.2112676056338028,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649065472,
+    "loss": 1.354,
+    "grad_norm": 2.19681453704834,
+    "learning_rate": 0.0002624671804451601
+  },
+  {
+    "step": 44,
+    "epoch": 1.2394366197183098,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649129984,
+    "loss": 1.3465,
+    "grad_norm": 2.786311388015747,
+    "learning_rate": 0.0002599577807744739
+  },
+  {
+    "step": 45,
+    "epoch": 1.267605633802817,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649097728,
+    "loss": 1.3308,
+    "grad_norm": 1.906112790107727,
+    "learning_rate": 0.0002573800273889577
+  },
+  {
+    "step": 46,
+    "epoch": 1.295774647887324,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649102336,
+    "loss": 1.3854,
+    "grad_norm": 2.904219627380371,
+    "learning_rate": 0.0002547355227129109
+  },
+  {
+    "step": 47,
+    "epoch": 1.323943661971831,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649048576,
+    "loss": 1.3704,
+    "grad_norm": 4.026738166809082,
+    "learning_rate": 0.00025202591066563786
+  },
+  {
+    "step": 48,
+    "epoch": 1.352112676056338,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.6490624,
+    "loss": 1.3392,
+    "grad_norm": 2.988410711288452,
+    "learning_rate": 0.0002492528756395289
+  },
+  {
+    "step": 49,
+    "epoch": 1.380281690140845,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649051648,
+    "loss": 1.2991,
+    "grad_norm": 3.5249204635620117,
+    "learning_rate": 0.0002464181414529809
+  },
+  {
+    "step": 50,
+    "epoch": 1.408450704225352,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649065472,
+    "loss": 1.387,
+    "grad_norm": 10.594127655029297,
+    "learning_rate": 0.00024352347027881003
+  },
+  {
+    "step": 51,
+    "epoch": 1.436619718309859,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649117696,
+    "loss": 1.3701,
+    "grad_norm": 4.035572052001953,
+    "learning_rate": 0.0002405706615488216
+  },
+  {
+    "step": 52,
+    "epoch": 1.4647887323943662,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649065472,
+    "loss": 1.3821,
+    "grad_norm": 4.223878860473633,
+    "learning_rate": 0.00023756155083521846
+  },
+  {
+    "step": 53,
+    "epoch": 1.4929577464788732,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649134592,
+    "loss": 1.2939,
+    "grad_norm": 2.68819522857666,
+    "learning_rate": 0.00023449800870954326
+  },
+  {
+    "step": 54,
+    "epoch": 1.5211267605633803,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649102336,
+    "loss": 1.2812,
+    "grad_norm": 2.8337361812591553,
+    "learning_rate": 0.0002313819395798639
+  },
+  {
+    "step": 55,
+    "epoch": 1.5492957746478875,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649111552,
+    "loss": 1.4149,
+    "grad_norm": 3.814574956893921,
+    "learning_rate": 0.0002282152805069247
+  },
+  {
+    "step": 56,
+    "epoch": 1.5774647887323945,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649086976,
+    "loss": 1.3374,
+    "grad_norm": 2.5673627853393555,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 57,
+    "epoch": 1.6056338028169015,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649120768,
+    "loss": 1.3018,
+    "grad_norm": 2.016061782836914,
+    "learning_rate": 0.00022173809679319772
+  },
+  {
+    "step": 58,
+    "epoch": 1.6338028169014085,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649102336,
+    "loss": 1.3003,
+    "grad_norm": 2.109996795654297,
+    "learning_rate": 0.00021843159860297442
+  },
+  {
+    "step": 59,
+    "epoch": 1.6619718309859155,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649088512,
+    "loss": 1.3424,
+    "grad_norm": 1.9124606847763062,
+    "learning_rate": 0.00021508256086763368
+  },
+  {
+    "step": 60,
+    "epoch": 1.6901408450704225,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649126912,
+    "loss": 1.3049,
+    "grad_norm": 2.3165783882141113,
+    "learning_rate": 0.00021169306546959174
+  },
+  {
+    "step": 61,
+    "epoch": 1.7183098591549295,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649059328,
+    "loss": 1.3213,
+    "grad_norm": 2.8745310306549072,
+    "learning_rate": 0.0002082652194412042
+  },
+  {
+    "step": 62,
+    "epoch": 1.7464788732394365,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649106944,
+    "loss": 1.386,
+    "grad_norm": 2.8461756706237793,
+    "learning_rate": 0.00020480115365495926
+  },
+  {
+    "step": 63,
+    "epoch": 1.7746478873239435,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649056256,
+    "loss": 1.36,
+    "grad_norm": 2.8900582790374756,
+    "learning_rate": 0.00020130302149885031
+  },
+  {
+    "step": 64,
+    "epoch": 1.8028169014084507,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649105408,
+    "loss": 1.3483,
+    "grad_norm": 2.471662998199463,
+    "learning_rate": 0.00019777299753775265
+  },
+  {
+    "step": 65,
+    "epoch": 1.8309859154929577,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649103872,
+    "loss": 1.3554,
+    "grad_norm": 2.223353385925293,
+    "learning_rate": 0.00019421327616163563
+  },
+  {
+    "step": 66,
+    "epoch": 1.8591549295774648,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649122304,
+    "loss": 1.3305,
+    "grad_norm": 2.4578514099121094,
+    "learning_rate": 0.00019062607022145078
+  },
+  {
+    "step": 67,
+    "epoch": 1.887323943661972,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649063936,
+    "loss": 1.3244,
+    "grad_norm": 2.145490884780884,
+    "learning_rate": 0.00018701360965354402
+  },
+  {
+    "step": 68,
+    "epoch": 1.915492957746479,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649076224,
+    "loss": 1.3476,
+    "grad_norm": 1.486546516418457,
+    "learning_rate": 0.00018337814009344714
+  },
+  {
+    "step": 69,
+    "epoch": 1.943661971830986,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.6491008,
+    "loss": 1.3053,
+    "grad_norm": 2.1030406951904297,
+    "learning_rate": 0.0001797219214799096
+  },
+  {
+    "step": 70,
+    "epoch": 1.971830985915493,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.64907776,
+    "loss": 1.2559,
+    "grad_norm": 1.7029767036437988,
+    "learning_rate": 0.00017604722665003956
+  },
+  {
+    "step": 71,
+    "epoch": 2.0,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.648913408,
+    "loss": 1.9143,
+    "grad_norm": 3.819026231765747,
+    "learning_rate": 0.00017235633992642615
+  },
+  {
+    "step": 72,
+    "epoch": 2.028169014084507,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628157952,
+    "loss": 1.3873,
+    "grad_norm": 4.2176618576049805,
+    "learning_rate": 0.00016865155569712278
+  },
+  {
+    "step": 73,
+    "epoch": 2.056338028169014,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628121088,
+    "loss": 1.27,
+    "grad_norm": 2.87872052192688,
+    "learning_rate": 0.0001649351769893725
+  },
+  {
+    "step": 74,
+    "epoch": 2.084507042253521,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628180992,
+    "loss": 1.2572,
+    "grad_norm": 2.571578025817871,
+    "learning_rate": 0.00016120951403796364
+  },
+  {
+    "step": 75,
+    "epoch": 2.112676056338028,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628148736,
+    "loss": 1.2877,
+    "grad_norm": 3.2488789558410645,
+    "learning_rate": 0.00015747688284910457
+  },
+  {
+    "step": 76,
+    "epoch": 2.140845070422535,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628159488,
+    "loss": 1.2229,
+    "grad_norm": 2.675572633743286,
+    "learning_rate": 0.00015373960376071093
+  },
+  {
+    "step": 77,
+    "epoch": 2.169014084507042,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628196352,
+    "loss": 1.2628,
+    "grad_norm": 2.3351566791534424,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 78,
+    "epoch": 2.1971830985915495,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628180992,
+    "loss": 1.3087,
+    "grad_norm": 2.939434289932251,
+    "learning_rate": 0.00014626039623928907
+  },
+  {
+    "step": 79,
+    "epoch": 2.2253521126760565,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62813184,
+    "loss": 1.1645,
+    "grad_norm": 2.723719358444214,
+    "learning_rate": 0.0001425231171508954
+  },
+  {
+    "step": 80,
+    "epoch": 2.2535211267605635,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628176384,
+    "loss": 1.2542,
+    "grad_norm": 2.5774831771850586,
+    "learning_rate": 0.00013879048596203636
+  },
+  {
+    "step": 81,
+    "epoch": 2.2816901408450705,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62816256,
+    "loss": 1.2592,
+    "grad_norm": 2.8569812774658203,
+    "learning_rate": 0.0001350648230106275
+  },
+  {
+    "step": 82,
+    "epoch": 2.3098591549295775,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628130304,
+    "loss": 1.1921,
+    "grad_norm": 3.697158098220825,
+    "learning_rate": 0.00013134844430287725
+  },
+  {
+    "step": 83,
+    "epoch": 2.3380281690140845,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628180992,
+    "loss": 1.1601,
+    "grad_norm": 3.921438694000244,
+    "learning_rate": 0.0001276436600735738
+  },
+  {
+    "step": 84,
+    "epoch": 2.3661971830985915,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628119552,
+    "loss": 1.2786,
+    "grad_norm": 4.190140724182129,
+    "learning_rate": 0.00012395277334996044
+  },
+  {
+    "step": 85,
+    "epoch": 2.3943661971830985,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628165632,
+    "loss": 1.2469,
+    "grad_norm": 4.45603609085083,
+    "learning_rate": 0.00012027807852009038
+  },
+  {
+    "step": 86,
+    "epoch": 2.4225352112676055,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628119552,
+    "loss": 1.1951,
+    "grad_norm": 3.795806407928467,
+    "learning_rate": 0.00011662185990655284
+  },
+  {
+    "step": 87,
+    "epoch": 2.4507042253521125,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628150272,
+    "loss": 1.2247,
+    "grad_norm": 6.081866264343262,
+    "learning_rate": 0.00011298639034645593
+  },
+  {
+    "step": 88,
+    "epoch": 2.4788732394366195,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628125696,
+    "loss": 1.1483,
+    "grad_norm": 3.995368242263794,
+    "learning_rate": 0.00010937392977854923
+  },
+  {
+    "step": 89,
+    "epoch": 2.507042253521127,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628179456,
+    "loss": 1.1926,
+    "grad_norm": 5.806249618530273,
+    "learning_rate": 0.00010578672383836435
+  },
+  {
+    "step": 90,
+    "epoch": 2.535211267605634,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628161024,
+    "loss": 1.1925,
+    "grad_norm": 6.463298320770264,
+    "learning_rate": 0.00010222700246224735
+  },
+  {
+    "step": 91,
+    "epoch": 2.563380281690141,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628110336,
+    "loss": 1.1719,
+    "grad_norm": 6.830526351928711,
+    "learning_rate": 9.869697850114969e-05
+  },
+  {
+    "step": 92,
+    "epoch": 2.591549295774648,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628134912,
+    "loss": 1.4142,
+    "grad_norm": 11.937300682067871,
+    "learning_rate": 9.519884634504074e-05
+  },
+  {
+    "step": 93,
+    "epoch": 2.619718309859155,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628137984,
+    "loss": 1.2969,
+    "grad_norm": 9.072361946105957,
+    "learning_rate": 9.17347805587958e-05
+  },
+  {
+    "step": 94,
+    "epoch": 2.647887323943662,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628130304,
+    "loss": 1.2869,
+    "grad_norm": 10.54022216796875,
+    "learning_rate": 8.830693453040829e-05
+  },
+  {
+    "step": 95,
+    "epoch": 2.676056338028169,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628168704,
+    "loss": 1.2361,
+    "grad_norm": 8.78108024597168,
+    "learning_rate": 8.491743913236628e-05
+  },
+  {
+    "step": 96,
+    "epoch": 2.704225352112676,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62817792,
+    "loss": 1.182,
+    "grad_norm": 7.460996150970459,
+    "learning_rate": 8.156840139702554e-05
+  },
+  {
+    "step": 97,
+    "epoch": 2.732394366197183,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628121088,
+    "loss": 1.1831,
+    "grad_norm": 6.490010738372803,
+    "learning_rate": 7.82619032068023e-05
+  },
+  {
+    "step": 98,
+    "epoch": 2.76056338028169,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628121088,
+    "loss": 1.1482,
+    "grad_norm": 4.607930660247803,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 99,
+    "epoch": 2.788732394366197,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628118016,
+    "loss": 1.1483,
+    "grad_norm": 4.311230182647705,
+    "learning_rate": 7.17847194930753e-05
+  },
+  {
+    "step": 100,
+    "epoch": 2.816901408450704,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62811648,
+    "loss": 1.1551,
+    "grad_norm": 5.20615816116333,
+    "learning_rate": 6.86180604201361e-05
+  },
+  {
+    "step": 101,
+    "epoch": 2.845070422535211,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628159488,
+    "loss": 1.0691,
+    "grad_norm": 5.477205753326416,
+    "learning_rate": 6.550199129045668e-05
+  },
+  {
+    "step": 102,
+    "epoch": 2.873239436619718,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628098048,
+    "loss": 1.2742,
+    "grad_norm": 6.022722244262695,
+    "learning_rate": 6.243844916478155e-05
+  },
+  {
+    "step": 103,
+    "epoch": 2.9014084507042255,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.6281472,
+    "loss": 1.1785,
+    "grad_norm": 4.99077844619751,
+    "learning_rate": 5.9429338451178355e-05
+  },
+  {
+    "step": 104,
+    "epoch": 2.9295774647887325,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628210176,
+    "loss": 1.3201,
+    "grad_norm": 6.570130825042725,
+    "learning_rate": 5.6476529721189974e-05
+  },
+  {
+    "step": 105,
+    "epoch": 2.9577464788732395,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.62816256,
+    "loss": 1.1121,
+    "grad_norm": 4.336287498474121,
+    "learning_rate": 5.358185854701909e-05
+  },
+  {
+    "step": 106,
+    "epoch": 2.9859154929577465,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.628144128,
+    "loss": 1.1449,
+    "grad_norm": 4.363764762878418,
+    "learning_rate": 5.074712436047112e-05
+  },
+  {
+    "step": 107,
+    "epoch": 3.0140845070422535,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.6491008,
+    "loss": 1.4543,
+    "grad_norm": 9.88137149810791,
+    "learning_rate": 4.7974089334362057e-05
+  },
+  {
+    "step": 108,
+    "epoch": 3.0422535211267605,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649082368,
+    "loss": 0.9681,
+    "grad_norm": 4.040791988372803,
+    "learning_rate": 4.526447728708908e-05
+  },
+  {
+    "step": 109,
+    "epoch": 3.0704225352112675,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649071616,
+    "loss": 0.9507,
+    "grad_norm": 4.64716911315918,
+    "learning_rate": 4.261997261104223e-05
+  },
+  {
+    "step": 110,
+    "epoch": 3.0985915492957745,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649125376,
+    "loss": 1.0047,
+    "grad_norm": 5.491010665893555,
+    "learning_rate": 4.004221922552608e-05
+  },
+  {
+    "step": 111,
+    "epoch": 3.1267605633802815,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.64908544,
+    "loss": 1.0033,
+    "grad_norm": 4.694374084472656,
+    "learning_rate": 3.753281955483985e-05
+  },
+  {
+    "step": 112,
+    "epoch": 3.1549295774647885,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649103872,
+    "loss": 0.9728,
+    "grad_norm": 4.7792439460754395,
+    "learning_rate": 3.509333353215331e-05
+  },
+  {
+    "step": 113,
+    "epoch": 3.183098591549296,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649166848,
+    "loss": 0.9014,
+    "grad_norm": 5.062333106994629,
+    "learning_rate": 3.2725277629795526e-05
+  },
+  {
+    "step": 114,
+    "epoch": 3.211267605633803,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649094656,
+    "loss": 0.9253,
+    "grad_norm": 5.648083686828613,
+    "learning_rate": 3.0430123916561672e-05
+  },
+  {
+    "step": 115,
+    "epoch": 3.23943661971831,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649088512,
+    "loss": 1.0593,
+    "grad_norm": 6.263454914093018,
+    "learning_rate": 2.8209299142621522e-05
+  },
+  {
+    "step": 116,
+    "epoch": 3.267605633802817,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649103872,
+    "loss": 0.8779,
+    "grad_norm": 6.009137153625488,
+    "learning_rate": 2.6064183852600797e-05
+  },
+  {
+    "step": 117,
+    "epoch": 3.295774647887324,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649119232,
+    "loss": 0.9084,
+    "grad_norm": 5.85214376449585,
+    "learning_rate": 2.3996111527384288e-05
+  },
+  {
+    "step": 118,
+    "epoch": 3.323943661971831,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649110016,
+    "loss": 0.8025,
+    "grad_norm": 5.127455234527588,
+    "learning_rate": 2.2006367755176655e-05
+  },
+  {
+    "step": 119,
+    "epoch": 3.352112676056338,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.6491008,
+    "loss": 0.8571,
+    "grad_norm": 5.880275726318359,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 120,
+    "epoch": 3.380281690140845,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649119232,
+    "loss": 0.9102,
+    "grad_norm": 5.5184149742126465,
+    "learning_rate": 1.82667639944657e-05
+  },
+  {
+    "step": 121,
+    "epoch": 3.408450704225352,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649117696,
+    "loss": 0.8212,
+    "grad_norm": 6.405752658843994,
+    "learning_rate": 1.6519228678279718e-05
+  },
+  {
+    "step": 122,
+    "epoch": 3.436619718309859,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649074688,
+    "loss": 0.6898,
+    "grad_norm": 5.653371810913086,
+    "learning_rate": 1.4854669814637143e-05
+  },
+  {
+    "step": 123,
+    "epoch": 3.464788732394366,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649106944,
+    "loss": 0.752,
+    "grad_norm": 6.088992118835449,
+    "learning_rate": 1.3274122153249028e-05
+  },
+  {
+    "step": 124,
+    "epoch": 3.492957746478873,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649060864,
+    "loss": 0.8299,
+    "grad_norm": 6.718883514404297,
+    "learning_rate": 1.1778568219438839e-05
+  },
+  {
+    "step": 125,
+    "epoch": 3.52112676056338,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649105408,
+    "loss": 0.7087,
+    "grad_norm": 7.2722272872924805,
+    "learning_rate": 1.036893770336938e-05
+  },
+  {
+    "step": 126,
+    "epoch": 3.5492957746478875,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649056256,
+    "loss": 0.8637,
+    "grad_norm": 7.862452030181885,
+    "learning_rate": 9.046106882113751e-06
+  },
+  {
+    "step": 127,
+    "epoch": 3.5774647887323945,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649068544,
+    "loss": 0.7982,
+    "grad_norm": 6.94256591796875,
+    "learning_rate": 7.810898074930243e-06
+  },
+  {
+    "step": 128,
+    "epoch": 3.6056338028169015,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.64909312,
+    "loss": 0.7816,
+    "grad_norm": 7.385449409484863,
+    "learning_rate": 6.664079132078881e-06
+  },
+  {
+    "step": 129,
+    "epoch": 3.6338028169014085,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.64905472,
+    "loss": 0.7424,
+    "grad_norm": 8.720227241516113,
+    "learning_rate": 5.606362957498195e-06
+  },
+  {
+    "step": 130,
+    "epoch": 3.6619718309859155,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649057792,
+    "loss": 0.7202,
+    "grad_norm": 7.994754314422607,
+    "learning_rate": 4.638407065638322e-06
+  },
+  {
+    "step": 131,
+    "epoch": 3.6901408450704225,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.64907008,
+    "loss": 0.7348,
+    "grad_norm": 7.094006538391113,
+    "learning_rate": 3.760813172726457e-06
+  },
+  {
+    "step": 132,
+    "epoch": 3.7183098591549295,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649034752,
+    "loss": 0.8036,
+    "grad_norm": 7.807676792144775,
+    "learning_rate": 2.9741268227184255e-06
+  },
+  {
+    "step": 133,
+    "epoch": 3.7464788732394365,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649076224,
+    "loss": 0.7837,
+    "grad_norm": 8.70398235321045,
+    "learning_rate": 2.2788370481687965e-06
+  },
+  {
+    "step": 134,
+    "epoch": 3.7746478873239435,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649091584,
+    "loss": 0.8218,
+    "grad_norm": 8.904121398925781,
+    "learning_rate": 1.6753760662307215e-06
+  },
+  {
+    "step": 135,
+    "epoch": 3.802816901408451,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649056256,
+    "loss": 0.8381,
+    "grad_norm": 7.767360210418701,
+    "learning_rate": 1.1641190099741904e-06
+  },
+  {
+    "step": 136,
+    "epoch": 3.830985915492958,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649063936,
+    "loss": 0.7854,
+    "grad_norm": 9.733752250671387,
+    "learning_rate": 7.453836951897885e-07
+  },
+  {
+    "step": 137,
+    "epoch": 3.859154929577465,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.64908544,
+    "loss": 0.6518,
+    "grad_norm": 7.4530439376831055,
+    "learning_rate": 4.194304228229806e-07
+  },
+  {
+    "step": 138,
+    "epoch": 3.887323943661972,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649096192,
+    "loss": 0.8439,
+    "grad_norm": 7.9819016456604,
+    "learning_rate": 1.8646181716164831e-07
+  },
+  {
+    "step": 139,
+    "epoch": 3.915492957746479,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649088512,
+    "loss": 0.8905,
+    "grad_norm": 9.51168441772461,
+    "learning_rate": 4.662269987756317e-08
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649122304,
+    "loss": 0.7906,
+    "grad_norm": 7.949920177459717,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 140,
+    "epoch": 3.943661971830986,
+    "cpu_mem": 2.531987456,
+    "gpu_mem": 1.649122304,
+    "train_runtime": 698.6517,
+    "train_samples_per_second": 12.888,
+    "train_steps_per_second": 0.2,
+    "total_flos": 0.0,
+    "train_loss": 1.2763484124626432
+  }
+]

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-boolq-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 2,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-boolq-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "boolq",
+    "results": 0.6214067278287462
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-boolq-r2-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "BOOLQ",
+    "dataset_id": "google/boolq",
+    "preprocess_id": "boolq_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 2,
+    "alpha": 4,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 1307064
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 2,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-boolq-r2-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-boolq-r2-a2",
+  "seed": 42,
+  "timestamp": "2025-09-01T20:49:28.340656"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-boolq-r2-a2/training_logs.json ADDED Viewed

	@@ -0,0 +1,2659 @@

+[
+  {
+    "step": 1,
+    "epoch": 0.006779661016949152,
+    "cpu_mem": 2.766127104,
+    "gpu_mem": 1.571689472,
+    "loss": 8.8586,
+    "grad_norm": 337.5168762207031,
+    "learning_rate": 9.999999999999999e-06
+  },
+  {
+    "step": 2,
+    "epoch": 0.013559322033898305,
+    "cpu_mem": 2.820194304,
+    "gpu_mem": 1.599364608,
+    "loss": 8.9138,
+    "grad_norm": 342.534912109375,
+    "learning_rate": 1.9999999999999998e-05
+  },
+  {
+    "step": 3,
+    "epoch": 0.020338983050847456,
+    "cpu_mem": 2.821177344,
+    "gpu_mem": 1.5992832,
+    "loss": 7.8736,
+    "grad_norm": 336.9686584472656,
+    "learning_rate": 2.9999999999999997e-05
+  },
+  {
+    "step": 4,
+    "epoch": 0.02711864406779661,
+    "cpu_mem": 2.821767168,
+    "gpu_mem": 1.5992832,
+    "loss": 5.8241,
+    "grad_norm": 326.6863708496094,
+    "learning_rate": 3.9999999999999996e-05
+  },
+  {
+    "step": 5,
+    "epoch": 0.03389830508474576,
+    "cpu_mem": 2.822356992,
+    "gpu_mem": 1.599218688,
+    "loss": 3.4317,
+    "grad_norm": 263.6181945800781,
+    "learning_rate": 4.9999999999999996e-05
+  },
+  {
+    "step": 6,
+    "epoch": 0.04067796610169491,
+    "cpu_mem": 2.822946816,
+    "gpu_mem": 1.599238656,
+    "loss": 1.8029,
+    "grad_norm": 119.77902221679688,
+    "learning_rate": 5.9999999999999995e-05
+  },
+  {
+    "step": 7,
+    "epoch": 0.04745762711864407,
+    "cpu_mem": 2.82353664,
+    "gpu_mem": 1.59929088,
+    "loss": 1.015,
+    "grad_norm": 51.48716735839844,
+    "learning_rate": 7e-05
+  },
+  {
+    "step": 8,
+    "epoch": 0.05423728813559322,
+    "cpu_mem": 2.824126464,
+    "gpu_mem": 1.599376896,
+    "loss": 0.6603,
+    "grad_norm": 18.964567184448242,
+    "learning_rate": 7.999999999999999e-05
+  },
+  {
+    "step": 9,
+    "epoch": 0.061016949152542375,
+    "cpu_mem": 2.82451968,
+    "gpu_mem": 1.599284736,
+    "loss": 0.7436,
+    "grad_norm": 52.228031158447266,
+    "learning_rate": 8.999999999999999e-05
+  },
+  {
+    "step": 10,
+    "epoch": 0.06779661016949153,
+    "cpu_mem": 2.824912896,
+    "gpu_mem": 1.599184896,
+    "loss": 1.7585,
+    "grad_norm": 246.6007537841797,
+    "learning_rate": 9.999999999999999e-05
+  },
+  {
+    "step": 11,
+    "epoch": 0.07457627118644068,
+    "cpu_mem": 2.825306112,
+    "gpu_mem": 1.599289344,
+    "loss": 1.7154,
+    "grad_norm": 226.10888671875,
+    "learning_rate": 0.00010999999999999998
+  },
+  {
+    "step": 12,
+    "epoch": 0.08135593220338982,
+    "cpu_mem": 2.825895936,
+    "gpu_mem": 1.599661056,
+    "loss": 0.7456,
+    "grad_norm": 54.193077087402344,
+    "learning_rate": 0.00011999999999999999
+  },
+  {
+    "step": 13,
+    "epoch": 0.08813559322033898,
+    "cpu_mem": 2.826289152,
+    "gpu_mem": 1.599264768,
+    "loss": 1.1313,
+    "grad_norm": 95.89151000976562,
+    "learning_rate": 0.00013
+  },
+  {
+    "step": 14,
+    "epoch": 0.09491525423728814,
+    "cpu_mem": 2.826682368,
+    "gpu_mem": 1.599241728,
+    "loss": 0.9543,
+    "grad_norm": 66.62142944335938,
+    "learning_rate": 0.00014
+  },
+  {
+    "step": 15,
+    "epoch": 0.1016949152542373,
+    "cpu_mem": 2.827075584,
+    "gpu_mem": 1.599180288,
+    "loss": 0.723,
+    "grad_norm": 26.305124282836914,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 16,
+    "epoch": 0.10847457627118644,
+    "cpu_mem": 2.8274688,
+    "gpu_mem": 1.599264768,
+    "loss": 1.1127,
+    "grad_norm": 71.71159362792969,
+    "learning_rate": 0.00015999999999999999
+  },
+  {
+    "step": 17,
+    "epoch": 0.1152542372881356,
+    "cpu_mem": 2.827665408,
+    "gpu_mem": 1.599304704,
+    "loss": 0.9928,
+    "grad_norm": 52.495697021484375,
+    "learning_rate": 0.00016999999999999999
+  },
+  {
+    "step": 18,
+    "epoch": 0.12203389830508475,
+    "cpu_mem": 2.827862016,
+    "gpu_mem": 1.59936768,
+    "loss": 0.7374,
+    "grad_norm": 19.668397903442383,
+    "learning_rate": 0.00017999999999999998
+  },
+  {
+    "step": 19,
+    "epoch": 0.1288135593220339,
+    "cpu_mem": 2.828255232,
+    "gpu_mem": 1.599204864,
+    "loss": 1.3679,
+    "grad_norm": 119.7974853515625,
+    "learning_rate": 0.00018999999999999998
+  },
+  {
+    "step": 20,
+    "epoch": 0.13559322033898305,
+    "cpu_mem": 2.828845056,
+    "gpu_mem": 1.599316992,
+    "loss": 0.695,
+    "grad_norm": 37.70135498046875,
+    "learning_rate": 0.00019999999999999998
+  },
+  {
+    "step": 21,
+    "epoch": 0.1423728813559322,
+    "cpu_mem": 2.829041664,
+    "gpu_mem": 1.5994752,
+    "loss": 1.024,
+    "grad_norm": 114.8195571899414,
+    "learning_rate": 0.00020999999999999998
+  },
+  {
+    "step": 22,
+    "epoch": 0.14915254237288136,
+    "cpu_mem": 2.829631488,
+    "gpu_mem": 1.59936768,
+    "loss": 1.1406,
+    "grad_norm": 117.71730041503906,
+    "learning_rate": 0.00021999999999999995
+  },
+  {
+    "step": 23,
+    "epoch": 0.15593220338983052,
+    "cpu_mem": 2.830024704,
+    "gpu_mem": 1.599340032,
+    "loss": 0.8975,
+    "grad_norm": 107.03048706054688,
+    "learning_rate": 0.00023
+  },
+  {
+    "step": 24,
+    "epoch": 0.16271186440677965,
+    "cpu_mem": 2.830614528,
+    "gpu_mem": 1.599396864,
+    "loss": 0.6425,
+    "grad_norm": 27.74810218811035,
+    "learning_rate": 0.00023999999999999998
+  },
+  {
+    "step": 25,
+    "epoch": 0.1694915254237288,
+    "cpu_mem": 2.830454784,
+    "gpu_mem": 1.599181824,
+    "loss": 0.954,
+    "grad_norm": 82.29080963134766,
+    "learning_rate": 0.00025
+  },
+  {
+    "step": 26,
+    "epoch": 0.17627118644067796,
+    "cpu_mem": 2.831044608,
+    "gpu_mem": 1.59923712,
+    "loss": 0.7189,
+    "grad_norm": 30.92197608947754,
+    "learning_rate": 0.00026
+  },
+  {
+    "step": 27,
+    "epoch": 0.18305084745762712,
+    "cpu_mem": 2.831437824,
+    "gpu_mem": 1.59952896,
+    "loss": 1.9701,
+    "grad_norm": 201.28363037109375,
+    "learning_rate": 0.00027
+  },
+  {
+    "step": 28,
+    "epoch": 0.18983050847457628,
+    "cpu_mem": 2.831425536,
+    "gpu_mem": 1.599207936,
+    "loss": 1.4237,
+    "grad_norm": 129.2787628173828,
+    "learning_rate": 0.00028
+  },
+  {
+    "step": 29,
+    "epoch": 0.19661016949152543,
+    "cpu_mem": 2.831622144,
+    "gpu_mem": 1.599272448,
+    "loss": 0.653,
+    "grad_norm": 11.47395133972168,
+    "learning_rate": 0.00029
+  },
+  {
+    "step": 30,
+    "epoch": 0.2033898305084746,
+    "cpu_mem": 2.83201536,
+    "gpu_mem": 1.599350784,
+    "loss": 1.6007,
+    "grad_norm": 79.31275939941406,
+    "learning_rate": 0.0003
+  },
+  {
+    "step": 31,
+    "epoch": 0.21016949152542372,
+    "cpu_mem": 2.832048128,
+    "gpu_mem": 1.599154176,
+    "loss": 1.0999,
+    "grad_norm": 47.0681037902832,
+    "learning_rate": 0.0002999893794250036
+  },
+  {
+    "step": 32,
+    "epoch": 0.21694915254237288,
+    "cpu_mem": 2.832441344,
+    "gpu_mem": 1.59926784,
+    "loss": 0.7922,
+    "grad_norm": 27.33715057373047,
+    "learning_rate": 0.00029995751920396937
+  },
+  {
+    "step": 33,
+    "epoch": 0.22372881355932203,
+    "cpu_mem": 2.83283456,
+    "gpu_mem": 1.59950592,
+    "loss": 0.9434,
+    "grad_norm": 72.70061492919922,
+    "learning_rate": 0.00029990442384854874
+  },
+  {
+    "step": 34,
+    "epoch": 0.2305084745762712,
+    "cpu_mem": 2.833031168,
+    "gpu_mem": 1.599207936,
+    "loss": 0.6054,
+    "grad_norm": 29.839754104614258,
+    "learning_rate": 0.0002998301008774512
+  },
+  {
+    "step": 35,
+    "epoch": 0.23728813559322035,
+    "cpu_mem": 2.83318272,
+    "gpu_mem": 1.599418368,
+    "loss": 4.0075,
+    "grad_norm": 309.3017578125,
+    "learning_rate": 0.0002997345608153792
+  },
+  {
+    "step": 36,
+    "epoch": 0.2440677966101695,
+    "cpu_mem": 2.833313792,
+    "gpu_mem": 1.599369216,
+    "loss": 2.2427,
+    "grad_norm": 199.4197998046875,
+    "learning_rate": 0.000299617817191538
+  },
+  {
+    "step": 37,
+    "epoch": 0.25084745762711863,
+    "cpu_mem": 2.8335104,
+    "gpu_mem": 1.599180288,
+    "loss": 1.5529,
+    "grad_norm": 352.44171142578125,
+    "learning_rate": 0.0002994798865377198
+  },
+  {
+    "step": 38,
+    "epoch": 0.2576271186440678,
+    "cpu_mem": 2.833903616,
+    "gpu_mem": 1.599427584,
+    "loss": 1.1383,
+    "grad_norm": 84.5745620727539,
+    "learning_rate": 0.0002993207883859627
+  },
+  {
+    "step": 39,
+    "epoch": 0.26440677966101694,
+    "cpu_mem": 2.836262912,
+    "gpu_mem": 1.599806976,
+    "loss": 0.7886,
+    "grad_norm": 53.965965270996094,
+    "learning_rate": 0.0002991405452657846
+  },
+  {
+    "step": 40,
+    "epoch": 0.2711864406779661,
+    "cpu_mem": 2.83645952,
+    "gpu_mem": 1.599376896,
+    "loss": 0.7583,
+    "grad_norm": 35.12152099609375,
+    "learning_rate": 0.00029893918270099324
+  },
+  {
+    "step": 41,
+    "epoch": 0.27796610169491526,
+    "cpu_mem": 2.836656128,
+    "gpu_mem": 1.599604224,
+    "loss": 0.8062,
+    "grad_norm": 34.6225700378418,
+    "learning_rate": 0.00029871672920607153
+  },
+  {
+    "step": 42,
+    "epoch": 0.2847457627118644,
+    "cpu_mem": 2.836656128,
+    "gpu_mem": 1.599501312,
+    "loss": 0.7247,
+    "grad_norm": 22.119951248168945,
+    "learning_rate": 0.0002984732162821399
+  },
+  {
+    "step": 43,
+    "epoch": 0.29152542372881357,
+    "cpu_mem": 2.836852736,
+    "gpu_mem": 1.599323136,
+    "loss": 1.1172,
+    "grad_norm": 87.2462387084961,
+    "learning_rate": 0.0002982086784124952
+  },
+  {
+    "step": 44,
+    "epoch": 0.2983050847457627,
+    "cpu_mem": 2.837049344,
+    "gpu_mem": 1.599465984,
+    "loss": 0.9574,
+    "grad_norm": 60.33451843261719,
+    "learning_rate": 0.00029792315305772796
+  },
+  {
+    "step": 45,
+    "epoch": 0.3050847457627119,
+    "cpu_mem": 2.837245952,
+    "gpu_mem": 1.599246336,
+    "loss": 0.7015,
+    "grad_norm": 11.569185256958008,
+    "learning_rate": 0.0002976166806504174
+  },
+  {
+    "step": 46,
+    "epoch": 0.31186440677966104,
+    "cpu_mem": 2.83744256,
+    "gpu_mem": 1.599489024,
+    "loss": 0.7459,
+    "grad_norm": 27.62919044494629,
+    "learning_rate": 0.00029728930458940595
+  },
+  {
+    "step": 47,
+    "epoch": 0.31864406779661014,
+    "cpu_mem": 2.83744256,
+    "gpu_mem": 1.599212544,
+    "loss": 0.6521,
+    "grad_norm": 8.621322631835938,
+    "learning_rate": 0.00029694107123365385
+  },
+  {
+    "step": 48,
+    "epoch": 0.3254237288135593,
+    "cpu_mem": 2.837639168,
+    "gpu_mem": 1.599289344,
+    "loss": 0.7513,
+    "grad_norm": 26.45704460144043,
+    "learning_rate": 0.00029657202989567393
+  },
+  {
+    "step": 49,
+    "epoch": 0.33220338983050846,
+    "cpu_mem": 2.837639168,
+    "gpu_mem": 1.59930624,
+    "loss": 1.1375,
+    "grad_norm": 47.635643005371094,
+    "learning_rate": 0.00029618223283454893
+  },
+  {
+    "step": 50,
+    "epoch": 0.3389830508474576,
+    "cpu_mem": 2.837835776,
+    "gpu_mem": 1.5992448,
+    "loss": 0.6763,
+    "grad_norm": 10.511567115783691,
+    "learning_rate": 0.00029577173524853123
+  },
+  {
+    "step": 51,
+    "epoch": 0.34576271186440677,
+    "cpu_mem": 2.837835776,
+    "gpu_mem": 1.599249408,
+    "loss": 1.1386,
+    "grad_norm": 88.87720489501953,
+    "learning_rate": 0.0002953405952672261
+  },
+  {
+    "step": 52,
+    "epoch": 0.3525423728813559,
+    "cpu_mem": 2.838032384,
+    "gpu_mem": 1.59932928,
+    "loss": 1.0596,
+    "grad_norm": 74.58036041259766,
+    "learning_rate": 0.0002948888739433602
+  },
+  {
+    "step": 53,
+    "epoch": 0.3593220338983051,
+    "cpu_mem": 2.838032384,
+    "gpu_mem": 1.59935232,
+    "loss": 0.8116,
+    "grad_norm": 49.288570404052734,
+    "learning_rate": 0.0002944166352441363
+  },
+  {
+    "step": 54,
+    "epoch": 0.36610169491525424,
+    "cpu_mem": 2.8384256,
+    "gpu_mem": 1.599280128,
+    "loss": 0.8314,
+    "grad_norm": 25.794435501098633,
+    "learning_rate": 0.0002939239460421746
+  },
+  {
+    "step": 55,
+    "epoch": 0.3728813559322034,
+    "cpu_mem": 2.8384256,
+    "gpu_mem": 1.599550464,
+    "loss": 0.6872,
+    "grad_norm": 10.4611234664917,
+    "learning_rate": 0.00029341087610604337
+  },
+  {
+    "step": 56,
+    "epoch": 0.37966101694915255,
+    "cpu_mem": 2.838622208,
+    "gpu_mem": 1.59933696,
+    "loss": 0.6765,
+    "grad_norm": 2.81551194190979,
+    "learning_rate": 0.00029287749809037904
+  },
+  {
+    "step": 57,
+    "epoch": 0.3864406779661017,
+    "cpu_mem": 2.838622208,
+    "gpu_mem": 1.599330816,
+    "loss": 0.7878,
+    "grad_norm": 41.91350555419922,
+    "learning_rate": 0.0002923238875255979
+  },
+  {
+    "step": 58,
+    "epoch": 0.39322033898305087,
+    "cpu_mem": 2.838818816,
+    "gpu_mem": 1.599226368,
+    "loss": 0.721,
+    "grad_norm": 37.02594757080078,
+    "learning_rate": 0.00029175012280720024
+  },
+  {
+    "step": 59,
+    "epoch": 0.4,
+    "cpu_mem": 2.838818816,
+    "gpu_mem": 1.599243264,
+    "loss": 0.7227,
+    "grad_norm": 16.337053298950195,
+    "learning_rate": 0.000291156285184669
+  },
+  {
+    "step": 60,
+    "epoch": 0.4067796610169492,
+    "cpu_mem": 2.838818816,
+    "gpu_mem": 1.59933696,
+    "loss": 0.612,
+    "grad_norm": 2.82547664642334,
+    "learning_rate": 0.00029054245874996426
+  },
+  {
+    "step": 61,
+    "epoch": 0.4135593220338983,
+    "cpu_mem": 2.839015424,
+    "gpu_mem": 1.599347712,
+    "loss": 0.6366,
+    "grad_norm": 10.114922523498535,
+    "learning_rate": 0.0002899087304256151
+  },
+  {
+    "step": 62,
+    "epoch": 0.42033898305084744,
+    "cpu_mem": 2.839015424,
+    "gpu_mem": 1.599335424,
+    "loss": 0.7537,
+    "grad_norm": 27.83133316040039,
+    "learning_rate": 0.0002892551899524109
+  },
+  {
+    "step": 63,
+    "epoch": 0.4271186440677966,
+    "cpu_mem": 2.839015424,
+    "gpu_mem": 1.599327744,
+    "loss": 0.6195,
+    "grad_norm": 14.669090270996094,
+    "learning_rate": 0.000288581929876693
+  },
+  {
+    "step": 64,
+    "epoch": 0.43389830508474575,
+    "cpu_mem": 2.839212032,
+    "gpu_mem": 1.599257088,
+    "loss": 0.6581,
+    "grad_norm": 8.827725410461426,
+    "learning_rate": 0.0002878890455372498
+  },
+  {
+    "step": 65,
+    "epoch": 0.4406779661016949,
+    "cpu_mem": 2.83940864,
+    "gpu_mem": 1.599301632,
+    "loss": 0.6777,
+    "grad_norm": 3.837571620941162,
+    "learning_rate": 0.0002871766350518159
+  },
+  {
+    "step": 66,
+    "epoch": 0.44745762711864406,
+    "cpu_mem": 2.83940864,
+    "gpu_mem": 1.599495168,
+    "loss": 0.6426,
+    "grad_norm": 7.71622896194458,
+    "learning_rate": 0.00028644479930317775
+  },
+  {
+    "step": 67,
+    "epoch": 0.4542372881355932,
+    "cpu_mem": 2.83940864,
+    "gpu_mem": 1.599204864,
+    "loss": 0.6675,
+    "grad_norm": 18.91324806213379,
+    "learning_rate": 0.00028569364192488803
+  },
+  {
+    "step": 68,
+    "epoch": 0.4610169491525424,
+    "cpu_mem": 2.839605248,
+    "gpu_mem": 1.599172608,
+    "loss": 0.7491,
+    "grad_norm": 29.065805435180664,
+    "learning_rate": 0.00028492326928659045
+  },
+  {
+    "step": 69,
+    "epoch": 0.46779661016949153,
+    "cpu_mem": 2.839605248,
+    "gpu_mem": 1.599238656,
+    "loss": 0.923,
+    "grad_norm": 65.54679870605469,
+    "learning_rate": 0.00028413379047895665
+  },
+  {
+    "step": 70,
+    "epoch": 0.4745762711864407,
+    "cpu_mem": 2.839605248,
+    "gpu_mem": 1.599232512,
+    "loss": 0.7946,
+    "grad_norm": 43.269840240478516,
+    "learning_rate": 0.0002833253172982385
+  },
+  {
+    "step": 71,
+    "epoch": 0.48135593220338985,
+    "cpu_mem": 2.839605248,
+    "gpu_mem": 1.599461376,
+    "loss": 0.6342,
+    "grad_norm": 5.117644309997559,
+    "learning_rate": 0.0002824979642304366
+  },
+  {
+    "step": 72,
+    "epoch": 0.488135593220339,
+    "cpu_mem": 2.839801856,
+    "gpu_mem": 1.599453696,
+    "loss": 0.8442,
+    "grad_norm": 36.260414123535156,
+    "learning_rate": 0.0002816518484350883
+  },
+  {
+    "step": 73,
+    "epoch": 0.49491525423728816,
+    "cpu_mem": 2.839801856,
+    "gpu_mem": 1.599419904,
+    "loss": 1.0399,
+    "grad_norm": 59.90073776245117,
+    "learning_rate": 0.0002807870897286772
+  },
+  {
+    "step": 74,
+    "epoch": 0.5016949152542373,
+    "cpu_mem": 2.839998464,
+    "gpu_mem": 1.599280128,
+    "loss": 0.6135,
+    "grad_norm": 9.273247718811035,
+    "learning_rate": 0.0002799038105676658
+  },
+  {
+    "step": 75,
+    "epoch": 0.5084745762711864,
+    "cpu_mem": 2.839998464,
+    "gpu_mem": 1.599204864,
+    "loss": 0.6221,
+    "grad_norm": 26.085264205932617,
+    "learning_rate": 0.000279002136031155
+  },
+  {
+    "step": 76,
+    "epoch": 0.5152542372881356,
+    "cpu_mem": 2.839998464,
+    "gpu_mem": 1.59914496,
+    "loss": 0.8617,
+    "grad_norm": 90.78295135498047,
+    "learning_rate": 0.00027808219380317216
+  },
+  {
+    "step": 77,
+    "epoch": 0.5220338983050847,
+    "cpu_mem": 2.839998464,
+    "gpu_mem": 1.599218688,
+    "loss": 0.6092,
+    "grad_norm": 36.9515266418457,
+    "learning_rate": 0.0002771441141545895
+  },
+  {
+    "step": 78,
+    "epoch": 0.5288135593220339,
+    "cpu_mem": 2.840195072,
+    "gpu_mem": 1.599270912,
+    "loss": 0.6966,
+    "grad_norm": 38.786502838134766,
+    "learning_rate": 0.0002761880299246772
+  },
+  {
+    "step": 79,
+    "epoch": 0.535593220338983,
+    "cpu_mem": 2.840195072,
+    "gpu_mem": 1.599403008,
+    "loss": 0.6799,
+    "grad_norm": 16.99456024169922,
+    "learning_rate": 0.000275214076502292
+  },
+  {
+    "step": 80,
+    "epoch": 0.5423728813559322,
+    "cpu_mem": 2.840195072,
+    "gpu_mem": 1.599293952,
+    "loss": 0.6654,
+    "grad_norm": 13.605630874633789,
+    "learning_rate": 0.0002742223918067056
+  },
+  {
+    "step": 81,
+    "epoch": 0.5491525423728814,
+    "cpu_mem": 2.840195072,
+    "gpu_mem": 1.599174144,
+    "loss": 0.6601,
+    "grad_norm": 6.571524620056152,
+    "learning_rate": 0.00027321311626807374
+  },
+  {
+    "step": 82,
+    "epoch": 0.5559322033898305,
+    "cpu_mem": 2.840195072,
+    "gpu_mem": 1.599243264,
+    "loss": 0.7477,
+    "grad_norm": 23.323976516723633,
+    "learning_rate": 0.0002721863928075503
+  },
+  {
+    "step": 83,
+    "epoch": 0.5627118644067797,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.599343104,
+    "loss": 0.8076,
+    "grad_norm": 27.96898078918457,
+    "learning_rate": 0.000271142366817049
+  },
+  {
+    "step": 84,
+    "epoch": 0.5694915254237288,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.59930624,
+    "loss": 0.7206,
+    "grad_norm": 195.5382843017578,
+    "learning_rate": 0.00027008118613865406
+  },
+  {
+    "step": 85,
+    "epoch": 0.576271186440678,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.599338496,
+    "loss": 0.6898,
+    "grad_norm": 21.206653594970703,
+    "learning_rate": 0.00026900300104368524
+  },
+  {
+    "step": 86,
+    "epoch": 0.5830508474576271,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.599289344,
+    "loss": 0.6582,
+    "grad_norm": 18.797883987426758,
+    "learning_rate": 0.00026790796421141813
+  },
+  {
+    "step": 87,
+    "epoch": 0.5898305084745763,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.599297024,
+    "loss": 0.6653,
+    "grad_norm": 6.30393123626709,
+    "learning_rate": 0.00026679623070746325
+  },
+  {
+    "step": 88,
+    "epoch": 0.5966101694915255,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.599441408,
+    "loss": 0.6226,
+    "grad_norm": 4.516998291015625,
+    "learning_rate": 0.0002656679579618081
+  },
+  {
+    "step": 89,
+    "epoch": 0.6033898305084746,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.599223296,
+    "loss": 0.8634,
+    "grad_norm": 43.86545181274414,
+    "learning_rate": 0.0002645233057465235
+  },
+  {
+    "step": 90,
+    "epoch": 0.6101694915254238,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.599277056,
+    "loss": 0.7882,
+    "grad_norm": 26.65186309814453,
+    "learning_rate": 0.00026336243615313873
+  },
+  {
+    "step": 91,
+    "epoch": 0.6169491525423729,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.5992448,
+    "loss": 0.6243,
+    "grad_norm": 5.84904670715332,
+    "learning_rate": 0.00026218551356968814
+  },
+  {
+    "step": 92,
+    "epoch": 0.6237288135593221,
+    "cpu_mem": 2.84039168,
+    "gpu_mem": 1.599326208,
+    "loss": 0.7827,
+    "grad_norm": 54.409568786621094,
+    "learning_rate": 0.00026099270465743254
+  },
+  {
+    "step": 93,
+    "epoch": 0.6305084745762712,
+    "cpu_mem": 2.840588288,
+    "gpu_mem": 1.5991296,
+    "loss": 0.7024,
+    "grad_norm": 16.766782760620117,
+    "learning_rate": 0.0002597841783272588
+  },
+  {
+    "step": 94,
+    "epoch": 0.6372881355932203,
+    "cpu_mem": 2.840588288,
+    "gpu_mem": 1.599243264,
+    "loss": 0.6775,
+    "grad_norm": 22.029199600219727,
+    "learning_rate": 0.0002585601057157605
+  },
+  {
+    "step": 95,
+    "epoch": 0.6440677966101694,
+    "cpu_mem": 2.840588288,
+    "gpu_mem": 1.599263232,
+    "loss": 0.6953,
+    "grad_norm": 12.179546356201172,
+    "learning_rate": 0.00025732066016100394
+  },
+  {
+    "step": 96,
+    "epoch": 0.6508474576271186,
+    "cpu_mem": 2.840588288,
+    "gpu_mem": 1.599301632,
+    "loss": 0.6619,
+    "grad_norm": 6.7413010597229,
+    "learning_rate": 0.00025606601717798207
+  },
+  {
+    "step": 97,
+    "epoch": 0.6576271186440678,
+    "cpu_mem": 2.840588288,
+    "gpu_mem": 1.599286272,
+    "loss": 0.7353,
+    "grad_norm": 15.342774391174316,
+    "learning_rate": 0.0002547963544337602
+  },
+  {
+    "step": 98,
+    "epoch": 0.6644067796610169,
+    "cpu_mem": 2.840588288,
+    "gpu_mem": 1.59919872,
+    "loss": 0.6881,
+    "grad_norm": 6.57566499710083,
+    "learning_rate": 0.0002535118517223168
+  },
+  {
+    "step": 99,
+    "epoch": 0.6711864406779661,
+    "cpu_mem": 2.840588288,
+    "gpu_mem": 1.599148032,
+    "loss": 0.9004,
+    "grad_norm": 41.970733642578125,
+    "learning_rate": 0.00025221269093908365
+  },
+  {
+    "step": 100,
+    "epoch": 0.6779661016949152,
+    "cpu_mem": 2.840530944,
+    "gpu_mem": 1.599264768,
+    "loss": 0.9706,
+    "grad_norm": 46.277584075927734,
+    "learning_rate": 0.0002508990560551879
+  },
+  {
+    "step": 101,
+    "epoch": 0.6847457627118644,
+    "cpu_mem": 2.840727552,
+    "gpu_mem": 1.599297024,
+    "loss": 0.7243,
+    "grad_norm": 13.523004531860352,
+    "learning_rate": 0.0002495711330914001
+  },
+  {
+    "step": 102,
+    "epoch": 0.6915254237288135,
+    "cpu_mem": 2.840727552,
+    "gpu_mem": 1.599330816,
+    "loss": 0.6663,
+    "grad_norm": 2.6940062046051025,
+    "learning_rate": 0.00024822911009179276
+  },
+  {
+    "step": 103,
+    "epoch": 0.6983050847457627,
+    "cpu_mem": 2.84092416,
+    "gpu_mem": 1.599381504,
+    "loss": 0.6721,
+    "grad_norm": 2.2665679454803467,
+    "learning_rate": 0.0002468731770971113
+  },
+  {
+    "step": 104,
+    "epoch": 0.7050847457627119,
+    "cpu_mem": 2.84092416,
+    "gpu_mem": 1.599286272,
+    "loss": 0.7547,
+    "grad_norm": 25.09229278564453,
+    "learning_rate": 0.0002455035261178632
+  },
+  {
+    "step": 105,
+    "epoch": 0.711864406779661,
+    "cpu_mem": 2.84092416,
+    "gpu_mem": 1.599387648,
+    "loss": 0.7389,
+    "grad_norm": 21.83572006225586,
+    "learning_rate": 0.0002441203511071278
+  },
+  {
+    "step": 106,
+    "epoch": 0.7186440677966102,
+    "cpu_mem": 2.84092416,
+    "gpu_mem": 1.599338496,
+    "loss": 0.6515,
+    "grad_norm": 9.572114944458008,
+    "learning_rate": 0.00024272384793309077
+  },
+  {
+    "step": 107,
+    "epoch": 0.7254237288135593,
+    "cpu_mem": 2.84092416,
+    "gpu_mem": 1.599226368,
+    "loss": 0.6767,
+    "grad_norm": 10.984984397888184,
+    "learning_rate": 0.00024131421435130807
+  },
+  {
+    "step": 108,
+    "epoch": 0.7322033898305085,
+    "cpu_mem": 2.84092416,
+    "gpu_mem": 1.599410688,
+    "loss": 0.702,
+    "grad_norm": 13.317893981933594,
+    "learning_rate": 0.00023989164997670202
+  },
+  {
+    "step": 109,
+    "epoch": 0.7389830508474576,
+    "cpu_mem": 2.841120768,
+    "gpu_mem": 1.599264768,
+    "loss": 0.7188,
+    "grad_norm": 12.698904991149902,
+    "learning_rate": 0.0002384563562552943
+  },
+  {
+    "step": 110,
+    "epoch": 0.7457627118644068,
+    "cpu_mem": 2.841120768,
+    "gpu_mem": 1.59926784,
+    "loss": 0.6739,
+    "grad_norm": 7.674340724945068,
+    "learning_rate": 0.0002370085364356797
+  },
+  {
+    "step": 111,
+    "epoch": 0.752542372881356,
+    "cpu_mem": 2.84092416,
+    "gpu_mem": 1.59923712,
+    "loss": 0.707,
+    "grad_norm": 18.55880355834961,
+    "learning_rate": 0.0002355483955402446
+  },
+  {
+    "step": 112,
+    "epoch": 0.7593220338983051,
+    "cpu_mem": 2.841120768,
+    "gpu_mem": 1.5992832,
+    "loss": 0.6925,
+    "grad_norm": 12.338556289672852,
+    "learning_rate": 0.00023407614033613407
+  },
+  {
+    "step": 113,
+    "epoch": 0.7661016949152543,
+    "cpu_mem": 2.841120768,
+    "gpu_mem": 1.599273984,
+    "loss": 0.6803,
+    "grad_norm": 3.0032811164855957,
+    "learning_rate": 0.0002325919793059723
+  },
+  {
+    "step": 114,
+    "epoch": 0.7728813559322034,
+    "cpu_mem": 2.841120768,
+    "gpu_mem": 1.599255552,
+    "loss": 0.6488,
+    "grad_norm": 11.390604972839355,
+    "learning_rate": 0.00023109612261833963
+  },
+  {
+    "step": 115,
+    "epoch": 0.7796610169491526,
+    "cpu_mem": 2.841120768,
+    "gpu_mem": 1.599330816,
+    "loss": 0.6943,
+    "grad_norm": 8.861191749572754,
+    "learning_rate": 0.0002295887820980112
+  },
+  {
+    "step": 116,
+    "epoch": 0.7864406779661017,
+    "cpu_mem": 2.841120768,
+    "gpu_mem": 1.599250944,
+    "loss": 0.6321,
+    "grad_norm": 3.3490185737609863,
+    "learning_rate": 0.0002280701711959608
+  },
+  {
+    "step": 117,
+    "epoch": 0.7932203389830509,
+    "cpu_mem": 2.841120768,
+    "gpu_mem": 1.599141888,
+    "loss": 0.6836,
+    "grad_norm": 10.221349716186523,
+    "learning_rate": 0.00022654050495913495
+  },
+  {
+    "step": 118,
+    "epoch": 0.8,
+    "cpu_mem": 2.841055232,
+    "gpu_mem": 1.599379968,
+    "loss": 0.6782,
+    "grad_norm": 2.3667240142822266,
+    "learning_rate": 0.000225
+  },
+  {
+    "step": 119,
+    "epoch": 0.8067796610169492,
+    "cpu_mem": 2.84125184,
+    "gpu_mem": 1.599550464,
+    "loss": 0.761,
+    "grad_norm": 23.628992080688477,
+    "learning_rate": 0.00022344887446586865
+  },
+  {
+    "step": 120,
+    "epoch": 0.8135593220338984,
+    "cpu_mem": 2.84125184,
+    "gpu_mem": 1.5992832,
+    "loss": 0.7736,
+    "grad_norm": 24.32083511352539,
+    "learning_rate": 0.00022188734800800852
+  },
+  {
+    "step": 121,
+    "epoch": 0.8203389830508474,
+    "cpu_mem": 2.84125184,
+    "gpu_mem": 1.599310848,
+    "loss": 0.6755,
+    "grad_norm": 14.352532386779785,
+    "learning_rate": 0.00022031564175053754
+  },
+  {
+    "step": 122,
+    "epoch": 0.8271186440677966,
+    "cpu_mem": 2.84125184,
+    "gpu_mem": 1.599361536,
+    "loss": 0.6097,
+    "grad_norm": 2.115525484085083,
+    "learning_rate": 0.00021873397825911153
+  },
+  {
+    "step": 123,
+    "epoch": 0.8338983050847457,
+    "cpu_mem": 2.84125184,
+    "gpu_mem": 1.599171072,
+    "loss": 0.7155,
+    "grad_norm": 14.015365600585938,
+    "learning_rate": 0.00021714258150940685
+  },
+  {
+    "step": 124,
+    "epoch": 0.8406779661016949,
+    "cpu_mem": 2.84123136,
+    "gpu_mem": 1.59961344,
+    "loss": 0.6847,
+    "grad_norm": 7.591170787811279,
+    "learning_rate": 0.0002155416768554039
+  },
+  {
+    "step": 125,
+    "epoch": 0.847457627118644,
+    "cpu_mem": 2.84123136,
+    "gpu_mem": 1.599340032,
+    "loss": 0.6583,
+    "grad_norm": 14.31331729888916,
+    "learning_rate": 0.00021393149099747523
+  },
+  {
+    "step": 126,
+    "epoch": 0.8542372881355932,
+    "cpu_mem": 2.84100608,
+    "gpu_mem": 1.599223296,
+    "loss": 0.6587,
+    "grad_norm": 14.070867538452148,
+    "learning_rate": 0.00021231225195028297
+  },
+  {
+    "step": 127,
+    "epoch": 0.8610169491525423,
+    "cpu_mem": 2.841202688,
+    "gpu_mem": 1.599662592,
+    "loss": 0.7261,
+    "grad_norm": 13.449365615844727,
+    "learning_rate": 0.00021068418901049025
+  },
+  {
+    "step": 128,
+    "epoch": 0.8677966101694915,
+    "cpu_mem": 2.841391104,
+    "gpu_mem": 1.599438336,
+    "loss": 0.6008,
+    "grad_norm": 7.718184471130371,
+    "learning_rate": 0.0002090475327242912
+  },
+  {
+    "step": 129,
+    "epoch": 0.8745762711864407,
+    "cpu_mem": 2.841391104,
+    "gpu_mem": 1.599478272,
+    "loss": 0.7293,
+    "grad_norm": 12.1471586227417,
+    "learning_rate": 0.00020740251485476345
+  },
+  {
+    "step": 130,
+    "epoch": 0.8813559322033898,
+    "cpu_mem": 2.841391104,
+    "gpu_mem": 1.59926016,
+    "loss": 0.6809,
+    "grad_norm": 5.910035133361816,
+    "learning_rate": 0.0002057493683490491
+  },
+  {
+    "step": 131,
+    "epoch": 0.888135593220339,
+    "cpu_mem": 2.841100288,
+    "gpu_mem": 1.599389184,
+    "loss": 0.6826,
+    "grad_norm": 1.297784447669983,
+    "learning_rate": 0.00020408832730536746
+  },
+  {
+    "step": 132,
+    "epoch": 0.8949152542372881,
+    "cpu_mem": 2.841100288,
+    "gpu_mem": 1.599470592,
+    "loss": 0.6727,
+    "grad_norm": 6.657660484313965,
+    "learning_rate": 0.00020241962693986476
+  },
+  {
+    "step": 133,
+    "epoch": 0.9016949152542373,
+    "cpu_mem": 2.841296896,
+    "gpu_mem": 1.599254016,
+    "loss": 0.6447,
+    "grad_norm": 5.083381652832031,
+    "learning_rate": 0.0002007435035533061
+  },
+  {
+    "step": 134,
+    "epoch": 0.9084745762711864,
+    "cpu_mem": 2.84094464,
+    "gpu_mem": 1.599387648,
+    "loss": 0.9661,
+    "grad_norm": 94.68696594238281,
+    "learning_rate": 0.00019906019449761325
+  },
+  {
+    "step": 135,
+    "epoch": 0.9152542372881356,
+    "cpu_mem": 2.841141248,
+    "gpu_mem": 1.599410688,
+    "loss": 0.7214,
+    "grad_norm": 21.030242919921875,
+    "learning_rate": 0.00019736993814225374
+  },
+  {
+    "step": 136,
+    "epoch": 0.9220338983050848,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.599247872,
+    "loss": 0.6816,
+    "grad_norm": 115.34664916992188,
+    "learning_rate": 0.00019567297384048604
+  },
+  {
+    "step": 137,
+    "epoch": 0.9288135593220339,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.599128064,
+    "loss": 0.7982,
+    "grad_norm": 30.468721389770508,
+    "learning_rate": 0.0001939695418954653
+  },
+  {
+    "step": 138,
+    "epoch": 0.9355932203389831,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.599309312,
+    "loss": 0.716,
+    "grad_norm": 26.950998306274414,
+    "learning_rate": 0.00019225988352621445
+  },
+  {
+    "step": 139,
+    "epoch": 0.9423728813559322,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.599207936,
+    "loss": 0.8645,
+    "grad_norm": 102.03352355957031,
+    "learning_rate": 0.00019054424083346592
+  },
+  {
+    "step": 140,
+    "epoch": 0.9491525423728814,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.59926016,
+    "loss": 0.6994,
+    "grad_norm": 38.76273727416992,
+    "learning_rate": 0.0001888228567653781
+  },
+  {
+    "step": 141,
+    "epoch": 0.9559322033898305,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.599292416,
+    "loss": 2.2689,
+    "grad_norm": 434.62127685546875,
+    "learning_rate": 0.0001870959750831323
+  },
+  {
+    "step": 142,
+    "epoch": 0.9627118644067797,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.599432192,
+    "loss": 1.8453,
+    "grad_norm": 546.8731079101562,
+    "learning_rate": 0.0001853638403264141
+  },
+  {
+    "step": 143,
+    "epoch": 0.9694915254237289,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.599415296,
+    "loss": 0.8864,
+    "grad_norm": 159.02481079101562,
+    "learning_rate": 0.00018362669777878453
+  },
+  {
+    "step": 144,
+    "epoch": 0.976271186440678,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.599607296,
+    "loss": 1.1283,
+    "grad_norm": 232.38580322265625,
+    "learning_rate": 0.00018188479343294648
+  },
+  {
+    "step": 145,
+    "epoch": 0.9830508474576272,
+    "cpu_mem": 2.841493504,
+    "gpu_mem": 1.599318528,
+    "loss": 0.6381,
+    "grad_norm": 9.929734230041504,
+    "learning_rate": 0.0001801383739559098
+  },
+  {
+    "step": 146,
+    "epoch": 0.9898305084745763,
+    "cpu_mem": 2.841452544,
+    "gpu_mem": 1.599353856,
+    "loss": 0.7965,
+    "grad_norm": 61.84294128417969,
+    "learning_rate": 0.0001783876866540615
+  },
+  {
+    "step": 147,
+    "epoch": 0.9966101694915255,
+    "cpu_mem": 2.8413952,
+    "gpu_mem": 1.59925248,
+    "loss": 0.6329,
+    "grad_norm": 5.885165691375732,
+    "learning_rate": 0.00017663297943814552
+  },
+  {
+    "step": 148,
+    "epoch": 1.0033898305084745,
+    "cpu_mem": 2.841583616,
+    "gpu_mem": 1.604665856,
+    "loss": 1.3226,
+    "grad_norm": 76.07792663574219,
+    "learning_rate": 0.0001748745007881561
+  },
+  {
+    "step": 149,
+    "epoch": 1.0101694915254238,
+    "cpu_mem": 2.841583616,
+    "gpu_mem": 1.604601344,
+    "loss": 0.7548,
+    "grad_norm": 26.010759353637695,
+    "learning_rate": 0.00017311249971815185
+  },
+  {
+    "step": 150,
+    "epoch": 1.0169491525423728,
+    "cpu_mem": 2.841583616,
+    "gpu_mem": 1.604438528,
+    "loss": 0.6601,
+    "grad_norm": 0.8983572125434875,
+    "learning_rate": 0.00017134722574099276
+  },
+  {
+    "step": 151,
+    "epoch": 1.023728813559322,
+    "cpu_mem": 2.841378816,
+    "gpu_mem": 1.60451072,
+    "loss": 0.7235,
+    "grad_norm": 8.871695518493652,
+    "learning_rate": 0.00016957892883300775
+  },
+  {
+    "step": 152,
+    "epoch": 1.0305084745762711,
+    "cpu_mem": 2.841276416,
+    "gpu_mem": 1.604546048,
+    "loss": 0.6913,
+    "grad_norm": 3.036161422729492,
+    "learning_rate": 0.00016780785939859576
+  },
+  {
+    "step": 153,
+    "epoch": 1.0372881355932204,
+    "cpu_mem": 2.841464832,
+    "gpu_mem": 1.604570624,
+    "loss": 0.6701,
+    "grad_norm": 11.131294250488281,
+    "learning_rate": 0.00016603426823476693
+  },
+  {
+    "step": 154,
+    "epoch": 1.0440677966101695,
+    "cpu_mem": 2.84166144,
+    "gpu_mem": 1.604532224,
+    "loss": 0.6773,
+    "grad_norm": 2.468815803527832,
+    "learning_rate": 0.00016425840649562736
+  },
+  {
+    "step": 155,
+    "epoch": 1.0508474576271187,
+    "cpu_mem": 2.84166144,
+    "gpu_mem": 1.604753408,
+    "loss": 0.6785,
+    "grad_norm": 2.2420897483825684,
+    "learning_rate": 0.00016248052565681436
+  },
+  {
+    "step": 156,
+    "epoch": 1.0576271186440678,
+    "cpu_mem": 2.84166144,
+    "gpu_mem": 1.604661248,
+    "loss": 0.6721,
+    "grad_norm": 12.167314529418945,
+    "learning_rate": 0.00016070087747988482
+  },
+  {
+    "step": 157,
+    "epoch": 1.064406779661017,
+    "cpu_mem": 2.841612288,
+    "gpu_mem": 1.604567552,
+    "loss": 0.6914,
+    "grad_norm": 3.158642053604126,
+    "learning_rate": 0.00015891971397666464
+  },
+  {
+    "step": 158,
+    "epoch": 1.071186440677966,
+    "cpu_mem": 2.841546752,
+    "gpu_mem": 1.604493824,
+    "loss": 0.6931,
+    "grad_norm": 4.770071506500244,
+    "learning_rate": 0.00015713728737356137
+  },
+  {
+    "step": 159,
+    "epoch": 1.0779661016949154,
+    "cpu_mem": 2.841505792,
+    "gpu_mem": 1.604842496,
+    "loss": 0.6715,
+    "grad_norm": 11.148482322692871,
+    "learning_rate": 0.00015535385007584706
+  },
+  {
+    "step": 160,
+    "epoch": 1.0847457627118644,
+    "cpu_mem": 2.84166144,
+    "gpu_mem": 1.604436992,
+    "loss": 0.6815,
+    "grad_norm": 6.524872303009033,
+    "learning_rate": 0.0001535696546319161
+  },
+  {
+    "step": 161,
+    "epoch": 1.0915254237288137,
+    "cpu_mem": 2.84166144,
+    "gpu_mem": 1.604383232,
+    "loss": 0.6473,
+    "grad_norm": 3.372286081314087,
+    "learning_rate": 0.00015178495369752213
+  },
+  {
+    "step": 162,
+    "epoch": 1.0983050847457627,
+    "cpu_mem": 2.841427968,
+    "gpu_mem": 1.605158912,
+    "loss": 0.6478,
+    "grad_norm": 7.118155002593994,
+    "learning_rate": 0.00015
+  },
+  {
+    "step": 163,
+    "epoch": 1.1050847457627118,
+    "cpu_mem": 2.841624576,
+    "gpu_mem": 1.604635136,
+    "loss": 0.746,
+    "grad_norm": 16.46024513244629,
+    "learning_rate": 0.00014821504630247785
+  },
+  {
+    "step": 164,
+    "epoch": 1.111864406779661,
+    "cpu_mem": 2.84131328,
+    "gpu_mem": 1.604547584,
+    "loss": 0.6521,
+    "grad_norm": 8.345376014709473,
+    "learning_rate": 0.00014643034536808387
+  },
+  {
+    "step": 165,
+    "epoch": 1.11864406779661,
+    "cpu_mem": 2.841509888,
+    "gpu_mem": 1.604496896,
+    "loss": 0.651,
+    "grad_norm": 30.932464599609375,
+    "learning_rate": 0.00014464614992415294
+  },
+  {
+    "step": 166,
+    "epoch": 1.1254237288135593,
+    "cpu_mem": 2.841432064,
+    "gpu_mem": 1.604592128,
+    "loss": 7.5865,
+    "grad_norm": 3689.810546875,
+    "learning_rate": 0.00014286271262643866
+  },
+  {
+    "step": 167,
+    "epoch": 1.1322033898305084,
+    "cpu_mem": 2.841432064,
+    "gpu_mem": 1.604509184,
+    "loss": 1.2947,
+    "grad_norm": 244.8701171875,
+    "learning_rate": 0.00014108028602333536
+  },
+  {
+    "step": 168,
+    "epoch": 1.1389830508474577,
+    "cpu_mem": 2.841419776,
+    "gpu_mem": 1.604527616,
+    "loss": 0.6758,
+    "grad_norm": 11.749220848083496,
+    "learning_rate": 0.00013929912252011516
+  },
+  {
+    "step": 169,
+    "epoch": 1.1457627118644067,
+    "cpu_mem": 2.841419776,
+    "gpu_mem": 1.604615168,
+    "loss": 0.6471,
+    "grad_norm": 7.709426403045654,
+    "learning_rate": 0.00013751947434318564
+  },
+  {
+    "step": 170,
+    "epoch": 1.152542372881356,
+    "cpu_mem": 2.84151808,
+    "gpu_mem": 1.604499968,
+    "loss": 0.6793,
+    "grad_norm": 8.016724586486816,
+    "learning_rate": 0.00013574159350437261
+  },
+  {
+    "step": 171,
+    "epoch": 1.159322033898305,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604562944,
+    "loss": 0.6958,
+    "grad_norm": 9.63123893737793,
+    "learning_rate": 0.0001339657317652331
+  },
+  {
+    "step": 172,
+    "epoch": 1.1661016949152543,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604470784,
+    "loss": 0.6948,
+    "grad_norm": 5.182499408721924,
+    "learning_rate": 0.00013219214060140424
+  },
+  {
+    "step": 173,
+    "epoch": 1.1728813559322033,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604770304,
+    "loss": 0.763,
+    "grad_norm": 24.390262603759766,
+    "learning_rate": 0.00013042107116699228
+  },
+  {
+    "step": 174,
+    "epoch": 1.1796610169491526,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604493824,
+    "loss": 0.7458,
+    "grad_norm": 16.760892868041992,
+    "learning_rate": 0.00012865277425900724
+  },
+  {
+    "step": 175,
+    "epoch": 1.1864406779661016,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604460032,
+    "loss": 0.7409,
+    "grad_norm": 18.550966262817383,
+    "learning_rate": 0.00012688750028184818
+  },
+  {
+    "step": 176,
+    "epoch": 1.193220338983051,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604598272,
+    "loss": 0.6664,
+    "grad_norm": 10.944726943969727,
+    "learning_rate": 0.0001251254992118439
+  },
+  {
+    "step": 177,
+    "epoch": 1.2,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604696576,
+    "loss": 0.6843,
+    "grad_norm": 6.6840314865112305,
+    "learning_rate": 0.00012336702056185453
+  },
+  {
+    "step": 178,
+    "epoch": 1.2067796610169492,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604443136,
+    "loss": 0.6698,
+    "grad_norm": 7.334102153778076,
+    "learning_rate": 0.00012161231334593851
+  },
+  {
+    "step": 179,
+    "epoch": 1.2135593220338983,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604542976,
+    "loss": 0.5671,
+    "grad_norm": 3.5981907844543457,
+    "learning_rate": 0.00011986162604409015
+  },
+  {
+    "step": 180,
+    "epoch": 1.2203389830508475,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604515328,
+    "loss": 0.7085,
+    "grad_norm": 10.897017478942871,
+    "learning_rate": 0.00011811520656705348
+  },
+  {
+    "step": 181,
+    "epoch": 1.2271186440677966,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604452352,
+    "loss": 0.6523,
+    "grad_norm": 4.810169219970703,
+    "learning_rate": 0.00011637330222121543
+  },
+  {
+    "step": 182,
+    "epoch": 1.2338983050847459,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604670464,
+    "loss": 0.7493,
+    "grad_norm": 13.707269668579102,
+    "learning_rate": 0.00011463615967358588
+  },
+  {
+    "step": 183,
+    "epoch": 1.240677966101695,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604567552,
+    "loss": 0.6761,
+    "grad_norm": 11.904723167419434,
+    "learning_rate": 0.00011290402491686766
+  },
+  {
+    "step": 184,
+    "epoch": 1.2474576271186442,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604515328,
+    "loss": 0.6724,
+    "grad_norm": 12.823482513427734,
+    "learning_rate": 0.00011117714323462186
+  },
+  {
+    "step": 185,
+    "epoch": 1.2542372881355932,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604493824,
+    "loss": 0.6527,
+    "grad_norm": 5.67280912399292,
+    "learning_rate": 0.00010945575916653407
+  },
+  {
+    "step": 186,
+    "epoch": 1.2610169491525425,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60450304,
+    "loss": 0.6587,
+    "grad_norm": 11.067151069641113,
+    "learning_rate": 0.00010774011647378553
+  },
+  {
+    "step": 187,
+    "epoch": 1.2677966101694915,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604435456,
+    "loss": 0.7083,
+    "grad_norm": 20.79690933227539,
+    "learning_rate": 0.00010603045810453468
+  },
+  {
+    "step": 188,
+    "epoch": 1.2745762711864406,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604598272,
+    "loss": 0.7213,
+    "grad_norm": 13.631938934326172,
+    "learning_rate": 0.00010432702615951396
+  },
+  {
+    "step": 189,
+    "epoch": 1.2813559322033898,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604467712,
+    "loss": 0.6798,
+    "grad_norm": 11.0151948928833,
+    "learning_rate": 0.00010263006185774627
+  },
+  {
+    "step": 190,
+    "epoch": 1.288135593220339,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60458752,
+    "loss": 0.6727,
+    "grad_norm": 23.102136611938477,
+    "learning_rate": 0.00010093980550238675
+  },
+  {
+    "step": 191,
+    "epoch": 1.2949152542372881,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604406272,
+    "loss": 0.7513,
+    "grad_norm": 35.718666076660156,
+    "learning_rate": 9.925649644669391e-05
+  },
+  {
+    "step": 192,
+    "epoch": 1.3016949152542372,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604538368,
+    "loss": 0.5849,
+    "grad_norm": 7.0041985511779785,
+    "learning_rate": 9.758037306013526e-05
+  },
+  {
+    "step": 193,
+    "epoch": 1.3084745762711865,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604512256,
+    "loss": 0.6773,
+    "grad_norm": 10.7228364944458,
+    "learning_rate": 9.591167269463255e-05
+  },
+  {
+    "step": 194,
+    "epoch": 1.3152542372881357,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604478464,
+    "loss": 0.6433,
+    "grad_norm": 0.7278481721878052,
+    "learning_rate": 9.425063165095088e-05
+  },
+  {
+    "step": 195,
+    "epoch": 1.3220338983050848,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604582912,
+    "loss": 0.6686,
+    "grad_norm": 0.7510453462600708,
+    "learning_rate": 9.259748514523653e-05
+  },
+  {
+    "step": 196,
+    "epoch": 1.3288135593220338,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604578304,
+    "loss": 0.6746,
+    "grad_norm": 1.4179329872131348,
+    "learning_rate": 9.095246727570879e-05
+  },
+  {
+    "step": 197,
+    "epoch": 1.335593220338983,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604436992,
+    "loss": 0.6378,
+    "grad_norm": 9.19565486907959,
+    "learning_rate": 8.931581098950973e-05
+  },
+  {
+    "step": 198,
+    "epoch": 1.3423728813559321,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604628992,
+    "loss": 0.653,
+    "grad_norm": 0.9654055237770081,
+    "learning_rate": 8.768774804971705e-05
+  },
+  {
+    "step": 199,
+    "epoch": 1.3491525423728814,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60448,
+    "loss": 0.7071,
+    "grad_norm": 10.333610534667969,
+    "learning_rate": 8.606850900252478e-05
+  },
+  {
+    "step": 200,
+    "epoch": 1.3559322033898304,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604582912,
+    "loss": 0.6801,
+    "grad_norm": 4.721147537231445,
+    "learning_rate": 8.445832314459608e-05
+  },
+  {
+    "step": 201,
+    "epoch": 1.3627118644067797,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604785664,
+    "loss": 0.6483,
+    "grad_norm": 9.661271095275879,
+    "learning_rate": 8.285741849059311e-05
+  },
+  {
+    "step": 202,
+    "epoch": 1.3694915254237288,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60458752,
+    "loss": 0.6669,
+    "grad_norm": 8.098054885864258,
+    "learning_rate": 8.126602174088843e-05
+  },
+  {
+    "step": 203,
+    "epoch": 1.376271186440678,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604473856,
+    "loss": 0.6202,
+    "grad_norm": 16.55931282043457,
+    "learning_rate": 7.968435824946242e-05
+  },
+  {
+    "step": 204,
+    "epoch": 1.383050847457627,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60448768,
+    "loss": 0.6397,
+    "grad_norm": 1.496640682220459,
+    "learning_rate": 7.811265199199152e-05
+  },
+  {
+    "step": 205,
+    "epoch": 1.3898305084745763,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604532224,
+    "loss": 0.739,
+    "grad_norm": 16.293212890625,
+    "learning_rate": 7.655112553413135e-05
+  },
+  {
+    "step": 206,
+    "epoch": 1.3966101694915254,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604473856,
+    "loss": 0.7008,
+    "grad_norm": 13.643010139465332,
+    "learning_rate": 7.500000000000002e-05
+  },
+  {
+    "step": 207,
+    "epoch": 1.4033898305084747,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604707328,
+    "loss": 0.6319,
+    "grad_norm": 7.230471611022949,
+    "learning_rate": 7.345949504086507e-05
+  },
+  {
+    "step": 208,
+    "epoch": 1.4101694915254237,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604738048,
+    "loss": 0.5831,
+    "grad_norm": 0.8496401309967041,
+    "learning_rate": 7.192982880403917e-05
+  },
+  {
+    "step": 209,
+    "epoch": 1.4169491525423727,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60466432,
+    "loss": 0.7229,
+    "grad_norm": 13.127245903015137,
+    "learning_rate": 7.041121790198881e-05
+  },
+  {
+    "step": 210,
+    "epoch": 1.423728813559322,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604552192,
+    "loss": 0.6521,
+    "grad_norm": 3.434570074081421,
+    "learning_rate": 6.890387738166041e-05
+  },
+  {
+    "step": 211,
+    "epoch": 1.4305084745762713,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604501504,
+    "loss": 0.611,
+    "grad_norm": 9.112945556640625,
+    "learning_rate": 6.740802069402771e-05
+  },
+  {
+    "step": 212,
+    "epoch": 1.4372881355932203,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604470784,
+    "loss": 0.6443,
+    "grad_norm": 6.945525169372559,
+    "learning_rate": 6.592385966386588e-05
+  },
+  {
+    "step": 213,
+    "epoch": 1.4440677966101694,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604493824,
+    "loss": 0.6578,
+    "grad_norm": 3.5807316303253174,
+    "learning_rate": 6.445160445975536e-05
+  },
+  {
+    "step": 214,
+    "epoch": 1.4508474576271186,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604576768,
+    "loss": 0.6368,
+    "grad_norm": 3.6909682750701904,
+    "learning_rate": 6.299146356432029e-05
+  },
+  {
+    "step": 215,
+    "epoch": 1.457627118644068,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604504576,
+    "loss": 0.7277,
+    "grad_norm": 11.636443138122559,
+    "learning_rate": 6.154364374470568e-05
+  },
+  {
+    "step": 216,
+    "epoch": 1.464406779661017,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604670464,
+    "loss": 0.6483,
+    "grad_norm": 3.597099781036377,
+    "learning_rate": 6.010835002329795e-05
+  },
+  {
+    "step": 217,
+    "epoch": 1.471186440677966,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604512256,
+    "loss": 0.747,
+    "grad_norm": 14.02973747253418,
+    "learning_rate": 5.8685785648691894e-05
+  },
+  {
+    "step": 218,
+    "epoch": 1.4779661016949153,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604489216,
+    "loss": 0.6333,
+    "grad_norm": 0.4543326795101166,
+    "learning_rate": 5.72761520669092e-05
+  },
+  {
+    "step": 219,
+    "epoch": 1.4847457627118645,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604615168,
+    "loss": 0.6522,
+    "grad_norm": 0.9680509567260742,
+    "learning_rate": 5.587964889287218e-05
+  },
+  {
+    "step": 220,
+    "epoch": 1.4915254237288136,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60464896,
+    "loss": 0.6605,
+    "grad_norm": 0.5167866945266724,
+    "learning_rate": 5.449647388213678e-05
+  },
+  {
+    "step": 221,
+    "epoch": 1.4983050847457626,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604516864,
+    "loss": 0.6969,
+    "grad_norm": 4.705380439758301,
+    "learning_rate": 5.312682290288869e-05
+  },
+  {
+    "step": 222,
+    "epoch": 1.505084745762712,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604653568,
+    "loss": 0.6487,
+    "grad_norm": 12.17457389831543,
+    "learning_rate": 5.1770889908207245e-05
+  },
+  {
+    "step": 223,
+    "epoch": 1.5118644067796612,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604567552,
+    "loss": 0.6575,
+    "grad_norm": 14.76824951171875,
+    "learning_rate": 5.0428866908599864e-05
+  },
+  {
+    "step": 224,
+    "epoch": 1.5186440677966102,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604532224,
+    "loss": 0.6684,
+    "grad_norm": 5.920445919036865,
+    "learning_rate": 4.9100943944812114e-05
+  },
+  {
+    "step": 225,
+    "epoch": 1.5254237288135593,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604496896,
+    "loss": 0.6828,
+    "grad_norm": 0.7103701829910278,
+    "learning_rate": 4.778730906091632e-05
+  },
+  {
+    "step": 226,
+    "epoch": 1.5322033898305085,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604645888,
+    "loss": 0.6435,
+    "grad_norm": 6.378837585449219,
+    "learning_rate": 4.648814827768322e-05
+  },
+  {
+    "step": 227,
+    "epoch": 1.5389830508474578,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604535296,
+    "loss": 0.6684,
+    "grad_norm": 1.5044411420822144,
+    "learning_rate": 4.5203645566239816e-05
+  },
+  {
+    "step": 228,
+    "epoch": 1.5457627118644068,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60448,
+    "loss": 0.6922,
+    "grad_norm": 6.228693008422852,
+    "learning_rate": 4.3933982822017876e-05
+  },
+  {
+    "step": 229,
+    "epoch": 1.5525423728813559,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604421632,
+    "loss": 0.6719,
+    "grad_norm": 1.1901812553405762,
+    "learning_rate": 4.267933983899601e-05
+  },
+  {
+    "step": 230,
+    "epoch": 1.559322033898305,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.604478464,
+    "loss": 0.6769,
+    "grad_norm": 0.3899259865283966,
+    "learning_rate": 4.143989428423947e-05
+  },
+  {
+    "step": 231,
+    "epoch": 1.5661016949152542,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60475648,
+    "loss": 0.6801,
+    "grad_norm": 0.802622377872467,
+    "learning_rate": 4.0215821672741213e-05
+  },
+  {
+    "step": 232,
+    "epoch": 1.5728813559322035,
+    "cpu_mem": 2.841714688,
+    "gpu_mem": 1.60448,
+    "loss": 0.6751,
+    "grad_norm": 4.701998233795166,
+    "learning_rate": 3.900729534256745e-05
+  },
+  {
+    "step": 233,
+    "epoch": 1.5796610169491525,
+    "cpu_mem": 2.841911296,
+    "gpu_mem": 1.604793344,
+    "loss": 0.6759,
+    "grad_norm": 2.6930110454559326,
+    "learning_rate": 3.781448643031187e-05
+  },
+  {
+    "step": 234,
+    "epoch": 1.5864406779661016,
+    "cpu_mem": 2.841911296,
+    "gpu_mem": 1.604668928,
+    "loss": 0.6777,
+    "grad_norm": 0.6205549836158752,
+    "learning_rate": 3.663756384686127e-05
+  },
+  {
+    "step": 235,
+    "epoch": 1.5932203389830508,
+    "cpu_mem": 2.841911296,
+    "gpu_mem": 1.604424704,
+    "loss": 0.6348,
+    "grad_norm": 8.741998672485352,
+    "learning_rate": 3.547669425347647e-05
+  },
+  {
+    "step": 236,
+    "epoch": 1.6,
+    "cpu_mem": 2.841911296,
+    "gpu_mem": 1.604484608,
+    "loss": 0.6866,
+    "grad_norm": 3.6021006107330322,
+    "learning_rate": 3.433204203819185e-05
+  },
+  {
+    "step": 237,
+    "epoch": 1.6067796610169491,
+    "cpu_mem": 2.841911296,
+    "gpu_mem": 1.604546048,
+    "loss": 0.6392,
+    "grad_norm": 3.156719446182251,
+    "learning_rate": 3.3203769292536764e-05
+  },
+  {
+    "step": 238,
+    "epoch": 1.6135593220338982,
+    "cpu_mem": 2.841911296,
+    "gpu_mem": 1.604547584,
+    "loss": 0.6326,
+    "grad_norm": 2.6189823150634766,
+    "learning_rate": 3.209203578858191e-05
+  },
+  {
+    "step": 239,
+    "epoch": 1.6203389830508474,
+    "cpu_mem": 2.841911296,
+    "gpu_mem": 1.604801024,
+    "loss": 0.7199,
+    "grad_norm": 11.9671630859375,
+    "learning_rate": 3.099699895631474e-05
+  },
+  {
+    "step": 240,
+    "epoch": 1.6271186440677967,
+    "cpu_mem": 2.785878016,
+    "gpu_mem": 1.604450816,
+    "loss": 0.6811,
+    "grad_norm": 7.266372203826904,
+    "learning_rate": 2.9918813861345952e-05
+  },
+  {
+    "step": 241,
+    "epoch": 1.6338983050847458,
+    "cpu_mem": 2.786664448,
+    "gpu_mem": 1.604747264,
+    "loss": 0.6351,
+    "grad_norm": 1.2568522691726685,
+    "learning_rate": 2.885763318295102e-05
+  },
+  {
+    "step": 242,
+    "epoch": 1.6406779661016948,
+    "cpu_mem": 2.787254272,
+    "gpu_mem": 1.604609024,
+    "loss": 0.6544,
+    "grad_norm": 3.119530200958252,
+    "learning_rate": 2.781360719244964e-05
+  },
+  {
+    "step": 243,
+    "epoch": 1.647457627118644,
+    "cpu_mem": 2.788040704,
+    "gpu_mem": 1.604461568,
+    "loss": 0.7334,
+    "grad_norm": 13.527824401855469,
+    "learning_rate": 2.6786883731926306e-05
+  },
+  {
+    "step": 244,
+    "epoch": 1.6542372881355933,
+    "cpu_mem": 2.788630528,
+    "gpu_mem": 1.604601344,
+    "loss": 0.6429,
+    "grad_norm": 2.8774635791778564,
+    "learning_rate": 2.5777608193294396e-05
+  },
+  {
+    "step": 245,
+    "epoch": 1.6610169491525424,
+    "cpu_mem": 2.789220352,
+    "gpu_mem": 1.60448,
+    "loss": 0.64,
+    "grad_norm": 5.759853839874268,
+    "learning_rate": 2.4785923497707956e-05
+  },
+  {
+    "step": 246,
+    "epoch": 1.6677966101694914,
+    "cpu_mem": 2.789810176,
+    "gpu_mem": 1.604573696,
+    "loss": 0.6884,
+    "grad_norm": 4.809885501861572,
+    "learning_rate": 2.38119700753228e-05
+  },
+  {
+    "step": 247,
+    "epoch": 1.6745762711864407,
+    "cpu_mem": 2.790203392,
+    "gpu_mem": 1.604592128,
+    "loss": 0.6753,
+    "grad_norm": 1.8933202028274536,
+    "learning_rate": 2.285588584541047e-05
+  },
+  {
+    "step": 248,
+    "epoch": 1.68135593220339,
+    "cpu_mem": 2.790793216,
+    "gpu_mem": 1.604544512,
+    "loss": 0.6585,
+    "grad_norm": 6.303478717803955,
+    "learning_rate": 2.1917806196827792e-05
+  },
+  {
+    "step": 249,
+    "epoch": 1.688135593220339,
+    "cpu_mem": 2.79138304,
+    "gpu_mem": 1.604450816,
+    "loss": 0.6544,
+    "grad_norm": 8.29896354675293,
+    "learning_rate": 2.0997863968844914e-05
+  },
+  {
+    "step": 250,
+    "epoch": 1.694915254237288,
+    "cpu_mem": 2.791776256,
+    "gpu_mem": 1.604542976,
+    "loss": 0.6402,
+    "grad_norm": 14.609487533569336,
+    "learning_rate": 2.009618943233419e-05
+  },
+  {
+    "step": 251,
+    "epoch": 1.7016949152542373,
+    "cpu_mem": 2.792169472,
+    "gpu_mem": 1.604455424,
+    "loss": 0.6642,
+    "grad_norm": 2.4344687461853027,
+    "learning_rate": 1.921291027132278e-05
+  },
+  {
+    "step": 252,
+    "epoch": 1.7084745762711866,
+    "cpu_mem": 2.792562688,
+    "gpu_mem": 1.604498432,
+    "loss": 0.6778,
+    "grad_norm": 0.48283547163009644,
+    "learning_rate": 1.834815156491165e-05
+  },
+  {
+    "step": 253,
+    "epoch": 1.7152542372881356,
+    "cpu_mem": 2.792955904,
+    "gpu_mem": 1.604691968,
+    "loss": 0.6528,
+    "grad_norm": 2.789032459259033,
+    "learning_rate": 1.750203576956341e-05
+  },
+  {
+    "step": 254,
+    "epoch": 1.7220338983050847,
+    "cpu_mem": 2.793545728,
+    "gpu_mem": 1.60448768,
+    "loss": 0.653,
+    "grad_norm": 1.3657398223876953,
+    "learning_rate": 1.6674682701761493e-05
+  },
+  {
+    "step": 255,
+    "epoch": 1.7288135593220337,
+    "cpu_mem": 2.794135552,
+    "gpu_mem": 1.604644352,
+    "loss": 0.7569,
+    "grad_norm": 17.99268341064453,
+    "learning_rate": 1.5866209521043304e-05
+  },
+  {
+    "step": 256,
+    "epoch": 1.735593220338983,
+    "cpu_mem": 2.79433216,
+    "gpu_mem": 1.604470784,
+    "loss": 0.6473,
+    "grad_norm": 2.1559677124023438,
+    "learning_rate": 1.5076730713409523e-05
+  },
+  {
+    "step": 257,
+    "epoch": 1.7423728813559323,
+    "cpu_mem": 2.794725376,
+    "gpu_mem": 1.604883968,
+    "loss": 0.6438,
+    "grad_norm": 0.6308892965316772,
+    "learning_rate": 1.4306358075111923e-05
+  },
+  {
+    "step": 258,
+    "epoch": 1.7491525423728813,
+    "cpu_mem": 2.795118592,
+    "gpu_mem": 1.604542976,
+    "loss": 0.5939,
+    "grad_norm": 5.338343620300293,
+    "learning_rate": 1.3555200696822232e-05
+  },
+  {
+    "step": 259,
+    "epoch": 1.7559322033898304,
+    "cpu_mem": 2.7953152,
+    "gpu_mem": 1.604460032,
+    "loss": 0.6661,
+    "grad_norm": 4.470885276794434,
+    "learning_rate": 1.2823364948184095e-05
+  },
+  {
+    "step": 260,
+    "epoch": 1.7627118644067796,
+    "cpu_mem": 2.795708416,
+    "gpu_mem": 1.604576768,
+    "loss": 0.6508,
+    "grad_norm": 2.901054859161377,
+    "learning_rate": 1.2110954462750166e-05
+  },
+  {
+    "step": 261,
+    "epoch": 1.769491525423729,
+    "cpu_mem": 2.796101632,
+    "gpu_mem": 1.604532224,
+    "loss": 0.5875,
+    "grad_norm": 7.065019607543945,
+    "learning_rate": 1.1418070123306989e-05
+  },
+  {
+    "step": 262,
+    "epoch": 1.776271186440678,
+    "cpu_mem": 2.79629824,
+    "gpu_mem": 1.604489216,
+    "loss": 0.707,
+    "grad_norm": 10.139660835266113,
+    "learning_rate": 1.0744810047589115e-05
+  },
+  {
+    "step": 263,
+    "epoch": 1.783050847457627,
+    "cpu_mem": 2.796494848,
+    "gpu_mem": 1.60452608,
+    "loss": 0.6425,
+    "grad_norm": 0.6513071060180664,
+    "learning_rate": 1.0091269574384874e-05
+  },
+  {
+    "step": 264,
+    "epoch": 1.7898305084745763,
+    "cpu_mem": 2.796888064,
+    "gpu_mem": 1.604613632,
+    "loss": 0.6336,
+    "grad_norm": 3.408752679824829,
+    "learning_rate": 9.45754125003576e-06
+  },
+  {
+    "step": 265,
+    "epoch": 1.7966101694915255,
+    "cpu_mem": 2.797084672,
+    "gpu_mem": 1.604532224,
+    "loss": 0.6928,
+    "grad_norm": 8.95094108581543,
+    "learning_rate": 8.843714815330987e-06
+  },
+  {
+    "step": 266,
+    "epoch": 1.8033898305084746,
+    "cpu_mem": 2.797477888,
+    "gpu_mem": 1.604747264,
+    "loss": 0.6837,
+    "grad_norm": 5.271203994750977,
+    "learning_rate": 8.249877192799731e-06
+  },
+  {
+    "step": 267,
+    "epoch": 1.8101694915254236,
+    "cpu_mem": 2.797871104,
+    "gpu_mem": 1.604539904,
+    "loss": 0.5781,
+    "grad_norm": 14.758561134338379,
+    "learning_rate": 7.676112474402068e-06
+  },
+  {
+    "step": 268,
+    "epoch": 1.8169491525423729,
+    "cpu_mem": 2.798067712,
+    "gpu_mem": 1.604544512,
+    "loss": 0.7273,
+    "grad_norm": 12.341434478759766,
+    "learning_rate": 7.122501909620926e-06
+  },
+  {
+    "step": 269,
+    "epoch": 1.8237288135593221,
+    "cpu_mem": 2.79826432,
+    "gpu_mem": 1.604555264,
+    "loss": 0.6853,
+    "grad_norm": 5.760283946990967,
+    "learning_rate": 6.5891238939566275e-06
+  },
+  {
+    "step": 270,
+    "epoch": 1.8305084745762712,
+    "cpu_mem": 2.798460928,
+    "gpu_mem": 1.604593664,
+    "loss": 0.676,
+    "grad_norm": 3.037813663482666,
+    "learning_rate": 6.076053957825411e-06
+  },
+  {
+    "step": 271,
+    "epoch": 1.8372881355932202,
+    "cpu_mem": 2.798657536,
+    "gpu_mem": 1.604645888,
+    "loss": 0.6711,
+    "grad_norm": 2.3162472248077393,
+    "learning_rate": 5.583364755863701e-06
+  },
+  {
+    "step": 272,
+    "epoch": 1.8440677966101695,
+    "cpu_mem": 2.798854144,
+    "gpu_mem": 1.604504576,
+    "loss": 0.6924,
+    "grad_norm": 3.9464468955993652,
+    "learning_rate": 5.11112605663977e-06
+  },
+  {
+    "step": 273,
+    "epoch": 1.8508474576271188,
+    "cpu_mem": 2.799050752,
+    "gpu_mem": 1.604384768,
+    "loss": 0.6798,
+    "grad_norm": 1.3663150072097778,
+    "learning_rate": 4.659404732773908e-06
+  },
+  {
+    "step": 274,
+    "epoch": 1.8576271186440678,
+    "cpu_mem": 2.79924736,
+    "gpu_mem": 1.604612096,
+    "loss": 0.6787,
+    "grad_norm": 2.0080456733703613,
+    "learning_rate": 4.228264751468752e-06
+  },
+  {
+    "step": 275,
+    "epoch": 1.8644067796610169,
+    "cpu_mem": 2.799443968,
+    "gpu_mem": 1.60485632,
+    "loss": 0.6584,
+    "grad_norm": 7.9492573738098145,
+    "learning_rate": 3.817767165451041e-06
+  },
+  {
+    "step": 276,
+    "epoch": 1.8711864406779661,
+    "cpu_mem": 2.799837184,
+    "gpu_mem": 1.604516864,
+    "loss": 0.6679,
+    "grad_norm": 9.01130485534668,
+    "learning_rate": 3.4279701043260886e-06
+  },
+  {
+    "step": 277,
+    "epoch": 1.8779661016949154,
+    "cpu_mem": 2.800033792,
+    "gpu_mem": 1.604463104,
+    "loss": 0.6711,
+    "grad_norm": 5.367643356323242,
+    "learning_rate": 3.0589287663461472e-06
+  },
+  {
+    "step": 278,
+    "epoch": 1.8847457627118644,
+    "cpu_mem": 2.8002304,
+    "gpu_mem": 1.60462592,
+    "loss": 0.6726,
+    "grad_norm": 5.745750904083252,
+    "learning_rate": 2.710695410593994e-06
+  },
+  {
+    "step": 279,
+    "epoch": 1.8915254237288135,
+    "cpu_mem": 2.800427008,
+    "gpu_mem": 1.604566016,
+    "loss": 0.6705,
+    "grad_norm": 11.076176643371582,
+    "learning_rate": 2.3833193495825853e-06
+  },
+  {
+    "step": 280,
+    "epoch": 1.8983050847457628,
+    "cpu_mem": 2.800623616,
+    "gpu_mem": 1.604546048,
+    "loss": 0.6734,
+    "grad_norm": 4.151473522186279,
+    "learning_rate": 2.076846942272026e-06
+  },
+  {
+    "step": 281,
+    "epoch": 1.905084745762712,
+    "cpu_mem": 2.800623616,
+    "gpu_mem": 1.604481536,
+    "loss": 0.6599,
+    "grad_norm": 12.471253395080566,
+    "learning_rate": 1.791321587504768e-06
+  },
+  {
+    "step": 282,
+    "epoch": 1.911864406779661,
+    "cpu_mem": 2.800820224,
+    "gpu_mem": 1.60491008,
+    "loss": 0.6949,
+    "grad_norm": 4.582005977630615,
+    "learning_rate": 1.5267837178600972e-06
+  },
+  {
+    "step": 283,
+    "epoch": 1.9186440677966101,
+    "cpu_mem": 2.801016832,
+    "gpu_mem": 1.604616704,
+    "loss": 0.6688,
+    "grad_norm": 8.885772705078125,
+    "learning_rate": 1.2832707939284427e-06
+  },
+  {
+    "step": 284,
+    "epoch": 1.9254237288135592,
+    "cpu_mem": 2.80121344,
+    "gpu_mem": 1.60447232,
+    "loss": 0.6523,
+    "grad_norm": 10.084007263183594,
+    "learning_rate": 1.0608172990067553e-06
+  },
+  {
+    "step": 285,
+    "epoch": 1.9322033898305084,
+    "cpu_mem": 2.801410048,
+    "gpu_mem": 1.60452608,
+    "loss": 0.6893,
+    "grad_norm": 5.492788791656494,
+    "learning_rate": 8.594547342153979e-07
+  },
+  {
+    "step": 286,
+    "epoch": 1.9389830508474577,
+    "cpu_mem": 2.801606656,
+    "gpu_mem": 1.604943872,
+    "loss": 0.6488,
+    "grad_norm": 16.984107971191406,
+    "learning_rate": 6.792116140373116e-07
+  },
+  {
+    "step": 287,
+    "epoch": 1.9457627118644067,
+    "cpu_mem": 2.801606656,
+    "gpu_mem": 1.604713472,
+    "loss": 0.6994,
+    "grad_norm": 7.15690279006958,
+    "learning_rate": 5.201134622801473e-07
+  },
+  {
+    "step": 288,
+    "epoch": 1.9525423728813558,
+    "cpu_mem": 2.801803264,
+    "gpu_mem": 1.604498432,
+    "loss": 0.675,
+    "grad_norm": 2.7328405380249023,
+    "learning_rate": 3.821828084619727e-07
+  },
+  {
+    "step": 289,
+    "epoch": 1.959322033898305,
+    "cpu_mem": 2.801803264,
+    "gpu_mem": 1.604582912,
+    "loss": 0.6456,
+    "grad_norm": 16.189531326293945,
+    "learning_rate": 2.654391846207915e-07
+  },
+  {
+    "step": 290,
+    "epoch": 1.9661016949152543,
+    "cpu_mem": 2.801999872,
+    "gpu_mem": 1.604507648,
+    "loss": 0.6917,
+    "grad_norm": 2.199305295944214,
+    "learning_rate": 1.6989912254880556e-07
+  },
+  {
+    "step": 291,
+    "epoch": 1.9728813559322034,
+    "cpu_mem": 2.801999872,
+    "gpu_mem": 1.604542976,
+    "loss": 0.672,
+    "grad_norm": 2.269022226333618,
+    "learning_rate": 9.557615145123765e-08
+  },
+  {
+    "step": 292,
+    "epoch": 1.9796610169491524,
+    "cpu_mem": 2.80219648,
+    "gpu_mem": 1.60462592,
+    "loss": 0.6531,
+    "grad_norm": 14.249391555786133,
+    "learning_rate": 4.248079603064724e-08
+  },
+  {
+    "step": 293,
+    "epoch": 1.9864406779661017,
+    "cpu_mem": 2.80219648,
+    "gpu_mem": 1.604542976,
+    "loss": 0.69,
+    "grad_norm": 2.4922139644622803,
+    "learning_rate": 1.0620574996372811e-08
+  },
+  {
+    "step": 294,
+    "epoch": 1.993220338983051,
+    "cpu_mem": 2.802393088,
+    "gpu_mem": 1.604569088,
+    "loss": 0.6779,
+    "grad_norm": 0.5828369855880737,
+    "learning_rate": 0.0
+  },
+  {
+    "step": 294,
+    "epoch": 1.993220338983051,
+    "cpu_mem": 2.802393088,
+    "gpu_mem": 1.604569088,
+    "train_runtime": 4555.6589,
+    "train_samples_per_second": 4.139,
+    "train_steps_per_second": 0.065,
+    "total_flos": 0.0,
+    "train_loss": 0.8999996844197617
+  }
+]

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 2,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "hellaswag",
+    "results": 0.24736108344951205
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r2-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "HELLASWAG",
+    "dataset_id": "Rowan/hellaswag",
+    "preprocess_id": "hellaswag_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 2,
+    "alpha": 4,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 1307064
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 1,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-hellaswag-r2-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-hellaswag-r2-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T01:36:09.474463"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r2-a2/training_logs.json ADDED Viewed

The diff for this file is too large to render. See raw diff

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r32-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 64,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 32,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 32,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r32-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "hellaswag",
+    "results": 0.8578968333001394
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r32-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "HELLASWAG",
+    "dataset_id": "Rowan/hellaswag",
+    "preprocess_id": "hellaswag_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 32,
+    "alpha": 64,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 21018624
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 1,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-hellaswag-r32-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-hellaswag-r32-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T16:15:32.728244"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r32-a2/training_logs.json ADDED Viewed

The diff for this file is too large to render. See raw diff

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r8-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 16,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 8,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 8,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r8-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "hellaswag",
+    "results": 0.8189603664608643
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r8-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "HELLASWAG",
+    "dataset_id": "Rowan/hellaswag",
+    "preprocess_id": "hellaswag_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 8,
+    "alpha": 16,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 5233536
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 1,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-hellaswag-r8-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-hellaswag-r8-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T08:55:26.870790"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-hellaswag-r8-a2/training_logs.json ADDED Viewed

The diff for this file is too large to render. See raw diff

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 2,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "logiqa",
+    "results": 0.27081181574054947
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r2-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "LOGIQA",
+    "dataset_id": "data/logiqa_train",
+    "preprocess_id": "logiqa_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 2,
+    "alpha": 4,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 1307064
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 3,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-logiqa-r2-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-logiqa-r2-a2",
+  "seed": 42,
+  "timestamp": "2025-09-01T22:11:42.023189"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r2-a2/training_logs.json ADDED Viewed

The diff for this file is too large to render. See raw diff

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r8-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 16,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 8,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 8,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r8-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "logiqa",
+    "results": 0.429043586035943
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r8-a2/training_configuration.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "model_id": "TinyLlama/TinyLlama_v1.1",
+  "dataset": {
+    "name": "LOGIQA",
+    "dataset_id": "data/logiqa_train",
+    "preprocess_id": "logiqa_train_deepeval"
+  },
+  "peft_config": {
+    "method": "mars",
+    "rank": 8,
+    "alpha": 16,
+    "dropout": 0.0,
+    "bias": "none",
+    "target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj",
+      "o_proj",
+      "gate_proj",
+      "down_proj",
+      "up_proj"
+    ],
+    "trainable_parameter_count": 5233536
+  },
+  "training_config": {
+    "max_dataset_length": null,
+    "batch_size": 64,
+    "per_device_batch_size": 32,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.0003,
+    "num_epochs": 3,
+    "warmup_ratio": 0.1
+  },
+  "model_name": "TinyLlama_v1.1-mars-logiqa-r8-a2",
+  "output_dir": "./experiment_results/TinyLlama_v1.1-mars-opt3-q8/TinyLlama_v1.1-mars-logiqa-r8-a2",
+  "seed": 42,
+  "timestamp": "2025-09-02T05:31:47.306898"
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-logiqa-r8-a2/training_logs.json ADDED Viewed

The diff for this file is too large to render. See raw diff

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-winogrande-r2-a2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "alpha": 4,
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama_v1.1",
+  "bias": "none",
+  "enabled_mlp": true,
+  "enabled_qkv": [
+    "q",
+    "k",
+    "v"
+  ],
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "mixture": false,
+  "modules_to_preserve_errors": null,
+  "modules_to_quantize": null,
+  "modules_to_save": null,
+  "onnx_export": false,
+  "optimization_level": 3,
+  "orthogonal_init": false,
+  "peft_type": "MARS",
+  "quant_n_bits": 8,
+  "r": 2,
+  "revision": null,
+  "seed": 42,
+  "shared_r": 2,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": null,
+  "use_bnb": false
+}

TinyLlama_v1.1-mars-opt0-q8/TinyLlama_v1.1-mars-winogrande-r2-a2/eval_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "task": "winogrande",
+    "results": 0.5043409629044988
+}