Padlex commited on Jul 1, 2023

Commit

3f70cd7

1 Parent(s): bf6f19e

Upload 30 files

Browse files

Files changed (30) hide show

adapter_config.json +19 -0
adapter_model.bin +3 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/pytorch_model.bin +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scaler.pt +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +12 -0
checkpoint-1000/tokenizer.model +3 -0
checkpoint-1000/tokenizer_config.json +33 -0
checkpoint-1000/trainer_state.json +632 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-500/optimizer.pt +3 -0
checkpoint-500/pytorch_model.bin +3 -0
checkpoint-500/rng_state.pth +3 -0
checkpoint-500/scaler.pt +3 -0
checkpoint-500/scheduler.pt +3 -0
checkpoint-500/special_tokens_map.json +12 -0
checkpoint-500/tokenizer.model +3 -0
checkpoint-500/tokenizer_config.json +33 -0
checkpoint-500/trainer_state.json +324 -0
checkpoint-500/training_args.bin +3 -0
finetune_args.json +27 -0
info.json +9 -0
runs/Jun27_17-42-45_04e3f719f875/1687887765.9930556/events.out.tfevents.1687887765.04e3f719f875.4175.1 +3 -0
runs/Jun27_17-42-45_04e3f719f875/events.out.tfevents.1687887765.04e3f719f875.4175.0 +3 -0
train_data_samples.json +0 -0
train_output.json +12 -0
trainer_args.json +115 -0
trainer_log_history.jsonl +107 -0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "base_model_name_or_path": "decapoda-research/llama-7b-hf",
+  "bias": "none",
+  "enable_lora": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "merge_weights": false,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64ff77e111d1f45fdc703693a5f15b246d40843847a42012084a0a93cfb8313b
+size 16822989

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78e180c5106dc4637c6e06bd3f6962dd7985c947741124c93fb60e3117950214
+size 33661637

checkpoint-1000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95f39502a58c7bb52c66dbd78964733626525e111f25b19157447678e4fd8489
+size 16822989

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4d3a419e3565914fb7d23e3a197bab0d29ab2c376b64718bd8d2652b6add445
+size 14575

checkpoint-1000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:636a1ea3193a7963286c6a67f3befe6fd39638b0c707fe4288acba215be4adc9
+size 557

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d631f2519aa4a7efbc127756b3d2412768d0d7f5c21107b521243789e389c0b2
+size 627

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,632 @@

+{
+  "best_metric": 0.50592440366745,
+  "best_model_checkpoint": "/content/My Drive/LLaMA-LoRA Tuner/lora_models/earthshine-nondecorative-2023-06-27-17-40-07/checkpoint-1000",
+  "epoch": 2.808988764044944,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.3999999999999997e-05,
+      "loss": 2.0693,
+      "step": 10
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 5.399999999999999e-05,
+      "loss": 1.9946,
+      "step": 20
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 8.1e-05,
+      "loss": 1.8837,
+      "step": 30
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00011099999999999999,
+      "loss": 1.6655,
+      "step": 40
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014099999999999998,
+      "loss": 1.6095,
+      "step": 50
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00017099999999999998,
+      "loss": 1.3838,
+      "step": 60
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000201,
+      "loss": 1.3548,
+      "step": 70
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00023099999999999998,
+      "loss": 1.0789,
+      "step": 80
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000261,
+      "loss": 1.0589,
+      "step": 90
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00029099999999999997,
+      "loss": 1.0259,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000299393063583815,
+      "loss": 0.9936,
+      "step": 110
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002985260115606936,
+      "loss": 0.9633,
+      "step": 120
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00029765895953757224,
+      "loss": 1.0018,
+      "step": 130
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002967919075144509,
+      "loss": 0.893,
+      "step": 140
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029592485549132945,
+      "loss": 0.8079,
+      "step": 150
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002950578034682081,
+      "loss": 0.8668,
+      "step": 160
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00029419075144508666,
+      "loss": 0.773,
+      "step": 170
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002933236994219653,
+      "loss": 0.8139,
+      "step": 180
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002924566473988439,
+      "loss": 0.9139,
+      "step": 190
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002915895953757225,
+      "loss": 0.7371,
+      "step": 200
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002907225433526011,
+      "loss": 0.8604,
+      "step": 210
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0002898554913294797,
+      "loss": 0.8597,
+      "step": 220
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002889884393063584,
+      "loss": 0.7954,
+      "step": 230
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00028812138728323696,
+      "loss": 0.7559,
+      "step": 240
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002872543352601156,
+      "loss": 0.8488,
+      "step": 250
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00028638728323699417,
+      "loss": 0.7252,
+      "step": 260
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002855202312138728,
+      "loss": 0.6751,
+      "step": 270
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00028465317919075143,
+      "loss": 0.7852,
+      "step": 280
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00028378612716763,
+      "loss": 0.7843,
+      "step": 290
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00028291907514450864,
+      "loss": 0.7886,
+      "step": 300
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00028205202312138727,
+      "loss": 0.7218,
+      "step": 310
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002811849710982659,
+      "loss": 0.7919,
+      "step": 320
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002803179190751445,
+      "loss": 0.7248,
+      "step": 330
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002794508670520231,
+      "loss": 0.7699,
+      "step": 340
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00027858381502890174,
+      "loss": 0.6909,
+      "step": 350
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0002777167630057803,
+      "loss": 0.6992,
+      "step": 360
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00027684971098265894,
+      "loss": 0.6747,
+      "step": 370
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0002759826589595375,
+      "loss": 0.672,
+      "step": 380
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0002751156069364162,
+      "loss": 0.5997,
+      "step": 390
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0002742485549132948,
+      "loss": 0.747,
+      "step": 400
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0002733815028901734,
+      "loss": 0.7217,
+      "step": 410
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.000272514450867052,
+      "loss": 0.683,
+      "step": 420
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0002716473988439306,
+      "loss": 0.63,
+      "step": 430
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00027078034682080925,
+      "loss": 0.6889,
+      "step": 440
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0002699132947976878,
+      "loss": 0.6582,
+      "step": 450
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00026904624277456645,
+      "loss": 0.6366,
+      "step": 460
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00026817919075144503,
+      "loss": 0.7249,
+      "step": 470
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0002673121387283237,
+      "loss": 0.53,
+      "step": 480
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0002664450867052023,
+      "loss": 0.6172,
+      "step": 490
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0002655780346820809,
+      "loss": 0.6033,
+      "step": 500
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.5882205367088318,
+      "eval_runtime": 14.2208,
+      "eval_samples_per_second": 3.516,
+      "eval_steps_per_second": 0.492,
+      "step": 500
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0002647109826589595,
+      "loss": 0.7452,
+      "step": 510
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00026384393063583813,
+      "loss": 0.6689,
+      "step": 520
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00026297687861271676,
+      "loss": 0.6339,
+      "step": 530
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00026210982658959533,
+      "loss": 0.6538,
+      "step": 540
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00026124277456647397,
+      "loss": 0.6864,
+      "step": 550
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0002603757225433526,
+      "loss": 0.6466,
+      "step": 560
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00025950867052023117,
+      "loss": 0.6186,
+      "step": 570
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0002586416184971098,
+      "loss": 0.6872,
+      "step": 580
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00025777456647398843,
+      "loss": 0.7206,
+      "step": 590
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.000256907514450867,
+      "loss": 0.5848,
+      "step": 600
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00025604046242774564,
+      "loss": 0.711,
+      "step": 610
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00025517341040462427,
+      "loss": 0.628,
+      "step": 620
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00025430635838150285,
+      "loss": 0.7035,
+      "step": 630
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0002534393063583815,
+      "loss": 0.5965,
+      "step": 640
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0002525722543352601,
+      "loss": 0.6486,
+      "step": 650
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0002517052023121387,
+      "loss": 0.6264,
+      "step": 660
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0002508381502890173,
+      "loss": 0.6469,
+      "step": 670
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00024997109826589595,
+      "loss": 0.61,
+      "step": 680
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002491040462427746,
+      "loss": 0.6664,
+      "step": 690
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00024823699421965315,
+      "loss": 0.5312,
+      "step": 700
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0002473699421965318,
+      "loss": 0.4703,
+      "step": 710
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00024650289017341036,
+      "loss": 0.535,
+      "step": 720
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.000245635838150289,
+      "loss": 0.6568,
+      "step": 730
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0002447687861271676,
+      "loss": 0.6303,
+      "step": 740
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.00024390173410404622,
+      "loss": 0.4911,
+      "step": 750
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.00024303468208092483,
+      "loss": 0.5043,
+      "step": 760
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.00024216763005780346,
+      "loss": 0.5248,
+      "step": 770
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.00024130057803468206,
+      "loss": 0.6274,
+      "step": 780
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.00024043352601156066,
+      "loss": 0.5617,
+      "step": 790
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.00023956647398843927,
+      "loss": 0.5978,
+      "step": 800
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.00023869942196531787,
+      "loss": 0.6027,
+      "step": 810
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.00023783236994219653,
+      "loss": 0.5925,
+      "step": 820
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.00023696531791907513,
+      "loss": 0.593,
+      "step": 830
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.00023609826589595373,
+      "loss": 0.6181,
+      "step": 840
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00023523121387283234,
+      "loss": 0.4752,
+      "step": 850
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.00023436416184971097,
+      "loss": 0.655,
+      "step": 860
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00023349710982658957,
+      "loss": 0.5577,
+      "step": 870
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.00023263005780346818,
+      "loss": 0.6132,
+      "step": 880
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.00023176300578034678,
+      "loss": 0.5003,
+      "step": 890
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00023089595375722544,
+      "loss": 0.5323,
+      "step": 900
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.00023002890173410404,
+      "loss": 0.5908,
+      "step": 910
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.00022916184971098264,
+      "loss": 0.5911,
+      "step": 920
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00022829479768786125,
+      "loss": 0.565,
+      "step": 930
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00022742774566473988,
+      "loss": 0.5789,
+      "step": 940
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.00022656069364161848,
+      "loss": 0.5242,
+      "step": 950
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.00022569364161849708,
+      "loss": 0.5082,
+      "step": 960
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.0002248265895953757,
+      "loss": 0.5184,
+      "step": 970
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.0002239595375722543,
+      "loss": 0.6131,
+      "step": 980
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.00022309248554913295,
+      "loss": 0.5129,
+      "step": 990
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.00022222543352601155,
+      "loss": 0.6016,
+      "step": 1000
+    },
+    {
+      "epoch": 2.81,
+      "eval_loss": 0.50592440366745,
+      "eval_runtime": 14.2225,
+      "eval_samples_per_second": 3.516,
+      "eval_steps_per_second": 0.492,
+      "step": 1000
+    }
+  ],
+  "max_steps": 3560,
+  "num_train_epochs": 10,
+  "total_flos": 2.1070675154141184e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:192bb8c013ae662fb0d4863dbc3254df0fbc2d1dc1eda37c4f9a2ac04b123a99
+size 3771

checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa46925987f162d4d15ec6a1a7894299219eeb165ab66207453775a0e251a2ea
+size 33661637

checkpoint-500/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:661bba0eef7d213a66caca9ed4d6c3a10d5ac4f849ec6fd0d298602f4fc52a71
+size 16822989

checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80374c523339cbada5653606c3f391bc8649fd8866d5fea9a3587097101c165c
+size 14575

checkpoint-500/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0d73e960e0c59a3ccac82210aaa3abcd9e00f7d9ab5c7ba39ef8751e5c0ee4b
+size 557

checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5c26271f5f8a5d30d9a855ee399a8c85768b7490a42865ed931b650844878c5
+size 627

checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-500/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,324 @@

+{
+  "best_metric": 0.5882205367088318,
+  "best_model_checkpoint": "/content/My Drive/LLaMA-LoRA Tuner/lora_models/earthshine-nondecorative-2023-06-27-17-40-07/checkpoint-500",
+  "epoch": 1.404494382022472,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.3999999999999997e-05,
+      "loss": 2.0693,
+      "step": 10
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 5.399999999999999e-05,
+      "loss": 1.9946,
+      "step": 20
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 8.1e-05,
+      "loss": 1.8837,
+      "step": 30
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00011099999999999999,
+      "loss": 1.6655,
+      "step": 40
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014099999999999998,
+      "loss": 1.6095,
+      "step": 50
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00017099999999999998,
+      "loss": 1.3838,
+      "step": 60
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000201,
+      "loss": 1.3548,
+      "step": 70
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00023099999999999998,
+      "loss": 1.0789,
+      "step": 80
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000261,
+      "loss": 1.0589,
+      "step": 90
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00029099999999999997,
+      "loss": 1.0259,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000299393063583815,
+      "loss": 0.9936,
+      "step": 110
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002985260115606936,
+      "loss": 0.9633,
+      "step": 120
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00029765895953757224,
+      "loss": 1.0018,
+      "step": 130
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002967919075144509,
+      "loss": 0.893,
+      "step": 140
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029592485549132945,
+      "loss": 0.8079,
+      "step": 150
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002950578034682081,
+      "loss": 0.8668,
+      "step": 160
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00029419075144508666,
+      "loss": 0.773,
+      "step": 170
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002933236994219653,
+      "loss": 0.8139,
+      "step": 180
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002924566473988439,
+      "loss": 0.9139,
+      "step": 190
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002915895953757225,
+      "loss": 0.7371,
+      "step": 200
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002907225433526011,
+      "loss": 0.8604,
+      "step": 210
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0002898554913294797,
+      "loss": 0.8597,
+      "step": 220
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002889884393063584,
+      "loss": 0.7954,
+      "step": 230
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00028812138728323696,
+      "loss": 0.7559,
+      "step": 240
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002872543352601156,
+      "loss": 0.8488,
+      "step": 250
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00028638728323699417,
+      "loss": 0.7252,
+      "step": 260
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002855202312138728,
+      "loss": 0.6751,
+      "step": 270
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00028465317919075143,
+      "loss": 0.7852,
+      "step": 280
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00028378612716763,
+      "loss": 0.7843,
+      "step": 290
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00028291907514450864,
+      "loss": 0.7886,
+      "step": 300
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00028205202312138727,
+      "loss": 0.7218,
+      "step": 310
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002811849710982659,
+      "loss": 0.7919,
+      "step": 320
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002803179190751445,
+      "loss": 0.7248,
+      "step": 330
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002794508670520231,
+      "loss": 0.7699,
+      "step": 340
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00027858381502890174,
+      "loss": 0.6909,
+      "step": 350
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0002777167630057803,
+      "loss": 0.6992,
+      "step": 360
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00027684971098265894,
+      "loss": 0.6747,
+      "step": 370
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0002759826589595375,
+      "loss": 0.672,
+      "step": 380
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0002751156069364162,
+      "loss": 0.5997,
+      "step": 390
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0002742485549132948,
+      "loss": 0.747,
+      "step": 400
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0002733815028901734,
+      "loss": 0.7217,
+      "step": 410
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.000272514450867052,
+      "loss": 0.683,
+      "step": 420
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0002716473988439306,
+      "loss": 0.63,
+      "step": 430
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00027078034682080925,
+      "loss": 0.6889,
+      "step": 440
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0002699132947976878,
+      "loss": 0.6582,
+      "step": 450
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00026904624277456645,
+      "loss": 0.6366,
+      "step": 460
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00026817919075144503,
+      "loss": 0.7249,
+      "step": 470
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0002673121387283237,
+      "loss": 0.53,
+      "step": 480
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0002664450867052023,
+      "loss": 0.6172,
+      "step": 490
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0002655780346820809,
+      "loss": 0.6033,
+      "step": 500
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.5882205367088318,
+      "eval_runtime": 14.2208,
+      "eval_samples_per_second": 3.516,
+      "eval_steps_per_second": 0.492,
+      "step": 500
+    }
+  ],
+  "max_steps": 3560,
+  "num_train_epochs": 10,
+  "total_flos": 1.0535163032469504e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:192bb8c013ae662fb0d4863dbc3254df0fbc2d1dc1eda37c4f9a2ac04b123a99
+size 3771

finetune_args.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "micro_batch_size": 4,
+  "gradient_accumulation_steps": 1,
+  "num_train_epochs": 10,
+  "learning_rate": 0.0003,
+  "cutoff_len": 2048,
+  "val_set_size": 50,
+  "lora_r": 8,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "lora_target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "lora_modules_to_save": [],
+  "train_on_inputs": true,
+  "group_by_length": false,
+  "load_in_8bit": true,
+  "fp16": true,
+  "bf16": false,
+  "gradient_checkpointing": false,
+  "save_steps": 500,
+  "save_total_limit": 5,
+  "logging_steps": 10,
+  "additional_training_arguments": null,
+  "additional_lora_config": null
+}

info.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "base_model": "decapoda-research/llama-7b-hf",
+  "prompt_template": "alpaca",
+  "dataset_name": "N/A (from text input)",
+  "dataset_rows": 1473,
+  "trained_on_machine": "04e3f719f875",
+  "timestamp": 1687887738.143719,
+  "tuner_version": "f4254216"
+}

runs/Jun27_17-42-45_04e3f719f875/1687887765.9930556/events.out.tfevents.1687887765.04e3f719f875.4175.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59cd0c7b15630c24e21d8875a07f94feb3f09a7c7a2dce48987feb914d9c2def
+size 6109

runs/Jun27_17-42-45_04e3f719f875/events.out.tfevents.1687887765.04e3f719f875.4175.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8cfa583b47c9b31f7c856b7919355df0e4cab0434410bbec2a99ea8d839cd53
+size 21356

train_data_samples.json ADDED Viewed

The diff for this file is too large to render. See raw diff

train_output.json ADDED Viewed

	@@ -0,0 +1,12 @@

+[
+  1041,
+  0.7449809693580173,
+  {
+    "train_runtime": 3194.7197,
+    "train_samples_per_second": 4.454,
+    "train_steps_per_second": 1.114,
+    "total_flos": 2.2017658953498624e+17,
+    "train_loss": 0.7449809693580173,
+    "epoch": 2.92
+  }
+]

trainer_args.json ADDED Viewed

	@@ -0,0 +1,115 @@

+{
+  "output_dir": "/content/My Drive/LLaMA-LoRA Tuner/lora_models/earthshine-nondecorative-2023-06-27-17-40-07",
+  "overwrite_output_dir": false,
+  "do_train": false,
+  "do_eval": true,
+  "do_predict": false,
+  "evaluation_strategy": "steps",
+  "prediction_loss_only": false,
+  "per_device_train_batch_size": 4,
+  "per_device_eval_batch_size": 8,
+  "per_gpu_train_batch_size": null,
+  "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 1,
+  "eval_accumulation_steps": null,
+  "eval_delay": 0,
+  "learning_rate": 0.0003,
+  "weight_decay": 0.0,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.999,
+  "adam_epsilon": 1e-08,
+  "max_grad_norm": 1.0,
+  "num_train_epochs": 10,
+  "max_steps": -1,
+  "lr_scheduler_type": "linear",
+  "warmup_ratio": 0.0,
+  "warmup_steps": 100,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "log_on_each_node": true,
+  "logging_dir": "/content/My Drive/LLaMA-LoRA Tuner/lora_models/earthshine-nondecorative-2023-06-27-17-40-07/runs/Jun27_17-42-45_04e3f719f875",
+  "logging_strategy": "steps",
+  "logging_first_step": false,
+  "logging_steps": 10,
+  "logging_nan_inf_filter": true,
+  "save_strategy": "steps",
+  "save_steps": 500,
+  "save_total_limit": 5,
+  "save_safetensors": false,
+  "save_on_each_node": false,
+  "no_cuda": false,
+  "use_mps_device": false,
+  "seed": 42,
+  "data_seed": null,
+  "jit_mode_eval": false,
+  "use_ipex": false,
+  "bf16": false,
+  "fp16": true,
+  "fp16_opt_level": "O1",
+  "half_precision_backend": "cuda_amp",
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "local_rank": -1,
+  "xpu_backend": null,
+  "tpu_num_cores": null,
+  "tpu_metrics_debug": false,
+  "debug": [],
+  "dataloader_drop_last": false,
+  "eval_steps": 500,
+  "dataloader_num_workers": 0,
+  "past_index": -1,
+  "run_name": "/content/My Drive/LLaMA-LoRA Tuner/lora_models/earthshine-nondecorative-2023-06-27-17-40-07",
+  "disable_tqdm": false,
+  "remove_unused_columns": true,
+  "label_names": null,
+  "load_best_model_at_end": true,
+  "metric_for_best_model": "loss",
+  "greater_is_better": false,
+  "ignore_data_skip": false,
+  "sharded_ddp": [],
+  "fsdp": [],
+  "fsdp_min_num_params": 0,
+  "fsdp_config": {
+    "fsdp_min_num_params": 0,
+    "xla": false,
+    "xla_fsdp_grad_ckpt": false
+  },
+  "fsdp_transformer_layer_cls_to_wrap": null,
+  "deepspeed": null,
+  "label_smoothing_factor": 0.0,
+  "optim": "adamw_torch",
+  "optim_args": null,
+  "adafactor": false,
+  "group_by_length": false,
+  "length_column_name": "length",
+  "report_to": [
+    "tensorboard"
+  ],
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "dataloader_pin_memory": true,
+  "skip_memory_metrics": true,
+  "use_legacy_prediction_loop": false,
+  "push_to_hub": false,
+  "resume_from_checkpoint": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_token": "<HUB_TOKEN>",
+  "hub_private_repo": false,
+  "gradient_checkpointing": false,
+  "include_inputs_for_metrics": false,
+  "fp16_backend": "auto",
+  "push_to_hub_model_id": null,
+  "push_to_hub_organization": null,
+  "push_to_hub_token": "<PUSH_TO_HUB_TOKEN>",
+  "mp_parameters": "",
+  "auto_find_batch_size": false,
+  "full_determinism": false,
+  "torchdynamo": null,
+  "ray_scope": "last",
+  "ddp_timeout": 1800,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null
+}

trainer_log_history.jsonl ADDED Viewed

	@@ -0,0 +1,107 @@

+{"loss": 2.0693, "learning_rate": 2.3999999999999997e-05, "epoch": 0.03, "step": 10}
+{"loss": 1.9946, "learning_rate": 5.399999999999999e-05, "epoch": 0.06, "step": 20}
+{"loss": 1.8837, "learning_rate": 8.1e-05, "epoch": 0.08, "step": 30}
+{"loss": 1.6655, "learning_rate": 0.00011099999999999999, "epoch": 0.11, "step": 40}
+{"loss": 1.6095, "learning_rate": 0.00014099999999999998, "epoch": 0.14, "step": 50}
+{"loss": 1.3838, "learning_rate": 0.00017099999999999998, "epoch": 0.17, "step": 60}
+{"loss": 1.3548, "learning_rate": 0.000201, "epoch": 0.2, "step": 70}
+{"loss": 1.0789, "learning_rate": 0.00023099999999999998, "epoch": 0.22, "step": 80}
+{"loss": 1.0589, "learning_rate": 0.000261, "epoch": 0.25, "step": 90}
+{"loss": 1.0259, "learning_rate": 0.00029099999999999997, "epoch": 0.28, "step": 100}
+{"loss": 0.9936, "learning_rate": 0.000299393063583815, "epoch": 0.31, "step": 110}
+{"loss": 0.9633, "learning_rate": 0.0002985260115606936, "epoch": 0.34, "step": 120}
+{"loss": 1.0018, "learning_rate": 0.00029765895953757224, "epoch": 0.37, "step": 130}
+{"loss": 0.893, "learning_rate": 0.0002967919075144509, "epoch": 0.39, "step": 140}
+{"loss": 0.8079, "learning_rate": 0.00029592485549132945, "epoch": 0.42, "step": 150}
+{"loss": 0.8668, "learning_rate": 0.0002950578034682081, "epoch": 0.45, "step": 160}
+{"loss": 0.773, "learning_rate": 0.00029419075144508666, "epoch": 0.48, "step": 170}
+{"loss": 0.8139, "learning_rate": 0.0002933236994219653, "epoch": 0.51, "step": 180}
+{"loss": 0.9139, "learning_rate": 0.0002924566473988439, "epoch": 0.53, "step": 190}
+{"loss": 0.7371, "learning_rate": 0.0002915895953757225, "epoch": 0.56, "step": 200}
+{"loss": 0.8604, "learning_rate": 0.0002907225433526011, "epoch": 0.59, "step": 210}
+{"loss": 0.8597, "learning_rate": 0.0002898554913294797, "epoch": 0.62, "step": 220}
+{"loss": 0.7954, "learning_rate": 0.0002889884393063584, "epoch": 0.65, "step": 230}
+{"loss": 0.7559, "learning_rate": 0.00028812138728323696, "epoch": 0.67, "step": 240}
+{"loss": 0.8488, "learning_rate": 0.0002872543352601156, "epoch": 0.7, "step": 250}
+{"loss": 0.7252, "learning_rate": 0.00028638728323699417, "epoch": 0.73, "step": 260}
+{"loss": 0.6751, "learning_rate": 0.0002855202312138728, "epoch": 0.76, "step": 270}
+{"loss": 0.7852, "learning_rate": 0.00028465317919075143, "epoch": 0.79, "step": 280}
+{"loss": 0.7843, "learning_rate": 0.00028378612716763, "epoch": 0.81, "step": 290}
+{"loss": 0.7886, "learning_rate": 0.00028291907514450864, "epoch": 0.84, "step": 300}
+{"loss": 0.7218, "learning_rate": 0.00028205202312138727, "epoch": 0.87, "step": 310}
+{"loss": 0.7919, "learning_rate": 0.0002811849710982659, "epoch": 0.9, "step": 320}
+{"loss": 0.7248, "learning_rate": 0.0002803179190751445, "epoch": 0.93, "step": 330}
+{"loss": 0.7699, "learning_rate": 0.0002794508670520231, "epoch": 0.96, "step": 340}
+{"loss": 0.6909, "learning_rate": 0.00027858381502890174, "epoch": 0.98, "step": 350}
+{"loss": 0.6992, "learning_rate": 0.0002777167630057803, "epoch": 1.01, "step": 360}
+{"loss": 0.6747, "learning_rate": 0.00027684971098265894, "epoch": 1.04, "step": 370}
+{"loss": 0.672, "learning_rate": 0.0002759826589595375, "epoch": 1.07, "step": 380}
+{"loss": 0.5997, "learning_rate": 0.0002751156069364162, "epoch": 1.1, "step": 390}
+{"loss": 0.747, "learning_rate": 0.0002742485549132948, "epoch": 1.12, "step": 400}
+{"loss": 0.7217, "learning_rate": 0.0002733815028901734, "epoch": 1.15, "step": 410}
+{"loss": 0.683, "learning_rate": 0.000272514450867052, "epoch": 1.18, "step": 420}
+{"loss": 0.63, "learning_rate": 0.0002716473988439306, "epoch": 1.21, "step": 430}
+{"loss": 0.6889, "learning_rate": 0.00027078034682080925, "epoch": 1.24, "step": 440}
+{"loss": 0.6582, "learning_rate": 0.0002699132947976878, "epoch": 1.26, "step": 450}
+{"loss": 0.6366, "learning_rate": 0.00026904624277456645, "epoch": 1.29, "step": 460}
+{"loss": 0.7249, "learning_rate": 0.00026817919075144503, "epoch": 1.32, "step": 470}
+{"loss": 0.53, "learning_rate": 0.0002673121387283237, "epoch": 1.35, "step": 480}
+{"loss": 0.6172, "learning_rate": 0.0002664450867052023, "epoch": 1.38, "step": 490}
+{"loss": 0.6033, "learning_rate": 0.0002655780346820809, "epoch": 1.4, "step": 500}
+{"eval_loss": 0.5882205367088318, "eval_runtime": 14.2208, "eval_samples_per_second": 3.516, "eval_steps_per_second": 0.492, "epoch": 1.4, "step": 500}
+{"loss": 0.7452, "learning_rate": 0.0002647109826589595, "epoch": 1.43, "step": 510}
+{"loss": 0.6689, "learning_rate": 0.00026384393063583813, "epoch": 1.46, "step": 520}
+{"loss": 0.6339, "learning_rate": 0.00026297687861271676, "epoch": 1.49, "step": 530}
+{"loss": 0.6538, "learning_rate": 0.00026210982658959533, "epoch": 1.52, "step": 540}
+{"loss": 0.6864, "learning_rate": 0.00026124277456647397, "epoch": 1.54, "step": 550}
+{"loss": 0.6466, "learning_rate": 0.0002603757225433526, "epoch": 1.57, "step": 560}
+{"loss": 0.6186, "learning_rate": 0.00025950867052023117, "epoch": 1.6, "step": 570}
+{"loss": 0.6872, "learning_rate": 0.0002586416184971098, "epoch": 1.63, "step": 580}
+{"loss": 0.7206, "learning_rate": 0.00025777456647398843, "epoch": 1.66, "step": 590}
+{"loss": 0.5848, "learning_rate": 0.000256907514450867, "epoch": 1.69, "step": 600}
+{"loss": 0.711, "learning_rate": 0.00025604046242774564, "epoch": 1.71, "step": 610}
+{"loss": 0.628, "learning_rate": 0.00025517341040462427, "epoch": 1.74, "step": 620}
+{"loss": 0.7035, "learning_rate": 0.00025430635838150285, "epoch": 1.77, "step": 630}
+{"loss": 0.5965, "learning_rate": 0.0002534393063583815, "epoch": 1.8, "step": 640}
+{"loss": 0.6486, "learning_rate": 0.0002525722543352601, "epoch": 1.83, "step": 650}
+{"loss": 0.6264, "learning_rate": 0.0002517052023121387, "epoch": 1.85, "step": 660}
+{"loss": 0.6469, "learning_rate": 0.0002508381502890173, "epoch": 1.88, "step": 670}
+{"loss": 0.61, "learning_rate": 0.00024997109826589595, "epoch": 1.91, "step": 680}
+{"loss": 0.6664, "learning_rate": 0.0002491040462427746, "epoch": 1.94, "step": 690}
+{"loss": 0.5312, "learning_rate": 0.00024823699421965315, "epoch": 1.97, "step": 700}
+{"loss": 0.4703, "learning_rate": 0.0002473699421965318, "epoch": 1.99, "step": 710}
+{"loss": 0.535, "learning_rate": 0.00024650289017341036, "epoch": 2.02, "step": 720}
+{"loss": 0.6568, "learning_rate": 0.000245635838150289, "epoch": 2.05, "step": 730}
+{"loss": 0.6303, "learning_rate": 0.0002447687861271676, "epoch": 2.08, "step": 740}
+{"loss": 0.4911, "learning_rate": 0.00024390173410404622, "epoch": 2.11, "step": 750}
+{"loss": 0.5043, "learning_rate": 0.00024303468208092483, "epoch": 2.13, "step": 760}
+{"loss": 0.5248, "learning_rate": 0.00024216763005780346, "epoch": 2.16, "step": 770}
+{"loss": 0.6274, "learning_rate": 0.00024130057803468206, "epoch": 2.19, "step": 780}
+{"loss": 0.5617, "learning_rate": 0.00024043352601156066, "epoch": 2.22, "step": 790}
+{"loss": 0.5978, "learning_rate": 0.00023956647398843927, "epoch": 2.25, "step": 800}
+{"loss": 0.6027, "learning_rate": 0.00023869942196531787, "epoch": 2.28, "step": 810}
+{"loss": 0.5925, "learning_rate": 0.00023783236994219653, "epoch": 2.3, "step": 820}
+{"loss": 0.593, "learning_rate": 0.00023696531791907513, "epoch": 2.33, "step": 830}
+{"loss": 0.6181, "learning_rate": 0.00023609826589595373, "epoch": 2.36, "step": 840}
+{"loss": 0.4752, "learning_rate": 0.00023523121387283234, "epoch": 2.39, "step": 850}
+{"loss": 0.655, "learning_rate": 0.00023436416184971097, "epoch": 2.42, "step": 860}
+{"loss": 0.5577, "learning_rate": 0.00023349710982658957, "epoch": 2.44, "step": 870}
+{"loss": 0.6132, "learning_rate": 0.00023263005780346818, "epoch": 2.47, "step": 880}
+{"loss": 0.5003, "learning_rate": 0.00023176300578034678, "epoch": 2.5, "step": 890}
+{"loss": 0.5323, "learning_rate": 0.00023089595375722544, "epoch": 2.53, "step": 900}
+{"loss": 0.5908, "learning_rate": 0.00023002890173410404, "epoch": 2.56, "step": 910}
+{"loss": 0.5911, "learning_rate": 0.00022916184971098264, "epoch": 2.58, "step": 920}
+{"loss": 0.565, "learning_rate": 0.00022829479768786125, "epoch": 2.61, "step": 930}
+{"loss": 0.5789, "learning_rate": 0.00022742774566473988, "epoch": 2.64, "step": 940}
+{"loss": 0.5242, "learning_rate": 0.00022656069364161848, "epoch": 2.67, "step": 950}
+{"loss": 0.5082, "learning_rate": 0.00022569364161849708, "epoch": 2.7, "step": 960}
+{"loss": 0.5184, "learning_rate": 0.0002248265895953757, "epoch": 2.72, "step": 970}
+{"loss": 0.6131, "learning_rate": 0.0002239595375722543, "epoch": 2.75, "step": 980}
+{"loss": 0.5129, "learning_rate": 0.00022309248554913295, "epoch": 2.78, "step": 990}
+{"loss": 0.6016, "learning_rate": 0.00022222543352601155, "epoch": 2.81, "step": 1000}
+{"eval_loss": 0.50592440366745, "eval_runtime": 14.2225, "eval_samples_per_second": 3.516, "eval_steps_per_second": 0.492, "epoch": 2.81, "step": 1000}
+{"loss": 0.5728, "learning_rate": 0.00022135838150289016, "epoch": 2.84, "step": 1010}
+{"loss": 0.5155, "learning_rate": 0.00022049132947976876, "epoch": 2.87, "step": 1020}
+{"loss": 0.5522, "learning_rate": 0.0002196242774566474, "epoch": 2.89, "step": 1030}
+{"loss": 0.5176, "learning_rate": 0.000218757225433526, "epoch": 2.92, "step": 1040}
+{"train_runtime": 3194.7197, "train_samples_per_second": 4.454, "train_steps_per_second": 1.114, "total_flos": 2.2017658953498624e+17, "train_loss": 0.7449809693580173, "epoch": 2.92, "step": 1041}