Model save

Browse files

Files changed (5) hide show

README.md +66 -0
all_results.json +13 -0
eval_results.json +8 -0
train_results.json +8 -0
trainer_state.json +1088 -0

README.md ADDED Viewed

	@@ -0,0 +1,66 @@

+---
+license: apache-2.0
+base_model: mistralai/Mistral-7B-v0.1
+tags:
+- generated_from_trainer
+model-index:
+- name: mistral-convsearch-7b
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# mistral-convsearch-7b
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6596
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- gradient_accumulation_steps: 32
+- total_train_batch_size: 512
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- num_epochs: 5
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 0.9605        | 0.62  | 34   | 0.9471          |
+| 0.7935        | 1.62  | 68   | 0.7886          |
+| 0.7104        | 2.62  | 102  | 0.7083          |
+| 0.6798        | 3.62  | 136  | 0.6753          |
+| 0.6571        | 4.62  | 170  | 0.6582          |
+### Framework versions
+- Transformers 4.35.0
+- Pytorch 2.1.1+cu118
+- Datasets 2.14.6
+- Tokenizers 0.14.1

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 4.62,
+    "eval_loss": 0.6595966815948486,
+    "eval_runtime": 22.784,
+    "eval_samples": 200,
+    "eval_samples_per_second": 8.778,
+    "eval_steps_per_second": 0.571,
+    "train_loss": 0.8249162855393747,
+    "train_runtime": 52349.2428,
+    "train_samples": 27870,
+    "train_samples_per_second": 2.662,
+    "train_steps_per_second": 0.005
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.62,
+    "eval_loss": 0.6595966815948486,
+    "eval_runtime": 22.784,
+    "eval_samples": 200,
+    "eval_samples_per_second": 8.778,
+    "eval_steps_per_second": 0.571
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.62,
+    "train_loss": 0.8249162855393747,
+    "train_runtime": 52349.2428,
+    "train_samples": 27870,
+    "train_samples_per_second": 2.662,
+    "train_steps_per_second": 0.005
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1088 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.622273249138921,
+  "eval_steps": 500,
+  "global_step": 170,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.9999323080037623e-05,
+      "loss": 1.399,
+      "step": 1
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.999729241179462e-05,
+      "loss": 1.4014,
+      "step": 2
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.999390827019096e-05,
+      "loss": 1.3897,
+      "step": 3
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.998917111338525e-05,
+      "loss": 1.3771,
+      "step": 4
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.9983081582712684e-05,
+      "loss": 1.3699,
+      "step": 5
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.9975640502598243e-05,
+      "loss": 1.3372,
+      "step": 6
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.996684888044506e-05,
+      "loss": 1.3135,
+      "step": 7
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.9956707906498046e-05,
+      "loss": 1.2847,
+      "step": 8
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 1.9945218953682736e-05,
+      "loss": 1.2688,
+      "step": 9
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 1.9932383577419432e-05,
+      "loss": 1.256,
+      "step": 10
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9918203515412616e-05,
+      "loss": 1.238,
+      "step": 11
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1.9902680687415704e-05,
+      "loss": 1.2066,
+      "step": 12
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1.9885817194971116e-05,
+      "loss": 1.1979,
+      "step": 13
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 1.9867615321125796e-05,
+      "loss": 1.1685,
+      "step": 14
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 1.9848077530122083e-05,
+      "loss": 1.1574,
+      "step": 15
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.9827206467064133e-05,
+      "loss": 1.1427,
+      "step": 16
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.9805004957559795e-05,
+      "loss": 1.122,
+      "step": 17
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.9781476007338058e-05,
+      "loss": 1.1201,
+      "step": 18
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.9756622801842144e-05,
+      "loss": 1.0971,
+      "step": 19
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.973044870579824e-05,
+      "loss": 1.086,
+      "step": 20
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.9702957262759964e-05,
+      "loss": 1.0764,
+      "step": 21
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.967415219462864e-05,
+      "loss": 1.0692,
+      "step": 22
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1.964403740114939e-05,
+      "loss": 1.0525,
+      "step": 23
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 1.961261695938319e-05,
+      "loss": 1.0412,
+      "step": 24
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.957989512315489e-05,
+      "loss": 1.0329,
+      "step": 25
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.954587632247732e-05,
+      "loss": 1.023,
+      "step": 26
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 1.9510565162951538e-05,
+      "loss": 1.019,
+      "step": 27
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.9473966425143292e-05,
+      "loss": 1.0028,
+      "step": 28
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.9436085063935837e-05,
+      "loss": 0.9944,
+      "step": 29
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 1.9396926207859085e-05,
+      "loss": 0.9901,
+      "step": 30
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.9356495158395317e-05,
+      "loss": 0.9879,
+      "step": 31
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.9314797389261426e-05,
+      "loss": 0.9729,
+      "step": 32
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9271838545667876e-05,
+      "loss": 0.9611,
+      "step": 33
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.9227624443554425e-05,
+      "loss": 0.9605,
+      "step": 34
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 0.9471226930618286,
+      "eval_runtime": 24.0918,
+      "eval_samples_per_second": 8.302,
+      "eval_steps_per_second": 0.54,
+      "step": 34
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.9182161068802742e-05,
+      "loss": 0.9495,
+      "step": 35
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 1.913545457642601e-05,
+      "loss": 0.948,
+      "step": 36
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1.9087511289735646e-05,
+      "loss": 0.9363,
+      "step": 37
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.9038337699485207e-05,
+      "loss": 0.9356,
+      "step": 38
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1.8987940462991673e-05,
+      "loss": 0.9322,
+      "step": 39
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1.8936326403234125e-05,
+      "loss": 0.919,
+      "step": 40
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1.8883502507930044e-05,
+      "loss": 0.9141,
+      "step": 41
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.8829475928589272e-05,
+      "loss": 0.9057,
+      "step": 42
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.877425397954582e-05,
+      "loss": 0.8991,
+      "step": 43
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.8717844136967626e-05,
+      "loss": 0.8994,
+      "step": 44
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.866025403784439e-05,
+      "loss": 0.8916,
+      "step": 45
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.860149147895366e-05,
+      "loss": 0.8881,
+      "step": 46
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.854156441580526e-05,
+      "loss": 0.8798,
+      "step": 47
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.848048096156426e-05,
+      "loss": 0.8753,
+      "step": 48
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.8418249385952575e-05,
+      "loss": 0.8738,
+      "step": 49
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1.8354878114129368e-05,
+      "loss": 0.871,
+      "step": 50
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 0.8617,
+      "step": 51
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.8224750952806626e-05,
+      "loss": 0.8646,
+      "step": 52
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.8158012680441723e-05,
+      "loss": 0.8547,
+      "step": 53
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.8523,
+      "step": 54
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.802123192755044e-05,
+      "loss": 0.8425,
+      "step": 55
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.795120796494848e-05,
+      "loss": 0.8455,
+      "step": 56
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.788010753606722e-05,
+      "loss": 0.8367,
+      "step": 57
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.7807940266766595e-05,
+      "loss": 0.832,
+      "step": 58
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.7734715927339642e-05,
+      "loss": 0.828,
+      "step": 59
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 0.8302,
+      "step": 60
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.7585135833488692e-05,
+      "loss": 0.8194,
+      "step": 61
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.7508800329814993e-05,
+      "loss": 0.8123,
+      "step": 62
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 0.8113,
+      "step": 63
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.735309008059829e-05,
+      "loss": 0.813,
+      "step": 64
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.7273736415730488e-05,
+      "loss": 0.8104,
+      "step": 65
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.7193398003386514e-05,
+      "loss": 0.8008,
+      "step": 66
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1.711208572010137e-05,
+      "loss": 0.7963,
+      "step": 67
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1.702981057425662e-05,
+      "loss": 0.7935,
+      "step": 68
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 0.7886030077934265,
+      "eval_runtime": 23.1527,
+      "eval_samples_per_second": 8.638,
+      "eval_steps_per_second": 0.561,
+      "step": 68
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 0.7855,
+      "step": 69
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.686241637868734e-05,
+      "loss": 0.7851,
+      "step": 70
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 1.6777319991457325e-05,
+      "loss": 0.7832,
+      "step": 71
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 0.7768,
+      "step": 72
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.6604386239990077e-05,
+      "loss": 0.7786,
+      "step": 73
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 1.6516572288214555e-05,
+      "loss": 0.772,
+      "step": 74
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 1.6427876096865394e-05,
+      "loss": 0.7644,
+      "step": 75
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 1.63383096739871e-05,
+      "loss": 0.7616,
+      "step": 76
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 1.6247885145439602e-05,
+      "loss": 0.761,
+      "step": 77
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 0.7587,
+      "step": 78
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.6064510853988137e-05,
+      "loss": 0.7573,
+      "step": 79
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 1.5971585917027864e-05,
+      "loss": 0.7558,
+      "step": 80
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.7519,
+      "step": 81
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 1.5783323361679865e-05,
+      "loss": 0.7427,
+      "step": 82
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.568801123102852e-05,
+      "loss": 0.7504,
+      "step": 83
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.7435,
+      "step": 84
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 1.5495089780708062e-05,
+      "loss": 0.7417,
+      "step": 85
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 1.539750657951513e-05,
+      "loss": 0.7445,
+      "step": 86
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 0.7416,
+      "step": 87
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.5200161279292154e-05,
+      "loss": 0.7392,
+      "step": 88
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.5100425897656754e-05,
+      "loss": 0.7369,
+      "step": 89
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.7346,
+      "step": 90
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.4898897182380872e-05,
+      "loss": 0.7293,
+      "step": 91
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.4797131132502464e-05,
+      "loss": 0.726,
+      "step": 92
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 0.729,
+      "step": 93
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 1.4591664533870118e-05,
+      "loss": 0.7262,
+      "step": 94
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.4487991802004625e-05,
+      "loss": 0.7296,
+      "step": 95
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 0.7249,
+      "step": 96
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 1.4278837649416543e-05,
+      "loss": 0.7173,
+      "step": 97
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 1.417338454481818e-05,
+      "loss": 0.7206,
+      "step": 98
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 0.7233,
+      "step": 99
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 1.396079766039157e-05,
+      "loss": 0.72,
+      "step": 100
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.3853692661424485e-05,
+      "loss": 0.7152,
+      "step": 101
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 0.7104,
+      "step": 102
+    },
+    {
+      "epoch": 2.62,
+      "eval_loss": 0.7083348631858826,
+      "eval_runtime": 23.1348,
+      "eval_samples_per_second": 8.645,
+      "eval_steps_per_second": 0.562,
+      "step": 102
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 1.3637932049531517e-05,
+      "loss": 0.7093,
+      "step": 103
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 1.3529305647138689e-05,
+      "loss": 0.7102,
+      "step": 104
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 0.7093,
+      "step": 105
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.3310634178849583e-05,
+      "loss": 0.7063,
+      "step": 106
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 1.3200618717569716e-05,
+      "loss": 0.7098,
+      "step": 107
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.7039,
+      "step": 108
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 1.297930281038482e-05,
+      "loss": 0.702,
+      "step": 109
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 1.2868032327110904e-05,
+      "loss": 0.6992,
+      "step": 110
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 1.2756373558169992e-05,
+      "loss": 0.6958,
+      "step": 111
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 1.2644341620372025e-05,
+      "loss": 0.6987,
+      "step": 112
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 1.253195168104802e-05,
+      "loss": 0.6971,
+      "step": 113
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.7017,
+      "step": 114
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 1.2306158707424402e-05,
+      "loss": 0.6922,
+      "step": 115
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 1.2192786241879033e-05,
+      "loss": 0.6908,
+      "step": 116
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 0.6964,
+      "step": 117
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 1.1965166095328302e-05,
+      "loss": 0.6948,
+      "step": 118
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 1.1850949230447146e-05,
+      "loss": 0.6899,
+      "step": 119
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.6951,
+      "step": 120
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 1.1621779231055677e-05,
+      "loss": 0.6913,
+      "step": 121
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 1.1506857122494832e-05,
+      "loss": 0.69,
+      "step": 122
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 1.1391731009600655e-05,
+      "loss": 0.6901,
+      "step": 123
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 1.127641647860595e-05,
+      "loss": 0.6898,
+      "step": 124
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 1.1160929141252303e-05,
+      "loss": 0.6859,
+      "step": 125
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 1.1045284632676535e-05,
+      "loss": 0.686,
+      "step": 126
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 1.0929498609293925e-05,
+      "loss": 0.682,
+      "step": 127
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 1.0813586746678584e-05,
+      "loss": 0.6862,
+      "step": 128
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 1.0697564737441254e-05,
+      "loss": 0.687,
+      "step": 129
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 1.0581448289104759e-05,
+      "loss": 0.6805,
+      "step": 130
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 1.046525312197747e-05,
+      "loss": 0.679,
+      "step": 131
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 1.0348994967025012e-05,
+      "loss": 0.6851,
+      "step": 132
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 1.0232689563740563e-05,
+      "loss": 0.6884,
+      "step": 133
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 1.0116352658013973e-05,
+      "loss": 0.6786,
+      "step": 134
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 1e-05,
+      "loss": 0.6755,
+      "step": 135
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 9.883647341986032e-06,
+      "loss": 0.6798,
+      "step": 136
+    },
+    {
+      "epoch": 3.62,
+      "eval_loss": 0.6752661466598511,
+      "eval_runtime": 23.1352,
+      "eval_samples_per_second": 8.645,
+      "eval_steps_per_second": 0.562,
+      "step": 136
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 9.767310436259438e-06,
+      "loss": 0.6762,
+      "step": 137
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 9.651005032974994e-06,
+      "loss": 0.6758,
+      "step": 138
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 9.534746878022533e-06,
+      "loss": 0.6737,
+      "step": 139
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 9.418551710895243e-06,
+      "loss": 0.6783,
+      "step": 140
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 9.302435262558748e-06,
+      "loss": 0.6744,
+      "step": 141
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 9.18641325332142e-06,
+      "loss": 0.6722,
+      "step": 142
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 9.07050139070608e-06,
+      "loss": 0.6715,
+      "step": 143
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 8.954715367323468e-06,
+      "loss": 0.6696,
+      "step": 144
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 8.839070858747697e-06,
+      "loss": 0.666,
+      "step": 145
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 8.723583521394054e-06,
+      "loss": 0.6709,
+      "step": 146
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 8.60826899039935e-06,
+      "loss": 0.6739,
+      "step": 147
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 8.49314287750517e-06,
+      "loss": 0.6678,
+      "step": 148
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 8.378220768944328e-06,
+      "loss": 0.6628,
+      "step": 149
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 8.263518223330698e-06,
+      "loss": 0.6722,
+      "step": 150
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 8.149050769552856e-06,
+      "loss": 0.6669,
+      "step": 151
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 8.034833904671698e-06,
+      "loss": 0.6685,
+      "step": 152
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 7.92088309182241e-06,
+      "loss": 0.6648,
+      "step": 153
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 7.807213758120965e-06,
+      "loss": 0.6693,
+      "step": 154
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 7.6938412925756e-06,
+      "loss": 0.669,
+      "step": 155
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 7.580781044003324e-06,
+      "loss": 0.6664,
+      "step": 156
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 7.468048318951983e-06,
+      "loss": 0.6661,
+      "step": 157
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 7.355658379627981e-06,
+      "loss": 0.6661,
+      "step": 158
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 7.243626441830009e-06,
+      "loss": 0.6642,
+      "step": 159
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 7.131967672889101e-06,
+      "loss": 0.6648,
+      "step": 160
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 7.02069718961518e-06,
+      "loss": 0.6606,
+      "step": 161
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 6.909830056250527e-06,
+      "loss": 0.6613,
+      "step": 162
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 6.799381282430284e-06,
+      "loss": 0.668,
+      "step": 163
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 6.689365821150421e-06,
+      "loss": 0.6605,
+      "step": 164
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 6.579798566743314e-06,
+      "loss": 0.6632,
+      "step": 165
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 6.4706943528613135e-06,
+      "loss": 0.6587,
+      "step": 166
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 6.362067950468489e-06,
+      "loss": 0.666,
+      "step": 167
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 6.25393406584088e-06,
+      "loss": 0.6672,
+      "step": 168
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 6.146307338575519e-06,
+      "loss": 0.663,
+      "step": 169
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 6.039202339608432e-06,
+      "loss": 0.6571,
+      "step": 170
+    },
+    {
+      "epoch": 4.62,
+      "eval_loss": 0.6581608653068542,
+      "eval_runtime": 23.2031,
+      "eval_samples_per_second": 8.62,
+      "eval_steps_per_second": 0.56,
+      "step": 170
+    },
+    {
+      "epoch": 4.62,
+      "step": 170,
+      "total_flos": 3.168954324143309e+16,
+      "train_loss": 0.8249162855393747,
+      "train_runtime": 52349.2428,
+      "train_samples_per_second": 2.662,
+      "train_steps_per_second": 0.005
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 270,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 3.168954324143309e+16,
+  "trial_name": null,
+  "trial_params": null
+}