Delete train-with-indication-removed-history-quantized-4-default

Browse files

Files changed (6) hide show

train-with-indication-removed-history-quantized-4-default/README.md +0 -202
train-with-indication-removed-history-quantized-4-default/adapter_config.json +0 -34
train-with-indication-removed-history-quantized-4-default/adapter_model.safetensors +0 -3
train-with-indication-removed-history-quantized-4-default/config.json +0 -66
train-with-indication-removed-history-quantized-4-default/non_lora_trainables.bin +0 -3
train-with-indication-removed-history-quantized-4-default/trainer_state.json +0 -1902

train-with-indication-removed-history-quantized-4-default/README.md DELETED Viewed

@@ -1,202 +0,0 @@
----
-base_model: microsoft/llava-med-v1.5-mistral-7b
-library_name: peft
----
-# Model Card for Model ID
-<!-- Provide a quick summary of what the model is/does. -->
-## Model Details
-### Model Description
-<!-- Provide a longer summary of what this model is. -->
-- **Developed by:** [More Information Needed]
-- **Funded by [optional]:** [More Information Needed]
-- **Shared by [optional]:** [More Information Needed]
-- **Model type:** [More Information Needed]
-- **Language(s) (NLP):** [More Information Needed]
-- **License:** [More Information Needed]
-- **Finetuned from model [optional]:** [More Information Needed]
-### Model Sources [optional]
-<!-- Provide the basic links for the model. -->
-- **Repository:** [More Information Needed]
-- **Paper [optional]:** [More Information Needed]
-- **Demo [optional]:** [More Information Needed]
-## Uses
-<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
-### Direct Use
-<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
-[More Information Needed]
-### Downstream Use [optional]
-<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
-[More Information Needed]
-### Out-of-Scope Use
-<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
-[More Information Needed]
-## Bias, Risks, and Limitations
-<!-- This section is meant to convey both technical and sociotechnical limitations. -->
-[More Information Needed]
-### Recommendations
-<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
-Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
-## How to Get Started with the Model
-Use the code below to get started with the model.
-[More Information Needed]
-## Training Details
-### Training Data
-<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
-[More Information Needed]
-### Training Procedure
-<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
-#### Preprocessing [optional]
-[More Information Needed]
-#### Training Hyperparameters
-- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
-#### Speeds, Sizes, Times [optional]
-<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
-[More Information Needed]
-## Evaluation
-<!-- This section describes the evaluation protocols and provides the results. -->
-### Testing Data, Factors & Metrics
-#### Testing Data
-<!-- This should link to a Dataset Card if possible. -->
-[More Information Needed]
-#### Factors
-<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
-[More Information Needed]
-#### Metrics
-<!-- These are the evaluation metrics being used, ideally with a description of why. -->
-[More Information Needed]
-### Results
-[More Information Needed]
-#### Summary
-## Model Examination [optional]
-<!-- Relevant interpretability work for the model goes here -->
-[More Information Needed]
-## Environmental Impact
-<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
-Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
-- **Hardware Type:** [More Information Needed]
-- **Hours used:** [More Information Needed]
-- **Cloud Provider:** [More Information Needed]
-- **Compute Region:** [More Information Needed]
-- **Carbon Emitted:** [More Information Needed]
-## Technical Specifications [optional]
-### Model Architecture and Objective
-[More Information Needed]
-### Compute Infrastructure
-[More Information Needed]
-#### Hardware
-[More Information Needed]
-#### Software
-[More Information Needed]
-## Citation [optional]
-<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
-**BibTeX:**
-[More Information Needed]
-**APA:**
-[More Information Needed]
-## Glossary [optional]
-<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
-[More Information Needed]
-## More Information [optional]
-[More Information Needed]
-## Model Card Authors [optional]
-[More Information Needed]
-## Model Card Contact
-[More Information Needed]
-### Framework versions
-- PEFT 0.10.0

train-with-indication-removed-history-quantized-4-default/adapter_config.json DELETED Viewed

@@ -1,34 +0,0 @@
-{
-  "alpha_pattern": {},
-  "auto_mapping": null,
-  "base_model_name_or_path": "microsoft/llava-med-v1.5-mistral-7b",
-  "bias": "none",
-  "fan_in_fan_out": false,
-  "inference_mode": true,
-  "init_lora_weights": true,
-  "layer_replication": null,
-  "layers_pattern": null,
-  "layers_to_transform": null,
-  "loftq_config": {},
-  "lora_alpha": 256,
-  "lora_dropout": 0.05,
-  "megatron_config": null,
-  "megatron_core": "megatron.core",
-  "modules_to_save": null,
-  "peft_type": "LORA",
-  "r": 128,
-  "rank_pattern": {},
-  "revision": null,
-  "target_modules": [
-    "gate_proj",
-    "q_proj",
-    "up_proj",
-    "k_proj",
-    "o_proj",
-    "down_proj",
-    "v_proj"
-  ],
-  "task_type": "CAUSAL_LM",
-  "use_dora": false,
-  "use_rslora": false
-}

train-with-indication-removed-history-quantized-4-default/adapter_model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:8f84d735759bd401a3cd5665bcec10d36af43fd1a7e03bd03b51a40cf83fbc8b
-size 671150064

train-with-indication-removed-history-quantized-4-default/config.json DELETED Viewed

@@ -1,66 +0,0 @@
-{
-  "_name_or_path": "microsoft/llava-med-v1.5-mistral-7b",
-  "architectures": [
-    "LlavaMistralForCausalLM"
-  ],
-  "attention_bias": false,
-  "attention_dropout": 0.0,
-  "bos_token_id": 1,
-  "eos_token_id": 2,
-  "feature_outs": "encoder+decoder",
-  "freeze_mm_mlp_adapter": false,
-  "hidden_act": "silu",
-  "hidden_size": 4096,
-  "image_aspect_ratio": "pad",
-  "img_size": 640,
-  "initializer_range": 0.02,
-  "intermediate_size": 14336,
-  "max_position_embeddings": 32768,
-  "mm_hidden_size": 1024,
-  "mm_patch_merge_type": "flat",
-  "mm_projector_lr": 2e-05,
-  "mm_projector_type": "mlp2x_gelu",
-  "mm_use_im_patch_token": false,
-  "mm_use_im_start_end": false,
-  "mm_vision_select_feature": "patch",
-  "mm_vision_select_layer": -2,
-  "mm_vision_tower": "openai/clip-vit-large-patch14-336",
-  "model_type": "llava_llama",
-  "num_attention_heads": 32,
-  "num_hidden_layers": 32,
-  "num_key_value_heads": 8,
-  "pretraining_tp": 1,
-  "proj_vis_to_txt_tokens": false,
-  "prompt_segtok_w_instruct": false,
-  "quantization_config": {
-    "bnb_4bit_compute_dtype": "bfloat16",
-    "bnb_4bit_quant_type": "nf4",
-    "bnb_4bit_use_double_quant": true,
-    "llm_int8_enable_fp32_cpu_offload": false,
-    "llm_int8_has_fp16_weight": false,
-    "llm_int8_skip_modules": [
-      "mm_projector"
-    ],
-    "llm_int8_threshold": 6.0,
-    "load_in_4bit": true,
-    "load_in_8bit": false,
-    "quant_method": "bitsandbytes"
-  },
-  "rms_norm_eps": 1e-05,
-  "rope_scaling": null,
-  "rope_theta": 1000000.0,
-  "segtok_posembed": "sincos",
-  "sliding_window": null,
-  "tie_word_embeddings": false,
-  "tokenizer_model_max_length": 2048,
-  "tokenizer_padding_side": "right",
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.37.2",
-  "tune_mm_mlp_adapter": false,
-  "tune_vision_tokenizer": "none",
-  "use_cache": true,
-  "use_mm_proj": true,
-  "vision_backbone": "convnextlarge",
-  "vision_tokenizer_lr": null,
-  "vocab_size": 32000
-}

train-with-indication-removed-history-quantized-4-default/non_lora_trainables.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9f050976c41d2cfbf988c3526f5fe32fc491e1048c141ddbd8e8c685b5587f10
-size 41961648

train-with-indication-removed-history-quantized-4-default/trainer_state.json DELETED Viewed

@@ -1,1902 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.9984,
-  "eval_steps": 500,
-  "global_step": 312,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 2.3199,
-      "step": 1
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 4e-05,
-      "loss": 2.5244,
-      "step": 2
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 6e-05,
-      "loss": 2.141,
-      "step": 3
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 8e-05,
-      "loss": 1.9181,
-      "step": 4
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 0.0001,
-      "loss": 1.874,
-      "step": 5
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 0.00012,
-      "loss": 1.6288,
-      "step": 6
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 0.00014,
-      "loss": 1.7929,
-      "step": 7
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.00016,
-      "loss": 1.7219,
-      "step": 8
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.00018,
-      "loss": 1.6875,
-      "step": 9
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.0002,
-      "loss": 1.7001,
-      "step": 10
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.00019999458931878073,
-      "loss": 1.4433,
-      "step": 11
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.0001999783578606323,
-      "loss": 1.5383,
-      "step": 12
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.00019995130738201966,
-      "loss": 1.633,
-      "step": 13
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.0001999134408101731,
-      "loss": 1.7609,
-      "step": 14
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.00019986476224277165,
-      "loss": 1.7327,
-      "step": 15
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.00019980527694749952,
-      "loss": 1.677,
-      "step": 16
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.00019973499136147606,
-      "loss": 1.4786,
-      "step": 17
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.0001996539130905593,
-      "loss": 1.475,
-      "step": 18
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.0001995620509085228,
-      "loss": 1.6622,
-      "step": 19
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.00019945941475610623,
-      "loss": 1.521,
-      "step": 20
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.0001993460157399396,
-      "loss": 1.645,
-      "step": 21
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.0001992218661313415,
-      "loss": 1.7544,
-      "step": 22
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.00019908697936499103,
-      "loss": 1.5313,
-      "step": 23
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.00019894137003747403,
-      "loss": 1.3929,
-      "step": 24
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.00019878505390570362,
-      "loss": 1.4069,
-      "step": 25
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.00019861804788521493,
-      "loss": 1.6797,
-      "step": 26
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.00019844037004833473,
-      "loss": 1.5555,
-      "step": 27
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.00019825203962222572,
-      "loss": 1.5707,
-      "step": 28
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.0001980530769868059,
-      "loss": 1.3687,
-      "step": 29
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.00019784350367254322,
-      "loss": 1.5513,
-      "step": 30
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.0001976233423581255,
-      "loss": 1.5938,
-      "step": 31
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.0001973926168680066,
-      "loss": 1.4773,
-      "step": 32
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.00019715135216982798,
-      "loss": 1.6804,
-      "step": 33
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.0001968995743717171,
-      "loss": 1.629,
-      "step": 34
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.00019663731071946206,
-      "loss": 1.5686,
-      "step": 35
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.00019636458959356316,
-      "loss": 1.5324,
-      "step": 36
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.0001960814405061619,
-      "loss": 1.4785,
-      "step": 37
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.00019578789409784727,
-      "loss": 1.4042,
-      "step": 38
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.00019548398213434007,
-      "loss": 1.435,
-      "step": 39
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00019516973750305532,
-      "loss": 1.4017,
-      "step": 40
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00019484519420954354,
-      "loss": 1.3194,
-      "step": 41
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00019451038737381077,
-      "loss": 1.686,
-      "step": 42
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.00019416535322651818,
-      "loss": 1.7457,
-      "step": 43
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.00019381012910506146,
-      "loss": 1.5872,
-      "step": 44
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.00019344475344953012,
-      "loss": 1.5947,
-      "step": 45
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00019306926579854821,
-      "loss": 1.5349,
-      "step": 46
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00019268370678499533,
-      "loss": 1.3403,
-      "step": 47
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.0001922881181316097,
-      "loss": 1.4988,
-      "step": 48
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.00019188254264647337,
-      "loss": 1.5314,
-      "step": 49
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.0001914670242183795,
-      "loss": 1.5457,
-      "step": 50
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.0001910416078120832,
-      "loss": 1.5051,
-      "step": 51
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0001906063394634356,
-      "loss": 1.5292,
-      "step": 52
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.00019016126627440237,
-      "loss": 1.5847,
-      "step": 53
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.00018970643640796642,
-      "loss": 1.4096,
-      "step": 54
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.000189241899082916,
-      "loss": 1.4271,
-      "step": 55
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.00018876770456851877,
-      "loss": 1.3678,
-      "step": 56
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.0001882839041790818,
-      "loss": 1.495,
-      "step": 57
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.00018779055026839868,
-      "loss": 1.3888,
-      "step": 58
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.00018728769622408423,
-      "loss": 1.6511,
-      "step": 59
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.00018677539646179707,
-      "loss": 1.4118,
-      "step": 60
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00018625370641935129,
-      "loss": 1.4287,
-      "step": 61
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00018572268255071718,
-      "loss": 1.2835,
-      "step": 62
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00018518238231991218,
-      "loss": 1.5249,
-      "step": 63
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00018463286419478255,
-      "loss": 1.3372,
-      "step": 64
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00018407418764067627,
-      "loss": 1.4505,
-      "step": 65
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00018350641311400812,
-      "loss": 1.6816,
-      "step": 66
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.0001829296020557174,
-      "loss": 1.4334,
-      "step": 67
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.00018234381688461942,
-      "loss": 1.2388,
-      "step": 68
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.0001817491209906506,
-      "loss": 1.4549,
-      "step": 69
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.00018114557872800905,
-      "loss": 1.4022,
-      "step": 70
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00018053325540819045,
-      "loss": 1.5269,
-      "step": 71
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.0001799122172929206,
-      "loss": 1.431,
-      "step": 72
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00017928253158698473,
-      "loss": 1.3773,
-      "step": 73
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.0001786442664309554,
-      "loss": 1.5784,
-      "step": 74
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.0001779974908938184,
-      "loss": 1.4984,
-      "step": 75
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.0001773422749654988,
-      "loss": 1.5095,
-      "step": 76
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.00017667868954928694,
-      "loss": 1.4608,
-      "step": 77
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.00017600680645416583,
-      "loss": 1.5707,
-      "step": 78
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.00017532669838704035,
-      "loss": 1.2468,
-      "step": 79
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.00017463843894486937,
-      "loss": 1.5015,
-      "step": 80
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.0001739421026067017,
-      "loss": 1.4573,
-      "step": 81
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.00017323776472561627,
-      "loss": 1.4542,
-      "step": 82
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.00017252550152056795,
-      "loss": 1.4156,
-      "step": 83
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0001718053900681397,
-      "loss": 1.2516,
-      "step": 84
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.00017107750829420176,
-      "loss": 1.3784,
-      "step": 85
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00017034193496547902,
-      "loss": 1.5636,
-      "step": 86
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00016959874968102735,
-      "loss": 1.4904,
-      "step": 87
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00016884803286362,
-      "loss": 1.3952,
-      "step": 88
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00016808986575104465,
-      "loss": 1.2939,
-      "step": 89
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00016732433038731242,
-      "loss": 1.3226,
-      "step": 90
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.0001665515096137797,
-      "loss": 1.4965,
-      "step": 91
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00016577148706018328,
-      "loss": 1.5304,
-      "step": 92
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.00016498434713559088,
-      "loss": 1.4675,
-      "step": 93
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.00016419017501926656,
-      "loss": 1.4634,
-      "step": 94
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.0001633890566514535,
-      "loss": 1.3636,
-      "step": 95
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00016258107872407375,
-      "loss": 1.3293,
-      "step": 96
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.0001617663286713474,
-      "loss": 1.4827,
-      "step": 97
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00016094489466033043,
-      "loss": 1.3394,
-      "step": 98
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00016011686558137448,
-      "loss": 1.3846,
-      "step": 99
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.0001592823310385073,
-      "loss": 1.4674,
-      "step": 100
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.0001584413813397364,
-      "loss": 1.3466,
-      "step": 101
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00015759410748727662,
-      "loss": 1.3855,
-      "step": 102
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00015674060116770236,
-      "loss": 1.3207,
-      "step": 103
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00015588095474202595,
-      "loss": 1.4327,
-      "step": 104
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.00015501526123570277,
-      "loss": 1.3664,
-      "step": 105
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.00015414361432856475,
-      "loss": 1.1803,
-      "step": 106
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.0001532661083446829,
-      "loss": 1.2362,
-      "step": 107
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.00015238283824216015,
-      "loss": 1.3534,
-      "step": 108
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.00015149389960285558,
-      "loss": 1.4562,
-      "step": 109
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.00015059938862204127,
-      "loss": 1.3698,
-      "step": 110
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.00014969940209799248,
-      "loss": 1.3735,
-      "step": 111
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.00014879403742151283,
-      "loss": 1.441,
-      "step": 112
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.00014788339256539544,
-      "loss": 1.2067,
-      "step": 113
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0001469675660738206,
-      "loss": 1.4027,
-      "step": 114
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 0.00014604665705169237,
-      "loss": 1.3295,
-      "step": 115
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 0.00014512076515391375,
-      "loss": 1.4389,
-      "step": 116
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 0.00014418999057460276,
-      "loss": 1.4689,
-      "step": 117
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.0001432544340362501,
-      "loss": 1.3948,
-      "step": 118
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.00014231419677881966,
-      "loss": 1.4416,
-      "step": 119
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.00014136938054879283,
-      "loss": 1.2279,
-      "step": 120
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.00014042008758815818,
-      "loss": 1.399,
-      "step": 121
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.00013946642062334766,
-      "loss": 1.1831,
-      "step": 122
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.00013850848285411994,
-      "loss": 1.3602,
-      "step": 123
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.000137546377942393,
-      "loss": 1.1987,
-      "step": 124
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.00013658021000102636,
-      "loss": 1.4545,
-      "step": 125
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.00013561008358255468,
-      "loss": 1.2873,
-      "step": 126
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.00013463610366787392,
-      "loss": 1.5183,
-      "step": 127
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.00013365837565488064,
-      "loss": 1.3886,
-      "step": 128
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.0001326770053470668,
-      "loss": 1.3353,
-      "step": 129
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.0001316920989420703,
-      "loss": 1.3091,
-      "step": 130
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00013070376302018287,
-      "loss": 1.2248,
-      "step": 131
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00012971210453281674,
-      "loss": 1.2811,
-      "step": 132
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.000128717230790931,
-      "loss": 1.2267,
-      "step": 133
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.00012771924945341906,
-      "loss": 1.1893,
-      "step": 134
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.00012671826851545851,
-      "loss": 1.2972,
-      "step": 135
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.0001257143962968246,
-      "loss": 1.306,
-      "step": 136
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00012470774143016853,
-      "loss": 1.4648,
-      "step": 137
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00012369841284926188,
-      "loss": 1.4447,
-      "step": 138
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00012268651977720866,
-      "loss": 1.319,
-      "step": 139
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.00012167217171462566,
-      "loss": 1.2621,
-      "step": 140
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.0001206554784277931,
-      "loss": 1.4311,
-      "step": 141
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.00011963654993677645,
-      "loss": 1.1859,
-      "step": 142
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.00011861549650352069,
-      "loss": 1.3155,
-      "step": 143
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.00011759242861991855,
-      "loss": 1.3186,
-      "step": 144
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.00011656745699585371,
-      "loss": 1.1683,
-      "step": 145
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.00011554069254722051,
-      "loss": 1.4213,
-      "step": 146
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.00011451224638392129,
-      "loss": 1.1923,
-      "step": 147
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.00011348222979784289,
-      "loss": 1.2399,
-      "step": 148
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.00011245075425081328,
-      "loss": 1.3853,
-      "step": 149
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.00011141793136253986,
-      "loss": 1.2579,
-      "step": 150
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.0001103838728985307,
-      "loss": 1.4046,
-      "step": 151
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.000109348690758,
-      "loss": 1.1747,
-      "step": 152
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.00010831249696175918,
-      "loss": 1.1429,
-      "step": 153
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.0001072754036400944,
-      "loss": 1.2396,
-      "step": 154
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.00010623752302063283,
-      "loss": 1.2799,
-      "step": 155
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.00010519896741619803,
-      "loss": 1.2928,
-      "step": 156
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.00010415984921265609,
-      "loss": 1.384,
-      "step": 157
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00010312028085675391,
-      "loss": 1.3698,
-      "step": 158
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00010208037484395114,
-      "loss": 1.4644,
-      "step": 159
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00010104024370624644,
-      "loss": 1.3165,
-      "step": 160
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.0001,
-      "loss": 1.2966,
-      "step": 161
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 9.895975629375359e-05,
-      "loss": 1.2886,
-      "step": 162
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 9.791962515604887e-05,
-      "loss": 1.4202,
-      "step": 163
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 9.687971914324607e-05,
-      "loss": 1.3087,
-      "step": 164
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 9.584015078734395e-05,
-      "loss": 1.2144,
-      "step": 165
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 9.480103258380198e-05,
-      "loss": 1.3265,
-      "step": 166
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 9.376247697936719e-05,
-      "loss": 1.3672,
-      "step": 167
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 9.272459635990562e-05,
-      "loss": 1.4747,
-      "step": 168
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 9.168750303824084e-05,
-      "loss": 1.2337,
-      "step": 169
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 9.065130924199998e-05,
-      "loss": 1.3347,
-      "step": 170
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 8.961612710146934e-05,
-      "loss": 1.2934,
-      "step": 171
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 8.858206863746018e-05,
-      "loss": 1.2595,
-      "step": 172
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 8.754924574918675e-05,
-      "loss": 1.409,
-      "step": 173
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 8.651777020215712e-05,
-      "loss": 1.2837,
-      "step": 174
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 8.548775361607872e-05,
-      "loss": 1.3146,
-      "step": 175
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 8.445930745277953e-05,
-      "loss": 1.1941,
-      "step": 176
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 8.343254300414628e-05,
-      "loss": 1.2849,
-      "step": 177
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 8.240757138008149e-05,
-      "loss": 1.2637,
-      "step": 178
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 8.138450349647936e-05,
-      "loss": 1.2373,
-      "step": 179
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 8.036345006322359e-05,
-      "loss": 1.3119,
-      "step": 180
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 7.934452157220694e-05,
-      "loss": 1.1451,
-      "step": 181
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 7.832782828537437e-05,
-      "loss": 1.0833,
-      "step": 182
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 7.731348022279134e-05,
-      "loss": 1.1725,
-      "step": 183
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 7.630158715073813e-05,
-      "loss": 1.1202,
-      "step": 184
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 7.52922585698315e-05,
-      "loss": 1.2422,
-      "step": 185
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 7.428560370317542e-05,
-      "loss": 1.2887,
-      "step": 186
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 7.328173148454151e-05,
-      "loss": 1.3082,
-      "step": 187
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 7.228075054658096e-05,
-      "loss": 1.2008,
-      "step": 188
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 7.1282769209069e-05,
-      "loss": 1.3519,
-      "step": 189
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 7.028789546718326e-05,
-      "loss": 1.2917,
-      "step": 190
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 6.929623697981718e-05,
-      "loss": 1.1615,
-      "step": 191
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 6.830790105792973e-05,
-      "loss": 1.3044,
-      "step": 192
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 6.732299465293322e-05,
-      "loss": 1.2909,
-      "step": 193
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 6.63416243451194e-05,
-      "loss": 1.1786,
-      "step": 194
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 6.536389633212609e-05,
-      "loss": 1.3896,
-      "step": 195
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 6.43899164174453e-05,
-      "loss": 1.0331,
-      "step": 196
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 6.341978999897365e-05,
-      "loss": 1.2488,
-      "step": 197
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 6.245362205760704e-05,
-      "loss": 1.0101,
-      "step": 198
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 6.149151714588009e-05,
-      "loss": 1.3959,
-      "step": 199
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 6.053357937665237e-05,
-      "loss": 1.2826,
-      "step": 200
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 5.957991241184184e-05,
-      "loss": 1.3523,
-      "step": 201
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 5.863061945120719e-05,
-      "loss": 1.1727,
-      "step": 202
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 5.768580322118034e-05,
-      "loss": 1.1754,
-      "step": 203
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 5.6745565963749925e-05,
-      "loss": 1.2769,
-      "step": 204
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 5.5810009425397294e-05,
-      "loss": 1.3109,
-      "step": 205
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 5.487923484608629e-05,
-      "loss": 1.1032,
-      "step": 206
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 5.395334294830765e-05,
-      "loss": 1.3544,
-      "step": 207
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 5.3032433926179395e-05,
-      "loss": 1.4222,
-      "step": 208
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 5.211660743460458e-05,
-      "loss": 1.1809,
-      "step": 209
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 5.1205962578487155e-05,
-      "loss": 1.4932,
-      "step": 210
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 5.030059790200756e-05,
-      "loss": 1.1682,
-      "step": 211
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 4.940061137795876e-05,
-      "loss": 1.4323,
-      "step": 212
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 4.850610039714444e-05,
-      "loss": 1.1539,
-      "step": 213
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 4.761716175783989e-05,
-      "loss": 1.1599,
-      "step": 214
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 4.673389165531714e-05,
-      "loss": 1.1236,
-      "step": 215
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 4.585638567143529e-05,
-      "loss": 1.0106,
-      "step": 216
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 4.498473876429726e-05,
-      "loss": 1.0961,
-      "step": 217
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 4.411904525797408e-05,
-      "loss": 1.3763,
-      "step": 218
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 4.325939883229766e-05,
-      "loss": 1.2478,
-      "step": 219
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 4.240589251272342e-05,
-      "loss": 1.2097,
-      "step": 220
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 4.155861866026364e-05,
-      "loss": 1.0762,
-      "step": 221
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 4.071766896149273e-05,
-      "loss": 1.2407,
-      "step": 222
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 3.988313441862553e-05,
-      "loss": 1.1492,
-      "step": 223
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 3.9055105339669595e-05,
-      "loss": 1.4735,
-      "step": 224
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 3.823367132865265e-05,
-      "loss": 1.3276,
-      "step": 225
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 3.741892127592625e-05,
-      "loss": 1.187,
-      "step": 226
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 3.6610943348546526e-05,
-      "loss": 1.1789,
-      "step": 227
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 3.580982498073344e-05,
-      "loss": 1.3324,
-      "step": 228
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 3.501565286440914e-05,
-      "loss": 1.1145,
-      "step": 229
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 3.422851293981676e-05,
-      "loss": 1.0629,
-      "step": 230
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 3.3448490386220355e-05,
-      "loss": 1.0307,
-      "step": 231
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 3.2675669612687565e-05,
-      "loss": 1.2132,
-      "step": 232
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 3.191013424895536e-05,
-      "loss": 1.1736,
-      "step": 233
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 3.115196713638e-05,
-      "loss": 0.9947,
-      "step": 234
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 3.040125031897264e-05,
-      "loss": 1.2661,
-      "step": 235
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 2.9658065034520978e-05,
-      "loss": 1.2066,
-      "step": 236
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 2.892249170579826e-05,
-      "loss": 1.2351,
-      "step": 237
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 2.8194609931860316e-05,
-      "loss": 1.1035,
-      "step": 238
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 2.7474498479432087e-05,
-      "loss": 1.1054,
-      "step": 239
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 2.6762235274383772e-05,
-      "loss": 1.2193,
-      "step": 240
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 2.6057897393298324e-05,
-      "loss": 1.3434,
-      "step": 241
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 2.536156105513062e-05,
-      "loss": 1.208,
-      "step": 242
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 2.4673301612959654e-05,
-      "loss": 1.1567,
-      "step": 243
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 2.399319354583418e-05,
-      "loss": 1.0854,
-      "step": 244
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 2.3321310450713062e-05,
-      "loss": 1.3261,
-      "step": 245
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 2.265772503450122e-05,
-      "loss": 1.3121,
-      "step": 246
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 2.2002509106181624e-05,
-      "loss": 1.3064,
-      "step": 247
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 2.1355733569044635e-05,
-      "loss": 1.2884,
-      "step": 248
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 2.0717468413015283e-05,
-      "loss": 1.2003,
-      "step": 249
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 2.008778270707944e-05,
-      "loss": 1.2699,
-      "step": 250
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 1.946674459180955e-05,
-      "loss": 1.0825,
-      "step": 251
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 1.8854421271990964e-05,
-      "loss": 1.0327,
-      "step": 252
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 1.8250879009349398e-05,
-      "loss": 1.1695,
-      "step": 253
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 1.7656183115380577e-05,
-      "loss": 1.0414,
-      "step": 254
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 1.707039794428259e-05,
-      "loss": 1.2981,
-      "step": 255
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 1.649358688599191e-05,
-      "loss": 1.1806,
-      "step": 256
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 1.5925812359323745e-05,
-      "loss": 0.9517,
-      "step": 257
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 1.5367135805217458e-05,
-      "loss": 1.1485,
-      "step": 258
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 1.4817617680087825e-05,
-      "loss": 1.4007,
-      "step": 259
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 1.4277317449282834e-05,
-      "loss": 1.1215,
-      "step": 260
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 1.3746293580648717e-05,
-      "loss": 1.2247,
-      "step": 261
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 1.3224603538202929e-05,
-      "loss": 1.1517,
-      "step": 262
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 1.2712303775915802e-05,
-      "loss": 1.2145,
-      "step": 263
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 1.220944973160133e-05,
-      "loss": 1.2093,
-      "step": 264
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 1.1716095820918216e-05,
-      "loss": 1.0046,
-      "step": 265
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 1.1232295431481222e-05,
-      "loss": 1.0832,
-      "step": 266
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 1.0758100917083991e-05,
-      "loss": 1.2301,
-      "step": 267
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 1.0293563592033595e-05,
-      "loss": 1.1956,
-      "step": 268
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 9.838733725597615e-06,
-      "loss": 1.0108,
-      "step": 269
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 9.393660536564408e-06,
-      "loss": 1.1741,
-      "step": 270
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 8.958392187916841e-06,
-      "loss": 1.2878,
-      "step": 271
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 8.532975781620512e-06,
-      "loss": 1.0674,
-      "step": 272
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 8.117457353526625e-06,
-      "loss": 1.2545,
-      "step": 273
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 7.711881868390291e-06,
-      "loss": 1.1382,
-      "step": 274
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 7.3162932150046885e-06,
-      "loss": 1.1212,
-      "step": 275
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 6.930734201451816e-06,
-      "loss": 1.1743,
-      "step": 276
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 6.555246550469907e-06,
-      "loss": 1.2822,
-      "step": 277
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 6.189870894938587e-06,
-      "loss": 1.1152,
-      "step": 278
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 5.834646773481811e-06,
-      "loss": 1.1651,
-      "step": 279
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 5.489612626189245e-06,
-      "loss": 1.0907,
-      "step": 280
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 5.154805790456485e-06,
-      "loss": 1.2961,
-      "step": 281
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 4.830262496944693e-06,
-      "loss": 1.249,
-      "step": 282
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 4.516017865659949e-06,
-      "loss": 1.1392,
-      "step": 283
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 4.21210590215273e-06,
-      "loss": 1.2318,
-      "step": 284
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 3.918559493838114e-06,
-      "loss": 1.205,
-      "step": 285
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 3.6354104064368566e-06,
-      "loss": 1.3981,
-      "step": 286
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 3.3626892805379562e-06,
-      "loss": 1.2873,
-      "step": 287
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 3.100425628282899e-06,
-      "loss": 1.2234,
-      "step": 288
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 2.848647830172024e-06,
-      "loss": 1.4484,
-      "step": 289
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 2.607383131993424e-06,
-      "loss": 1.0064,
-      "step": 290
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 2.3766576418745022e-06,
-      "loss": 1.2589,
-      "step": 291
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 2.1564963274568027e-06,
-      "loss": 1.2043,
-      "step": 292
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 1.9469230131940907e-06,
-      "loss": 1.1307,
-      "step": 293
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 1.7479603777742938e-06,
-      "loss": 1.2797,
-      "step": 294
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 1.559629951665298e-06,
-      "loss": 1.1203,
-      "step": 295
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 1.3819521147851123e-06,
-      "loss": 1.3379,
-      "step": 296
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 1.2149460942964098e-06,
-      "loss": 1.1306,
-      "step": 297
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 1.05862996252597e-06,
-      "loss": 1.1845,
-      "step": 298
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 9.130206350089765e-07,
-      "loss": 1.0263,
-      "step": 299
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 7.781338686584927e-07,
-      "loss": 1.1492,
-      "step": 300
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 6.539842600603918e-07,
-      "loss": 1.2009,
-      "step": 301
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 5.405852438937764e-07,
-      "loss": 1.2803,
-      "step": 302
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 4.3794909147720773e-07,
-      "loss": 1.0519,
-      "step": 303
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 3.4608690944071263e-07,
-      "loss": 1.2004,
-      "step": 304
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 2.6500863852395584e-07,
-      "loss": 1.478,
-      "step": 305
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 1.947230525005006e-07,
-      "loss": 1.1622,
-      "step": 306
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 1.3523775722834587e-07,
-      "loss": 1.2595,
-      "step": 307
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 8.655918982689581e-08,
-      "loss": 1.198,
-      "step": 308
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 4.8692617980350406e-08,
-      "loss": 1.207,
-      "step": 309
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 2.164213936770576e-08,
-      "loss": 1.1337,
-      "step": 310
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 5.410681219286673e-09,
-      "loss": 1.0653,
-      "step": 311
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.0,
-      "loss": 0.9952,
-      "step": 312
-    },
-    {
-      "epoch": 1.0,
-      "step": 312,
-      "total_flos": 4.151844548064051e+16,
-      "train_loss": 1.3388550986464207,
-      "train_runtime": 2024.0525,
-      "train_samples_per_second": 2.47,
-      "train_steps_per_second": 0.154
-    }
-  ],
-  "logging_steps": 1.0,
-  "max_steps": 312,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
-  "save_steps": 50000,
-  "total_flos": 4.151844548064051e+16,
-  "train_batch_size": 2,
-  "trial_name": null,
-  "trial_params": null
-}