Upload model files

Files changed (11) hide show

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/README.md +202 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/adapter_config.json +34 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/adapter_model.safetensors +3 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/checkpoint-551/config.json +28 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/checkpoint-551/finetune_weights.bin +3 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/config.json +28 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/model.txt +371 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/model_trainable_params.txt +612 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/non_lora_trainables.bin +3 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/saved_config.json +193 -0
epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/trainer_state.json +3990 -0

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: pretrained_weights/Llama-2-7b-chat-hf
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.12.0

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "pretrained_weights/Llama-2-7b-chat-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj",
+    "gate_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5697e8ca8a749034d30acf5f2c674614f574636a30c5027b90e253c728bc70b2
+size 40036488

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/checkpoint-551/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "pretrained_weights/Llama-2-7b-chat-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.37.2",
+  "use_cache": false,
+  "vocab_size": 32021
+}

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/checkpoint-551/finetune_weights.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3c6bff2146db97e50ac62aca7be45ce21d287625f09960673a2db5304419858
+size 332839606

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "pretrained_weights/Llama-2-7b-chat-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.37.2",
+  "use_cache": true,
+  "vocab_size": 32021
+}

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/model.txt ADDED Viewed

	@@ -0,0 +1,371 @@

+PeftModelForCausalLM(
+  (base_model): LoraModel(
+    (model): UnifiedForCausalLM(
+      (model): UnifiedModel(
+        (embed_tokens): Embedding(32021, 4096)
+        (layers): ModuleList(
+          (0-31): 32 x LlamaDecoderLayer(
+            (self_attn): LlamaSdpaAttention(
+              (q_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=8, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=8, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (k_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=8, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=8, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (v_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=8, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=8, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (o_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=8, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=8, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (rotary_emb): LlamaRotaryEmbedding()
+            )
+            (mlp): LlamaMLP(
+              (gate_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=11008, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=8, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=8, out_features=11008, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (up_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=11008, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=8, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=8, out_features=11008, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (down_proj): lora.Linear(
+                (base_layer): Linear(in_features=11008, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=11008, out_features=8, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=8, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (act_fn): SiLU()
+            )
+            (input_layernorm): LlamaRMSNorm()
+            (post_attention_layernorm): LlamaRMSNorm()
+          )
+        )
+        (norm): LlamaRMSNorm()
+        (visual_encoder): VisualEncoder(
+          (vision_tower): CLIPVisionModel(
+            (vision_model): CLIPVisionTransformer(
+              (embeddings): CLIPVisionEmbeddings(
+                (patch_embedding): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14), bias=False)
+                (position_embedding): Embedding(257, 1024)
+              )
+              (pre_layrnorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+              (encoder): CLIPEncoder(
+                (layers): ModuleList(
+                  (0-23): 24 x CLIPEncoderLayer(
+                    (self_attn): CLIPAttention(
+                      (k_proj): Linear(in_features=1024, out_features=1024, bias=True)
+                      (v_proj): Linear(in_features=1024, out_features=1024, bias=True)
+                      (q_proj): Linear(in_features=1024, out_features=1024, bias=True)
+                      (out_proj): Linear(in_features=1024, out_features=1024, bias=True)
+                    )
+                    (layer_norm1): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+                    (mlp): CLIPMLP(
+                      (activation_fn): QuickGELUActivation()
+                      (fc1): Linear(in_features=1024, out_features=4096, bias=True)
+                      (fc2): Linear(in_features=4096, out_features=1024, bias=True)
+                    )
+                    (layer_norm2): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+                  )
+                )
+              )
+              (post_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+            )
+          )
+        )
+        (vl_projector): VLProjector(
+          (visual_ln): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+          (visual_Qformer): BertLMHeadModel(
+            (bert): BertModel(
+              (embeddings): BertEmbeddings(
+                (word_embeddings): Embedding(30522, 768, padding_idx=0)
+                (position_embeddings): Embedding(512, 768)
+                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                (dropout): Dropout(p=0.1, inplace=False)
+              )
+              (encoder): BertEncoder(
+                (layer): ModuleList(
+                  (0-1): 2 x BertLayer(
+                    (attention): BertAttention(
+                      (self): BertSelfAttention(
+                        (query): Linear(in_features=768, out_features=768, bias=True)
+                        (key): Linear(in_features=768, out_features=768, bias=True)
+                        (value): Linear(in_features=768, out_features=768, bias=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                      (output): BertSelfOutput(
+                        (dense): Linear(in_features=768, out_features=768, bias=True)
+                        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                    )
+                    (crossattention): BertAttention(
+                      (self): BertSelfAttention(
+                        (query): Linear(in_features=768, out_features=768, bias=True)
+                        (key): Linear(in_features=1024, out_features=768, bias=True)
+                        (value): Linear(in_features=1024, out_features=768, bias=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                      (output): BertSelfOutput(
+                        (dense): Linear(in_features=768, out_features=768, bias=True)
+                        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                    )
+                    (intermediate): BertIntermediate(
+                      (dense): Linear(in_features=768, out_features=3072, bias=True)
+                      (intermediate_act_fn): GELUActivation()
+                    )
+                    (output): BertOutput(
+                      (dense): Linear(in_features=3072, out_features=768, bias=True)
+                      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                      (dropout): Dropout(p=0.1, inplace=False)
+                    )
+                    (intermediate_query): BertIntermediate(
+                      (dense): Linear(in_features=768, out_features=3072, bias=True)
+                      (intermediate_act_fn): GELUActivation()
+                    )
+                    (output_query): BertOutput(
+                      (dense): Linear(in_features=3072, out_features=768, bias=True)
+                      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                      (dropout): Dropout(p=0.1, inplace=False)
+                    )
+                  )
+                )
+              )
+            )
+            (cls): BertOnlyMLMHead(
+              (predictions): BertLMPredictionHead(
+                (transform): BertPredictionHeadTransform(
+                  (dense): Linear(in_features=768, out_features=768, bias=True)
+                  (transform_act_fn): GELUActivation()
+                  (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                )
+                (decoder): Linear(in_features=768, out_features=30522, bias=True)
+              )
+            )
+          )
+          (visual_proj): Sequential(
+            (0): Linear(in_features=768, out_features=4096, bias=True)
+            (1): GELU(approximate='none')
+            (2): Linear(in_features=4096, out_features=4096, bias=True)
+          )
+        )
+        (audio_encoder): AudioEncoder(
+          (audio_encoder): BEATs(
+            (post_extract_proj): Linear(in_features=512, out_features=768, bias=True)
+            (patch_embedding): Conv2d(1, 512, kernel_size=(16, 16), stride=(16, 16), bias=False)
+            (dropout_input): Dropout(p=0.0, inplace=False)
+            (encoder): TransformerEncoder(
+              (pos_conv): Sequential(
+                (0): Conv1d(768, 768, kernel_size=(128,), stride=(1,), padding=(64,), groups=16)
+                (1): SamePad()
+                (2): GELU(approximate='none')
+              )
+              (layers): ModuleList(
+                (0): TransformerSentenceEncoderLayer(
+                  (self_attn): MultiheadAttention(
+                    (dropout_module): Dropout(p=0.0, inplace=False)
+                    (relative_attention_bias): Embedding(320, 12)
+                    (k_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (v_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (q_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (out_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (grep_linear): Linear(in_features=64, out_features=8, bias=True)
+                  )
+                  (dropout1): Dropout(p=0.0, inplace=False)
+                  (dropout2): Dropout(p=0.0, inplace=False)
+                  (dropout3): Dropout(p=0.0, inplace=False)
+                  (self_attn_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+                  (fc1): Linear(in_features=768, out_features=3072, bias=True)
+                  (fc2): Linear(in_features=3072, out_features=768, bias=True)
+                  (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+                )
+                (1-11): 11 x TransformerSentenceEncoderLayer(
+                  (self_attn): MultiheadAttention(
+                    (dropout_module): Dropout(p=0.0, inplace=False)
+                    (k_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (v_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (q_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (out_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (grep_linear): Linear(in_features=64, out_features=8, bias=True)
+                    (relative_attention_bias): Embedding(320, 12)
+                  )
+                  (dropout1): Dropout(p=0.0, inplace=False)
+                  (dropout2): Dropout(p=0.0, inplace=False)
+                  (dropout3): Dropout(p=0.0, inplace=False)
+                  (self_attn_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+                  (fc1): Linear(in_features=768, out_features=3072, bias=True)
+                  (fc2): Linear(in_features=3072, out_features=768, bias=True)
+                  (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+                )
+              )
+              (layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+            )
+            (layer_norm): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
+            (predictor_dropout): Dropout(p=0.0, inplace=False)
+            (predictor): Linear(in_features=768, out_features=527, bias=True)
+          )
+        )
+        (al_projector): ALProjector(
+          (audio_ln): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+          (audio_Qformer): BertLMHeadModel(
+            (bert): BertModel(
+              (embeddings): BertEmbeddings(
+                (word_embeddings): Embedding(30522, 768, padding_idx=0)
+                (position_embeddings): Embedding(512, 768)
+                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                (dropout): Dropout(p=0.1, inplace=False)
+              )
+              (encoder): BertEncoder(
+                (layer): ModuleList(
+                  (0-1): 2 x BertLayer(
+                    (attention): BertAttention(
+                      (self): BertSelfAttention(
+                        (query): Linear(in_features=768, out_features=768, bias=True)
+                        (key): Linear(in_features=768, out_features=768, bias=True)
+                        (value): Linear(in_features=768, out_features=768, bias=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                      (output): BertSelfOutput(
+                        (dense): Linear(in_features=768, out_features=768, bias=True)
+                        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                    )
+                    (crossattention): BertAttention(
+                      (self): BertSelfAttention(
+                        (query): Linear(in_features=768, out_features=768, bias=True)
+                        (key): Linear(in_features=768, out_features=768, bias=True)
+                        (value): Linear(in_features=768, out_features=768, bias=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                      (output): BertSelfOutput(
+                        (dense): Linear(in_features=768, out_features=768, bias=True)
+                        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                    )
+                    (intermediate): BertIntermediate(
+                      (dense): Linear(in_features=768, out_features=3072, bias=True)
+                      (intermediate_act_fn): GELUActivation()
+                    )
+                    (output): BertOutput(
+                      (dense): Linear(in_features=3072, out_features=768, bias=True)
+                      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                      (dropout): Dropout(p=0.1, inplace=False)
+                    )
+                    (intermediate_query): BertIntermediate(
+                      (dense): Linear(in_features=768, out_features=3072, bias=True)
+                      (intermediate_act_fn): GELUActivation()
+                    )
+                    (output_query): BertOutput(
+                      (dense): Linear(in_features=3072, out_features=768, bias=True)
+                      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                      (dropout): Dropout(p=0.1, inplace=False)
+                    )
+                  )
+                )
+              )
+            )
+            (cls): BertOnlyMLMHead(
+              (predictions): BertLMPredictionHead(
+                (transform): BertPredictionHeadTransform(
+                  (dense): Linear(in_features=768, out_features=768, bias=True)
+                  (transform_act_fn): GELUActivation()
+                  (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                )
+                (decoder): Linear(in_features=768, out_features=30522, bias=True)
+              )
+            )
+          )
+          (audio_proj): Sequential(
+            (0): Linear(in_features=768, out_features=4096, bias=True)
+            (1): GELU(approximate='none')
+            (2): Linear(in_features=4096, out_features=4096, bias=True)
+          )
+        )
+      )
+      (lm_head): Linear(in_features=4096, out_features=32021, bias=False)
+    )
+  )
+)

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/model_trainable_params.txt ADDED Viewed

	@@ -0,0 +1,612 @@

+base_model.model.model.embed_tokens.weight  torch.Size([32021, 4096])
+base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.24.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.24.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.24.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.24.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.24.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.24.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.24.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.24.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.24.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.24.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.24.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.24.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.24.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.24.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.25.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.25.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.25.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.25.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.25.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.25.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.25.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.25.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.25.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.25.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.25.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.25.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.25.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.25.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.26.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.26.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.26.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.26.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.26.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.26.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.26.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.26.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.26.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.26.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.26.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.26.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.26.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.26.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.27.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.27.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.27.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.27.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.27.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.27.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.27.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.27.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.27.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.27.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.27.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.27.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.27.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.27.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.28.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.28.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.28.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.28.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.28.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.28.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.28.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.28.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.28.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.28.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.28.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.28.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.28.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.28.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.29.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.29.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.29.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.29.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.29.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.29.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.29.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.29.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.29.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.29.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.29.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.29.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.29.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.29.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.30.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.30.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.30.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.30.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.30.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.30.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.30.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.30.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.30.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.30.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.30.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.30.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.30.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.30.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.31.self_attn.q_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.31.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.31.self_attn.k_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.31.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.31.self_attn.v_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.31.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.31.self_attn.o_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.31.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.layers.31.mlp.gate_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.31.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.31.mlp.up_proj.lora_A.default.weight  torch.Size([8, 4096])
+base_model.model.model.layers.31.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 8])
+base_model.model.model.layers.31.mlp.down_proj.lora_A.default.weight  torch.Size([8, 11008])
+base_model.model.model.layers.31.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 8])
+base_model.model.model.vl_projector.visual_query_tokens  torch.Size([1, 32, 768])
+base_model.model.model.vl_projector.visual_ln.weight  torch.Size([1024])
+base_model.model.model.vl_projector.visual_ln.bias  torch.Size([1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.embeddings.word_embeddings.weight  torch.Size([30522, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.embeddings.position_embeddings.weight  torch.Size([512, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.embeddings.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.embeddings.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.query.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.key.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.value.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.query.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.key.weight  torch.Size([768, 1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.key.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.value.weight  torch.Size([768, 1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.value.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.intermediate.dense.weight  torch.Size([3072, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.intermediate.dense.bias  torch.Size([3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output.dense.weight  torch.Size([768, 3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.intermediate_query.dense.weight  torch.Size([3072, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.intermediate_query.dense.bias  torch.Size([3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output_query.dense.weight  torch.Size([768, 3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output_query.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output_query.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output_query.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.query.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.key.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.value.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.query.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.key.weight  torch.Size([768, 1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.key.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.value.weight  torch.Size([768, 1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.value.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.intermediate.dense.weight  torch.Size([3072, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.intermediate.dense.bias  torch.Size([3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output.dense.weight  torch.Size([768, 3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.intermediate_query.dense.weight  torch.Size([3072, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.intermediate_query.dense.bias  torch.Size([3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output_query.dense.weight  torch.Size([768, 3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output_query.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output_query.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output_query.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.bias  torch.Size([30522])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.transform.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.transform.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.transform.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.transform.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_proj.0.weight  torch.Size([4096, 768])
+base_model.model.model.vl_projector.visual_proj.0.bias  torch.Size([4096])
+base_model.model.model.vl_projector.visual_proj.2.weight  torch.Size([4096, 4096])
+base_model.model.model.vl_projector.visual_proj.2.bias  torch.Size([4096])
+base_model.model.model.al_projector.audio_query_tokens  torch.Size([1, 32, 768])
+base_model.model.model.al_projector.audio_ln.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_ln.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.embeddings.word_embeddings.weight  torch.Size([30522, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.embeddings.position_embeddings.weight  torch.Size([512, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.embeddings.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.embeddings.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.query.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.key.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.value.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.query.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.key.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.value.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.intermediate.dense.weight  torch.Size([3072, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.intermediate.dense.bias  torch.Size([3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output.dense.weight  torch.Size([768, 3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.intermediate_query.dense.weight  torch.Size([3072, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.intermediate_query.dense.bias  torch.Size([3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output_query.dense.weight  torch.Size([768, 3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output_query.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output_query.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output_query.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.query.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.key.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.value.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.query.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.key.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.value.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.intermediate.dense.weight  torch.Size([3072, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.intermediate.dense.bias  torch.Size([3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output.dense.weight  torch.Size([768, 3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.intermediate_query.dense.weight  torch.Size([3072, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.intermediate_query.dense.bias  torch.Size([3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output_query.dense.weight  torch.Size([768, 3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output_query.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output_query.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output_query.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.bias  torch.Size([30522])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.transform.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.transform.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.transform.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.transform.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_proj.0.weight  torch.Size([4096, 768])
+base_model.model.model.al_projector.audio_proj.0.bias  torch.Size([4096])
+base_model.model.model.al_projector.audio_proj.2.weight  torch.Size([4096, 4096])
+base_model.model.model.al_projector.audio_proj.2.bias  torch.Size([4096])
+base_model.model.lm_head.weight  torch.Size([32021, 4096])
+trainable_params: 428.626MB

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/non_lora_trainables.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e8f27de50cca66cf8391e6d6f7da7d052fa90f5d8ebb0da7515bd92f278b637
+size 817336054

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/saved_config.json ADDED Viewed

	@@ -0,0 +1,193 @@

+{
+    "model_args": {
+        "model_name_or_path": "pretrained_weights/Llama-2-7b-chat-hf",
+        "freeze_backbone": true,
+        "llm_name": "llama",
+        "vit_ckpt_path": "./pretrained_weights/clip-vit-large-patch14",
+        "select_feature": "patch",
+        "image_size": 224,
+        "patch_size": 14,
+        "visual_query_token_nums": 32,
+        "BEATs_ckpt_path": "./pretrained_weights/BEATs_iter3_plus_AS2M_finetuned_on_AS2M_cpt2.pt",
+        "audio_query_token_nums": 32,
+        "prompt_embed_dim": 256,
+        "mask_decoder_transformer_depth": 2,
+        "low_res_mask_size": 112,
+        "image_scale_nums": 2,
+        "token_nums_per_scale": 3,
+        "avs_query_num": 300,
+        "num_classes": 1,
+        "query_generator_num_layers": 2
+    },
+    "data_args": {
+        "video_frame_nums": 10,
+        "image_caption_task": false,
+        "video_caption_task": false,
+        "audio_caption_task": false,
+        "segmentation_task": false,
+        "avqa_task": false,
+        "ave_task": false,
+        "avvp_task": false,
+        "arig_task": false,
+        "ms3_task": false,
+        "s4_task": false,
+        "avss_task": false,
+        "avcap_task": false,
+        "ref_avs_task": true,
+        "multi_frames": false
+    },
+    "training_args": {
+        "output_dir": "results_real/ref_avs_real/epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05",
+        "overwrite_output_dir": false,
+        "do_train": false,
+        "do_eval": false,
+        "do_predict": false,
+        "evaluation_strategy": "no",
+        "prediction_loss_only": false,
+        "per_device_train_batch_size": 4,
+        "per_device_eval_batch_size": 4,
+        "per_gpu_train_batch_size": null,
+        "per_gpu_eval_batch_size": null,
+        "gradient_accumulation_steps": 8,
+        "eval_accumulation_steps": null,
+        "eval_delay": 0,
+        "learning_rate": 0.0001,
+        "weight_decay": 0.0,
+        "adam_beta1": 0.9,
+        "adam_beta2": 0.999,
+        "adam_epsilon": 1e-08,
+        "max_grad_norm": 1.0,
+        "num_train_epochs": 6.0,
+        "max_steps": -1,
+        "lr_scheduler_type": "cosine",
+        "lr_scheduler_kwargs": {},
+        "warmup_ratio": 0.03,
+        "warmup_steps": 0,
+        "log_level": "passive",
+        "log_level_replica": "warning",
+        "log_on_each_node": true,
+        "logging_dir": "results_real/ref_avs_real/epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/runs/Jun05_09-29-17_gpu-12",
+        "logging_strategy": "steps",
+        "logging_first_step": false,
+        "logging_steps": 1.0,
+        "logging_nan_inf_filter": true,
+        "save_strategy": "epoch",
+        "save_steps": -1.0,
+        "save_total_limit": 10,
+        "save_safetensors": true,
+        "save_on_each_node": false,
+        "save_only_model": false,
+        "no_cuda": false,
+        "use_cpu": false,
+        "use_mps_device": false,
+        "seed": 42,
+        "data_seed": null,
+        "jit_mode_eval": false,
+        "use_ipex": false,
+        "bf16": true,
+        "fp16": false,
+        "fp16_opt_level": "O1",
+        "half_precision_backend": "auto",
+        "bf16_full_eval": false,
+        "fp16_full_eval": false,
+        "tf32": false,
+        "local_rank": 0,
+        "ddp_backend": null,
+        "tpu_num_cores": null,
+        "tpu_metrics_debug": false,
+        "debug": [],
+        "dataloader_drop_last": false,
+        "eval_steps": null,
+        "dataloader_num_workers": 4,
+        "past_index": -1,
+        "run_name": "results_real/ref_avs_real/epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05",
+        "disable_tqdm": false,
+        "remove_unused_columns": false,
+        "label_names": null,
+        "load_best_model_at_end": false,
+        "metric_for_best_model": null,
+        "greater_is_better": null,
+        "ignore_data_skip": false,
+        "fsdp": [],
+        "fsdp_min_num_params": 0,
+        "fsdp_config": {
+            "min_num_params": 0,
+            "xla": false,
+            "xla_fsdp_grad_ckpt": false
+        },
+        "fsdp_transformer_layer_cls_to_wrap": null,
+        "deepspeed": "deepspeed/stage2-offload.json",
+        "label_smoothing_factor": 0.0,
+        "optim": "adamw_torch",
+        "optim_args": null,
+        "adafactor": false,
+        "group_by_length": false,
+        "length_column_name": "length",
+        "report_to": [
+            "tensorboard",
+            "wandb"
+        ],
+        "ddp_find_unused_parameters": true,
+        "ddp_bucket_cap_mb": null,
+        "ddp_broadcast_buffers": null,
+        "dataloader_pin_memory": true,
+        "dataloader_persistent_workers": false,
+        "skip_memory_metrics": true,
+        "use_legacy_prediction_loop": false,
+        "push_to_hub": false,
+        "resume_from_checkpoint": null,
+        "hub_model_id": null,
+        "hub_strategy": "every_save",
+        "hub_token": null,
+        "hub_private_repo": false,
+        "hub_always_push": false,
+        "gradient_checkpointing": true,
+        "gradient_checkpointing_kwargs": null,
+        "include_inputs_for_metrics": false,
+        "fp16_backend": "auto",
+        "push_to_hub_model_id": null,
+        "push_to_hub_organization": null,
+        "push_to_hub_token": null,
+        "_n_gpu": 1,
+        "mp_parameters": "",
+        "auto_find_batch_size": false,
+        "full_determinism": false,
+        "torchdynamo": null,
+        "ray_scope": "last",
+        "ddp_timeout": 1800,
+        "torch_compile": false,
+        "torch_compile_backend": null,
+        "torch_compile_mode": null,
+        "dispatch_batches": null,
+        "split_batches": false,
+        "include_tokens_per_second": false,
+        "include_num_input_tokens_seen": false,
+        "neftune_noise_alpha": null,
+        "mm_projector_lr": null,
+        "freeze_mm_mlp_adapter": false,
+        "cache_dir": null,
+        "group_by_modality_length": false,
+        "model_max_length": 512,
+        "double_quant": true,
+        "quant_type": "nf4",
+        "bits": 32,
+        "lora_enable": true,
+        "lora_r": 8,
+        "lora_alpha": 16,
+        "lora_dropout": 0.05,
+        "lora_weight_path": "",
+        "lora_bias": "none",
+        "ce_loss_weight": 1.0,
+        "dice_loss_weight": 0.5,
+        "bce_loss_weight": 1.0,
+        "audio_branch": true,
+        "visual_branch": true,
+        "seg_branch": false,
+        "pretrain_ckpt_dir": "./pretrained_weights",
+        "finetune_ckpt_dir": "",
+        "save_modules": "vl_projector,al_projector,lora",
+        "exp_desc": "exp",
+        "use_process": true,
+        "use_hyper_lora": true
+    }
+}

epochs6_lr1e-4_bs4_gradacc8_lora_r8alpha16dropout0.05/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3990 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.979614949037373,
+  "eval_steps": 500,
+  "global_step": 660,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0,
+      "loss": 3.1127,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.313782131597592e-05,
+      "loss": 2.3729,
+      "step": 2
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 3.667257913420847e-05,
+      "loss": 2.3541,
+      "step": 3
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.627564263195184e-05,
+      "loss": 2.1759,
+      "step": 4
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 5.372435736804816e-05,
+      "loss": 1.9987,
+      "step": 5
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 5.981040045018439e-05,
+      "loss": 1.7451,
+      "step": 6
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 6.495607655709434e-05,
+      "loss": 1.5037,
+      "step": 7
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 6.941346394792775e-05,
+      "loss": 1.3287,
+      "step": 8
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 7.334515826841694e-05,
+      "loss": 1.1541,
+      "step": 9
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 7.68621786840241e-05,
+      "loss": 1.0282,
+      "step": 10
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 8.004371064686714e-05,
+      "loss": 0.9036,
+      "step": 11
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 8.29482217661603e-05,
+      "loss": 0.8083,
+      "step": 12
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 8.562011298888889e-05,
+      "loss": 0.715,
+      "step": 13
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 8.809389787307026e-05,
+      "loss": 0.6602,
+      "step": 14
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.039693650225664e-05,
+      "loss": 0.5938,
+      "step": 15
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.255128526390367e-05,
+      "loss": 0.5876,
+      "step": 16
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 9.457498485654161e-05,
+      "loss": 0.5373,
+      "step": 17
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.648297958439284e-05,
+      "loss": 0.5317,
+      "step": 18
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 9.828778776927557e-05,
+      "loss": 0.5139,
+      "step": 19
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001,
+      "loss": 0.4989,
+      "step": 20
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001,
+      "loss": 0.4844,
+      "step": 21
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.984375e-05,
+      "loss": 0.4535,
+      "step": 22
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 9.96875e-05,
+      "loss": 0.4414,
+      "step": 23
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 9.953125000000001e-05,
+      "loss": 0.4391,
+      "step": 24
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 9.9375e-05,
+      "loss": 0.4229,
+      "step": 25
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.921875000000001e-05,
+      "loss": 0.4291,
+      "step": 26
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.90625e-05,
+      "loss": 0.433,
+      "step": 27
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 9.890625e-05,
+      "loss": 0.4309,
+      "step": 28
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.875000000000002e-05,
+      "loss": 0.3866,
+      "step": 29
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 9.859375000000001e-05,
+      "loss": 0.4084,
+      "step": 30
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.84375e-05,
+      "loss": 0.3987,
+      "step": 31
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 9.828125000000001e-05,
+      "loss": 0.4156,
+      "step": 32
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.8125e-05,
+      "loss": 0.3865,
+      "step": 33
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 9.796875e-05,
+      "loss": 0.386,
+      "step": 34
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.781250000000001e-05,
+      "loss": 0.4243,
+      "step": 35
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 9.765625e-05,
+      "loss": 0.4054,
+      "step": 36
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.75e-05,
+      "loss": 0.3999,
+      "step": 37
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.734375e-05,
+      "loss": 0.387,
+      "step": 38
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.718750000000001e-05,
+      "loss": 0.3874,
+      "step": 39
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.703125e-05,
+      "loss": 0.3968,
+      "step": 40
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 9.687500000000001e-05,
+      "loss": 0.3729,
+      "step": 41
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.671875e-05,
+      "loss": 0.378,
+      "step": 42
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 9.65625e-05,
+      "loss": 0.3787,
+      "step": 43
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 9.640625000000002e-05,
+      "loss": 0.3927,
+      "step": 44
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.625000000000001e-05,
+      "loss": 0.3707,
+      "step": 45
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 9.609375e-05,
+      "loss": 0.3603,
+      "step": 46
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 9.593750000000001e-05,
+      "loss": 0.3777,
+      "step": 47
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 9.578125e-05,
+      "loss": 0.3594,
+      "step": 48
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.562500000000001e-05,
+      "loss": 0.3608,
+      "step": 49
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 9.546875000000001e-05,
+      "loss": 0.3663,
+      "step": 50
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.53125e-05,
+      "loss": 0.3733,
+      "step": 51
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 9.515625e-05,
+      "loss": 0.3707,
+      "step": 52
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 9.5e-05,
+      "loss": 0.3698,
+      "step": 53
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 9.484375000000001e-05,
+      "loss": 0.3645,
+      "step": 54
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 9.46875e-05,
+      "loss": 0.3592,
+      "step": 55
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 9.453125000000001e-05,
+      "loss": 0.3511,
+      "step": 56
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 9.4375e-05,
+      "loss": 0.3498,
+      "step": 57
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 9.421875e-05,
+      "loss": 0.3547,
+      "step": 58
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 9.40625e-05,
+      "loss": 0.3374,
+      "step": 59
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 9.390625000000001e-05,
+      "loss": 0.3456,
+      "step": 60
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 9.375e-05,
+      "loss": 0.3447,
+      "step": 61
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 9.359375000000001e-05,
+      "loss": 0.3422,
+      "step": 62
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 9.34375e-05,
+      "loss": 0.3498,
+      "step": 63
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 9.328125000000001e-05,
+      "loss": 0.3399,
+      "step": 64
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 9.3125e-05,
+      "loss": 0.3495,
+      "step": 65
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 9.296875e-05,
+      "loss": 0.3375,
+      "step": 66
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 9.28125e-05,
+      "loss": 0.3337,
+      "step": 67
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 9.265625e-05,
+      "loss": 0.3303,
+      "step": 68
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 9.250000000000001e-05,
+      "loss": 0.3295,
+      "step": 69
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 9.234375e-05,
+      "loss": 0.3278,
+      "step": 70
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 9.21875e-05,
+      "loss": 0.3372,
+      "step": 71
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 9.203125e-05,
+      "loss": 0.3471,
+      "step": 72
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 9.1875e-05,
+      "loss": 0.3217,
+      "step": 73
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 9.171875e-05,
+      "loss": 0.337,
+      "step": 74
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 9.156250000000001e-05,
+      "loss": 0.3532,
+      "step": 75
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 9.140625e-05,
+      "loss": 0.3342,
+      "step": 76
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 9.125e-05,
+      "loss": 0.3245,
+      "step": 77
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 9.109375e-05,
+      "loss": 0.3338,
+      "step": 78
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 9.093750000000001e-05,
+      "loss": 0.3382,
+      "step": 79
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 9.078125e-05,
+      "loss": 0.3295,
+      "step": 80
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 9.062500000000001e-05,
+      "loss": 0.3207,
+      "step": 81
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.046875e-05,
+      "loss": 0.3224,
+      "step": 82
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.03125e-05,
+      "loss": 0.3181,
+      "step": 83
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 9.015625000000001e-05,
+      "loss": 0.3572,
+      "step": 84
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 9e-05,
+      "loss": 0.3373,
+      "step": 85
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 8.984375e-05,
+      "loss": 0.3349,
+      "step": 86
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 8.96875e-05,
+      "loss": 0.3491,
+      "step": 87
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 8.953125e-05,
+      "loss": 0.3414,
+      "step": 88
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 8.9375e-05,
+      "loss": 0.3345,
+      "step": 89
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.921875000000001e-05,
+      "loss": 0.3328,
+      "step": 90
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.90625e-05,
+      "loss": 0.3496,
+      "step": 91
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.890625e-05,
+      "loss": 0.3458,
+      "step": 92
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.875e-05,
+      "loss": 0.3126,
+      "step": 93
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 8.859375000000001e-05,
+      "loss": 0.3129,
+      "step": 94
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 8.84375e-05,
+      "loss": 0.3167,
+      "step": 95
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 8.828125000000001e-05,
+      "loss": 0.3201,
+      "step": 96
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 8.8125e-05,
+      "loss": 0.3392,
+      "step": 97
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 8.796875e-05,
+      "loss": 0.3106,
+      "step": 98
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 8.781250000000001e-05,
+      "loss": 0.3106,
+      "step": 99
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 8.765625e-05,
+      "loss": 0.3173,
+      "step": 100
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 8.75e-05,
+      "loss": 0.3196,
+      "step": 101
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 8.734375e-05,
+      "loss": 0.3239,
+      "step": 102
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 8.71875e-05,
+      "loss": 0.3266,
+      "step": 103
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 8.703125e-05,
+      "loss": 0.3175,
+      "step": 104
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 8.687500000000001e-05,
+      "loss": 0.3111,
+      "step": 105
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 8.671875e-05,
+      "loss": 0.3138,
+      "step": 106
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 8.65625e-05,
+      "loss": 0.3195,
+      "step": 107
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.640625e-05,
+      "loss": 0.3125,
+      "step": 108
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 8.625000000000001e-05,
+      "loss": 0.3038,
+      "step": 109
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 8.609375e-05,
+      "loss": 0.3052,
+      "step": 110
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 8.593750000000001e-05,
+      "loss": 0.3141,
+      "step": 111
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 8.578125e-05,
+      "loss": 0.3072,
+      "step": 112
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 8.5625e-05,
+      "loss": 0.2979,
+      "step": 113
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 8.546875000000001e-05,
+      "loss": 0.2828,
+      "step": 114
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 8.531250000000001e-05,
+      "loss": 0.3011,
+      "step": 115
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 8.515625e-05,
+      "loss": 0.2888,
+      "step": 116
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 8.5e-05,
+      "loss": 0.3104,
+      "step": 117
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 8.484375e-05,
+      "loss": 0.3073,
+      "step": 118
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.46875e-05,
+      "loss": 0.3097,
+      "step": 119
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 8.453125000000001e-05,
+      "loss": 0.3033,
+      "step": 120
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 8.4375e-05,
+      "loss": 0.3058,
+      "step": 121
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 8.421875e-05,
+      "loss": 0.287,
+      "step": 122
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 8.40625e-05,
+      "loss": 0.306,
+      "step": 123
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 8.390625000000001e-05,
+      "loss": 0.298,
+      "step": 124
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 8.375e-05,
+      "loss": 0.2873,
+      "step": 125
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 8.359375000000001e-05,
+      "loss": 0.2895,
+      "step": 126
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 8.34375e-05,
+      "loss": 0.2928,
+      "step": 127
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 8.328125e-05,
+      "loss": 0.2875,
+      "step": 128
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 8.312500000000001e-05,
+      "loss": 0.2918,
+      "step": 129
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 8.296875000000001e-05,
+      "loss": 0.2857,
+      "step": 130
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 8.28125e-05,
+      "loss": 0.3044,
+      "step": 131
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 8.265625e-05,
+      "loss": 0.2899,
+      "step": 132
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 8.25e-05,
+      "loss": 0.2871,
+      "step": 133
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 8.234375e-05,
+      "loss": 0.3135,
+      "step": 134
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 8.218750000000001e-05,
+      "loss": 0.3033,
+      "step": 135
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 8.203125e-05,
+      "loss": 0.281,
+      "step": 136
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 8.1875e-05,
+      "loss": 0.2852,
+      "step": 137
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 8.171875e-05,
+      "loss": 0.298,
+      "step": 138
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 8.156250000000001e-05,
+      "loss": 0.2895,
+      "step": 139
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 8.140625e-05,
+      "loss": 0.3002,
+      "step": 140
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 8.125000000000001e-05,
+      "loss": 0.2844,
+      "step": 141
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 8.109375e-05,
+      "loss": 0.2832,
+      "step": 142
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 8.09375e-05,
+      "loss": 0.2917,
+      "step": 143
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 8.078125e-05,
+      "loss": 0.2907,
+      "step": 144
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 8.062500000000001e-05,
+      "loss": 0.2828,
+      "step": 145
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 8.046875e-05,
+      "loss": 0.2835,
+      "step": 146
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 8.031250000000001e-05,
+      "loss": 0.2952,
+      "step": 147
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 8.015625e-05,
+      "loss": 0.2912,
+      "step": 148
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 8e-05,
+      "loss": 0.2848,
+      "step": 149
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 7.984375e-05,
+      "loss": 0.2944,
+      "step": 150
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 7.96875e-05,
+      "loss": 0.3008,
+      "step": 151
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 7.953125e-05,
+      "loss": 0.2887,
+      "step": 152
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 7.9375e-05,
+      "loss": 0.2976,
+      "step": 153
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 7.921875000000001e-05,
+      "loss": 0.2856,
+      "step": 154
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 7.90625e-05,
+      "loss": 0.2851,
+      "step": 155
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 7.890625000000001e-05,
+      "loss": 0.2833,
+      "step": 156
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 7.875e-05,
+      "loss": 0.292,
+      "step": 157
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 7.859375e-05,
+      "loss": 0.291,
+      "step": 158
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 7.84375e-05,
+      "loss": 0.2863,
+      "step": 159
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 7.828125000000001e-05,
+      "loss": 0.288,
+      "step": 160
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 7.8125e-05,
+      "loss": 0.2973,
+      "step": 161
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 7.796875000000001e-05,
+      "loss": 0.2722,
+      "step": 162
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 7.78125e-05,
+      "loss": 0.2972,
+      "step": 163
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 7.765625000000001e-05,
+      "loss": 0.2844,
+      "step": 164
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 7.75e-05,
+      "loss": 0.2878,
+      "step": 165
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 7.734375e-05,
+      "loss": 0.2882,
+      "step": 166
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.71875e-05,
+      "loss": 0.2749,
+      "step": 167
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 7.703125e-05,
+      "loss": 0.2823,
+      "step": 168
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 7.687500000000001e-05,
+      "loss": 0.2783,
+      "step": 169
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 7.671875e-05,
+      "loss": 0.2941,
+      "step": 170
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 7.65625e-05,
+      "loss": 0.2789,
+      "step": 171
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 7.640625e-05,
+      "loss": 0.2743,
+      "step": 172
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 7.625e-05,
+      "loss": 0.2839,
+      "step": 173
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 7.609375e-05,
+      "loss": 0.2698,
+      "step": 174
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 7.593750000000001e-05,
+      "loss": 0.2925,
+      "step": 175
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 7.578125e-05,
+      "loss": 0.283,
+      "step": 176
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 7.5625e-05,
+      "loss": 0.2776,
+      "step": 177
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 7.546875e-05,
+      "loss": 0.3031,
+      "step": 178
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 7.531250000000001e-05,
+      "loss": 0.2823,
+      "step": 179
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 7.515625e-05,
+      "loss": 0.2883,
+      "step": 180
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.2845,
+      "step": 181
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 7.484375e-05,
+      "loss": 0.2804,
+      "step": 182
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 7.468749999999999e-05,
+      "loss": 0.2747,
+      "step": 183
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 7.453125000000001e-05,
+      "loss": 0.2822,
+      "step": 184
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 7.4375e-05,
+      "loss": 0.2708,
+      "step": 185
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 7.421875e-05,
+      "loss": 0.287,
+      "step": 186
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 7.40625e-05,
+      "loss": 0.2785,
+      "step": 187
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 7.390625e-05,
+      "loss": 0.285,
+      "step": 188
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 7.375e-05,
+      "loss": 0.2963,
+      "step": 189
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 7.359375000000001e-05,
+      "loss": 0.3,
+      "step": 190
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 7.34375e-05,
+      "loss": 0.2738,
+      "step": 191
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 7.328125e-05,
+      "loss": 0.2721,
+      "step": 192
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 7.3125e-05,
+      "loss": 0.2762,
+      "step": 193
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 7.296875000000001e-05,
+      "loss": 0.2878,
+      "step": 194
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 7.28125e-05,
+      "loss": 0.2989,
+      "step": 195
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.265625000000001e-05,
+      "loss": 0.2826,
+      "step": 196
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.25e-05,
+      "loss": 0.2832,
+      "step": 197
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 7.234375e-05,
+      "loss": 0.2834,
+      "step": 198
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 7.218750000000001e-05,
+      "loss": 0.2859,
+      "step": 199
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 7.203125e-05,
+      "loss": 0.2644,
+      "step": 200
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 7.1875e-05,
+      "loss": 0.2879,
+      "step": 201
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.171875e-05,
+      "loss": 0.2807,
+      "step": 202
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 7.15625e-05,
+      "loss": 0.2845,
+      "step": 203
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 7.140625e-05,
+      "loss": 0.2905,
+      "step": 204
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.125000000000001e-05,
+      "loss": 0.278,
+      "step": 205
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 7.109375e-05,
+      "loss": 0.2779,
+      "step": 206
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 7.09375e-05,
+      "loss": 0.2801,
+      "step": 207
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 7.078125e-05,
+      "loss": 0.2734,
+      "step": 208
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 7.062500000000001e-05,
+      "loss": 0.2821,
+      "step": 209
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 7.046875e-05,
+      "loss": 0.2712,
+      "step": 210
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 7.031250000000001e-05,
+      "loss": 0.274,
+      "step": 211
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 7.015625e-05,
+      "loss": 0.2911,
+      "step": 212
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 7e-05,
+      "loss": 0.2726,
+      "step": 213
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 6.984375000000001e-05,
+      "loss": 0.2684,
+      "step": 214
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 6.96875e-05,
+      "loss": 0.2631,
+      "step": 215
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 6.953125e-05,
+      "loss": 0.2726,
+      "step": 216
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 6.9375e-05,
+      "loss": 0.2814,
+      "step": 217
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 6.921875e-05,
+      "loss": 0.2667,
+      "step": 218
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 6.90625e-05,
+      "loss": 0.2872,
+      "step": 219
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 6.890625000000001e-05,
+      "loss": 0.2731,
+      "step": 220
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 6.875e-05,
+      "loss": 0.2745,
+      "step": 221
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 6.859375e-05,
+      "loss": 0.2555,
+      "step": 222
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 6.84375e-05,
+      "loss": 0.2398,
+      "step": 223
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 6.828125000000001e-05,
+      "loss": 0.2629,
+      "step": 224
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 6.8125e-05,
+      "loss": 0.2591,
+      "step": 225
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 6.796875000000001e-05,
+      "loss": 0.2513,
+      "step": 226
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 6.78125e-05,
+      "loss": 0.2494,
+      "step": 227
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 6.765625e-05,
+      "loss": 0.255,
+      "step": 228
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 6.750000000000001e-05,
+      "loss": 0.242,
+      "step": 229
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 6.734375000000001e-05,
+      "loss": 0.2589,
+      "step": 230
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 6.71875e-05,
+      "loss": 0.2502,
+      "step": 231
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 6.703125e-05,
+      "loss": 0.2569,
+      "step": 232
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 6.6875e-05,
+      "loss": 0.2545,
+      "step": 233
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 6.671875e-05,
+      "loss": 0.2567,
+      "step": 234
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 6.656250000000001e-05,
+      "loss": 0.2472,
+      "step": 235
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 6.640625e-05,
+      "loss": 0.2692,
+      "step": 236
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 6.625e-05,
+      "loss": 0.2671,
+      "step": 237
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 6.609375e-05,
+      "loss": 0.2447,
+      "step": 238
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 6.593750000000001e-05,
+      "loss": 0.2592,
+      "step": 239
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 6.578125e-05,
+      "loss": 0.2691,
+      "step": 240
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 6.562500000000001e-05,
+      "loss": 0.2636,
+      "step": 241
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 6.546875e-05,
+      "loss": 0.2459,
+      "step": 242
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 6.53125e-05,
+      "loss": 0.2518,
+      "step": 243
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 6.515625e-05,
+      "loss": 0.2559,
+      "step": 244
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 0.2547,
+      "step": 245
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 6.484375e-05,
+      "loss": 0.2446,
+      "step": 246
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 6.468750000000001e-05,
+      "loss": 0.2532,
+      "step": 247
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 6.453125e-05,
+      "loss": 0.2639,
+      "step": 248
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 6.4375e-05,
+      "loss": 0.2617,
+      "step": 249
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 6.421875e-05,
+      "loss": 0.2463,
+      "step": 250
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 6.40625e-05,
+      "loss": 0.2521,
+      "step": 251
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 6.390625e-05,
+      "loss": 0.2525,
+      "step": 252
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 6.375e-05,
+      "loss": 0.2546,
+      "step": 253
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 6.359375000000001e-05,
+      "loss": 0.2534,
+      "step": 254
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 6.34375e-05,
+      "loss": 0.2476,
+      "step": 255
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.328125e-05,
+      "loss": 0.2567,
+      "step": 256
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.3125e-05,
+      "loss": 0.267,
+      "step": 257
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.296875e-05,
+      "loss": 0.2505,
+      "step": 258
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.28125e-05,
+      "loss": 0.2561,
+      "step": 259
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.265625000000001e-05,
+      "loss": 0.2375,
+      "step": 260
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.25e-05,
+      "loss": 0.2598,
+      "step": 261
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.234375e-05,
+      "loss": 0.2616,
+      "step": 262
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 6.21875e-05,
+      "loss": 0.2544,
+      "step": 263
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.203125000000001e-05,
+      "loss": 0.2606,
+      "step": 264
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 6.1875e-05,
+      "loss": 0.2566,
+      "step": 265
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 6.171875e-05,
+      "loss": 0.2487,
+      "step": 266
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 6.15625e-05,
+      "loss": 0.2431,
+      "step": 267
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 6.140625e-05,
+      "loss": 0.2499,
+      "step": 268
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 6.125000000000001e-05,
+      "loss": 0.2485,
+      "step": 269
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 6.109375e-05,
+      "loss": 0.2427,
+      "step": 270
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 6.0937500000000004e-05,
+      "loss": 0.2595,
+      "step": 271
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 6.0781250000000004e-05,
+      "loss": 0.256,
+      "step": 272
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 6.0624999999999996e-05,
+      "loss": 0.245,
+      "step": 273
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 6.046875000000001e-05,
+      "loss": 0.2568,
+      "step": 274
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 6.03125e-05,
+      "loss": 0.2616,
+      "step": 275
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 6.015625e-05,
+      "loss": 0.2478,
+      "step": 276
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 6e-05,
+      "loss": 0.2443,
+      "step": 277
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 5.984375e-05,
+      "loss": 0.2574,
+      "step": 278
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 5.968750000000001e-05,
+      "loss": 0.2408,
+      "step": 279
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 5.953125000000001e-05,
+      "loss": 0.2521,
+      "step": 280
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 5.9375e-05,
+      "loss": 0.2471,
+      "step": 281
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 5.921875e-05,
+      "loss": 0.2564,
+      "step": 282
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 5.90625e-05,
+      "loss": 0.2396,
+      "step": 283
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 5.8906250000000005e-05,
+      "loss": 0.2537,
+      "step": 284
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 5.8750000000000005e-05,
+      "loss": 0.2625,
+      "step": 285
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 5.8593750000000005e-05,
+      "loss": 0.2481,
+      "step": 286
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 5.84375e-05,
+      "loss": 0.2458,
+      "step": 287
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 5.828125e-05,
+      "loss": 0.2324,
+      "step": 288
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 5.812500000000001e-05,
+      "loss": 0.2439,
+      "step": 289
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 5.796875e-05,
+      "loss": 0.2569,
+      "step": 290
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 5.78125e-05,
+      "loss": 0.2571,
+      "step": 291
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 5.765625e-05,
+      "loss": 0.2387,
+      "step": 292
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 5.7499999999999995e-05,
+      "loss": 0.2635,
+      "step": 293
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 5.734375000000001e-05,
+      "loss": 0.2511,
+      "step": 294
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 5.718750000000001e-05,
+      "loss": 0.248,
+      "step": 295
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 5.703125e-05,
+      "loss": 0.2533,
+      "step": 296
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 5.6875e-05,
+      "loss": 0.2519,
+      "step": 297
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 5.671875e-05,
+      "loss": 0.2478,
+      "step": 298
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 5.6562500000000006e-05,
+      "loss": 0.2517,
+      "step": 299
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 5.6406250000000006e-05,
+      "loss": 0.2414,
+      "step": 300
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 5.6250000000000005e-05,
+      "loss": 0.2484,
+      "step": 301
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 5.609375e-05,
+      "loss": 0.2366,
+      "step": 302
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 5.59375e-05,
+      "loss": 0.2403,
+      "step": 303
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 5.5781250000000004e-05,
+      "loss": 0.2389,
+      "step": 304
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 5.5625000000000004e-05,
+      "loss": 0.2597,
+      "step": 305
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 5.546875e-05,
+      "loss": 0.2375,
+      "step": 306
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 5.53125e-05,
+      "loss": 0.2479,
+      "step": 307
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 5.5156249999999996e-05,
+      "loss": 0.2686,
+      "step": 308
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.2445,
+      "step": 309
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 5.484375e-05,
+      "loss": 0.2515,
+      "step": 310
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 5.46875e-05,
+      "loss": 0.2632,
+      "step": 311
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 5.453125e-05,
+      "loss": 0.264,
+      "step": 312
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 5.4375e-05,
+      "loss": 0.2499,
+      "step": 313
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 5.421875000000001e-05,
+      "loss": 0.2515,
+      "step": 314
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.4062500000000006e-05,
+      "loss": 0.2601,
+      "step": 315
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 5.3906250000000006e-05,
+      "loss": 0.2491,
+      "step": 316
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 5.375e-05,
+      "loss": 0.2536,
+      "step": 317
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 5.359375e-05,
+      "loss": 0.2413,
+      "step": 318
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 5.3437500000000005e-05,
+      "loss": 0.2491,
+      "step": 319
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 5.3281250000000004e-05,
+      "loss": 0.2569,
+      "step": 320
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 5.3125000000000004e-05,
+      "loss": 0.2464,
+      "step": 321
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 5.2968750000000003e-05,
+      "loss": 0.2401,
+      "step": 322
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 5.2812499999999996e-05,
+      "loss": 0.248,
+      "step": 323
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 5.265625000000001e-05,
+      "loss": 0.2458,
+      "step": 324
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 5.25e-05,
+      "loss": 0.2559,
+      "step": 325
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 5.234375e-05,
+      "loss": 0.2405,
+      "step": 326
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 5.21875e-05,
+      "loss": 0.2463,
+      "step": 327
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 5.203125e-05,
+      "loss": 0.247,
+      "step": 328
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 5.187500000000001e-05,
+      "loss": 0.2456,
+      "step": 329
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 5.171875000000001e-05,
+      "loss": 0.2368,
+      "step": 330
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 5.15625e-05,
+      "loss": 0.2357,
+      "step": 331
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 5.140625e-05,
+      "loss": 0.2384,
+      "step": 332
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 5.125e-05,
+      "loss": 0.2318,
+      "step": 333
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 5.1093750000000005e-05,
+      "loss": 0.2302,
+      "step": 334
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 5.0937500000000005e-05,
+      "loss": 0.2122,
+      "step": 335
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 5.0781250000000004e-05,
+      "loss": 0.2197,
+      "step": 336
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 5.0625e-05,
+      "loss": 0.2179,
+      "step": 337
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 5.046875e-05,
+      "loss": 0.2252,
+      "step": 338
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 5.031250000000001e-05,
+      "loss": 0.2215,
+      "step": 339
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 5.015625e-05,
+      "loss": 0.2264,
+      "step": 340
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 5e-05,
+      "loss": 0.2301,
+      "step": 341
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 4.984375e-05,
+      "loss": 0.2261,
+      "step": 342
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 4.96875e-05,
+      "loss": 0.2185,
+      "step": 343
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 4.953125e-05,
+      "loss": 0.2261,
+      "step": 344
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 4.937500000000001e-05,
+      "loss": 0.2301,
+      "step": 345
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 4.921875e-05,
+      "loss": 0.2214,
+      "step": 346
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 4.90625e-05,
+      "loss": 0.2154,
+      "step": 347
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 4.8906250000000006e-05,
+      "loss": 0.2229,
+      "step": 348
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 4.875e-05,
+      "loss": 0.207,
+      "step": 349
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 4.8593750000000005e-05,
+      "loss": 0.225,
+      "step": 350
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 4.8437500000000005e-05,
+      "loss": 0.2327,
+      "step": 351
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 4.828125e-05,
+      "loss": 0.2185,
+      "step": 352
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 4.8125000000000004e-05,
+      "loss": 0.2171,
+      "step": 353
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 4.7968750000000004e-05,
+      "loss": 0.2226,
+      "step": 354
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 4.7812500000000003e-05,
+      "loss": 0.2392,
+      "step": 355
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 4.765625e-05,
+      "loss": 0.2243,
+      "step": 356
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 4.75e-05,
+      "loss": 0.2244,
+      "step": 357
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 4.734375e-05,
+      "loss": 0.2264,
+      "step": 358
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 4.71875e-05,
+      "loss": 0.2188,
+      "step": 359
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 4.703125e-05,
+      "loss": 0.2282,
+      "step": 360
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 4.6875e-05,
+      "loss": 0.2259,
+      "step": 361
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 4.671875e-05,
+      "loss": 0.2252,
+      "step": 362
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 4.65625e-05,
+      "loss": 0.2294,
+      "step": 363
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 4.640625e-05,
+      "loss": 0.2233,
+      "step": 364
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 4.6250000000000006e-05,
+      "loss": 0.2262,
+      "step": 365
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 4.609375e-05,
+      "loss": 0.2172,
+      "step": 366
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 4.59375e-05,
+      "loss": 0.2203,
+      "step": 367
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 4.5781250000000005e-05,
+      "loss": 0.2225,
+      "step": 368
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 4.5625e-05,
+      "loss": 0.2334,
+      "step": 369
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 4.5468750000000004e-05,
+      "loss": 0.2295,
+      "step": 370
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 4.5312500000000004e-05,
+      "loss": 0.2177,
+      "step": 371
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 4.515625e-05,
+      "loss": 0.2229,
+      "step": 372
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 4.5e-05,
+      "loss": 0.2211,
+      "step": 373
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 4.484375e-05,
+      "loss": 0.2264,
+      "step": 374
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 4.46875e-05,
+      "loss": 0.2244,
+      "step": 375
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 4.453125e-05,
+      "loss": 0.221,
+      "step": 376
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 4.4375e-05,
+      "loss": 0.2177,
+      "step": 377
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 4.421875e-05,
+      "loss": 0.2134,
+      "step": 378
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 4.40625e-05,
+      "loss": 0.2134,
+      "step": 379
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 4.390625000000001e-05,
+      "loss": 0.2167,
+      "step": 380
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 4.375e-05,
+      "loss": 0.2227,
+      "step": 381
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 4.359375e-05,
+      "loss": 0.218,
+      "step": 382
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 4.3437500000000006e-05,
+      "loss": 0.2215,
+      "step": 383
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 4.328125e-05,
+      "loss": 0.225,
+      "step": 384
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 4.3125000000000005e-05,
+      "loss": 0.2111,
+      "step": 385
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 4.2968750000000004e-05,
+      "loss": 0.225,
+      "step": 386
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 4.28125e-05,
+      "loss": 0.2306,
+      "step": 387
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 4.2656250000000003e-05,
+      "loss": 0.2225,
+      "step": 388
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 4.25e-05,
+      "loss": 0.2276,
+      "step": 389
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 4.234375e-05,
+      "loss": 0.2286,
+      "step": 390
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 4.21875e-05,
+      "loss": 0.2198,
+      "step": 391
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 4.203125e-05,
+      "loss": 0.2236,
+      "step": 392
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 4.1875e-05,
+      "loss": 0.221,
+      "step": 393
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 4.171875e-05,
+      "loss": 0.2157,
+      "step": 394
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 4.156250000000001e-05,
+      "loss": 0.2331,
+      "step": 395
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 4.140625e-05,
+      "loss": 0.2218,
+      "step": 396
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 4.125e-05,
+      "loss": 0.2366,
+      "step": 397
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 4.1093750000000006e-05,
+      "loss": 0.2226,
+      "step": 398
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 4.09375e-05,
+      "loss": 0.2303,
+      "step": 399
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 4.0781250000000005e-05,
+      "loss": 0.217,
+      "step": 400
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 4.0625000000000005e-05,
+      "loss": 0.217,
+      "step": 401
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 4.046875e-05,
+      "loss": 0.2244,
+      "step": 402
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 4.0312500000000004e-05,
+      "loss": 0.2235,
+      "step": 403
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 4.0156250000000004e-05,
+      "loss": 0.2192,
+      "step": 404
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 4e-05,
+      "loss": 0.2422,
+      "step": 405
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 3.984375e-05,
+      "loss": 0.2214,
+      "step": 406
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 3.96875e-05,
+      "loss": 0.2209,
+      "step": 407
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 3.953125e-05,
+      "loss": 0.2208,
+      "step": 408
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 3.9375e-05,
+      "loss": 0.2281,
+      "step": 409
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 3.921875e-05,
+      "loss": 0.2142,
+      "step": 410
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 3.90625e-05,
+      "loss": 0.2306,
+      "step": 411
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 3.890625e-05,
+      "loss": 0.2209,
+      "step": 412
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 3.875e-05,
+      "loss": 0.2183,
+      "step": 413
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 3.859375e-05,
+      "loss": 0.2211,
+      "step": 414
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 3.8437500000000006e-05,
+      "loss": 0.2134,
+      "step": 415
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 3.828125e-05,
+      "loss": 0.2095,
+      "step": 416
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 3.8125e-05,
+      "loss": 0.2199,
+      "step": 417
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 3.7968750000000005e-05,
+      "loss": 0.2185,
+      "step": 418
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 3.78125e-05,
+      "loss": 0.2241,
+      "step": 419
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 3.7656250000000004e-05,
+      "loss": 0.2184,
+      "step": 420
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.2205,
+      "step": 421
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 3.7343749999999996e-05,
+      "loss": 0.2225,
+      "step": 422
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 3.71875e-05,
+      "loss": 0.2214,
+      "step": 423
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 3.703125e-05,
+      "loss": 0.2139,
+      "step": 424
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 3.6875e-05,
+      "loss": 0.2122,
+      "step": 425
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 3.671875e-05,
+      "loss": 0.2242,
+      "step": 426
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 3.65625e-05,
+      "loss": 0.2165,
+      "step": 427
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 3.640625e-05,
+      "loss": 0.2284,
+      "step": 428
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 3.625e-05,
+      "loss": 0.2237,
+      "step": 429
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 3.6093750000000007e-05,
+      "loss": 0.2216,
+      "step": 430
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 3.59375e-05,
+      "loss": 0.2222,
+      "step": 431
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 3.578125e-05,
+      "loss": 0.2228,
+      "step": 432
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 3.5625000000000005e-05,
+      "loss": 0.2146,
+      "step": 433
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 3.546875e-05,
+      "loss": 0.2327,
+      "step": 434
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 3.5312500000000005e-05,
+      "loss": 0.2288,
+      "step": 435
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 3.5156250000000004e-05,
+      "loss": 0.212,
+      "step": 436
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 3.5e-05,
+      "loss": 0.2223,
+      "step": 437
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 3.484375e-05,
+      "loss": 0.2119,
+      "step": 438
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 3.46875e-05,
+      "loss": 0.2102,
+      "step": 439
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 3.453125e-05,
+      "loss": 0.2165,
+      "step": 440
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 3.4375e-05,
+      "loss": 0.2255,
+      "step": 441
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 3.421875e-05,
+      "loss": 0.2115,
+      "step": 442
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 3.40625e-05,
+      "loss": 0.1965,
+      "step": 443
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 3.390625e-05,
+      "loss": 0.1968,
+      "step": 444
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 3.375000000000001e-05,
+      "loss": 0.1938,
+      "step": 445
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 3.359375e-05,
+      "loss": 0.2004,
+      "step": 446
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 3.34375e-05,
+      "loss": 0.1899,
+      "step": 447
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 3.3281250000000006e-05,
+      "loss": 0.1927,
+      "step": 448
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 3.3125e-05,
+      "loss": 0.1937,
+      "step": 449
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 3.2968750000000005e-05,
+      "loss": 0.1958,
+      "step": 450
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 3.2812500000000005e-05,
+      "loss": 0.1998,
+      "step": 451
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 3.265625e-05,
+      "loss": 0.193,
+      "step": 452
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.1983,
+      "step": 453
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 3.2343750000000004e-05,
+      "loss": 0.1998,
+      "step": 454
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 3.21875e-05,
+      "loss": 0.1976,
+      "step": 455
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 3.203125e-05,
+      "loss": 0.202,
+      "step": 456
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 3.1875e-05,
+      "loss": 0.1915,
+      "step": 457
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 3.171875e-05,
+      "loss": 0.2,
+      "step": 458
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 3.15625e-05,
+      "loss": 0.2018,
+      "step": 459
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 3.140625e-05,
+      "loss": 0.1951,
+      "step": 460
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 3.125e-05,
+      "loss": 0.1956,
+      "step": 461
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 3.109375e-05,
+      "loss": 0.2104,
+      "step": 462
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 3.09375e-05,
+      "loss": 0.194,
+      "step": 463
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 3.078125e-05,
+      "loss": 0.2056,
+      "step": 464
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 3.0625000000000006e-05,
+      "loss": 0.1899,
+      "step": 465
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 3.0468750000000002e-05,
+      "loss": 0.1991,
+      "step": 466
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 3.0312499999999998e-05,
+      "loss": 0.1982,
+      "step": 467
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 3.015625e-05,
+      "loss": 0.1881,
+      "step": 468
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 3e-05,
+      "loss": 0.1963,
+      "step": 469
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 2.9843750000000004e-05,
+      "loss": 0.2032,
+      "step": 470
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 2.96875e-05,
+      "loss": 0.2019,
+      "step": 471
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 2.953125e-05,
+      "loss": 0.1884,
+      "step": 472
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 2.9375000000000003e-05,
+      "loss": 0.1904,
+      "step": 473
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 2.921875e-05,
+      "loss": 0.1952,
+      "step": 474
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 2.9062500000000005e-05,
+      "loss": 0.1976,
+      "step": 475
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 2.890625e-05,
+      "loss": 0.2013,
+      "step": 476
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 2.8749999999999997e-05,
+      "loss": 0.1916,
+      "step": 477
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 2.8593750000000004e-05,
+      "loss": 0.196,
+      "step": 478
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 2.84375e-05,
+      "loss": 0.1932,
+      "step": 479
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 2.8281250000000003e-05,
+      "loss": 0.2052,
+      "step": 480
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 2.8125000000000003e-05,
+      "loss": 0.2001,
+      "step": 481
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 2.796875e-05,
+      "loss": 0.205,
+      "step": 482
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 2.7812500000000002e-05,
+      "loss": 0.1903,
+      "step": 483
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 2.765625e-05,
+      "loss": 0.1879,
+      "step": 484
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.1959,
+      "step": 485
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 2.734375e-05,
+      "loss": 0.1959,
+      "step": 486
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 2.71875e-05,
+      "loss": 0.2061,
+      "step": 487
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 2.7031250000000003e-05,
+      "loss": 0.1899,
+      "step": 488
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 2.6875e-05,
+      "loss": 0.2051,
+      "step": 489
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 2.6718750000000002e-05,
+      "loss": 0.1923,
+      "step": 490
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 2.6562500000000002e-05,
+      "loss": 0.2023,
+      "step": 491
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 2.6406249999999998e-05,
+      "loss": 0.1866,
+      "step": 492
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 2.625e-05,
+      "loss": 0.194,
+      "step": 493
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 2.609375e-05,
+      "loss": 0.1918,
+      "step": 494
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 2.5937500000000004e-05,
+      "loss": 0.1911,
+      "step": 495
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 2.578125e-05,
+      "loss": 0.1922,
+      "step": 496
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 2.5625e-05,
+      "loss": 0.182,
+      "step": 497
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 2.5468750000000002e-05,
+      "loss": 0.186,
+      "step": 498
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 2.53125e-05,
+      "loss": 0.2017,
+      "step": 499
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 2.5156250000000005e-05,
+      "loss": 0.195,
+      "step": 500
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 2.5e-05,
+      "loss": 0.1876,
+      "step": 501
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 2.484375e-05,
+      "loss": 0.1914,
+      "step": 502
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 2.4687500000000004e-05,
+      "loss": 0.1952,
+      "step": 503
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 2.453125e-05,
+      "loss": 0.2089,
+      "step": 504
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 2.4375e-05,
+      "loss": 0.1887,
+      "step": 505
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 2.4218750000000003e-05,
+      "loss": 0.1899,
+      "step": 506
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 2.4062500000000002e-05,
+      "loss": 0.1982,
+      "step": 507
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 2.3906250000000002e-05,
+      "loss": 0.1978,
+      "step": 508
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 2.375e-05,
+      "loss": 0.1909,
+      "step": 509
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 2.359375e-05,
+      "loss": 0.1975,
+      "step": 510
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 2.34375e-05,
+      "loss": 0.1954,
+      "step": 511
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 2.328125e-05,
+      "loss": 0.2066,
+      "step": 512
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 2.3125000000000003e-05,
+      "loss": 0.1919,
+      "step": 513
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 2.296875e-05,
+      "loss": 0.1987,
+      "step": 514
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 2.28125e-05,
+      "loss": 0.1942,
+      "step": 515
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 2.2656250000000002e-05,
+      "loss": 0.1981,
+      "step": 516
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 2.25e-05,
+      "loss": 0.1819,
+      "step": 517
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 2.234375e-05,
+      "loss": 0.1989,
+      "step": 518
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 2.21875e-05,
+      "loss": 0.1903,
+      "step": 519
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 2.203125e-05,
+      "loss": 0.19,
+      "step": 520
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 2.1875e-05,
+      "loss": 0.1921,
+      "step": 521
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 2.1718750000000003e-05,
+      "loss": 0.2014,
+      "step": 522
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 2.1562500000000002e-05,
+      "loss": 0.1928,
+      "step": 523
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 2.140625e-05,
+      "loss": 0.1922,
+      "step": 524
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 2.125e-05,
+      "loss": 0.1905,
+      "step": 525
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 2.109375e-05,
+      "loss": 0.194,
+      "step": 526
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 2.09375e-05,
+      "loss": 0.1898,
+      "step": 527
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 2.0781250000000004e-05,
+      "loss": 0.197,
+      "step": 528
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 2.0625e-05,
+      "loss": 0.2145,
+      "step": 529
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 2.046875e-05,
+      "loss": 0.1894,
+      "step": 530
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 2.0312500000000002e-05,
+      "loss": 0.1879,
+      "step": 531
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 2.0156250000000002e-05,
+      "loss": 0.2029,
+      "step": 532
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 2e-05,
+      "loss": 0.196,
+      "step": 533
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 1.984375e-05,
+      "loss": 0.1875,
+      "step": 534
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 1.96875e-05,
+      "loss": 0.192,
+      "step": 535
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 1.953125e-05,
+      "loss": 0.2006,
+      "step": 536
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 1.9375e-05,
+      "loss": 0.1805,
+      "step": 537
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 1.9218750000000003e-05,
+      "loss": 0.1982,
+      "step": 538
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 1.90625e-05,
+      "loss": 0.1869,
+      "step": 539
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 1.890625e-05,
+      "loss": 0.1886,
+      "step": 540
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 0.1803,
+      "step": 541
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 1.859375e-05,
+      "loss": 0.1922,
+      "step": 542
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 1.84375e-05,
+      "loss": 0.1903,
+      "step": 543
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 1.828125e-05,
+      "loss": 0.1951,
+      "step": 544
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 1.8125e-05,
+      "loss": 0.1912,
+      "step": 545
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 1.796875e-05,
+      "loss": 0.196,
+      "step": 546
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 1.7812500000000003e-05,
+      "loss": 0.1853,
+      "step": 547
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 1.7656250000000002e-05,
+      "loss": 0.1935,
+      "step": 548
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 1.75e-05,
+      "loss": 0.1955,
+      "step": 549
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 1.734375e-05,
+      "loss": 0.19,
+      "step": 550
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 1.71875e-05,
+      "loss": 0.1787,
+      "step": 551
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 1.703125e-05,
+      "loss": 0.1967,
+      "step": 552
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 1.6875000000000004e-05,
+      "loss": 0.1653,
+      "step": 553
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 1.671875e-05,
+      "loss": 0.1715,
+      "step": 554
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 1.65625e-05,
+      "loss": 0.1592,
+      "step": 555
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 1.6406250000000002e-05,
+      "loss": 0.1616,
+      "step": 556
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 1.6250000000000002e-05,
+      "loss": 0.1779,
+      "step": 557
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 1.609375e-05,
+      "loss": 0.162,
+      "step": 558
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 1.59375e-05,
+      "loss": 0.1779,
+      "step": 559
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 1.578125e-05,
+      "loss": 0.1666,
+      "step": 560
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 1.5625e-05,
+      "loss": 0.1804,
+      "step": 561
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 1.546875e-05,
+      "loss": 0.1712,
+      "step": 562
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 1.5312500000000003e-05,
+      "loss": 0.1692,
+      "step": 563
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 1.5156249999999999e-05,
+      "loss": 0.167,
+      "step": 564
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 1.5e-05,
+      "loss": 0.182,
+      "step": 565
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 1.484375e-05,
+      "loss": 0.178,
+      "step": 566
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 1.4687500000000001e-05,
+      "loss": 0.1805,
+      "step": 567
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 1.4531250000000003e-05,
+      "loss": 0.179,
+      "step": 568
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 1.4374999999999999e-05,
+      "loss": 0.1755,
+      "step": 569
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 1.421875e-05,
+      "loss": 0.167,
+      "step": 570
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 1.4062500000000001e-05,
+      "loss": 0.1668,
+      "step": 571
+    },
+    {
+      "epoch": 5.18,
+      "learning_rate": 1.3906250000000001e-05,
+      "loss": 0.1657,
+      "step": 572
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 1.3750000000000002e-05,
+      "loss": 0.1718,
+      "step": 573
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 1.359375e-05,
+      "loss": 0.1765,
+      "step": 574
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 1.34375e-05,
+      "loss": 0.1786,
+      "step": 575
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 1.3281250000000001e-05,
+      "loss": 0.1773,
+      "step": 576
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 1.3125e-05,
+      "loss": 0.1708,
+      "step": 577
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 1.2968750000000002e-05,
+      "loss": 0.1702,
+      "step": 578
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 1.28125e-05,
+      "loss": 0.1764,
+      "step": 579
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 1.265625e-05,
+      "loss": 0.1707,
+      "step": 580
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 1.25e-05,
+      "loss": 0.1783,
+      "step": 581
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 1.2343750000000002e-05,
+      "loss": 0.1663,
+      "step": 582
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 1.21875e-05,
+      "loss": 0.1698,
+      "step": 583
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 1.2031250000000001e-05,
+      "loss": 0.1694,
+      "step": 584
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 1.1875e-05,
+      "loss": 0.1745,
+      "step": 585
+    },
+    {
+      "epoch": 5.31,
+      "learning_rate": 1.171875e-05,
+      "loss": 0.1646,
+      "step": 586
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 1.1562500000000002e-05,
+      "loss": 0.1673,
+      "step": 587
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 1.140625e-05,
+      "loss": 0.172,
+      "step": 588
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 1.125e-05,
+      "loss": 0.1726,
+      "step": 589
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 1.109375e-05,
+      "loss": 0.1788,
+      "step": 590
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 1.09375e-05,
+      "loss": 0.1734,
+      "step": 591
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 1.0781250000000001e-05,
+      "loss": 0.1757,
+      "step": 592
+    },
+    {
+      "epoch": 5.37,
+      "learning_rate": 1.0625e-05,
+      "loss": 0.1623,
+      "step": 593
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 1.046875e-05,
+      "loss": 0.1666,
+      "step": 594
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 1.03125e-05,
+      "loss": 0.1778,
+      "step": 595
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 1.0156250000000001e-05,
+      "loss": 0.17,
+      "step": 596
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 1e-05,
+      "loss": 0.1676,
+      "step": 597
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 9.84375e-06,
+      "loss": 0.1761,
+      "step": 598
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 9.6875e-06,
+      "loss": 0.1758,
+      "step": 599
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 9.53125e-06,
+      "loss": 0.1772,
+      "step": 600
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 0.176,
+      "step": 601
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 9.21875e-06,
+      "loss": 0.1604,
+      "step": 602
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 9.0625e-06,
+      "loss": 0.1694,
+      "step": 603
+    },
+    {
+      "epoch": 5.47,
+      "learning_rate": 8.906250000000001e-06,
+      "loss": 0.1756,
+      "step": 604
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 8.75e-06,
+      "loss": 0.1692,
+      "step": 605
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 8.59375e-06,
+      "loss": 0.1808,
+      "step": 606
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 8.437500000000002e-06,
+      "loss": 0.1706,
+      "step": 607
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 8.28125e-06,
+      "loss": 0.168,
+      "step": 608
+    },
+    {
+      "epoch": 5.52,
+      "learning_rate": 8.125000000000001e-06,
+      "loss": 0.173,
+      "step": 609
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 7.96875e-06,
+      "loss": 0.1612,
+      "step": 610
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 7.8125e-06,
+      "loss": 0.1684,
+      "step": 611
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 7.656250000000001e-06,
+      "loss": 0.1775,
+      "step": 612
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 7.5e-06,
+      "loss": 0.1638,
+      "step": 613
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 7.343750000000001e-06,
+      "loss": 0.1701,
+      "step": 614
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 7.187499999999999e-06,
+      "loss": 0.1641,
+      "step": 615
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 7.031250000000001e-06,
+      "loss": 0.165,
+      "step": 616
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 6.875000000000001e-06,
+      "loss": 0.1806,
+      "step": 617
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 6.71875e-06,
+      "loss": 0.1793,
+      "step": 618
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 6.5625e-06,
+      "loss": 0.1625,
+      "step": 619
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 6.40625e-06,
+      "loss": 0.1632,
+      "step": 620
+    },
+    {
+      "epoch": 5.63,
+      "learning_rate": 6.25e-06,
+      "loss": 0.1629,
+      "step": 621
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 6.09375e-06,
+      "loss": 0.183,
+      "step": 622
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 5.9375e-06,
+      "loss": 0.1768,
+      "step": 623
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 5.781250000000001e-06,
+      "loss": 0.1605,
+      "step": 624
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 5.625e-06,
+      "loss": 0.1749,
+      "step": 625
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 5.46875e-06,
+      "loss": 0.1625,
+      "step": 626
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 5.3125e-06,
+      "loss": 0.1538,
+      "step": 627
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 5.15625e-06,
+      "loss": 0.174,
+      "step": 628
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 5e-06,
+      "loss": 0.1686,
+      "step": 629
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 4.84375e-06,
+      "loss": 0.1706,
+      "step": 630
+    },
+    {
+      "epoch": 5.72,
+      "learning_rate": 4.6875000000000004e-06,
+      "loss": 0.164,
+      "step": 631
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 4.53125e-06,
+      "loss": 0.1794,
+      "step": 632
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 4.375e-06,
+      "loss": 0.1601,
+      "step": 633
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 4.218750000000001e-06,
+      "loss": 0.1754,
+      "step": 634
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 4.0625000000000005e-06,
+      "loss": 0.1711,
+      "step": 635
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 3.90625e-06,
+      "loss": 0.1777,
+      "step": 636
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 3.75e-06,
+      "loss": 0.1695,
+      "step": 637
+    },
+    {
+      "epoch": 5.78,
+      "learning_rate": 3.5937499999999997e-06,
+      "loss": 0.1651,
+      "step": 638
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 3.4375000000000005e-06,
+      "loss": 0.1683,
+      "step": 639
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 3.28125e-06,
+      "loss": 0.1625,
+      "step": 640
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 3.125e-06,
+      "loss": 0.1713,
+      "step": 641
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 2.96875e-06,
+      "loss": 0.1692,
+      "step": 642
+    },
+    {
+      "epoch": 5.83,
+      "learning_rate": 2.8125e-06,
+      "loss": 0.1628,
+      "step": 643
+    },
+    {
+      "epoch": 5.83,
+      "learning_rate": 2.65625e-06,
+      "loss": 0.1639,
+      "step": 644
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 2.5e-06,
+      "loss": 0.1804,
+      "step": 645
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 2.3437500000000002e-06,
+      "loss": 0.1732,
+      "step": 646
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 2.1875e-06,
+      "loss": 0.1632,
+      "step": 647
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 2.0312500000000002e-06,
+      "loss": 0.1735,
+      "step": 648
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 1.875e-06,
+      "loss": 0.169,
+      "step": 649
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 1.7187500000000003e-06,
+      "loss": 0.1671,
+      "step": 650
+    },
+    {
+      "epoch": 5.9,
+      "learning_rate": 1.5625e-06,
+      "loss": 0.1578,
+      "step": 651
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 1.40625e-06,
+      "loss": 0.1715,
+      "step": 652
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 1.25e-06,
+      "loss": 0.1694,
+      "step": 653
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 1.09375e-06,
+      "loss": 0.1688,
+      "step": 654
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 9.375e-07,
+      "loss": 0.1688,
+      "step": 655
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 7.8125e-07,
+      "loss": 0.1766,
+      "step": 656
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 6.25e-07,
+      "loss": 0.1725,
+      "step": 657
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 4.6875e-07,
+      "loss": 0.163,
+      "step": 658
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 3.125e-07,
+      "loss": 0.184,
+      "step": 659
+    },
+    {
+      "epoch": 5.98,
+      "learning_rate": 1.5625e-07,
+      "loss": 0.1672,
+      "step": 660
+    },
+    {
+      "epoch": 5.98,
+      "step": 660,
+      "total_flos": 0.0,
+      "train_loss": 0.27463054072224735,
+      "train_runtime": 10229.9582,
+      "train_samples_per_second": 8.277,
+      "train_steps_per_second": 0.065
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 660,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": -660,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}