HuaminChen commited on Jan 31

Commit

d91cefa

verified ·

1 Parent(s): 2c7e737

Upload folder using huggingface_hub

Browse files

Files changed (50) hide show

.gitattributes +1 -0
README.md +66 -0
adapter_config.json +46 -0
adapter_model.safetensors +3 -0
category_mapping.json +34 -0
checkpoint-1098/README.md +206 -0
checkpoint-1098/adapter_config.json +46 -0
checkpoint-1098/adapter_model.safetensors +3 -0
checkpoint-1098/optimizer.pt +3 -0
checkpoint-1098/rng_state.pth +3 -0
checkpoint-1098/scheduler.pt +3 -0
checkpoint-1098/trainer_state.json +827 -0
checkpoint-1098/training_args.bin +3 -0
checkpoint-1464/README.md +206 -0
checkpoint-1464/adapter_config.json +46 -0
checkpoint-1464/adapter_model.safetensors +3 -0
checkpoint-1464/optimizer.pt +3 -0
checkpoint-1464/rng_state.pth +3 -0
checkpoint-1464/scheduler.pt +3 -0
checkpoint-1464/trainer_state.json +1096 -0
checkpoint-1464/training_args.bin +3 -0
checkpoint-1830/README.md +206 -0
checkpoint-1830/adapter_config.json +46 -0
checkpoint-1830/adapter_model.safetensors +3 -0
checkpoint-1830/optimizer.pt +3 -0
checkpoint-1830/rng_state.pth +3 -0
checkpoint-1830/scheduler.pt +3 -0
checkpoint-1830/trainer_state.json +1365 -0
checkpoint-1830/training_args.bin +3 -0
checkpoint-366/README.md +206 -0
checkpoint-366/adapter_config.json +46 -0
checkpoint-366/adapter_model.safetensors +3 -0
checkpoint-366/optimizer.pt +3 -0
checkpoint-366/rng_state.pth +3 -0
checkpoint-366/scheduler.pt +3 -0
checkpoint-366/trainer_state.json +296 -0
checkpoint-366/training_args.bin +3 -0
checkpoint-732/README.md +206 -0
checkpoint-732/adapter_config.json +46 -0
checkpoint-732/adapter_model.safetensors +3 -0
checkpoint-732/optimizer.pt +3 -0
checkpoint-732/rng_state.pth +3 -0
checkpoint-732/scheduler.pt +3 -0
checkpoint-732/trainer_state.json +565 -0
checkpoint-732/training_args.bin +3 -0
label_mapping.json +34 -0
special_tokens_map.json +55 -0
tokenizer.json +3 -0
tokenizer_config.json +2018 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,66 @@

+# mmBERT-32K Intent Classifier (LoRA)
+Multi-class intent/category classifier based on **mmBERT-32K-YaRN** for routing LLM requests to appropriate models.
+## Model Description
+This model classifies text into academic/topic categories from MMLU-Pro dataset for intelligent request routing in Mixture-of-Models (MoM) systems.
+### Categories
+Business, Law, Psychology, Biology, Chemistry, Computer Science, Economics, Engineering, Health, History, Math, Philosophy, Physics, and more.
+### Base Model
+- **Base**: [llm-semantic-router/mmbert-32k-yarn](https://huggingface.co/llm-semantic-router/mmbert-32k-yarn)
+- **Architecture**: ModernBERT with YaRN RoPE scaling
+- **Context Length**: 32,768 tokens
+- **Languages**: 1800+ (via Glot500 vocabulary)
+### Training Details
+- **Method**: LoRA fine-tuning
+- **LoRA Rank**: 8
+- **LoRA Alpha**: 16
+- **Epochs**: 5
+- **Batch Size**: 8
+- **Learning Rate**: 3e-5
+- **Dataset**: TIGER-Lab/MMLU-Pro
+### Performance
+| Metric | Score |
+|--------|-------|
+| **Accuracy** | 76.83% |
+| **F1 Score** | 76.99% |
+## Usage
+```python
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+from peft import PeftModel
+import torch
+# Load model
+base_model = "llm-semantic-router/mmbert-32k-yarn"
+adapter = "llm-semantic-router/mmbert32k-intent-classifier-lora"
+tokenizer = AutoTokenizer.from_pretrained(adapter)
+model = AutoModelForSequenceClassification.from_pretrained(base_model, num_labels=14)
+model = PeftModel.from_pretrained(model, adapter)
+# Inference
+text = "What is the derivative of x^2?"
+inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
+with torch.no_grad():
+    outputs = model(**inputs)
+    prediction = torch.argmax(outputs.logits, dim=-1)
+```
+## Intended Use
+- Request routing in Mixture-of-Models systems
+- Topic classification for LLM queries
+- Academic domain classification
+- Content categorization
+## License
+Apache 2.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "llm-semantic-router/mmbert-32k-yarn",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [
+    "classifier",
+    "score"
+  ],
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "mlp.Wi",
+    "attn.Wo",
+    "attn.Wqkv",
+    "mlp.Wo"
+  ],
+  "target_parameters": null,
+  "task_type": "SEQ_CLS",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6eb8ae19bccb619769280b4a86ff4b40c4eb462a0a80a1db45b12173aaeb5be
+size 6823088

category_mapping.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "category_to_idx": {
+    "biology": 0,
+    "business": 1,
+    "chemistry": 2,
+    "computer science": 3,
+    "economics": 4,
+    "engineering": 5,
+    "health": 6,
+    "history": 7,
+    "law": 8,
+    "math": 9,
+    "other": 10,
+    "philosophy": 11,
+    "physics": 12,
+    "psychology": 13
+  },
+  "idx_to_category": {
+    "0": "biology",
+    "1": "business",
+    "2": "chemistry",
+    "3": "computer science",
+    "4": "economics",
+    "5": "engineering",
+    "6": "health",
+    "7": "history",
+    "8": "law",
+    "9": "math",
+    "10": "other",
+    "11": "philosophy",
+    "12": "physics",
+    "13": "psychology"
+  }
+}

checkpoint-1098/README.md ADDED Viewed

	@@ -0,0 +1,206 @@

+---
+base_model: llm-semantic-router/mmbert-32k-yarn
+library_name: peft
+tags:
+- base_model:adapter:llm-semantic-router/mmbert-32k-yarn
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

checkpoint-1098/adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "llm-semantic-router/mmbert-32k-yarn",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [
+    "classifier",
+    "score"
+  ],
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "mlp.Wi",
+    "attn.Wo",
+    "attn.Wqkv",
+    "mlp.Wo"
+  ],
+  "target_parameters": null,
+  "task_type": "SEQ_CLS",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoint-1098/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b78f7b3d6bdbdd75eb8f5f40f6735eb1c5d3ed87df450f56ff69ad8f5223df0b
+size 6823088

checkpoint-1098/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f456389a87f15b78692580b86b26f201027c121e86594b15bf1154eb4a29e57
+size 13755211

checkpoint-1098/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d9a08c008470d041b12298c1d7b680044fc182e89841a6feffc2953d21c92ee
+size 14645

checkpoint-1098/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e01ef6d80aab21ad4ea2118532b1a23f0edba221efeb3bdefe1ae57656c74d0f
+size 1465

checkpoint-1098/trainer_state.json ADDED Viewed

	@@ -0,0 +1,827 @@

+{
+  "best_global_step": 1098,
+  "best_metric": 0.7648080066431403,
+  "best_model_checkpoint": "lora_intent_classifier_mmbert-32k_r8/checkpoint-1098",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1098,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0273224043715847,
+      "grad_norm": 43.661415100097656,
+      "learning_rate": 2.454545454545455e-06,
+      "loss": 4.0334,
+      "step": 10
+    },
+    {
+      "epoch": 0.0546448087431694,
+      "grad_norm": 37.4951171875,
+      "learning_rate": 5.181818181818182e-06,
+      "loss": 3.8288,
+      "step": 20
+    },
+    {
+      "epoch": 0.08196721311475409,
+      "grad_norm": 20.37900733947754,
+      "learning_rate": 7.909090909090909e-06,
+      "loss": 3.6986,
+      "step": 30
+    },
+    {
+      "epoch": 0.1092896174863388,
+      "grad_norm": 24.86526870727539,
+      "learning_rate": 1.0636363636363636e-05,
+      "loss": 3.4172,
+      "step": 40
+    },
+    {
+      "epoch": 0.1366120218579235,
+      "grad_norm": 21.12486457824707,
+      "learning_rate": 1.3363636363636364e-05,
+      "loss": 3.3902,
+      "step": 50
+    },
+    {
+      "epoch": 0.16393442622950818,
+      "grad_norm": 14.784985542297363,
+      "learning_rate": 1.6090909090909092e-05,
+      "loss": 2.9621,
+      "step": 60
+    },
+    {
+      "epoch": 0.1912568306010929,
+      "grad_norm": 15.182305335998535,
+      "learning_rate": 1.881818181818182e-05,
+      "loss": 2.9566,
+      "step": 70
+    },
+    {
+      "epoch": 0.2185792349726776,
+      "grad_norm": 13.884512901306152,
+      "learning_rate": 2.1545454545454544e-05,
+      "loss": 2.8581,
+      "step": 80
+    },
+    {
+      "epoch": 0.2459016393442623,
+      "grad_norm": 13.621200561523438,
+      "learning_rate": 2.4272727272727275e-05,
+      "loss": 2.676,
+      "step": 90
+    },
+    {
+      "epoch": 0.273224043715847,
+      "grad_norm": 13.836731910705566,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 2.6325,
+      "step": 100
+    },
+    {
+      "epoch": 0.3005464480874317,
+      "grad_norm": 14.511067390441895,
+      "learning_rate": 2.972727272727273e-05,
+      "loss": 2.5361,
+      "step": 110
+    },
+    {
+      "epoch": 0.32786885245901637,
+      "grad_norm": 12.94679069519043,
+      "learning_rate": 2.9997973347195592e-05,
+      "loss": 2.5242,
+      "step": 120
+    },
+    {
+      "epoch": 0.3551912568306011,
+      "grad_norm": 11.663535118103027,
+      "learning_rate": 2.999096833688549e-05,
+      "loss": 2.4672,
+      "step": 130
+    },
+    {
+      "epoch": 0.3825136612021858,
+      "grad_norm": 12.334612846374512,
+      "learning_rate": 2.9978962285005162e-05,
+      "loss": 2.3361,
+      "step": 140
+    },
+    {
+      "epoch": 0.4098360655737705,
+      "grad_norm": 10.295676231384277,
+      "learning_rate": 2.9961959196817175e-05,
+      "loss": 2.3276,
+      "step": 150
+    },
+    {
+      "epoch": 0.4371584699453552,
+      "grad_norm": 9.971988677978516,
+      "learning_rate": 2.9939964744613606e-05,
+      "loss": 2.3236,
+      "step": 160
+    },
+    {
+      "epoch": 0.4644808743169399,
+      "grad_norm": 13.546309471130371,
+      "learning_rate": 2.991298626582372e-05,
+      "loss": 2.2471,
+      "step": 170
+    },
+    {
+      "epoch": 0.4918032786885246,
+      "grad_norm": 15.009965896606445,
+      "learning_rate": 2.988103276056618e-05,
+      "loss": 2.1654,
+      "step": 180
+    },
+    {
+      "epoch": 0.5191256830601093,
+      "grad_norm": 12.90045166015625,
+      "learning_rate": 2.984411488864658e-05,
+      "loss": 2.1238,
+      "step": 190
+    },
+    {
+      "epoch": 0.546448087431694,
+      "grad_norm": 8.598944664001465,
+      "learning_rate": 2.980224496600129e-05,
+      "loss": 1.9748,
+      "step": 200
+    },
+    {
+      "epoch": 0.5737704918032787,
+      "grad_norm": 9.50810718536377,
+      "learning_rate": 2.975543696058881e-05,
+      "loss": 1.9237,
+      "step": 210
+    },
+    {
+      "epoch": 0.6010928961748634,
+      "grad_norm": 11.621309280395508,
+      "learning_rate": 2.9703706487730033e-05,
+      "loss": 1.9223,
+      "step": 220
+    },
+    {
+      "epoch": 0.6284153005464481,
+      "grad_norm": 12.043228149414062,
+      "learning_rate": 2.964707080489887e-05,
+      "loss": 1.6967,
+      "step": 230
+    },
+    {
+      "epoch": 0.6557377049180327,
+      "grad_norm": 8.679780006408691,
+      "learning_rate": 2.958554880596515e-05,
+      "loss": 1.7717,
+      "step": 240
+    },
+    {
+      "epoch": 0.6830601092896175,
+      "grad_norm": 12.931756973266602,
+      "learning_rate": 2.9519161014891514e-05,
+      "loss": 1.6964,
+      "step": 250
+    },
+    {
+      "epoch": 0.7103825136612022,
+      "grad_norm": 11.386296272277832,
+      "learning_rate": 2.944792957888656e-05,
+      "loss": 1.5883,
+      "step": 260
+    },
+    {
+      "epoch": 0.7377049180327869,
+      "grad_norm": 9.392644882202148,
+      "learning_rate": 2.9371878261016468e-05,
+      "loss": 1.4422,
+      "step": 270
+    },
+    {
+      "epoch": 0.7650273224043715,
+      "grad_norm": 13.371213912963867,
+      "learning_rate": 2.9291032432277537e-05,
+      "loss": 1.4828,
+      "step": 280
+    },
+    {
+      "epoch": 0.7923497267759563,
+      "grad_norm": 9.957645416259766,
+      "learning_rate": 2.9205419063132315e-05,
+      "loss": 1.3551,
+      "step": 290
+    },
+    {
+      "epoch": 0.819672131147541,
+      "grad_norm": 15.953017234802246,
+      "learning_rate": 2.9115066714512192e-05,
+      "loss": 1.1904,
+      "step": 300
+    },
+    {
+      "epoch": 0.8469945355191257,
+      "grad_norm": 12.193412780761719,
+      "learning_rate": 2.902000552828935e-05,
+      "loss": 1.2798,
+      "step": 310
+    },
+    {
+      "epoch": 0.8743169398907104,
+      "grad_norm": 22.1932315826416,
+      "learning_rate": 2.892026721722132e-05,
+      "loss": 1.3221,
+      "step": 320
+    },
+    {
+      "epoch": 0.9016393442622951,
+      "grad_norm": 18.232664108276367,
+      "learning_rate": 2.881588505437149e-05,
+      "loss": 1.3464,
+      "step": 330
+    },
+    {
+      "epoch": 0.9289617486338798,
+      "grad_norm": 16.0748348236084,
+      "learning_rate": 2.8706893862009102e-05,
+      "loss": 1.2608,
+      "step": 340
+    },
+    {
+      "epoch": 0.9562841530054644,
+      "grad_norm": 19.062816619873047,
+      "learning_rate": 2.859332999999241e-05,
+      "loss": 1.1351,
+      "step": 350
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 13.451746940612793,
+      "learning_rate": 2.8475231353638888e-05,
+      "loss": 1.299,
+      "step": 360
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6343130553656869,
+      "eval_f1": 0.6348165517128922,
+      "eval_loss": 1.1399110555648804,
+      "eval_runtime": 4.7145,
+      "eval_samples_per_second": 310.319,
+      "eval_steps_per_second": 19.514,
+      "step": 366
+    },
+    {
+      "epoch": 1.010928961748634,
+      "grad_norm": 15.27212905883789,
+      "learning_rate": 2.8352637321086587e-05,
+      "loss": 0.8772,
+      "step": 370
+    },
+    {
+      "epoch": 1.0382513661202186,
+      "grad_norm": 14.341962814331055,
+      "learning_rate": 2.8225588800150717e-05,
+      "loss": 1.228,
+      "step": 380
+    },
+    {
+      "epoch": 1.0655737704918034,
+      "grad_norm": 16.302701950073242,
+      "learning_rate": 2.8094128174680033e-05,
+      "loss": 1.0407,
+      "step": 390
+    },
+    {
+      "epoch": 1.092896174863388,
+      "grad_norm": 19.2470645904541,
+      "learning_rate": 2.7958299300417413e-05,
+      "loss": 1.2054,
+      "step": 400
+    },
+    {
+      "epoch": 1.1202185792349726,
+      "grad_norm": 11.071598052978516,
+      "learning_rate": 2.781814749036942e-05,
+      "loss": 1.12,
+      "step": 410
+    },
+    {
+      "epoch": 1.1475409836065573,
+      "grad_norm": 14.336385726928711,
+      "learning_rate": 2.767371949968971e-05,
+      "loss": 0.9408,
+      "step": 420
+    },
+    {
+      "epoch": 1.174863387978142,
+      "grad_norm": 14.412948608398438,
+      "learning_rate": 2.7525063510081378e-05,
+      "loss": 0.8873,
+      "step": 430
+    },
+    {
+      "epoch": 1.2021857923497268,
+      "grad_norm": 7.640225410461426,
+      "learning_rate": 2.7372229113723316e-05,
+      "loss": 0.9188,
+      "step": 440
+    },
+    {
+      "epoch": 1.2295081967213115,
+      "grad_norm": 12.760605812072754,
+      "learning_rate": 2.7215267296726124e-05,
+      "loss": 1.0622,
+      "step": 450
+    },
+    {
+      "epoch": 1.2568306010928962,
+      "grad_norm": 16.584192276000977,
+      "learning_rate": 2.7054230422122936e-05,
+      "loss": 1.0441,
+      "step": 460
+    },
+    {
+      "epoch": 1.2841530054644807,
+      "grad_norm": 13.030243873596191,
+      "learning_rate": 2.6889172212400925e-05,
+      "loss": 0.6724,
+      "step": 470
+    },
+    {
+      "epoch": 1.3114754098360657,
+      "grad_norm": 14.200984954833984,
+      "learning_rate": 2.6720147731579297e-05,
+      "loss": 1.0364,
+      "step": 480
+    },
+    {
+      "epoch": 1.3387978142076502,
+      "grad_norm": 9.490402221679688,
+      "learning_rate": 2.6547213366839715e-05,
+      "loss": 0.8933,
+      "step": 490
+    },
+    {
+      "epoch": 1.366120218579235,
+      "grad_norm": 13.559136390686035,
+      "learning_rate": 2.637042680971534e-05,
+      "loss": 0.874,
+      "step": 500
+    },
+    {
+      "epoch": 1.3934426229508197,
+      "grad_norm": 9.073728561401367,
+      "learning_rate": 2.6189847036844737e-05,
+      "loss": 1.0375,
+      "step": 510
+    },
+    {
+      "epoch": 1.4207650273224044,
+      "grad_norm": 14.217357635498047,
+      "learning_rate": 2.6005534290297032e-05,
+      "loss": 0.7856,
+      "step": 520
+    },
+    {
+      "epoch": 1.4480874316939891,
+      "grad_norm": 13.805753707885742,
+      "learning_rate": 2.5817550057474958e-05,
+      "loss": 0.9337,
+      "step": 530
+    },
+    {
+      "epoch": 1.4754098360655736,
+      "grad_norm": 11.231172561645508,
+      "learning_rate": 2.562595705060241e-05,
+      "loss": 0.7167,
+      "step": 540
+    },
+    {
+      "epoch": 1.5027322404371586,
+      "grad_norm": 17.595722198486328,
+      "learning_rate": 2.5430819185803452e-05,
+      "loss": 0.9102,
+      "step": 550
+    },
+    {
+      "epoch": 1.530054644808743,
+      "grad_norm": 9.007168769836426,
+      "learning_rate": 2.523220156177963e-05,
+      "loss": 0.8971,
+      "step": 560
+    },
+    {
+      "epoch": 1.5573770491803278,
+      "grad_norm": 19.105390548706055,
+      "learning_rate": 2.5030170438092854e-05,
+      "loss": 0.7724,
+      "step": 570
+    },
+    {
+      "epoch": 1.5846994535519126,
+      "grad_norm": 20.397462844848633,
+      "learning_rate": 2.48247932130609e-05,
+      "loss": 0.9044,
+      "step": 580
+    },
+    {
+      "epoch": 1.6120218579234973,
+      "grad_norm": 16.47760581970215,
+      "learning_rate": 2.461613840127315e-05,
+      "loss": 0.905,
+      "step": 590
+    },
+    {
+      "epoch": 1.639344262295082,
+      "grad_norm": 17.686187744140625,
+      "learning_rate": 2.4404275610733853e-05,
+      "loss": 0.8214,
+      "step": 600
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 16.285888671875,
+      "learning_rate": 2.4189275519640622e-05,
+      "loss": 0.7419,
+      "step": 610
+    },
+    {
+      "epoch": 1.6939890710382515,
+      "grad_norm": 9.757600784301758,
+      "learning_rate": 2.397120985280597e-05,
+      "loss": 0.7259,
+      "step": 620
+    },
+    {
+      "epoch": 1.721311475409836,
+      "grad_norm": 8.898860931396484,
+      "learning_rate": 2.3750151357729604e-05,
+      "loss": 0.8569,
+      "step": 630
+    },
+    {
+      "epoch": 1.748633879781421,
+      "grad_norm": 19.698688507080078,
+      "learning_rate": 2.3526173780329636e-05,
+      "loss": 1.0927,
+      "step": 640
+    },
+    {
+      "epoch": 1.7759562841530054,
+      "grad_norm": 23.36447525024414,
+      "learning_rate": 2.329935184034066e-05,
+      "loss": 0.6988,
+      "step": 650
+    },
+    {
+      "epoch": 1.8032786885245902,
+      "grad_norm": 16.561899185180664,
+      "learning_rate": 2.3069761206386968e-05,
+      "loss": 0.7696,
+      "step": 660
+    },
+    {
+      "epoch": 1.830601092896175,
+      "grad_norm": 18.133567810058594,
+      "learning_rate": 2.2837478470739234e-05,
+      "loss": 0.877,
+      "step": 670
+    },
+    {
+      "epoch": 1.8579234972677594,
+      "grad_norm": 13.005228996276855,
+      "learning_rate": 2.2602581123763054e-05,
+      "loss": 0.658,
+      "step": 680
+    },
+    {
+      "epoch": 1.8852459016393444,
+      "grad_norm": 11.603018760681152,
+      "learning_rate": 2.2365147528067874e-05,
+      "loss": 0.9204,
+      "step": 690
+    },
+    {
+      "epoch": 1.9125683060109289,
+      "grad_norm": 7.9754319190979,
+      "learning_rate": 2.2125256892364934e-05,
+      "loss": 0.6936,
+      "step": 700
+    },
+    {
+      "epoch": 1.9398907103825138,
+      "grad_norm": 13.788674354553223,
+      "learning_rate": 2.188298924504296e-05,
+      "loss": 0.7217,
+      "step": 710
+    },
+    {
+      "epoch": 1.9672131147540983,
+      "grad_norm": 19.109081268310547,
+      "learning_rate": 2.1638425407470398e-05,
+      "loss": 0.8034,
+      "step": 720
+    },
+    {
+      "epoch": 1.994535519125683,
+      "grad_norm": 12.080116271972656,
+      "learning_rate": 2.139164696703313e-05,
+      "loss": 0.786,
+      "step": 730
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.735475051264525,
+      "eval_f1": 0.737288346724191,
+      "eval_loss": 0.7614660263061523,
+      "eval_runtime": 3.3477,
+      "eval_samples_per_second": 437.012,
+      "eval_steps_per_second": 27.481,
+      "step": 732
+    },
+    {
+      "epoch": 2.021857923497268,
+      "grad_norm": 11.714097023010254,
+      "learning_rate": 2.1142736249916592e-05,
+      "loss": 0.6599,
+      "step": 740
+    },
+    {
+      "epoch": 2.0491803278688523,
+      "grad_norm": 9.785654067993164,
+      "learning_rate": 2.0891776293641484e-05,
+      "loss": 0.7445,
+      "step": 750
+    },
+    {
+      "epoch": 2.0765027322404372,
+      "grad_norm": 14.79162883758545,
+      "learning_rate": 2.0638850819362142e-05,
+      "loss": 0.8216,
+      "step": 760
+    },
+    {
+      "epoch": 2.1038251366120218,
+      "grad_norm": 13.838127136230469,
+      "learning_rate": 2.0384044203936857e-05,
+      "loss": 0.6064,
+      "step": 770
+    },
+    {
+      "epoch": 2.1311475409836067,
+      "grad_norm": 12.895397186279297,
+      "learning_rate": 2.012744145177946e-05,
+      "loss": 0.5361,
+      "step": 780
+    },
+    {
+      "epoch": 2.158469945355191,
+      "grad_norm": 17.18644142150879,
+      "learning_rate": 1.9869128166501516e-05,
+      "loss": 0.697,
+      "step": 790
+    },
+    {
+      "epoch": 2.185792349726776,
+      "grad_norm": 18.993026733398438,
+      "learning_rate": 1.9609190522354666e-05,
+      "loss": 0.6356,
+      "step": 800
+    },
+    {
+      "epoch": 2.2131147540983607,
+      "grad_norm": 20.658855438232422,
+      "learning_rate": 1.9347715235482585e-05,
+      "loss": 0.6762,
+      "step": 810
+    },
+    {
+      "epoch": 2.240437158469945,
+      "grad_norm": 18.07002067565918,
+      "learning_rate": 1.9084789534992143e-05,
+      "loss": 0.5932,
+      "step": 820
+    },
+    {
+      "epoch": 2.26775956284153,
+      "grad_norm": 10.831477165222168,
+      "learning_rate": 1.8820501133853472e-05,
+      "loss": 0.6853,
+      "step": 830
+    },
+    {
+      "epoch": 2.2950819672131146,
+      "grad_norm": 13.586620330810547,
+      "learning_rate": 1.8554938199638613e-05,
+      "loss": 0.6649,
+      "step": 840
+    },
+    {
+      "epoch": 2.3224043715846996,
+      "grad_norm": 8.403483390808105,
+      "learning_rate": 1.8288189325108462e-05,
+      "loss": 0.8898,
+      "step": 850
+    },
+    {
+      "epoch": 2.349726775956284,
+      "grad_norm": 14.610397338867188,
+      "learning_rate": 1.8020343498657917e-05,
+      "loss": 0.6853,
+      "step": 860
+    },
+    {
+      "epoch": 2.3770491803278686,
+      "grad_norm": 17.091442108154297,
+      "learning_rate": 1.7751490074629034e-05,
+      "loss": 0.482,
+      "step": 870
+    },
+    {
+      "epoch": 2.4043715846994536,
+      "grad_norm": 19.71129608154297,
+      "learning_rate": 1.7481718743502084e-05,
+      "loss": 0.7179,
+      "step": 880
+    },
+    {
+      "epoch": 2.431693989071038,
+      "grad_norm": 19.681272506713867,
+      "learning_rate": 1.7211119501974487e-05,
+      "loss": 0.6611,
+      "step": 890
+    },
+    {
+      "epoch": 2.459016393442623,
+      "grad_norm": 14.768360137939453,
+      "learning_rate": 1.693978262293758e-05,
+      "loss": 0.6776,
+      "step": 900
+    },
+    {
+      "epoch": 2.4863387978142075,
+      "grad_norm": 10.980010986328125,
+      "learning_rate": 1.6667798625361265e-05,
+      "loss": 0.5664,
+      "step": 910
+    },
+    {
+      "epoch": 2.5136612021857925,
+      "grad_norm": 18.203256607055664,
+      "learning_rate": 1.6395258244096532e-05,
+      "loss": 0.6044,
+      "step": 920
+    },
+    {
+      "epoch": 2.540983606557377,
+      "grad_norm": 19.784507751464844,
+      "learning_rate": 1.6122252399606e-05,
+      "loss": 0.6868,
+      "step": 930
+    },
+    {
+      "epoch": 2.5683060109289615,
+      "grad_norm": 13.81864070892334,
+      "learning_rate": 1.584887216763251e-05,
+      "loss": 0.7107,
+      "step": 940
+    },
+    {
+      "epoch": 2.5956284153005464,
+      "grad_norm": 13.999222755432129,
+      "learning_rate": 1.5575208748815934e-05,
+      "loss": 0.628,
+      "step": 950
+    },
+    {
+      "epoch": 2.6229508196721314,
+      "grad_norm": 14.687641143798828,
+      "learning_rate": 1.5301353438268298e-05,
+      "loss": 0.6494,
+      "step": 960
+    },
+    {
+      "epoch": 2.650273224043716,
+      "grad_norm": 15.607926368713379,
+      "learning_rate": 1.5027397595117417e-05,
+      "loss": 0.7266,
+      "step": 970
+    },
+    {
+      "epoch": 2.6775956284153004,
+      "grad_norm": 11.575119972229004,
+      "learning_rate": 1.4753432612029134e-05,
+      "loss": 0.7242,
+      "step": 980
+    },
+    {
+      "epoch": 2.7049180327868854,
+      "grad_norm": 15.441755294799805,
+      "learning_rate": 1.4479549884718434e-05,
+      "loss": 0.6714,
+      "step": 990
+    },
+    {
+      "epoch": 2.73224043715847,
+      "grad_norm": 28.31683349609375,
+      "learning_rate": 1.4205840781459443e-05,
+      "loss": 0.7413,
+      "step": 1000
+    },
+    {
+      "epoch": 2.7595628415300544,
+      "grad_norm": 17.351163864135742,
+      "learning_rate": 1.3932396612604688e-05,
+      "loss": 0.7011,
+      "step": 1010
+    },
+    {
+      "epoch": 2.7868852459016393,
+      "grad_norm": 12.234743118286133,
+      "learning_rate": 1.3659308600123619e-05,
+      "loss": 0.5344,
+      "step": 1020
+    },
+    {
+      "epoch": 2.8142076502732243,
+      "grad_norm": 11.195818901062012,
+      "learning_rate": 1.3386667847170615e-05,
+      "loss": 0.4516,
+      "step": 1030
+    },
+    {
+      "epoch": 2.841530054644809,
+      "grad_norm": 15.766973495483398,
+      "learning_rate": 1.3114565307692664e-05,
+      "loss": 0.8362,
+      "step": 1040
+    },
+    {
+      "epoch": 2.8688524590163933,
+      "grad_norm": 15.880483627319336,
+      "learning_rate": 1.2843091756086758e-05,
+      "loss": 0.5643,
+      "step": 1050
+    },
+    {
+      "epoch": 2.8961748633879782,
+      "grad_norm": 14.66220760345459,
+      "learning_rate": 1.2572337756917266e-05,
+      "loss": 0.7147,
+      "step": 1060
+    },
+    {
+      "epoch": 2.9234972677595628,
+      "grad_norm": 15.787104606628418,
+      "learning_rate": 1.2302393634703241e-05,
+      "loss": 0.6991,
+      "step": 1070
+    },
+    {
+      "epoch": 2.9508196721311473,
+      "grad_norm": 14.712467193603516,
+      "learning_rate": 1.2033349443785834e-05,
+      "loss": 0.6871,
+      "step": 1080
+    },
+    {
+      "epoch": 2.978142076502732,
+      "grad_norm": 14.292945861816406,
+      "learning_rate": 1.1765294938285847e-05,
+      "loss": 0.6269,
+      "step": 1090
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7641831852358169,
+      "eval_f1": 0.7648080066431403,
+      "eval_loss": 0.6964150071144104,
+      "eval_runtime": 3.406,
+      "eval_samples_per_second": 429.533,
+      "eval_steps_per_second": 27.011,
+      "step": 1098
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1830,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6074546622971904.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1098/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de007bea22dcb88578703fe7cbafb05e81ad70f6e86a48f9973a14db3a420500
+size 5841

checkpoint-1464/README.md ADDED Viewed

	@@ -0,0 +1,206 @@

+---
+base_model: llm-semantic-router/mmbert-32k-yarn
+library_name: peft
+tags:
+- base_model:adapter:llm-semantic-router/mmbert-32k-yarn
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

checkpoint-1464/adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "llm-semantic-router/mmbert-32k-yarn",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [
+    "classifier",
+    "score"
+  ],
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "mlp.Wi",
+    "attn.Wo",
+    "attn.Wqkv",
+    "mlp.Wo"
+  ],
+  "target_parameters": null,
+  "task_type": "SEQ_CLS",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoint-1464/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6eb8ae19bccb619769280b4a86ff4b40c4eb462a0a80a1db45b12173aaeb5be
+size 6823088

checkpoint-1464/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1941c4e926d98f126f8bb8ac14bbbc32dca8c41daf653fa7b75dad6d8c797d93
+size 13755211

checkpoint-1464/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a34b3067525d4b12ef00a30793a1e935bfa5639b8a6798d2ee67973c536fac34
+size 14645

checkpoint-1464/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eef8133f630ffc3cd5eae9d23a4d15de24066ca6a76d9b7f945b4c7b128ffb20
+size 1465

checkpoint-1464/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1096 @@

+{
+  "best_global_step": 1464,
+  "best_metric": 0.7724177824450331,
+  "best_model_checkpoint": "lora_intent_classifier_mmbert-32k_r8/checkpoint-1464",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 1464,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0273224043715847,
+      "grad_norm": 43.661415100097656,
+      "learning_rate": 2.454545454545455e-06,
+      "loss": 4.0334,
+      "step": 10
+    },
+    {
+      "epoch": 0.0546448087431694,
+      "grad_norm": 37.4951171875,
+      "learning_rate": 5.181818181818182e-06,
+      "loss": 3.8288,
+      "step": 20
+    },
+    {
+      "epoch": 0.08196721311475409,
+      "grad_norm": 20.37900733947754,
+      "learning_rate": 7.909090909090909e-06,
+      "loss": 3.6986,
+      "step": 30
+    },
+    {
+      "epoch": 0.1092896174863388,
+      "grad_norm": 24.86526870727539,
+      "learning_rate": 1.0636363636363636e-05,
+      "loss": 3.4172,
+      "step": 40
+    },
+    {
+      "epoch": 0.1366120218579235,
+      "grad_norm": 21.12486457824707,
+      "learning_rate": 1.3363636363636364e-05,
+      "loss": 3.3902,
+      "step": 50
+    },
+    {
+      "epoch": 0.16393442622950818,
+      "grad_norm": 14.784985542297363,
+      "learning_rate": 1.6090909090909092e-05,
+      "loss": 2.9621,
+      "step": 60
+    },
+    {
+      "epoch": 0.1912568306010929,
+      "grad_norm": 15.182305335998535,
+      "learning_rate": 1.881818181818182e-05,
+      "loss": 2.9566,
+      "step": 70
+    },
+    {
+      "epoch": 0.2185792349726776,
+      "grad_norm": 13.884512901306152,
+      "learning_rate": 2.1545454545454544e-05,
+      "loss": 2.8581,
+      "step": 80
+    },
+    {
+      "epoch": 0.2459016393442623,
+      "grad_norm": 13.621200561523438,
+      "learning_rate": 2.4272727272727275e-05,
+      "loss": 2.676,
+      "step": 90
+    },
+    {
+      "epoch": 0.273224043715847,
+      "grad_norm": 13.836731910705566,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 2.6325,
+      "step": 100
+    },
+    {
+      "epoch": 0.3005464480874317,
+      "grad_norm": 14.511067390441895,
+      "learning_rate": 2.972727272727273e-05,
+      "loss": 2.5361,
+      "step": 110
+    },
+    {
+      "epoch": 0.32786885245901637,
+      "grad_norm": 12.94679069519043,
+      "learning_rate": 2.9997973347195592e-05,
+      "loss": 2.5242,
+      "step": 120
+    },
+    {
+      "epoch": 0.3551912568306011,
+      "grad_norm": 11.663535118103027,
+      "learning_rate": 2.999096833688549e-05,
+      "loss": 2.4672,
+      "step": 130
+    },
+    {
+      "epoch": 0.3825136612021858,
+      "grad_norm": 12.334612846374512,
+      "learning_rate": 2.9978962285005162e-05,
+      "loss": 2.3361,
+      "step": 140
+    },
+    {
+      "epoch": 0.4098360655737705,
+      "grad_norm": 10.295676231384277,
+      "learning_rate": 2.9961959196817175e-05,
+      "loss": 2.3276,
+      "step": 150
+    },
+    {
+      "epoch": 0.4371584699453552,
+      "grad_norm": 9.971988677978516,
+      "learning_rate": 2.9939964744613606e-05,
+      "loss": 2.3236,
+      "step": 160
+    },
+    {
+      "epoch": 0.4644808743169399,
+      "grad_norm": 13.546309471130371,
+      "learning_rate": 2.991298626582372e-05,
+      "loss": 2.2471,
+      "step": 170
+    },
+    {
+      "epoch": 0.4918032786885246,
+      "grad_norm": 15.009965896606445,
+      "learning_rate": 2.988103276056618e-05,
+      "loss": 2.1654,
+      "step": 180
+    },
+    {
+      "epoch": 0.5191256830601093,
+      "grad_norm": 12.90045166015625,
+      "learning_rate": 2.984411488864658e-05,
+      "loss": 2.1238,
+      "step": 190
+    },
+    {
+      "epoch": 0.546448087431694,
+      "grad_norm": 8.598944664001465,
+      "learning_rate": 2.980224496600129e-05,
+      "loss": 1.9748,
+      "step": 200
+    },
+    {
+      "epoch": 0.5737704918032787,
+      "grad_norm": 9.50810718536377,
+      "learning_rate": 2.975543696058881e-05,
+      "loss": 1.9237,
+      "step": 210
+    },
+    {
+      "epoch": 0.6010928961748634,
+      "grad_norm": 11.621309280395508,
+      "learning_rate": 2.9703706487730033e-05,
+      "loss": 1.9223,
+      "step": 220
+    },
+    {
+      "epoch": 0.6284153005464481,
+      "grad_norm": 12.043228149414062,
+      "learning_rate": 2.964707080489887e-05,
+      "loss": 1.6967,
+      "step": 230
+    },
+    {
+      "epoch": 0.6557377049180327,
+      "grad_norm": 8.679780006408691,
+      "learning_rate": 2.958554880596515e-05,
+      "loss": 1.7717,
+      "step": 240
+    },
+    {
+      "epoch": 0.6830601092896175,
+      "grad_norm": 12.931756973266602,
+      "learning_rate": 2.9519161014891514e-05,
+      "loss": 1.6964,
+      "step": 250
+    },
+    {
+      "epoch": 0.7103825136612022,
+      "grad_norm": 11.386296272277832,
+      "learning_rate": 2.944792957888656e-05,
+      "loss": 1.5883,
+      "step": 260
+    },
+    {
+      "epoch": 0.7377049180327869,
+      "grad_norm": 9.392644882202148,
+      "learning_rate": 2.9371878261016468e-05,
+      "loss": 1.4422,
+      "step": 270
+    },
+    {
+      "epoch": 0.7650273224043715,
+      "grad_norm": 13.371213912963867,
+      "learning_rate": 2.9291032432277537e-05,
+      "loss": 1.4828,
+      "step": 280
+    },
+    {
+      "epoch": 0.7923497267759563,
+      "grad_norm": 9.957645416259766,
+      "learning_rate": 2.9205419063132315e-05,
+      "loss": 1.3551,
+      "step": 290
+    },
+    {
+      "epoch": 0.819672131147541,
+      "grad_norm": 15.953017234802246,
+      "learning_rate": 2.9115066714512192e-05,
+      "loss": 1.1904,
+      "step": 300
+    },
+    {
+      "epoch": 0.8469945355191257,
+      "grad_norm": 12.193412780761719,
+      "learning_rate": 2.902000552828935e-05,
+      "loss": 1.2798,
+      "step": 310
+    },
+    {
+      "epoch": 0.8743169398907104,
+      "grad_norm": 22.1932315826416,
+      "learning_rate": 2.892026721722132e-05,
+      "loss": 1.3221,
+      "step": 320
+    },
+    {
+      "epoch": 0.9016393442622951,
+      "grad_norm": 18.232664108276367,
+      "learning_rate": 2.881588505437149e-05,
+      "loss": 1.3464,
+      "step": 330
+    },
+    {
+      "epoch": 0.9289617486338798,
+      "grad_norm": 16.0748348236084,
+      "learning_rate": 2.8706893862009102e-05,
+      "loss": 1.2608,
+      "step": 340
+    },
+    {
+      "epoch": 0.9562841530054644,
+      "grad_norm": 19.062816619873047,
+      "learning_rate": 2.859332999999241e-05,
+      "loss": 1.1351,
+      "step": 350
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 13.451746940612793,
+      "learning_rate": 2.8475231353638888e-05,
+      "loss": 1.299,
+      "step": 360
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6343130553656869,
+      "eval_f1": 0.6348165517128922,
+      "eval_loss": 1.1399110555648804,
+      "eval_runtime": 4.7145,
+      "eval_samples_per_second": 310.319,
+      "eval_steps_per_second": 19.514,
+      "step": 366
+    },
+    {
+      "epoch": 1.010928961748634,
+      "grad_norm": 15.27212905883789,
+      "learning_rate": 2.8352637321086587e-05,
+      "loss": 0.8772,
+      "step": 370
+    },
+    {
+      "epoch": 1.0382513661202186,
+      "grad_norm": 14.341962814331055,
+      "learning_rate": 2.8225588800150717e-05,
+      "loss": 1.228,
+      "step": 380
+    },
+    {
+      "epoch": 1.0655737704918034,
+      "grad_norm": 16.302701950073242,
+      "learning_rate": 2.8094128174680033e-05,
+      "loss": 1.0407,
+      "step": 390
+    },
+    {
+      "epoch": 1.092896174863388,
+      "grad_norm": 19.2470645904541,
+      "learning_rate": 2.7958299300417413e-05,
+      "loss": 1.2054,
+      "step": 400
+    },
+    {
+      "epoch": 1.1202185792349726,
+      "grad_norm": 11.071598052978516,
+      "learning_rate": 2.781814749036942e-05,
+      "loss": 1.12,
+      "step": 410
+    },
+    {
+      "epoch": 1.1475409836065573,
+      "grad_norm": 14.336385726928711,
+      "learning_rate": 2.767371949968971e-05,
+      "loss": 0.9408,
+      "step": 420
+    },
+    {
+      "epoch": 1.174863387978142,
+      "grad_norm": 14.412948608398438,
+      "learning_rate": 2.7525063510081378e-05,
+      "loss": 0.8873,
+      "step": 430
+    },
+    {
+      "epoch": 1.2021857923497268,
+      "grad_norm": 7.640225410461426,
+      "learning_rate": 2.7372229113723316e-05,
+      "loss": 0.9188,
+      "step": 440
+    },
+    {
+      "epoch": 1.2295081967213115,
+      "grad_norm": 12.760605812072754,
+      "learning_rate": 2.7215267296726124e-05,
+      "loss": 1.0622,
+      "step": 450
+    },
+    {
+      "epoch": 1.2568306010928962,
+      "grad_norm": 16.584192276000977,
+      "learning_rate": 2.7054230422122936e-05,
+      "loss": 1.0441,
+      "step": 460
+    },
+    {
+      "epoch": 1.2841530054644807,
+      "grad_norm": 13.030243873596191,
+      "learning_rate": 2.6889172212400925e-05,
+      "loss": 0.6724,
+      "step": 470
+    },
+    {
+      "epoch": 1.3114754098360657,
+      "grad_norm": 14.200984954833984,
+      "learning_rate": 2.6720147731579297e-05,
+      "loss": 1.0364,
+      "step": 480
+    },
+    {
+      "epoch": 1.3387978142076502,
+      "grad_norm": 9.490402221679688,
+      "learning_rate": 2.6547213366839715e-05,
+      "loss": 0.8933,
+      "step": 490
+    },
+    {
+      "epoch": 1.366120218579235,
+      "grad_norm": 13.559136390686035,
+      "learning_rate": 2.637042680971534e-05,
+      "loss": 0.874,
+      "step": 500
+    },
+    {
+      "epoch": 1.3934426229508197,
+      "grad_norm": 9.073728561401367,
+      "learning_rate": 2.6189847036844737e-05,
+      "loss": 1.0375,
+      "step": 510
+    },
+    {
+      "epoch": 1.4207650273224044,
+      "grad_norm": 14.217357635498047,
+      "learning_rate": 2.6005534290297032e-05,
+      "loss": 0.7856,
+      "step": 520
+    },
+    {
+      "epoch": 1.4480874316939891,
+      "grad_norm": 13.805753707885742,
+      "learning_rate": 2.5817550057474958e-05,
+      "loss": 0.9337,
+      "step": 530
+    },
+    {
+      "epoch": 1.4754098360655736,
+      "grad_norm": 11.231172561645508,
+      "learning_rate": 2.562595705060241e-05,
+      "loss": 0.7167,
+      "step": 540
+    },
+    {
+      "epoch": 1.5027322404371586,
+      "grad_norm": 17.595722198486328,
+      "learning_rate": 2.5430819185803452e-05,
+      "loss": 0.9102,
+      "step": 550
+    },
+    {
+      "epoch": 1.530054644808743,
+      "grad_norm": 9.007168769836426,
+      "learning_rate": 2.523220156177963e-05,
+      "loss": 0.8971,
+      "step": 560
+    },
+    {
+      "epoch": 1.5573770491803278,
+      "grad_norm": 19.105390548706055,
+      "learning_rate": 2.5030170438092854e-05,
+      "loss": 0.7724,
+      "step": 570
+    },
+    {
+      "epoch": 1.5846994535519126,
+      "grad_norm": 20.397462844848633,
+      "learning_rate": 2.48247932130609e-05,
+      "loss": 0.9044,
+      "step": 580
+    },
+    {
+      "epoch": 1.6120218579234973,
+      "grad_norm": 16.47760581970215,
+      "learning_rate": 2.461613840127315e-05,
+      "loss": 0.905,
+      "step": 590
+    },
+    {
+      "epoch": 1.639344262295082,
+      "grad_norm": 17.686187744140625,
+      "learning_rate": 2.4404275610733853e-05,
+      "loss": 0.8214,
+      "step": 600
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 16.285888671875,
+      "learning_rate": 2.4189275519640622e-05,
+      "loss": 0.7419,
+      "step": 610
+    },
+    {
+      "epoch": 1.6939890710382515,
+      "grad_norm": 9.757600784301758,
+      "learning_rate": 2.397120985280597e-05,
+      "loss": 0.7259,
+      "step": 620
+    },
+    {
+      "epoch": 1.721311475409836,
+      "grad_norm": 8.898860931396484,
+      "learning_rate": 2.3750151357729604e-05,
+      "loss": 0.8569,
+      "step": 630
+    },
+    {
+      "epoch": 1.748633879781421,
+      "grad_norm": 19.698688507080078,
+      "learning_rate": 2.3526173780329636e-05,
+      "loss": 1.0927,
+      "step": 640
+    },
+    {
+      "epoch": 1.7759562841530054,
+      "grad_norm": 23.36447525024414,
+      "learning_rate": 2.329935184034066e-05,
+      "loss": 0.6988,
+      "step": 650
+    },
+    {
+      "epoch": 1.8032786885245902,
+      "grad_norm": 16.561899185180664,
+      "learning_rate": 2.3069761206386968e-05,
+      "loss": 0.7696,
+      "step": 660
+    },
+    {
+      "epoch": 1.830601092896175,
+      "grad_norm": 18.133567810058594,
+      "learning_rate": 2.2837478470739234e-05,
+      "loss": 0.877,
+      "step": 670
+    },
+    {
+      "epoch": 1.8579234972677594,
+      "grad_norm": 13.005228996276855,
+      "learning_rate": 2.2602581123763054e-05,
+      "loss": 0.658,
+      "step": 680
+    },
+    {
+      "epoch": 1.8852459016393444,
+      "grad_norm": 11.603018760681152,
+      "learning_rate": 2.2365147528067874e-05,
+      "loss": 0.9204,
+      "step": 690
+    },
+    {
+      "epoch": 1.9125683060109289,
+      "grad_norm": 7.9754319190979,
+      "learning_rate": 2.2125256892364934e-05,
+      "loss": 0.6936,
+      "step": 700
+    },
+    {
+      "epoch": 1.9398907103825138,
+      "grad_norm": 13.788674354553223,
+      "learning_rate": 2.188298924504296e-05,
+      "loss": 0.7217,
+      "step": 710
+    },
+    {
+      "epoch": 1.9672131147540983,
+      "grad_norm": 19.109081268310547,
+      "learning_rate": 2.1638425407470398e-05,
+      "loss": 0.8034,
+      "step": 720
+    },
+    {
+      "epoch": 1.994535519125683,
+      "grad_norm": 12.080116271972656,
+      "learning_rate": 2.139164696703313e-05,
+      "loss": 0.786,
+      "step": 730
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.735475051264525,
+      "eval_f1": 0.737288346724191,
+      "eval_loss": 0.7614660263061523,
+      "eval_runtime": 3.3477,
+      "eval_samples_per_second": 437.012,
+      "eval_steps_per_second": 27.481,
+      "step": 732
+    },
+    {
+      "epoch": 2.021857923497268,
+      "grad_norm": 11.714097023010254,
+      "learning_rate": 2.1142736249916592e-05,
+      "loss": 0.6599,
+      "step": 740
+    },
+    {
+      "epoch": 2.0491803278688523,
+      "grad_norm": 9.785654067993164,
+      "learning_rate": 2.0891776293641484e-05,
+      "loss": 0.7445,
+      "step": 750
+    },
+    {
+      "epoch": 2.0765027322404372,
+      "grad_norm": 14.79162883758545,
+      "learning_rate": 2.0638850819362142e-05,
+      "loss": 0.8216,
+      "step": 760
+    },
+    {
+      "epoch": 2.1038251366120218,
+      "grad_norm": 13.838127136230469,
+      "learning_rate": 2.0384044203936857e-05,
+      "loss": 0.6064,
+      "step": 770
+    },
+    {
+      "epoch": 2.1311475409836067,
+      "grad_norm": 12.895397186279297,
+      "learning_rate": 2.012744145177946e-05,
+      "loss": 0.5361,
+      "step": 780
+    },
+    {
+      "epoch": 2.158469945355191,
+      "grad_norm": 17.18644142150879,
+      "learning_rate": 1.9869128166501516e-05,
+      "loss": 0.697,
+      "step": 790
+    },
+    {
+      "epoch": 2.185792349726776,
+      "grad_norm": 18.993026733398438,
+      "learning_rate": 1.9609190522354666e-05,
+      "loss": 0.6356,
+      "step": 800
+    },
+    {
+      "epoch": 2.2131147540983607,
+      "grad_norm": 20.658855438232422,
+      "learning_rate": 1.9347715235482585e-05,
+      "loss": 0.6762,
+      "step": 810
+    },
+    {
+      "epoch": 2.240437158469945,
+      "grad_norm": 18.07002067565918,
+      "learning_rate": 1.9084789534992143e-05,
+      "loss": 0.5932,
+      "step": 820
+    },
+    {
+      "epoch": 2.26775956284153,
+      "grad_norm": 10.831477165222168,
+      "learning_rate": 1.8820501133853472e-05,
+      "loss": 0.6853,
+      "step": 830
+    },
+    {
+      "epoch": 2.2950819672131146,
+      "grad_norm": 13.586620330810547,
+      "learning_rate": 1.8554938199638613e-05,
+      "loss": 0.6649,
+      "step": 840
+    },
+    {
+      "epoch": 2.3224043715846996,
+      "grad_norm": 8.403483390808105,
+      "learning_rate": 1.8288189325108462e-05,
+      "loss": 0.8898,
+      "step": 850
+    },
+    {
+      "epoch": 2.349726775956284,
+      "grad_norm": 14.610397338867188,
+      "learning_rate": 1.8020343498657917e-05,
+      "loss": 0.6853,
+      "step": 860
+    },
+    {
+      "epoch": 2.3770491803278686,
+      "grad_norm": 17.091442108154297,
+      "learning_rate": 1.7751490074629034e-05,
+      "loss": 0.482,
+      "step": 870
+    },
+    {
+      "epoch": 2.4043715846994536,
+      "grad_norm": 19.71129608154297,
+      "learning_rate": 1.7481718743502084e-05,
+      "loss": 0.7179,
+      "step": 880
+    },
+    {
+      "epoch": 2.431693989071038,
+      "grad_norm": 19.681272506713867,
+      "learning_rate": 1.7211119501974487e-05,
+      "loss": 0.6611,
+      "step": 890
+    },
+    {
+      "epoch": 2.459016393442623,
+      "grad_norm": 14.768360137939453,
+      "learning_rate": 1.693978262293758e-05,
+      "loss": 0.6776,
+      "step": 900
+    },
+    {
+      "epoch": 2.4863387978142075,
+      "grad_norm": 10.980010986328125,
+      "learning_rate": 1.6667798625361265e-05,
+      "loss": 0.5664,
+      "step": 910
+    },
+    {
+      "epoch": 2.5136612021857925,
+      "grad_norm": 18.203256607055664,
+      "learning_rate": 1.6395258244096532e-05,
+      "loss": 0.6044,
+      "step": 920
+    },
+    {
+      "epoch": 2.540983606557377,
+      "grad_norm": 19.784507751464844,
+      "learning_rate": 1.6122252399606e-05,
+      "loss": 0.6868,
+      "step": 930
+    },
+    {
+      "epoch": 2.5683060109289615,
+      "grad_norm": 13.81864070892334,
+      "learning_rate": 1.584887216763251e-05,
+      "loss": 0.7107,
+      "step": 940
+    },
+    {
+      "epoch": 2.5956284153005464,
+      "grad_norm": 13.999222755432129,
+      "learning_rate": 1.5575208748815934e-05,
+      "loss": 0.628,
+      "step": 950
+    },
+    {
+      "epoch": 2.6229508196721314,
+      "grad_norm": 14.687641143798828,
+      "learning_rate": 1.5301353438268298e-05,
+      "loss": 0.6494,
+      "step": 960
+    },
+    {
+      "epoch": 2.650273224043716,
+      "grad_norm": 15.607926368713379,
+      "learning_rate": 1.5027397595117417e-05,
+      "loss": 0.7266,
+      "step": 970
+    },
+    {
+      "epoch": 2.6775956284153004,
+      "grad_norm": 11.575119972229004,
+      "learning_rate": 1.4753432612029134e-05,
+      "loss": 0.7242,
+      "step": 980
+    },
+    {
+      "epoch": 2.7049180327868854,
+      "grad_norm": 15.441755294799805,
+      "learning_rate": 1.4479549884718434e-05,
+      "loss": 0.6714,
+      "step": 990
+    },
+    {
+      "epoch": 2.73224043715847,
+      "grad_norm": 28.31683349609375,
+      "learning_rate": 1.4205840781459443e-05,
+      "loss": 0.7413,
+      "step": 1000
+    },
+    {
+      "epoch": 2.7595628415300544,
+      "grad_norm": 17.351163864135742,
+      "learning_rate": 1.3932396612604688e-05,
+      "loss": 0.7011,
+      "step": 1010
+    },
+    {
+      "epoch": 2.7868852459016393,
+      "grad_norm": 12.234743118286133,
+      "learning_rate": 1.3659308600123619e-05,
+      "loss": 0.5344,
+      "step": 1020
+    },
+    {
+      "epoch": 2.8142076502732243,
+      "grad_norm": 11.195818901062012,
+      "learning_rate": 1.3386667847170615e-05,
+      "loss": 0.4516,
+      "step": 1030
+    },
+    {
+      "epoch": 2.841530054644809,
+      "grad_norm": 15.766973495483398,
+      "learning_rate": 1.3114565307692664e-05,
+      "loss": 0.8362,
+      "step": 1040
+    },
+    {
+      "epoch": 2.8688524590163933,
+      "grad_norm": 15.880483627319336,
+      "learning_rate": 1.2843091756086758e-05,
+      "loss": 0.5643,
+      "step": 1050
+    },
+    {
+      "epoch": 2.8961748633879782,
+      "grad_norm": 14.66220760345459,
+      "learning_rate": 1.2572337756917266e-05,
+      "loss": 0.7147,
+      "step": 1060
+    },
+    {
+      "epoch": 2.9234972677595628,
+      "grad_norm": 15.787104606628418,
+      "learning_rate": 1.2302393634703241e-05,
+      "loss": 0.6991,
+      "step": 1070
+    },
+    {
+      "epoch": 2.9508196721311473,
+      "grad_norm": 14.712467193603516,
+      "learning_rate": 1.2033349443785834e-05,
+      "loss": 0.6871,
+      "step": 1080
+    },
+    {
+      "epoch": 2.978142076502732,
+      "grad_norm": 14.292945861816406,
+      "learning_rate": 1.1765294938285847e-05,
+      "loss": 0.6269,
+      "step": 1090
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7641831852358169,
+      "eval_f1": 0.7648080066431403,
+      "eval_loss": 0.6964150071144104,
+      "eval_runtime": 3.406,
+      "eval_samples_per_second": 429.533,
+      "eval_steps_per_second": 27.011,
+      "step": 1098
+    },
+    {
+      "epoch": 3.0054644808743167,
+      "grad_norm": 17.285518646240234,
+      "learning_rate": 1.1498319542161424e-05,
+      "loss": 0.5571,
+      "step": 1100
+    },
+    {
+      "epoch": 3.0327868852459017,
+      "grad_norm": 17.627635955810547,
+      "learning_rate": 1.1232512319375888e-05,
+      "loss": 0.6456,
+      "step": 1110
+    },
+    {
+      "epoch": 3.060109289617486,
+      "grad_norm": 17.636045455932617,
+      "learning_rate": 1.09679619441857e-05,
+      "loss": 0.5691,
+      "step": 1120
+    },
+    {
+      "epoch": 3.087431693989071,
+      "grad_norm": 14.666460037231445,
+      "learning_rate": 1.0704756671558387e-05,
+      "loss": 0.5591,
+      "step": 1130
+    },
+    {
+      "epoch": 3.1147540983606556,
+      "grad_norm": 15.583251953125,
+      "learning_rate": 1.0442984307730369e-05,
+      "loss": 0.5124,
+      "step": 1140
+    },
+    {
+      "epoch": 3.1420765027322406,
+      "grad_norm": 14.595309257507324,
+      "learning_rate": 1.0182732180914468e-05,
+      "loss": 0.5669,
+      "step": 1150
+    },
+    {
+      "epoch": 3.169398907103825,
+      "grad_norm": 11.129724502563477,
+      "learning_rate": 9.92408711216692e-06,
+      "loss": 0.44,
+      "step": 1160
+    },
+    {
+      "epoch": 3.19672131147541,
+      "grad_norm": 16.795949935913086,
+      "learning_rate": 9.667135386423537e-06,
+      "loss": 0.6301,
+      "step": 1170
+    },
+    {
+      "epoch": 3.2240437158469946,
+      "grad_norm": 8.846739768981934,
+      "learning_rate": 9.411962723714754e-06,
+      "loss": 0.488,
+      "step": 1180
+    },
+    {
+      "epoch": 3.251366120218579,
+      "grad_norm": 12.987939834594727,
+      "learning_rate": 9.15865425056909e-06,
+      "loss": 0.6578,
+      "step": 1190
+    },
+    {
+      "epoch": 3.278688524590164,
+      "grad_norm": 21.930444717407227,
+      "learning_rate": 8.907294471614664e-06,
+      "loss": 0.5771,
+      "step": 1200
+    },
+    {
+      "epoch": 3.3060109289617485,
+      "grad_norm": 17.547632217407227,
+      "learning_rate": 8.657967241388102e-06,
+      "loss": 0.5306,
+      "step": 1210
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 12.96604061126709,
+      "learning_rate": 8.4107557363604e-06,
+      "loss": 0.5945,
+      "step": 1220
+    },
+    {
+      "epoch": 3.360655737704918,
+      "grad_norm": 14.509190559387207,
+      "learning_rate": 8.165742427188914e-06,
+      "loss": 0.4458,
+      "step": 1230
+    },
+    {
+      "epoch": 3.387978142076503,
+      "grad_norm": 16.828969955444336,
+      "learning_rate": 7.92300905120489e-06,
+      "loss": 0.6484,
+      "step": 1240
+    },
+    {
+      "epoch": 3.4153005464480874,
+      "grad_norm": 25.763072967529297,
+      "learning_rate": 7.682636585145537e-06,
+      "loss": 0.5723,
+      "step": 1250
+    },
+    {
+      "epoch": 3.442622950819672,
+      "grad_norm": 15.343353271484375,
+      "learning_rate": 7.444705218139958e-06,
+      "loss": 0.5327,
+      "step": 1260
+    },
+    {
+      "epoch": 3.469945355191257,
+      "grad_norm": 20.751506805419922,
+      "learning_rate": 7.209294324957706e-06,
+      "loss": 0.5658,
+      "step": 1270
+    },
+    {
+      "epoch": 3.4972677595628414,
+      "grad_norm": 13.689117431640625,
+      "learning_rate": 6.9764824395291054e-06,
+      "loss": 0.4626,
+      "step": 1280
+    },
+    {
+      "epoch": 3.5245901639344264,
+      "grad_norm": 17.023637771606445,
+      "learning_rate": 6.746347228746051e-06,
+      "loss": 0.5745,
+      "step": 1290
+    },
+    {
+      "epoch": 3.551912568306011,
+      "grad_norm": 17.415525436401367,
+      "learning_rate": 6.518965466552022e-06,
+      "loss": 0.4396,
+      "step": 1300
+    },
+    {
+      "epoch": 3.579234972677596,
+      "grad_norm": 18.61026382446289,
+      "learning_rate": 6.294413008330042e-06,
+      "loss": 0.407,
+      "step": 1310
+    },
+    {
+      "epoch": 3.6065573770491803,
+      "grad_norm": 16.19002342224121,
+      "learning_rate": 6.072764765597031e-06,
+      "loss": 0.5887,
+      "step": 1320
+    },
+    {
+      "epoch": 3.633879781420765,
+      "grad_norm": 10.970612525939941,
+      "learning_rate": 5.854094681013058e-06,
+      "loss": 0.4665,
+      "step": 1330
+    },
+    {
+      "epoch": 3.66120218579235,
+      "grad_norm": 11.12162971496582,
+      "learning_rate": 5.638475703713811e-06,
+      "loss": 0.5143,
+      "step": 1340
+    },
+    {
+      "epoch": 3.6885245901639343,
+      "grad_norm": 15.478825569152832,
+      "learning_rate": 5.425979764974475e-06,
+      "loss": 0.7372,
+      "step": 1350
+    },
+    {
+      "epoch": 3.7158469945355193,
+      "grad_norm": 19.27631378173828,
+      "learning_rate": 5.216677754213213e-06,
+      "loss": 0.6368,
+      "step": 1360
+    },
+    {
+      "epoch": 3.7431693989071038,
+      "grad_norm": 13.134615898132324,
+      "learning_rate": 5.010639495342205e-06,
+      "loss": 0.4509,
+      "step": 1370
+    },
+    {
+      "epoch": 3.7704918032786887,
+      "grad_norm": 22.705202102661133,
+      "learning_rate": 4.807933723474116e-06,
+      "loss": 0.587,
+      "step": 1380
+    },
+    {
+      "epoch": 3.797814207650273,
+      "grad_norm": 18.598493576049805,
+      "learning_rate": 4.608628061991834e-06,
+      "loss": 0.5485,
+      "step": 1390
+    },
+    {
+      "epoch": 3.8251366120218577,
+      "grad_norm": 14.910867691040039,
+      "learning_rate": 4.412788999989047e-06,
+      "loss": 0.6812,
+      "step": 1400
+    },
+    {
+      "epoch": 3.8524590163934427,
+      "grad_norm": 18.004486083984375,
+      "learning_rate": 4.2204818700892436e-06,
+      "loss": 0.7287,
+      "step": 1410
+    },
+    {
+      "epoch": 3.879781420765027,
+      "grad_norm": 14.421548843383789,
+      "learning_rate": 4.031770826650533e-06,
+      "loss": 0.5072,
+      "step": 1420
+    },
+    {
+      "epoch": 3.907103825136612,
+      "grad_norm": 14.291264533996582,
+      "learning_rate": 3.846718824363467e-06,
+      "loss": 0.6538,
+      "step": 1430
+    },
+    {
+      "epoch": 3.9344262295081966,
+      "grad_norm": 21.369617462158203,
+      "learning_rate": 3.6653875972491906e-06,
+      "loss": 0.7196,
+      "step": 1440
+    },
+    {
+      "epoch": 3.9617486338797816,
+      "grad_norm": 13.688413619995117,
+      "learning_rate": 3.487837638064699e-06,
+      "loss": 0.632,
+      "step": 1450
+    },
+    {
+      "epoch": 3.989071038251366,
+      "grad_norm": 18.494495391845703,
+      "learning_rate": 3.3141281781222494e-06,
+      "loss": 0.6043,
+      "step": 1460
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7710184552289815,
+      "eval_f1": 0.7724177824450331,
+      "eval_loss": 0.6853169798851013,
+      "eval_runtime": 3.4328,
+      "eval_samples_per_second": 426.186,
+      "eval_steps_per_second": 26.8,
+      "step": 1464
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1830,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8099395497295872.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1464/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de007bea22dcb88578703fe7cbafb05e81ad70f6e86a48f9973a14db3a420500
+size 5841

checkpoint-1830/README.md ADDED Viewed

	@@ -0,0 +1,206 @@

+---
+base_model: llm-semantic-router/mmbert-32k-yarn
+library_name: peft
+tags:
+- base_model:adapter:llm-semantic-router/mmbert-32k-yarn
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

checkpoint-1830/adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "llm-semantic-router/mmbert-32k-yarn",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [
+    "classifier",
+    "score"
+  ],
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "mlp.Wi",
+    "attn.Wo",
+    "attn.Wqkv",
+    "mlp.Wo"
+  ],
+  "target_parameters": null,
+  "task_type": "SEQ_CLS",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoint-1830/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29beaec5695b0761c92028e99cfd8b0c2461427916bc27ab817bf275ff17b6e7
+size 6823088

checkpoint-1830/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11fbb3e80255bf290a9f488cd20b89d58e0fdb9943a3b0157c18336373d92b78
+size 13755211

checkpoint-1830/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:413aff5a292a9d019684571c5c09291a7e15e3a037cef8b67c1713683bd44c2e
+size 14645

checkpoint-1830/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ae56661a73f24ada0d42933346e98f0ba09e1a82bf6c8506f5c679dd4ff4df7
+size 1465

checkpoint-1830/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1365 @@

+{
+  "best_global_step": 1464,
+  "best_metric": 0.7724177824450331,
+  "best_model_checkpoint": "lora_intent_classifier_mmbert-32k_r8/checkpoint-1464",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 1830,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0273224043715847,
+      "grad_norm": 43.661415100097656,
+      "learning_rate": 2.454545454545455e-06,
+      "loss": 4.0334,
+      "step": 10
+    },
+    {
+      "epoch": 0.0546448087431694,
+      "grad_norm": 37.4951171875,
+      "learning_rate": 5.181818181818182e-06,
+      "loss": 3.8288,
+      "step": 20
+    },
+    {
+      "epoch": 0.08196721311475409,
+      "grad_norm": 20.37900733947754,
+      "learning_rate": 7.909090909090909e-06,
+      "loss": 3.6986,
+      "step": 30
+    },
+    {
+      "epoch": 0.1092896174863388,
+      "grad_norm": 24.86526870727539,
+      "learning_rate": 1.0636363636363636e-05,
+      "loss": 3.4172,
+      "step": 40
+    },
+    {
+      "epoch": 0.1366120218579235,
+      "grad_norm": 21.12486457824707,
+      "learning_rate": 1.3363636363636364e-05,
+      "loss": 3.3902,
+      "step": 50
+    },
+    {
+      "epoch": 0.16393442622950818,
+      "grad_norm": 14.784985542297363,
+      "learning_rate": 1.6090909090909092e-05,
+      "loss": 2.9621,
+      "step": 60
+    },
+    {
+      "epoch": 0.1912568306010929,
+      "grad_norm": 15.182305335998535,
+      "learning_rate": 1.881818181818182e-05,
+      "loss": 2.9566,
+      "step": 70
+    },
+    {
+      "epoch": 0.2185792349726776,
+      "grad_norm": 13.884512901306152,
+      "learning_rate": 2.1545454545454544e-05,
+      "loss": 2.8581,
+      "step": 80
+    },
+    {
+      "epoch": 0.2459016393442623,
+      "grad_norm": 13.621200561523438,
+      "learning_rate": 2.4272727272727275e-05,
+      "loss": 2.676,
+      "step": 90
+    },
+    {
+      "epoch": 0.273224043715847,
+      "grad_norm": 13.836731910705566,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 2.6325,
+      "step": 100
+    },
+    {
+      "epoch": 0.3005464480874317,
+      "grad_norm": 14.511067390441895,
+      "learning_rate": 2.972727272727273e-05,
+      "loss": 2.5361,
+      "step": 110
+    },
+    {
+      "epoch": 0.32786885245901637,
+      "grad_norm": 12.94679069519043,
+      "learning_rate": 2.9997973347195592e-05,
+      "loss": 2.5242,
+      "step": 120
+    },
+    {
+      "epoch": 0.3551912568306011,
+      "grad_norm": 11.663535118103027,
+      "learning_rate": 2.999096833688549e-05,
+      "loss": 2.4672,
+      "step": 130
+    },
+    {
+      "epoch": 0.3825136612021858,
+      "grad_norm": 12.334612846374512,
+      "learning_rate": 2.9978962285005162e-05,
+      "loss": 2.3361,
+      "step": 140
+    },
+    {
+      "epoch": 0.4098360655737705,
+      "grad_norm": 10.295676231384277,
+      "learning_rate": 2.9961959196817175e-05,
+      "loss": 2.3276,
+      "step": 150
+    },
+    {
+      "epoch": 0.4371584699453552,
+      "grad_norm": 9.971988677978516,
+      "learning_rate": 2.9939964744613606e-05,
+      "loss": 2.3236,
+      "step": 160
+    },
+    {
+      "epoch": 0.4644808743169399,
+      "grad_norm": 13.546309471130371,
+      "learning_rate": 2.991298626582372e-05,
+      "loss": 2.2471,
+      "step": 170
+    },
+    {
+      "epoch": 0.4918032786885246,
+      "grad_norm": 15.009965896606445,
+      "learning_rate": 2.988103276056618e-05,
+      "loss": 2.1654,
+      "step": 180
+    },
+    {
+      "epoch": 0.5191256830601093,
+      "grad_norm": 12.90045166015625,
+      "learning_rate": 2.984411488864658e-05,
+      "loss": 2.1238,
+      "step": 190
+    },
+    {
+      "epoch": 0.546448087431694,
+      "grad_norm": 8.598944664001465,
+      "learning_rate": 2.980224496600129e-05,
+      "loss": 1.9748,
+      "step": 200
+    },
+    {
+      "epoch": 0.5737704918032787,
+      "grad_norm": 9.50810718536377,
+      "learning_rate": 2.975543696058881e-05,
+      "loss": 1.9237,
+      "step": 210
+    },
+    {
+      "epoch": 0.6010928961748634,
+      "grad_norm": 11.621309280395508,
+      "learning_rate": 2.9703706487730033e-05,
+      "loss": 1.9223,
+      "step": 220
+    },
+    {
+      "epoch": 0.6284153005464481,
+      "grad_norm": 12.043228149414062,
+      "learning_rate": 2.964707080489887e-05,
+      "loss": 1.6967,
+      "step": 230
+    },
+    {
+      "epoch": 0.6557377049180327,
+      "grad_norm": 8.679780006408691,
+      "learning_rate": 2.958554880596515e-05,
+      "loss": 1.7717,
+      "step": 240
+    },
+    {
+      "epoch": 0.6830601092896175,
+      "grad_norm": 12.931756973266602,
+      "learning_rate": 2.9519161014891514e-05,
+      "loss": 1.6964,
+      "step": 250
+    },
+    {
+      "epoch": 0.7103825136612022,
+      "grad_norm": 11.386296272277832,
+      "learning_rate": 2.944792957888656e-05,
+      "loss": 1.5883,
+      "step": 260
+    },
+    {
+      "epoch": 0.7377049180327869,
+      "grad_norm": 9.392644882202148,
+      "learning_rate": 2.9371878261016468e-05,
+      "loss": 1.4422,
+      "step": 270
+    },
+    {
+      "epoch": 0.7650273224043715,
+      "grad_norm": 13.371213912963867,
+      "learning_rate": 2.9291032432277537e-05,
+      "loss": 1.4828,
+      "step": 280
+    },
+    {
+      "epoch": 0.7923497267759563,
+      "grad_norm": 9.957645416259766,
+      "learning_rate": 2.9205419063132315e-05,
+      "loss": 1.3551,
+      "step": 290
+    },
+    {
+      "epoch": 0.819672131147541,
+      "grad_norm": 15.953017234802246,
+      "learning_rate": 2.9115066714512192e-05,
+      "loss": 1.1904,
+      "step": 300
+    },
+    {
+      "epoch": 0.8469945355191257,
+      "grad_norm": 12.193412780761719,
+      "learning_rate": 2.902000552828935e-05,
+      "loss": 1.2798,
+      "step": 310
+    },
+    {
+      "epoch": 0.8743169398907104,
+      "grad_norm": 22.1932315826416,
+      "learning_rate": 2.892026721722132e-05,
+      "loss": 1.3221,
+      "step": 320
+    },
+    {
+      "epoch": 0.9016393442622951,
+      "grad_norm": 18.232664108276367,
+      "learning_rate": 2.881588505437149e-05,
+      "loss": 1.3464,
+      "step": 330
+    },
+    {
+      "epoch": 0.9289617486338798,
+      "grad_norm": 16.0748348236084,
+      "learning_rate": 2.8706893862009102e-05,
+      "loss": 1.2608,
+      "step": 340
+    },
+    {
+      "epoch": 0.9562841530054644,
+      "grad_norm": 19.062816619873047,
+      "learning_rate": 2.859332999999241e-05,
+      "loss": 1.1351,
+      "step": 350
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 13.451746940612793,
+      "learning_rate": 2.8475231353638888e-05,
+      "loss": 1.299,
+      "step": 360
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6343130553656869,
+      "eval_f1": 0.6348165517128922,
+      "eval_loss": 1.1399110555648804,
+      "eval_runtime": 4.7145,
+      "eval_samples_per_second": 310.319,
+      "eval_steps_per_second": 19.514,
+      "step": 366
+    },
+    {
+      "epoch": 1.010928961748634,
+      "grad_norm": 15.27212905883789,
+      "learning_rate": 2.8352637321086587e-05,
+      "loss": 0.8772,
+      "step": 370
+    },
+    {
+      "epoch": 1.0382513661202186,
+      "grad_norm": 14.341962814331055,
+      "learning_rate": 2.8225588800150717e-05,
+      "loss": 1.228,
+      "step": 380
+    },
+    {
+      "epoch": 1.0655737704918034,
+      "grad_norm": 16.302701950073242,
+      "learning_rate": 2.8094128174680033e-05,
+      "loss": 1.0407,
+      "step": 390
+    },
+    {
+      "epoch": 1.092896174863388,
+      "grad_norm": 19.2470645904541,
+      "learning_rate": 2.7958299300417413e-05,
+      "loss": 1.2054,
+      "step": 400
+    },
+    {
+      "epoch": 1.1202185792349726,
+      "grad_norm": 11.071598052978516,
+      "learning_rate": 2.781814749036942e-05,
+      "loss": 1.12,
+      "step": 410
+    },
+    {
+      "epoch": 1.1475409836065573,
+      "grad_norm": 14.336385726928711,
+      "learning_rate": 2.767371949968971e-05,
+      "loss": 0.9408,
+      "step": 420
+    },
+    {
+      "epoch": 1.174863387978142,
+      "grad_norm": 14.412948608398438,
+      "learning_rate": 2.7525063510081378e-05,
+      "loss": 0.8873,
+      "step": 430
+    },
+    {
+      "epoch": 1.2021857923497268,
+      "grad_norm": 7.640225410461426,
+      "learning_rate": 2.7372229113723316e-05,
+      "loss": 0.9188,
+      "step": 440
+    },
+    {
+      "epoch": 1.2295081967213115,
+      "grad_norm": 12.760605812072754,
+      "learning_rate": 2.7215267296726124e-05,
+      "loss": 1.0622,
+      "step": 450
+    },
+    {
+      "epoch": 1.2568306010928962,
+      "grad_norm": 16.584192276000977,
+      "learning_rate": 2.7054230422122936e-05,
+      "loss": 1.0441,
+      "step": 460
+    },
+    {
+      "epoch": 1.2841530054644807,
+      "grad_norm": 13.030243873596191,
+      "learning_rate": 2.6889172212400925e-05,
+      "loss": 0.6724,
+      "step": 470
+    },
+    {
+      "epoch": 1.3114754098360657,
+      "grad_norm": 14.200984954833984,
+      "learning_rate": 2.6720147731579297e-05,
+      "loss": 1.0364,
+      "step": 480
+    },
+    {
+      "epoch": 1.3387978142076502,
+      "grad_norm": 9.490402221679688,
+      "learning_rate": 2.6547213366839715e-05,
+      "loss": 0.8933,
+      "step": 490
+    },
+    {
+      "epoch": 1.366120218579235,
+      "grad_norm": 13.559136390686035,
+      "learning_rate": 2.637042680971534e-05,
+      "loss": 0.874,
+      "step": 500
+    },
+    {
+      "epoch": 1.3934426229508197,
+      "grad_norm": 9.073728561401367,
+      "learning_rate": 2.6189847036844737e-05,
+      "loss": 1.0375,
+      "step": 510
+    },
+    {
+      "epoch": 1.4207650273224044,
+      "grad_norm": 14.217357635498047,
+      "learning_rate": 2.6005534290297032e-05,
+      "loss": 0.7856,
+      "step": 520
+    },
+    {
+      "epoch": 1.4480874316939891,
+      "grad_norm": 13.805753707885742,
+      "learning_rate": 2.5817550057474958e-05,
+      "loss": 0.9337,
+      "step": 530
+    },
+    {
+      "epoch": 1.4754098360655736,
+      "grad_norm": 11.231172561645508,
+      "learning_rate": 2.562595705060241e-05,
+      "loss": 0.7167,
+      "step": 540
+    },
+    {
+      "epoch": 1.5027322404371586,
+      "grad_norm": 17.595722198486328,
+      "learning_rate": 2.5430819185803452e-05,
+      "loss": 0.9102,
+      "step": 550
+    },
+    {
+      "epoch": 1.530054644808743,
+      "grad_norm": 9.007168769836426,
+      "learning_rate": 2.523220156177963e-05,
+      "loss": 0.8971,
+      "step": 560
+    },
+    {
+      "epoch": 1.5573770491803278,
+      "grad_norm": 19.105390548706055,
+      "learning_rate": 2.5030170438092854e-05,
+      "loss": 0.7724,
+      "step": 570
+    },
+    {
+      "epoch": 1.5846994535519126,
+      "grad_norm": 20.397462844848633,
+      "learning_rate": 2.48247932130609e-05,
+      "loss": 0.9044,
+      "step": 580
+    },
+    {
+      "epoch": 1.6120218579234973,
+      "grad_norm": 16.47760581970215,
+      "learning_rate": 2.461613840127315e-05,
+      "loss": 0.905,
+      "step": 590
+    },
+    {
+      "epoch": 1.639344262295082,
+      "grad_norm": 17.686187744140625,
+      "learning_rate": 2.4404275610733853e-05,
+      "loss": 0.8214,
+      "step": 600
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 16.285888671875,
+      "learning_rate": 2.4189275519640622e-05,
+      "loss": 0.7419,
+      "step": 610
+    },
+    {
+      "epoch": 1.6939890710382515,
+      "grad_norm": 9.757600784301758,
+      "learning_rate": 2.397120985280597e-05,
+      "loss": 0.7259,
+      "step": 620
+    },
+    {
+      "epoch": 1.721311475409836,
+      "grad_norm": 8.898860931396484,
+      "learning_rate": 2.3750151357729604e-05,
+      "loss": 0.8569,
+      "step": 630
+    },
+    {
+      "epoch": 1.748633879781421,
+      "grad_norm": 19.698688507080078,
+      "learning_rate": 2.3526173780329636e-05,
+      "loss": 1.0927,
+      "step": 640
+    },
+    {
+      "epoch": 1.7759562841530054,
+      "grad_norm": 23.36447525024414,
+      "learning_rate": 2.329935184034066e-05,
+      "loss": 0.6988,
+      "step": 650
+    },
+    {
+      "epoch": 1.8032786885245902,
+      "grad_norm": 16.561899185180664,
+      "learning_rate": 2.3069761206386968e-05,
+      "loss": 0.7696,
+      "step": 660
+    },
+    {
+      "epoch": 1.830601092896175,
+      "grad_norm": 18.133567810058594,
+      "learning_rate": 2.2837478470739234e-05,
+      "loss": 0.877,
+      "step": 670
+    },
+    {
+      "epoch": 1.8579234972677594,
+      "grad_norm": 13.005228996276855,
+      "learning_rate": 2.2602581123763054e-05,
+      "loss": 0.658,
+      "step": 680
+    },
+    {
+      "epoch": 1.8852459016393444,
+      "grad_norm": 11.603018760681152,
+      "learning_rate": 2.2365147528067874e-05,
+      "loss": 0.9204,
+      "step": 690
+    },
+    {
+      "epoch": 1.9125683060109289,
+      "grad_norm": 7.9754319190979,
+      "learning_rate": 2.2125256892364934e-05,
+      "loss": 0.6936,
+      "step": 700
+    },
+    {
+      "epoch": 1.9398907103825138,
+      "grad_norm": 13.788674354553223,
+      "learning_rate": 2.188298924504296e-05,
+      "loss": 0.7217,
+      "step": 710
+    },
+    {
+      "epoch": 1.9672131147540983,
+      "grad_norm": 19.109081268310547,
+      "learning_rate": 2.1638425407470398e-05,
+      "loss": 0.8034,
+      "step": 720
+    },
+    {
+      "epoch": 1.994535519125683,
+      "grad_norm": 12.080116271972656,
+      "learning_rate": 2.139164696703313e-05,
+      "loss": 0.786,
+      "step": 730
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.735475051264525,
+      "eval_f1": 0.737288346724191,
+      "eval_loss": 0.7614660263061523,
+      "eval_runtime": 3.3477,
+      "eval_samples_per_second": 437.012,
+      "eval_steps_per_second": 27.481,
+      "step": 732
+    },
+    {
+      "epoch": 2.021857923497268,
+      "grad_norm": 11.714097023010254,
+      "learning_rate": 2.1142736249916592e-05,
+      "loss": 0.6599,
+      "step": 740
+    },
+    {
+      "epoch": 2.0491803278688523,
+      "grad_norm": 9.785654067993164,
+      "learning_rate": 2.0891776293641484e-05,
+      "loss": 0.7445,
+      "step": 750
+    },
+    {
+      "epoch": 2.0765027322404372,
+      "grad_norm": 14.79162883758545,
+      "learning_rate": 2.0638850819362142e-05,
+      "loss": 0.8216,
+      "step": 760
+    },
+    {
+      "epoch": 2.1038251366120218,
+      "grad_norm": 13.838127136230469,
+      "learning_rate": 2.0384044203936857e-05,
+      "loss": 0.6064,
+      "step": 770
+    },
+    {
+      "epoch": 2.1311475409836067,
+      "grad_norm": 12.895397186279297,
+      "learning_rate": 2.012744145177946e-05,
+      "loss": 0.5361,
+      "step": 780
+    },
+    {
+      "epoch": 2.158469945355191,
+      "grad_norm": 17.18644142150879,
+      "learning_rate": 1.9869128166501516e-05,
+      "loss": 0.697,
+      "step": 790
+    },
+    {
+      "epoch": 2.185792349726776,
+      "grad_norm": 18.993026733398438,
+      "learning_rate": 1.9609190522354666e-05,
+      "loss": 0.6356,
+      "step": 800
+    },
+    {
+      "epoch": 2.2131147540983607,
+      "grad_norm": 20.658855438232422,
+      "learning_rate": 1.9347715235482585e-05,
+      "loss": 0.6762,
+      "step": 810
+    },
+    {
+      "epoch": 2.240437158469945,
+      "grad_norm": 18.07002067565918,
+      "learning_rate": 1.9084789534992143e-05,
+      "loss": 0.5932,
+      "step": 820
+    },
+    {
+      "epoch": 2.26775956284153,
+      "grad_norm": 10.831477165222168,
+      "learning_rate": 1.8820501133853472e-05,
+      "loss": 0.6853,
+      "step": 830
+    },
+    {
+      "epoch": 2.2950819672131146,
+      "grad_norm": 13.586620330810547,
+      "learning_rate": 1.8554938199638613e-05,
+      "loss": 0.6649,
+      "step": 840
+    },
+    {
+      "epoch": 2.3224043715846996,
+      "grad_norm": 8.403483390808105,
+      "learning_rate": 1.8288189325108462e-05,
+      "loss": 0.8898,
+      "step": 850
+    },
+    {
+      "epoch": 2.349726775956284,
+      "grad_norm": 14.610397338867188,
+      "learning_rate": 1.8020343498657917e-05,
+      "loss": 0.6853,
+      "step": 860
+    },
+    {
+      "epoch": 2.3770491803278686,
+      "grad_norm": 17.091442108154297,
+      "learning_rate": 1.7751490074629034e-05,
+      "loss": 0.482,
+      "step": 870
+    },
+    {
+      "epoch": 2.4043715846994536,
+      "grad_norm": 19.71129608154297,
+      "learning_rate": 1.7481718743502084e-05,
+      "loss": 0.7179,
+      "step": 880
+    },
+    {
+      "epoch": 2.431693989071038,
+      "grad_norm": 19.681272506713867,
+      "learning_rate": 1.7211119501974487e-05,
+      "loss": 0.6611,
+      "step": 890
+    },
+    {
+      "epoch": 2.459016393442623,
+      "grad_norm": 14.768360137939453,
+      "learning_rate": 1.693978262293758e-05,
+      "loss": 0.6776,
+      "step": 900
+    },
+    {
+      "epoch": 2.4863387978142075,
+      "grad_norm": 10.980010986328125,
+      "learning_rate": 1.6667798625361265e-05,
+      "loss": 0.5664,
+      "step": 910
+    },
+    {
+      "epoch": 2.5136612021857925,
+      "grad_norm": 18.203256607055664,
+      "learning_rate": 1.6395258244096532e-05,
+      "loss": 0.6044,
+      "step": 920
+    },
+    {
+      "epoch": 2.540983606557377,
+      "grad_norm": 19.784507751464844,
+      "learning_rate": 1.6122252399606e-05,
+      "loss": 0.6868,
+      "step": 930
+    },
+    {
+      "epoch": 2.5683060109289615,
+      "grad_norm": 13.81864070892334,
+      "learning_rate": 1.584887216763251e-05,
+      "loss": 0.7107,
+      "step": 940
+    },
+    {
+      "epoch": 2.5956284153005464,
+      "grad_norm": 13.999222755432129,
+      "learning_rate": 1.5575208748815934e-05,
+      "loss": 0.628,
+      "step": 950
+    },
+    {
+      "epoch": 2.6229508196721314,
+      "grad_norm": 14.687641143798828,
+      "learning_rate": 1.5301353438268298e-05,
+      "loss": 0.6494,
+      "step": 960
+    },
+    {
+      "epoch": 2.650273224043716,
+      "grad_norm": 15.607926368713379,
+      "learning_rate": 1.5027397595117417e-05,
+      "loss": 0.7266,
+      "step": 970
+    },
+    {
+      "epoch": 2.6775956284153004,
+      "grad_norm": 11.575119972229004,
+      "learning_rate": 1.4753432612029134e-05,
+      "loss": 0.7242,
+      "step": 980
+    },
+    {
+      "epoch": 2.7049180327868854,
+      "grad_norm": 15.441755294799805,
+      "learning_rate": 1.4479549884718434e-05,
+      "loss": 0.6714,
+      "step": 990
+    },
+    {
+      "epoch": 2.73224043715847,
+      "grad_norm": 28.31683349609375,
+      "learning_rate": 1.4205840781459443e-05,
+      "loss": 0.7413,
+      "step": 1000
+    },
+    {
+      "epoch": 2.7595628415300544,
+      "grad_norm": 17.351163864135742,
+      "learning_rate": 1.3932396612604688e-05,
+      "loss": 0.7011,
+      "step": 1010
+    },
+    {
+      "epoch": 2.7868852459016393,
+      "grad_norm": 12.234743118286133,
+      "learning_rate": 1.3659308600123619e-05,
+      "loss": 0.5344,
+      "step": 1020
+    },
+    {
+      "epoch": 2.8142076502732243,
+      "grad_norm": 11.195818901062012,
+      "learning_rate": 1.3386667847170615e-05,
+      "loss": 0.4516,
+      "step": 1030
+    },
+    {
+      "epoch": 2.841530054644809,
+      "grad_norm": 15.766973495483398,
+      "learning_rate": 1.3114565307692664e-05,
+      "loss": 0.8362,
+      "step": 1040
+    },
+    {
+      "epoch": 2.8688524590163933,
+      "grad_norm": 15.880483627319336,
+      "learning_rate": 1.2843091756086758e-05,
+      "loss": 0.5643,
+      "step": 1050
+    },
+    {
+      "epoch": 2.8961748633879782,
+      "grad_norm": 14.66220760345459,
+      "learning_rate": 1.2572337756917266e-05,
+      "loss": 0.7147,
+      "step": 1060
+    },
+    {
+      "epoch": 2.9234972677595628,
+      "grad_norm": 15.787104606628418,
+      "learning_rate": 1.2302393634703241e-05,
+      "loss": 0.6991,
+      "step": 1070
+    },
+    {
+      "epoch": 2.9508196721311473,
+      "grad_norm": 14.712467193603516,
+      "learning_rate": 1.2033349443785834e-05,
+      "loss": 0.6871,
+      "step": 1080
+    },
+    {
+      "epoch": 2.978142076502732,
+      "grad_norm": 14.292945861816406,
+      "learning_rate": 1.1765294938285847e-05,
+      "loss": 0.6269,
+      "step": 1090
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7641831852358169,
+      "eval_f1": 0.7648080066431403,
+      "eval_loss": 0.6964150071144104,
+      "eval_runtime": 3.406,
+      "eval_samples_per_second": 429.533,
+      "eval_steps_per_second": 27.011,
+      "step": 1098
+    },
+    {
+      "epoch": 3.0054644808743167,
+      "grad_norm": 17.285518646240234,
+      "learning_rate": 1.1498319542161424e-05,
+      "loss": 0.5571,
+      "step": 1100
+    },
+    {
+      "epoch": 3.0327868852459017,
+      "grad_norm": 17.627635955810547,
+      "learning_rate": 1.1232512319375888e-05,
+      "loss": 0.6456,
+      "step": 1110
+    },
+    {
+      "epoch": 3.060109289617486,
+      "grad_norm": 17.636045455932617,
+      "learning_rate": 1.09679619441857e-05,
+      "loss": 0.5691,
+      "step": 1120
+    },
+    {
+      "epoch": 3.087431693989071,
+      "grad_norm": 14.666460037231445,
+      "learning_rate": 1.0704756671558387e-05,
+      "loss": 0.5591,
+      "step": 1130
+    },
+    {
+      "epoch": 3.1147540983606556,
+      "grad_norm": 15.583251953125,
+      "learning_rate": 1.0442984307730369e-05,
+      "loss": 0.5124,
+      "step": 1140
+    },
+    {
+      "epoch": 3.1420765027322406,
+      "grad_norm": 14.595309257507324,
+      "learning_rate": 1.0182732180914468e-05,
+      "loss": 0.5669,
+      "step": 1150
+    },
+    {
+      "epoch": 3.169398907103825,
+      "grad_norm": 11.129724502563477,
+      "learning_rate": 9.92408711216692e-06,
+      "loss": 0.44,
+      "step": 1160
+    },
+    {
+      "epoch": 3.19672131147541,
+      "grad_norm": 16.795949935913086,
+      "learning_rate": 9.667135386423537e-06,
+      "loss": 0.6301,
+      "step": 1170
+    },
+    {
+      "epoch": 3.2240437158469946,
+      "grad_norm": 8.846739768981934,
+      "learning_rate": 9.411962723714754e-06,
+      "loss": 0.488,
+      "step": 1180
+    },
+    {
+      "epoch": 3.251366120218579,
+      "grad_norm": 12.987939834594727,
+      "learning_rate": 9.15865425056909e-06,
+      "loss": 0.6578,
+      "step": 1190
+    },
+    {
+      "epoch": 3.278688524590164,
+      "grad_norm": 21.930444717407227,
+      "learning_rate": 8.907294471614664e-06,
+      "loss": 0.5771,
+      "step": 1200
+    },
+    {
+      "epoch": 3.3060109289617485,
+      "grad_norm": 17.547632217407227,
+      "learning_rate": 8.657967241388102e-06,
+      "loss": 0.5306,
+      "step": 1210
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 12.96604061126709,
+      "learning_rate": 8.4107557363604e-06,
+      "loss": 0.5945,
+      "step": 1220
+    },
+    {
+      "epoch": 3.360655737704918,
+      "grad_norm": 14.509190559387207,
+      "learning_rate": 8.165742427188914e-06,
+      "loss": 0.4458,
+      "step": 1230
+    },
+    {
+      "epoch": 3.387978142076503,
+      "grad_norm": 16.828969955444336,
+      "learning_rate": 7.92300905120489e-06,
+      "loss": 0.6484,
+      "step": 1240
+    },
+    {
+      "epoch": 3.4153005464480874,
+      "grad_norm": 25.763072967529297,
+      "learning_rate": 7.682636585145537e-06,
+      "loss": 0.5723,
+      "step": 1250
+    },
+    {
+      "epoch": 3.442622950819672,
+      "grad_norm": 15.343353271484375,
+      "learning_rate": 7.444705218139958e-06,
+      "loss": 0.5327,
+      "step": 1260
+    },
+    {
+      "epoch": 3.469945355191257,
+      "grad_norm": 20.751506805419922,
+      "learning_rate": 7.209294324957706e-06,
+      "loss": 0.5658,
+      "step": 1270
+    },
+    {
+      "epoch": 3.4972677595628414,
+      "grad_norm": 13.689117431640625,
+      "learning_rate": 6.9764824395291054e-06,
+      "loss": 0.4626,
+      "step": 1280
+    },
+    {
+      "epoch": 3.5245901639344264,
+      "grad_norm": 17.023637771606445,
+      "learning_rate": 6.746347228746051e-06,
+      "loss": 0.5745,
+      "step": 1290
+    },
+    {
+      "epoch": 3.551912568306011,
+      "grad_norm": 17.415525436401367,
+      "learning_rate": 6.518965466552022e-06,
+      "loss": 0.4396,
+      "step": 1300
+    },
+    {
+      "epoch": 3.579234972677596,
+      "grad_norm": 18.61026382446289,
+      "learning_rate": 6.294413008330042e-06,
+      "loss": 0.407,
+      "step": 1310
+    },
+    {
+      "epoch": 3.6065573770491803,
+      "grad_norm": 16.19002342224121,
+      "learning_rate": 6.072764765597031e-06,
+      "loss": 0.5887,
+      "step": 1320
+    },
+    {
+      "epoch": 3.633879781420765,
+      "grad_norm": 10.970612525939941,
+      "learning_rate": 5.854094681013058e-06,
+      "loss": 0.4665,
+      "step": 1330
+    },
+    {
+      "epoch": 3.66120218579235,
+      "grad_norm": 11.12162971496582,
+      "learning_rate": 5.638475703713811e-06,
+      "loss": 0.5143,
+      "step": 1340
+    },
+    {
+      "epoch": 3.6885245901639343,
+      "grad_norm": 15.478825569152832,
+      "learning_rate": 5.425979764974475e-06,
+      "loss": 0.7372,
+      "step": 1350
+    },
+    {
+      "epoch": 3.7158469945355193,
+      "grad_norm": 19.27631378173828,
+      "learning_rate": 5.216677754213213e-06,
+      "loss": 0.6368,
+      "step": 1360
+    },
+    {
+      "epoch": 3.7431693989071038,
+      "grad_norm": 13.134615898132324,
+      "learning_rate": 5.010639495342205e-06,
+      "loss": 0.4509,
+      "step": 1370
+    },
+    {
+      "epoch": 3.7704918032786887,
+      "grad_norm": 22.705202102661133,
+      "learning_rate": 4.807933723474116e-06,
+      "loss": 0.587,
+      "step": 1380
+    },
+    {
+      "epoch": 3.797814207650273,
+      "grad_norm": 18.598493576049805,
+      "learning_rate": 4.608628061991834e-06,
+      "loss": 0.5485,
+      "step": 1390
+    },
+    {
+      "epoch": 3.8251366120218577,
+      "grad_norm": 14.910867691040039,
+      "learning_rate": 4.412788999989047e-06,
+      "loss": 0.6812,
+      "step": 1400
+    },
+    {
+      "epoch": 3.8524590163934427,
+      "grad_norm": 18.004486083984375,
+      "learning_rate": 4.2204818700892436e-06,
+      "loss": 0.7287,
+      "step": 1410
+    },
+    {
+      "epoch": 3.879781420765027,
+      "grad_norm": 14.421548843383789,
+      "learning_rate": 4.031770826650533e-06,
+      "loss": 0.5072,
+      "step": 1420
+    },
+    {
+      "epoch": 3.907103825136612,
+      "grad_norm": 14.291264533996582,
+      "learning_rate": 3.846718824363467e-06,
+      "loss": 0.6538,
+      "step": 1430
+    },
+    {
+      "epoch": 3.9344262295081966,
+      "grad_norm": 21.369617462158203,
+      "learning_rate": 3.6653875972491906e-06,
+      "loss": 0.7196,
+      "step": 1440
+    },
+    {
+      "epoch": 3.9617486338797816,
+      "grad_norm": 13.688413619995117,
+      "learning_rate": 3.487837638064699e-06,
+      "loss": 0.632,
+      "step": 1450
+    },
+    {
+      "epoch": 3.989071038251366,
+      "grad_norm": 18.494495391845703,
+      "learning_rate": 3.3141281781222494e-06,
+      "loss": 0.6043,
+      "step": 1460
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7710184552289815,
+      "eval_f1": 0.7724177824450331,
+      "eval_loss": 0.6853169798851013,
+      "eval_runtime": 3.4328,
+      "eval_samples_per_second": 426.186,
+      "eval_steps_per_second": 26.8,
+      "step": 1464
+    },
+    {
+      "epoch": 4.016393442622951,
+      "grad_norm": 17.140661239624023,
+      "learning_rate": 3.144317167529595e-06,
+      "loss": 0.4828,
+      "step": 1470
+    },
+    {
+      "epoch": 4.043715846994536,
+      "grad_norm": 25.1412410736084,
+      "learning_rate": 2.9784612558575875e-06,
+      "loss": 0.6096,
+      "step": 1480
+    },
+    {
+      "epoch": 4.0710382513661205,
+      "grad_norm": 12.405579566955566,
+      "learning_rate": 2.8166157732417066e-06,
+      "loss": 0.5281,
+      "step": 1490
+    },
+    {
+      "epoch": 4.098360655737705,
+      "grad_norm": 6.738020420074463,
+      "learning_rate": 2.6588347119236993e-06,
+      "loss": 0.4918,
+      "step": 1500
+    },
+    {
+      "epoch": 4.1256830601092895,
+      "grad_norm": 15.600460052490234,
+      "learning_rate": 2.5051707082395814e-06,
+      "loss": 0.5587,
+      "step": 1510
+    },
+    {
+      "epoch": 4.1530054644808745,
+      "grad_norm": 24.08083152770996,
+      "learning_rate": 2.3556750250599806e-06,
+      "loss": 0.6833,
+      "step": 1520
+    },
+    {
+      "epoch": 4.180327868852459,
+      "grad_norm": 15.80999755859375,
+      "learning_rate": 2.2103975346886172e-06,
+      "loss": 0.4722,
+      "step": 1530
+    },
+    {
+      "epoch": 4.2076502732240435,
+      "grad_norm": 16.90401840209961,
+      "learning_rate": 2.0693867022247685e-06,
+      "loss": 0.6316,
+      "step": 1540
+    },
+    {
+      "epoch": 4.2349726775956285,
+      "grad_norm": 11.128812789916992,
+      "learning_rate": 1.9326895693951e-06,
+      "loss": 0.4299,
+      "step": 1550
+    },
+    {
+      "epoch": 4.262295081967213,
+      "grad_norm": 13.00735855102539,
+      "learning_rate": 1.8003517388603862e-06,
+      "loss": 0.5335,
+      "step": 1560
+    },
+    {
+      "epoch": 4.2896174863387975,
+      "grad_norm": 13.754223823547363,
+      "learning_rate": 1.6724173590023105e-06,
+      "loss": 0.535,
+      "step": 1570
+    },
+    {
+      "epoch": 4.316939890710382,
+      "grad_norm": 11.241413116455078,
+      "learning_rate": 1.5489291091953761e-06,
+      "loss": 0.4914,
+      "step": 1580
+    },
+    {
+      "epoch": 4.344262295081967,
+      "grad_norm": 17.830909729003906,
+      "learning_rate": 1.429928185568944e-06,
+      "loss": 0.611,
+      "step": 1590
+    },
+    {
+      "epoch": 4.371584699453552,
+      "grad_norm": 13.354630470275879,
+      "learning_rate": 1.3154542872640219e-06,
+      "loss": 0.4563,
+      "step": 1600
+    },
+    {
+      "epoch": 4.398907103825136,
+      "grad_norm": 8.51322078704834,
+      "learning_rate": 1.2055456031895102e-06,
+      "loss": 0.4771,
+      "step": 1610
+    },
+    {
+      "epoch": 4.426229508196721,
+      "grad_norm": 16.959758758544922,
+      "learning_rate": 1.1002387992822372e-06,
+      "loss": 0.495,
+      "step": 1620
+    },
+    {
+      "epoch": 4.453551912568306,
+      "grad_norm": 12.961380004882812,
+      "learning_rate": 9.995690062750605e-07,
+      "loss": 0.4429,
+      "step": 1630
+    },
+    {
+      "epoch": 4.48087431693989,
+      "grad_norm": 13.121606826782227,
+      "learning_rate": 9.035698079771376e-07,
+      "loss": 0.642,
+      "step": 1640
+    },
+    {
+      "epoch": 4.508196721311475,
+      "grad_norm": 15.911199569702148,
+      "learning_rate": 8.122732300702396e-07,
+      "loss": 0.4253,
+      "step": 1650
+    },
+    {
+      "epoch": 4.53551912568306,
+      "grad_norm": 9.911076545715332,
+      "learning_rate": 7.257097294248671e-07,
+      "loss": 0.4987,
+      "step": 1660
+    },
+    {
+      "epoch": 4.562841530054644,
+      "grad_norm": 11.100393295288086,
+      "learning_rate": 6.43908183939731e-07,
+      "loss": 0.5253,
+      "step": 1670
+    },
+    {
+      "epoch": 4.590163934426229,
+      "grad_norm": 19.7589111328125,
+      "learning_rate": 5.668958829079762e-07,
+      "loss": 0.5306,
+      "step": 1680
+    },
+    {
+      "epoch": 4.617486338797814,
+      "grad_norm": 16.263792037963867,
+      "learning_rate": 4.9469851791338e-07,
+      "loss": 0.5244,
+      "step": 1690
+    },
+    {
+      "epoch": 4.644808743169399,
+      "grad_norm": 24.535568237304688,
+      "learning_rate": 4.27340174259534e-07,
+      "loss": 0.5423,
+      "step": 1700
+    },
+    {
+      "epoch": 4.672131147540983,
+      "grad_norm": 18.46912956237793,
+      "learning_rate": 3.6484332293491294e-07,
+      "loss": 0.4921,
+      "step": 1710
+    },
+    {
+      "epoch": 4.699453551912568,
+      "grad_norm": 12.831903457641602,
+      "learning_rate": 3.072288131164702e-07,
+      "loss": 0.4469,
+      "step": 1720
+    },
+    {
+      "epoch": 4.726775956284153,
+      "grad_norm": 17.97196388244629,
+      "learning_rate": 2.545158652142626e-07,
+      "loss": 0.5297,
+      "step": 1730
+    },
+    {
+      "epoch": 4.754098360655737,
+      "grad_norm": 15.087021827697754,
+      "learning_rate": 2.0672206445946472e-07,
+      "loss": 0.4762,
+      "step": 1740
+    },
+    {
+      "epoch": 4.781420765027322,
+      "grad_norm": 14.959249496459961,
+      "learning_rate": 1.638633550378732e-07,
+      "loss": 0.5667,
+      "step": 1750
+    },
+    {
+      "epoch": 4.808743169398907,
+      "grad_norm": 16.870542526245117,
+      "learning_rate": 1.259540347708549e-07,
+      "loss": 0.5,
+      "step": 1760
+    },
+    {
+      "epoch": 4.836065573770492,
+      "grad_norm": 13.900223731994629,
+      "learning_rate": 9.300675034555895e-08,
+      "loss": 0.4998,
+      "step": 1770
+    },
+    {
+      "epoch": 4.863387978142076,
+      "grad_norm": 12.61363410949707,
+      "learning_rate": 6.503249309592007e-08,
+      "loss": 0.6926,
+      "step": 1780
+    },
+    {
+      "epoch": 4.890710382513661,
+      "grad_norm": 14.163106918334961,
+      "learning_rate": 4.2040595335921527e-08,
+      "loss": 0.4771,
+      "step": 1790
+    },
+    {
+      "epoch": 4.918032786885246,
+      "grad_norm": 15.685210227966309,
+      "learning_rate": 2.4038727246290526e-08,
+      "loss": 0.5999,
+      "step": 1800
+    },
+    {
+      "epoch": 4.945355191256831,
+      "grad_norm": 27.26356315612793,
+      "learning_rate": 1.103289431571175e-08,
+      "loss": 0.5854,
+      "step": 1810
+    },
+    {
+      "epoch": 4.972677595628415,
+      "grad_norm": 16.573143005371094,
+      "learning_rate": 3.027435337361606e-09,
+      "loss": 0.4712,
+      "step": 1820
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 20.06909942626953,
+      "learning_rate": 2.5020961476052152e-11,
+      "loss": 0.554,
+      "step": 1830
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7682843472317157,
+      "eval_f1": 0.7698743817487581,
+      "eval_loss": 0.6751871109008789,
+      "eval_runtime": 3.4218,
+      "eval_samples_per_second": 427.551,
+      "eval_steps_per_second": 26.886,
+      "step": 1830
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1830,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.012424437161984e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1830/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de007bea22dcb88578703fe7cbafb05e81ad70f6e86a48f9973a14db3a420500
+size 5841

checkpoint-366/README.md ADDED Viewed

	@@ -0,0 +1,206 @@

+---
+base_model: llm-semantic-router/mmbert-32k-yarn
+library_name: peft
+tags:
+- base_model:adapter:llm-semantic-router/mmbert-32k-yarn
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

checkpoint-366/adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "llm-semantic-router/mmbert-32k-yarn",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [
+    "classifier",
+    "score"
+  ],
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "mlp.Wi",
+    "attn.Wo",
+    "attn.Wqkv",
+    "mlp.Wo"
+  ],
+  "target_parameters": null,
+  "task_type": "SEQ_CLS",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoint-366/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b18cfe43552ed562f2403e712050a7574f5cadcaff685d7efa09ad1c750e88f3
+size 6823088

checkpoint-366/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:783b160533f4e829f1a2b97364613061a60e5e14e9e94d96a3a6df50c30d8802
+size 13755211

checkpoint-366/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8218faaf058edabade4d59208fb1b49026af6be32b2596f234f1ab47e1ab1709
+size 14645

checkpoint-366/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e6aa82aa614d142e343e70922cf81abb849cd44ddfd9eaaa9d264c687db28d6
+size 1465

checkpoint-366/trainer_state.json ADDED Viewed

	@@ -0,0 +1,296 @@

+{
+  "best_global_step": 366,
+  "best_metric": 0.6348165517128922,
+  "best_model_checkpoint": "lora_intent_classifier_mmbert-32k_r8/checkpoint-366",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 366,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0273224043715847,
+      "grad_norm": 43.661415100097656,
+      "learning_rate": 2.454545454545455e-06,
+      "loss": 4.0334,
+      "step": 10
+    },
+    {
+      "epoch": 0.0546448087431694,
+      "grad_norm": 37.4951171875,
+      "learning_rate": 5.181818181818182e-06,
+      "loss": 3.8288,
+      "step": 20
+    },
+    {
+      "epoch": 0.08196721311475409,
+      "grad_norm": 20.37900733947754,
+      "learning_rate": 7.909090909090909e-06,
+      "loss": 3.6986,
+      "step": 30
+    },
+    {
+      "epoch": 0.1092896174863388,
+      "grad_norm": 24.86526870727539,
+      "learning_rate": 1.0636363636363636e-05,
+      "loss": 3.4172,
+      "step": 40
+    },
+    {
+      "epoch": 0.1366120218579235,
+      "grad_norm": 21.12486457824707,
+      "learning_rate": 1.3363636363636364e-05,
+      "loss": 3.3902,
+      "step": 50
+    },
+    {
+      "epoch": 0.16393442622950818,
+      "grad_norm": 14.784985542297363,
+      "learning_rate": 1.6090909090909092e-05,
+      "loss": 2.9621,
+      "step": 60
+    },
+    {
+      "epoch": 0.1912568306010929,
+      "grad_norm": 15.182305335998535,
+      "learning_rate": 1.881818181818182e-05,
+      "loss": 2.9566,
+      "step": 70
+    },
+    {
+      "epoch": 0.2185792349726776,
+      "grad_norm": 13.884512901306152,
+      "learning_rate": 2.1545454545454544e-05,
+      "loss": 2.8581,
+      "step": 80
+    },
+    {
+      "epoch": 0.2459016393442623,
+      "grad_norm": 13.621200561523438,
+      "learning_rate": 2.4272727272727275e-05,
+      "loss": 2.676,
+      "step": 90
+    },
+    {
+      "epoch": 0.273224043715847,
+      "grad_norm": 13.836731910705566,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 2.6325,
+      "step": 100
+    },
+    {
+      "epoch": 0.3005464480874317,
+      "grad_norm": 14.511067390441895,
+      "learning_rate": 2.972727272727273e-05,
+      "loss": 2.5361,
+      "step": 110
+    },
+    {
+      "epoch": 0.32786885245901637,
+      "grad_norm": 12.94679069519043,
+      "learning_rate": 2.9997973347195592e-05,
+      "loss": 2.5242,
+      "step": 120
+    },
+    {
+      "epoch": 0.3551912568306011,
+      "grad_norm": 11.663535118103027,
+      "learning_rate": 2.999096833688549e-05,
+      "loss": 2.4672,
+      "step": 130
+    },
+    {
+      "epoch": 0.3825136612021858,
+      "grad_norm": 12.334612846374512,
+      "learning_rate": 2.9978962285005162e-05,
+      "loss": 2.3361,
+      "step": 140
+    },
+    {
+      "epoch": 0.4098360655737705,
+      "grad_norm": 10.295676231384277,
+      "learning_rate": 2.9961959196817175e-05,
+      "loss": 2.3276,
+      "step": 150
+    },
+    {
+      "epoch": 0.4371584699453552,
+      "grad_norm": 9.971988677978516,
+      "learning_rate": 2.9939964744613606e-05,
+      "loss": 2.3236,
+      "step": 160
+    },
+    {
+      "epoch": 0.4644808743169399,
+      "grad_norm": 13.546309471130371,
+      "learning_rate": 2.991298626582372e-05,
+      "loss": 2.2471,
+      "step": 170
+    },
+    {
+      "epoch": 0.4918032786885246,
+      "grad_norm": 15.009965896606445,
+      "learning_rate": 2.988103276056618e-05,
+      "loss": 2.1654,
+      "step": 180
+    },
+    {
+      "epoch": 0.5191256830601093,
+      "grad_norm": 12.90045166015625,
+      "learning_rate": 2.984411488864658e-05,
+      "loss": 2.1238,
+      "step": 190
+    },
+    {
+      "epoch": 0.546448087431694,
+      "grad_norm": 8.598944664001465,
+      "learning_rate": 2.980224496600129e-05,
+      "loss": 1.9748,
+      "step": 200
+    },
+    {
+      "epoch": 0.5737704918032787,
+      "grad_norm": 9.50810718536377,
+      "learning_rate": 2.975543696058881e-05,
+      "loss": 1.9237,
+      "step": 210
+    },
+    {
+      "epoch": 0.6010928961748634,
+      "grad_norm": 11.621309280395508,
+      "learning_rate": 2.9703706487730033e-05,
+      "loss": 1.9223,
+      "step": 220
+    },
+    {
+      "epoch": 0.6284153005464481,
+      "grad_norm": 12.043228149414062,
+      "learning_rate": 2.964707080489887e-05,
+      "loss": 1.6967,
+      "step": 230
+    },
+    {
+      "epoch": 0.6557377049180327,
+      "grad_norm": 8.679780006408691,
+      "learning_rate": 2.958554880596515e-05,
+      "loss": 1.7717,
+      "step": 240
+    },
+    {
+      "epoch": 0.6830601092896175,
+      "grad_norm": 12.931756973266602,
+      "learning_rate": 2.9519161014891514e-05,
+      "loss": 1.6964,
+      "step": 250
+    },
+    {
+      "epoch": 0.7103825136612022,
+      "grad_norm": 11.386296272277832,
+      "learning_rate": 2.944792957888656e-05,
+      "loss": 1.5883,
+      "step": 260
+    },
+    {
+      "epoch": 0.7377049180327869,
+      "grad_norm": 9.392644882202148,
+      "learning_rate": 2.9371878261016468e-05,
+      "loss": 1.4422,
+      "step": 270
+    },
+    {
+      "epoch": 0.7650273224043715,
+      "grad_norm": 13.371213912963867,
+      "learning_rate": 2.9291032432277537e-05,
+      "loss": 1.4828,
+      "step": 280
+    },
+    {
+      "epoch": 0.7923497267759563,
+      "grad_norm": 9.957645416259766,
+      "learning_rate": 2.9205419063132315e-05,
+      "loss": 1.3551,
+      "step": 290
+    },
+    {
+      "epoch": 0.819672131147541,
+      "grad_norm": 15.953017234802246,
+      "learning_rate": 2.9115066714512192e-05,
+      "loss": 1.1904,
+      "step": 300
+    },
+    {
+      "epoch": 0.8469945355191257,
+      "grad_norm": 12.193412780761719,
+      "learning_rate": 2.902000552828935e-05,
+      "loss": 1.2798,
+      "step": 310
+    },
+    {
+      "epoch": 0.8743169398907104,
+      "grad_norm": 22.1932315826416,
+      "learning_rate": 2.892026721722132e-05,
+      "loss": 1.3221,
+      "step": 320
+    },
+    {
+      "epoch": 0.9016393442622951,
+      "grad_norm": 18.232664108276367,
+      "learning_rate": 2.881588505437149e-05,
+      "loss": 1.3464,
+      "step": 330
+    },
+    {
+      "epoch": 0.9289617486338798,
+      "grad_norm": 16.0748348236084,
+      "learning_rate": 2.8706893862009102e-05,
+      "loss": 1.2608,
+      "step": 340
+    },
+    {
+      "epoch": 0.9562841530054644,
+      "grad_norm": 19.062816619873047,
+      "learning_rate": 2.859332999999241e-05,
+      "loss": 1.1351,
+      "step": 350
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 13.451746940612793,
+      "learning_rate": 2.8475231353638888e-05,
+      "loss": 1.299,
+      "step": 360
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6343130553656869,
+      "eval_f1": 0.6348165517128922,
+      "eval_loss": 1.1399110555648804,
+      "eval_runtime": 4.7145,
+      "eval_samples_per_second": 310.319,
+      "eval_steps_per_second": 19.514,
+      "step": 366
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1830,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2024848874323968.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-366/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de007bea22dcb88578703fe7cbafb05e81ad70f6e86a48f9973a14db3a420500
+size 5841

checkpoint-732/README.md ADDED Viewed

	@@ -0,0 +1,206 @@

+---
+base_model: llm-semantic-router/mmbert-32k-yarn
+library_name: peft
+tags:
+- base_model:adapter:llm-semantic-router/mmbert-32k-yarn
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

checkpoint-732/adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "llm-semantic-router/mmbert-32k-yarn",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [
+    "classifier",
+    "score"
+  ],
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "mlp.Wi",
+    "attn.Wo",
+    "attn.Wqkv",
+    "mlp.Wo"
+  ],
+  "target_parameters": null,
+  "task_type": "SEQ_CLS",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoint-732/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:565d7083c4035b7ff99c893cdb5006296d8c7cd70a524d1aa985e8faf35616e1
+size 6823088

checkpoint-732/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43a8ebee1ca43fa083bd6bc5acf8a861a1febdbc7799d055dac9c629d815d8a0
+size 13755211

checkpoint-732/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:56cf0d07906dbd89d0ba1d0550a4c3f08cec415713da1b65d044e164c4e6824f
+size 14645

checkpoint-732/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e22274e1b89eeb2ba89668afc509d8363ab7c371c7b28ef1c377571f4ebcf0cd
+size 1465

checkpoint-732/trainer_state.json ADDED Viewed

	@@ -0,0 +1,565 @@

+{
+  "best_global_step": 732,
+  "best_metric": 0.737288346724191,
+  "best_model_checkpoint": "lora_intent_classifier_mmbert-32k_r8/checkpoint-732",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 732,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0273224043715847,
+      "grad_norm": 43.661415100097656,
+      "learning_rate": 2.454545454545455e-06,
+      "loss": 4.0334,
+      "step": 10
+    },
+    {
+      "epoch": 0.0546448087431694,
+      "grad_norm": 37.4951171875,
+      "learning_rate": 5.181818181818182e-06,
+      "loss": 3.8288,
+      "step": 20
+    },
+    {
+      "epoch": 0.08196721311475409,
+      "grad_norm": 20.37900733947754,
+      "learning_rate": 7.909090909090909e-06,
+      "loss": 3.6986,
+      "step": 30
+    },
+    {
+      "epoch": 0.1092896174863388,
+      "grad_norm": 24.86526870727539,
+      "learning_rate": 1.0636363636363636e-05,
+      "loss": 3.4172,
+      "step": 40
+    },
+    {
+      "epoch": 0.1366120218579235,
+      "grad_norm": 21.12486457824707,
+      "learning_rate": 1.3363636363636364e-05,
+      "loss": 3.3902,
+      "step": 50
+    },
+    {
+      "epoch": 0.16393442622950818,
+      "grad_norm": 14.784985542297363,
+      "learning_rate": 1.6090909090909092e-05,
+      "loss": 2.9621,
+      "step": 60
+    },
+    {
+      "epoch": 0.1912568306010929,
+      "grad_norm": 15.182305335998535,
+      "learning_rate": 1.881818181818182e-05,
+      "loss": 2.9566,
+      "step": 70
+    },
+    {
+      "epoch": 0.2185792349726776,
+      "grad_norm": 13.884512901306152,
+      "learning_rate": 2.1545454545454544e-05,
+      "loss": 2.8581,
+      "step": 80
+    },
+    {
+      "epoch": 0.2459016393442623,
+      "grad_norm": 13.621200561523438,
+      "learning_rate": 2.4272727272727275e-05,
+      "loss": 2.676,
+      "step": 90
+    },
+    {
+      "epoch": 0.273224043715847,
+      "grad_norm": 13.836731910705566,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 2.6325,
+      "step": 100
+    },
+    {
+      "epoch": 0.3005464480874317,
+      "grad_norm": 14.511067390441895,
+      "learning_rate": 2.972727272727273e-05,
+      "loss": 2.5361,
+      "step": 110
+    },
+    {
+      "epoch": 0.32786885245901637,
+      "grad_norm": 12.94679069519043,
+      "learning_rate": 2.9997973347195592e-05,
+      "loss": 2.5242,
+      "step": 120
+    },
+    {
+      "epoch": 0.3551912568306011,
+      "grad_norm": 11.663535118103027,
+      "learning_rate": 2.999096833688549e-05,
+      "loss": 2.4672,
+      "step": 130
+    },
+    {
+      "epoch": 0.3825136612021858,
+      "grad_norm": 12.334612846374512,
+      "learning_rate": 2.9978962285005162e-05,
+      "loss": 2.3361,
+      "step": 140
+    },
+    {
+      "epoch": 0.4098360655737705,
+      "grad_norm": 10.295676231384277,
+      "learning_rate": 2.9961959196817175e-05,
+      "loss": 2.3276,
+      "step": 150
+    },
+    {
+      "epoch": 0.4371584699453552,
+      "grad_norm": 9.971988677978516,
+      "learning_rate": 2.9939964744613606e-05,
+      "loss": 2.3236,
+      "step": 160
+    },
+    {
+      "epoch": 0.4644808743169399,
+      "grad_norm": 13.546309471130371,
+      "learning_rate": 2.991298626582372e-05,
+      "loss": 2.2471,
+      "step": 170
+    },
+    {
+      "epoch": 0.4918032786885246,
+      "grad_norm": 15.009965896606445,
+      "learning_rate": 2.988103276056618e-05,
+      "loss": 2.1654,
+      "step": 180
+    },
+    {
+      "epoch": 0.5191256830601093,
+      "grad_norm": 12.90045166015625,
+      "learning_rate": 2.984411488864658e-05,
+      "loss": 2.1238,
+      "step": 190
+    },
+    {
+      "epoch": 0.546448087431694,
+      "grad_norm": 8.598944664001465,
+      "learning_rate": 2.980224496600129e-05,
+      "loss": 1.9748,
+      "step": 200
+    },
+    {
+      "epoch": 0.5737704918032787,
+      "grad_norm": 9.50810718536377,
+      "learning_rate": 2.975543696058881e-05,
+      "loss": 1.9237,
+      "step": 210
+    },
+    {
+      "epoch": 0.6010928961748634,
+      "grad_norm": 11.621309280395508,
+      "learning_rate": 2.9703706487730033e-05,
+      "loss": 1.9223,
+      "step": 220
+    },
+    {
+      "epoch": 0.6284153005464481,
+      "grad_norm": 12.043228149414062,
+      "learning_rate": 2.964707080489887e-05,
+      "loss": 1.6967,
+      "step": 230
+    },
+    {
+      "epoch": 0.6557377049180327,
+      "grad_norm": 8.679780006408691,
+      "learning_rate": 2.958554880596515e-05,
+      "loss": 1.7717,
+      "step": 240
+    },
+    {
+      "epoch": 0.6830601092896175,
+      "grad_norm": 12.931756973266602,
+      "learning_rate": 2.9519161014891514e-05,
+      "loss": 1.6964,
+      "step": 250
+    },
+    {
+      "epoch": 0.7103825136612022,
+      "grad_norm": 11.386296272277832,
+      "learning_rate": 2.944792957888656e-05,
+      "loss": 1.5883,
+      "step": 260
+    },
+    {
+      "epoch": 0.7377049180327869,
+      "grad_norm": 9.392644882202148,
+      "learning_rate": 2.9371878261016468e-05,
+      "loss": 1.4422,
+      "step": 270
+    },
+    {
+      "epoch": 0.7650273224043715,
+      "grad_norm": 13.371213912963867,
+      "learning_rate": 2.9291032432277537e-05,
+      "loss": 1.4828,
+      "step": 280
+    },
+    {
+      "epoch": 0.7923497267759563,
+      "grad_norm": 9.957645416259766,
+      "learning_rate": 2.9205419063132315e-05,
+      "loss": 1.3551,
+      "step": 290
+    },
+    {
+      "epoch": 0.819672131147541,
+      "grad_norm": 15.953017234802246,
+      "learning_rate": 2.9115066714512192e-05,
+      "loss": 1.1904,
+      "step": 300
+    },
+    {
+      "epoch": 0.8469945355191257,
+      "grad_norm": 12.193412780761719,
+      "learning_rate": 2.902000552828935e-05,
+      "loss": 1.2798,
+      "step": 310
+    },
+    {
+      "epoch": 0.8743169398907104,
+      "grad_norm": 22.1932315826416,
+      "learning_rate": 2.892026721722132e-05,
+      "loss": 1.3221,
+      "step": 320
+    },
+    {
+      "epoch": 0.9016393442622951,
+      "grad_norm": 18.232664108276367,
+      "learning_rate": 2.881588505437149e-05,
+      "loss": 1.3464,
+      "step": 330
+    },
+    {
+      "epoch": 0.9289617486338798,
+      "grad_norm": 16.0748348236084,
+      "learning_rate": 2.8706893862009102e-05,
+      "loss": 1.2608,
+      "step": 340
+    },
+    {
+      "epoch": 0.9562841530054644,
+      "grad_norm": 19.062816619873047,
+      "learning_rate": 2.859332999999241e-05,
+      "loss": 1.1351,
+      "step": 350
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 13.451746940612793,
+      "learning_rate": 2.8475231353638888e-05,
+      "loss": 1.299,
+      "step": 360
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6343130553656869,
+      "eval_f1": 0.6348165517128922,
+      "eval_loss": 1.1399110555648804,
+      "eval_runtime": 4.7145,
+      "eval_samples_per_second": 310.319,
+      "eval_steps_per_second": 19.514,
+      "step": 366
+    },
+    {
+      "epoch": 1.010928961748634,
+      "grad_norm": 15.27212905883789,
+      "learning_rate": 2.8352637321086587e-05,
+      "loss": 0.8772,
+      "step": 370
+    },
+    {
+      "epoch": 1.0382513661202186,
+      "grad_norm": 14.341962814331055,
+      "learning_rate": 2.8225588800150717e-05,
+      "loss": 1.228,
+      "step": 380
+    },
+    {
+      "epoch": 1.0655737704918034,
+      "grad_norm": 16.302701950073242,
+      "learning_rate": 2.8094128174680033e-05,
+      "loss": 1.0407,
+      "step": 390
+    },
+    {
+      "epoch": 1.092896174863388,
+      "grad_norm": 19.2470645904541,
+      "learning_rate": 2.7958299300417413e-05,
+      "loss": 1.2054,
+      "step": 400
+    },
+    {
+      "epoch": 1.1202185792349726,
+      "grad_norm": 11.071598052978516,
+      "learning_rate": 2.781814749036942e-05,
+      "loss": 1.12,
+      "step": 410
+    },
+    {
+      "epoch": 1.1475409836065573,
+      "grad_norm": 14.336385726928711,
+      "learning_rate": 2.767371949968971e-05,
+      "loss": 0.9408,
+      "step": 420
+    },
+    {
+      "epoch": 1.174863387978142,
+      "grad_norm": 14.412948608398438,
+      "learning_rate": 2.7525063510081378e-05,
+      "loss": 0.8873,
+      "step": 430
+    },
+    {
+      "epoch": 1.2021857923497268,
+      "grad_norm": 7.640225410461426,
+      "learning_rate": 2.7372229113723316e-05,
+      "loss": 0.9188,
+      "step": 440
+    },
+    {
+      "epoch": 1.2295081967213115,
+      "grad_norm": 12.760605812072754,
+      "learning_rate": 2.7215267296726124e-05,
+      "loss": 1.0622,
+      "step": 450
+    },
+    {
+      "epoch": 1.2568306010928962,
+      "grad_norm": 16.584192276000977,
+      "learning_rate": 2.7054230422122936e-05,
+      "loss": 1.0441,
+      "step": 460
+    },
+    {
+      "epoch": 1.2841530054644807,
+      "grad_norm": 13.030243873596191,
+      "learning_rate": 2.6889172212400925e-05,
+      "loss": 0.6724,
+      "step": 470
+    },
+    {
+      "epoch": 1.3114754098360657,
+      "grad_norm": 14.200984954833984,
+      "learning_rate": 2.6720147731579297e-05,
+      "loss": 1.0364,
+      "step": 480
+    },
+    {
+      "epoch": 1.3387978142076502,
+      "grad_norm": 9.490402221679688,
+      "learning_rate": 2.6547213366839715e-05,
+      "loss": 0.8933,
+      "step": 490
+    },
+    {
+      "epoch": 1.366120218579235,
+      "grad_norm": 13.559136390686035,
+      "learning_rate": 2.637042680971534e-05,
+      "loss": 0.874,
+      "step": 500
+    },
+    {
+      "epoch": 1.3934426229508197,
+      "grad_norm": 9.073728561401367,
+      "learning_rate": 2.6189847036844737e-05,
+      "loss": 1.0375,
+      "step": 510
+    },
+    {
+      "epoch": 1.4207650273224044,
+      "grad_norm": 14.217357635498047,
+      "learning_rate": 2.6005534290297032e-05,
+      "loss": 0.7856,
+      "step": 520
+    },
+    {
+      "epoch": 1.4480874316939891,
+      "grad_norm": 13.805753707885742,
+      "learning_rate": 2.5817550057474958e-05,
+      "loss": 0.9337,
+      "step": 530
+    },
+    {
+      "epoch": 1.4754098360655736,
+      "grad_norm": 11.231172561645508,
+      "learning_rate": 2.562595705060241e-05,
+      "loss": 0.7167,
+      "step": 540
+    },
+    {
+      "epoch": 1.5027322404371586,
+      "grad_norm": 17.595722198486328,
+      "learning_rate": 2.5430819185803452e-05,
+      "loss": 0.9102,
+      "step": 550
+    },
+    {
+      "epoch": 1.530054644808743,
+      "grad_norm": 9.007168769836426,
+      "learning_rate": 2.523220156177963e-05,
+      "loss": 0.8971,
+      "step": 560
+    },
+    {
+      "epoch": 1.5573770491803278,
+      "grad_norm": 19.105390548706055,
+      "learning_rate": 2.5030170438092854e-05,
+      "loss": 0.7724,
+      "step": 570
+    },
+    {
+      "epoch": 1.5846994535519126,
+      "grad_norm": 20.397462844848633,
+      "learning_rate": 2.48247932130609e-05,
+      "loss": 0.9044,
+      "step": 580
+    },
+    {
+      "epoch": 1.6120218579234973,
+      "grad_norm": 16.47760581970215,
+      "learning_rate": 2.461613840127315e-05,
+      "loss": 0.905,
+      "step": 590
+    },
+    {
+      "epoch": 1.639344262295082,
+      "grad_norm": 17.686187744140625,
+      "learning_rate": 2.4404275610733853e-05,
+      "loss": 0.8214,
+      "step": 600
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 16.285888671875,
+      "learning_rate": 2.4189275519640622e-05,
+      "loss": 0.7419,
+      "step": 610
+    },
+    {
+      "epoch": 1.6939890710382515,
+      "grad_norm": 9.757600784301758,
+      "learning_rate": 2.397120985280597e-05,
+      "loss": 0.7259,
+      "step": 620
+    },
+    {
+      "epoch": 1.721311475409836,
+      "grad_norm": 8.898860931396484,
+      "learning_rate": 2.3750151357729604e-05,
+      "loss": 0.8569,
+      "step": 630
+    },
+    {
+      "epoch": 1.748633879781421,
+      "grad_norm": 19.698688507080078,
+      "learning_rate": 2.3526173780329636e-05,
+      "loss": 1.0927,
+      "step": 640
+    },
+    {
+      "epoch": 1.7759562841530054,
+      "grad_norm": 23.36447525024414,
+      "learning_rate": 2.329935184034066e-05,
+      "loss": 0.6988,
+      "step": 650
+    },
+    {
+      "epoch": 1.8032786885245902,
+      "grad_norm": 16.561899185180664,
+      "learning_rate": 2.3069761206386968e-05,
+      "loss": 0.7696,
+      "step": 660
+    },
+    {
+      "epoch": 1.830601092896175,
+      "grad_norm": 18.133567810058594,
+      "learning_rate": 2.2837478470739234e-05,
+      "loss": 0.877,
+      "step": 670
+    },
+    {
+      "epoch": 1.8579234972677594,
+      "grad_norm": 13.005228996276855,
+      "learning_rate": 2.2602581123763054e-05,
+      "loss": 0.658,
+      "step": 680
+    },
+    {
+      "epoch": 1.8852459016393444,
+      "grad_norm": 11.603018760681152,
+      "learning_rate": 2.2365147528067874e-05,
+      "loss": 0.9204,
+      "step": 690
+    },
+    {
+      "epoch": 1.9125683060109289,
+      "grad_norm": 7.9754319190979,
+      "learning_rate": 2.2125256892364934e-05,
+      "loss": 0.6936,
+      "step": 700
+    },
+    {
+      "epoch": 1.9398907103825138,
+      "grad_norm": 13.788674354553223,
+      "learning_rate": 2.188298924504296e-05,
+      "loss": 0.7217,
+      "step": 710
+    },
+    {
+      "epoch": 1.9672131147540983,
+      "grad_norm": 19.109081268310547,
+      "learning_rate": 2.1638425407470398e-05,
+      "loss": 0.8034,
+      "step": 720
+    },
+    {
+      "epoch": 1.994535519125683,
+      "grad_norm": 12.080116271972656,
+      "learning_rate": 2.139164696703313e-05,
+      "loss": 0.786,
+      "step": 730
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.735475051264525,
+      "eval_f1": 0.737288346724191,
+      "eval_loss": 0.7614660263061523,
+      "eval_runtime": 3.3477,
+      "eval_samples_per_second": 437.012,
+      "eval_steps_per_second": 27.481,
+      "step": 732
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1830,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4049697748647936.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-732/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de007bea22dcb88578703fe7cbafb05e81ad70f6e86a48f9973a14db3a420500
+size 5841

label_mapping.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "category_to_idx": {
+    "biology": 0,
+    "business": 1,
+    "chemistry": 2,
+    "computer science": 3,
+    "economics": 4,
+    "engineering": 5,
+    "health": 6,
+    "history": 7,
+    "law": 8,
+    "math": 9,
+    "other": 10,
+    "philosophy": 11,
+    "physics": 12,
+    "psychology": 13
+  },
+  "idx_to_category": {
+    "0": "biology",
+    "1": "business",
+    "2": "chemistry",
+    "3": "computer science",
+    "4": "economics",
+    "5": "engineering",
+    "6": "health",
+    "7": "history",
+    "8": "law",
+    "9": "math",
+    "10": "other",
+    "11": "philosophy",
+    "12": "physics",
+    "13": "psychology"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "additional_special_tokens": [
+    "<start_of_turn>",
+    "<end_of_turn>"
+  ],
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17f7d8b9518c403d7429ad9eeeabb6eed49c8d3311de8ef4ed5ad811381a2ced
+size 34363441

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,2018 @@

+{
+  "add_bos_token": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<eos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<bos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<2mass>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "6": {
+      "content": "[@BOS@]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "7": {
+      "content": "<unused0>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "8": {
+      "content": "<unused1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "9": {
+      "content": "<unused2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "10": {
+      "content": "<unused3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "11": {
+      "content": "<unused4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "12": {
+      "content": "<unused5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "13": {
+      "content": "<unused6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "14": {
+      "content": "<unused7>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "15": {
+      "content": "<unused8>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "16": {
+      "content": "<unused9>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "17": {
+      "content": "<unused10>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "18": {
+      "content": "<unused11>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "19": {
+      "content": "<unused12>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "20": {
+      "content": "<unused13>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "21": {
+      "content": "<unused14>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "22": {
+      "content": "<unused15>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "23": {
+      "content": "<unused16>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "24": {
+      "content": "<unused17>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "25": {
+      "content": "<unused18>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "26": {
+      "content": "<unused19>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "27": {
+      "content": "<unused20>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "28": {
+      "content": "<unused21>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "29": {
+      "content": "<unused22>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "30": {
+      "content": "<unused23>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "31": {
+      "content": "<unused24>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32": {
+      "content": "<unused25>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "33": {
+      "content": "<unused26>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "34": {
+      "content": "<unused27>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "35": {
+      "content": "<unused28>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "36": {
+      "content": "<unused29>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "37": {
+      "content": "<unused30>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "38": {
+      "content": "<unused31>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "39": {
+      "content": "<unused32>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "40": {
+      "content": "<unused33>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "41": {
+      "content": "<unused34>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "42": {
+      "content": "<unused35>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "43": {
+      "content": "<unused36>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "44": {
+      "content": "<unused37>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "45": {
+      "content": "<unused38>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "46": {
+      "content": "<unused39>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "47": {
+      "content": "<unused40>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "48": {
+      "content": "<unused41>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "49": {
+      "content": "<unused42>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50": {
+      "content": "<unused43>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "51": {
+      "content": "<unused44>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "52": {
+      "content": "<unused45>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "53": {
+      "content": "<unused46>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "54": {
+      "content": "<unused47>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "55": {
+      "content": "<unused48>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "56": {
+      "content": "<unused49>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "57": {
+      "content": "<unused50>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "58": {
+      "content": "<unused51>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "59": {
+      "content": "<unused52>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "60": {
+      "content": "<unused53>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "61": {
+      "content": "<unused54>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "62": {
+      "content": "<unused55>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "63": {
+      "content": "<unused56>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "64": {
+      "content": "<unused57>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "65": {
+      "content": "<unused58>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "66": {
+      "content": "<unused59>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "67": {
+      "content": "<unused60>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "68": {
+      "content": "<unused61>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "69": {
+      "content": "<unused62>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "70": {
+      "content": "<unused63>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "71": {
+      "content": "<unused64>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "72": {
+      "content": "<unused65>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "73": {
+      "content": "<unused66>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "74": {
+      "content": "<unused67>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "75": {
+      "content": "<unused68>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "76": {
+      "content": "<unused69>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "77": {
+      "content": "<unused70>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "78": {
+      "content": "<unused71>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "79": {
+      "content": "<unused72>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "80": {
+      "content": "<unused73>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "81": {
+      "content": "<unused74>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "82": {
+      "content": "<unused75>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "83": {
+      "content": "<unused76>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "84": {
+      "content": "<unused77>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "85": {
+      "content": "<unused78>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "86": {
+      "content": "<unused79>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "87": {
+      "content": "<unused80>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "88": {
+      "content": "<unused81>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "89": {
+      "content": "<unused82>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "90": {
+      "content": "<unused83>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "91": {
+      "content": "<unused84>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "92": {
+      "content": "<unused85>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "93": {
+      "content": "<unused86>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "94": {
+      "content": "<unused87>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95": {
+      "content": "<unused88>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "96": {
+      "content": "<unused89>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "97": {
+      "content": "<unused90>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "98": {
+      "content": "<unused91>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "99": {
+      "content": "<unused92>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100": {
+      "content": "<unused93>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "101": {
+      "content": "<unused94>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "102": {
+      "content": "<unused95>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "103": {
+      "content": "<unused96>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "104": {
+      "content": "<unused97>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "105": {
+      "content": "<unused98>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "106": {
+      "content": "<start_of_turn>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "107": {
+      "content": "<end_of_turn>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "108": {
+      "content": "\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "109": {
+      "content": "\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "110": {
+      "content": "\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "111": {
+      "content": "\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "112": {
+      "content": "\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "113": {
+      "content": "\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "114": {
+      "content": "\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "115": {
+      "content": "\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "116": {
+      "content": "\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "117": {
+      "content": "\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "118": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "119": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "120": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "121": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "122": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "123": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "124": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "126": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "127": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "128": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "129": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "130": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "131": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "132": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "133": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "134": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "135": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "136": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "137": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "138": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "139": {
+      "content": "▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "140": {
+      "content": "▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "141": {
+      "content": "▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "142": {
+      "content": "▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "143": {
+      "content": "▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "144": {
+      "content": "▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "145": {
+      "content": "▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "146": {
+      "content": "▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "147": {
+      "content": "▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "148": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "149": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "150": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "152": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "153": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "154": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "155": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "156": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "157": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "158": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "159": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "160": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "161": {
+      "content": "▁▁▁���▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "162": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "163": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "164": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "165": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "166": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "167": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "168": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "169": {
+      "content": "<table>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "170": {
+      "content": "<caption>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "171": {
+      "content": "<thead>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "172": {
+      "content": "<tbody>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "173": {
+      "content": "<tfoot>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "174": {
+      "content": "<tr>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "175": {
+      "content": "<th>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "176": {
+      "content": "<td>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "177": {
+      "content": "</table>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "178": {
+      "content": "</caption>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "179": {
+      "content": "</thead>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "180": {
+      "content": "</tbody>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "181": {
+      "content": "</tfoot>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "182": {
+      "content": "</tr>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "183": {
+      "content": "</th>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "184": {
+      "content": "</td>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "185": {
+      "content": "<h1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "186": {
+      "content": "<h2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "187": {
+      "content": "<h3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "188": {
+      "content": "<h4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "189": {
+      "content": "<h5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "190": {
+      "content": "<h6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "191": {
+      "content": "<blockquote>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "192": {
+      "content": "</h1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "193": {
+      "content": "</h2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "194": {
+      "content": "</h3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "195": {
+      "content": "</h4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "196": {
+      "content": "</h5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "197": {
+      "content": "</h6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "198": {
+      "content": "</blockquote>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "199": {
+      "content": "<strong>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "200": {
+      "content": "<em>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "201": {
+      "content": "<b>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "202": {
+      "content": "<i>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "203": {
+      "content": "<u>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "204": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "205": {
+      "content": "<sub>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "206": {
+      "content": "<sup>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "207": {
+      "content": "<code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "208": {
+      "content": "</strong>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "209": {
+      "content": "</em>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "210": {
+      "content": "</b>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "211": {
+      "content": "</i>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "212": {
+      "content": "</u>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "213": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "214": {
+      "content": "</sub>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "215": {
+      "content": "</sup>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "216": {
+      "content": "</code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255968": {
+      "content": "[toxicity=0]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255969": {
+      "content": "\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255970": {
+      "content": "\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255971": {
+      "content": "\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255972": {
+      "content": "\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255973": {
+      "content": "\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255974": {
+      "content": "\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255975": {
+      "content": "\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255976": {
+      "content": "\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255977": {
+      "content": "\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255978": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255979": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255980": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255981": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255982": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255983": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255984": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255985": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255986": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255987": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255988": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255989": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255990": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255991": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255992": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255993": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255994": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255995": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255996": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255997": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255998": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255999": {
+      "content": "<unused99>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<start_of_turn>",
+    "<end_of_turn>"
+  ],
+  "bos_token": "<bos>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<bos>",
+  "eos_token": "<eos>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 32768,
+  "pad_token": "<pad>",
+  "padding_side": "right",
+  "sep_token": "<eos>",
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de007bea22dcb88578703fe7cbafb05e81ad70f6e86a48f9973a14db3a420500
+size 5841