Delete last-checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/config.json +0 -26
last-checkpoint/configuration_stlenc.py +0 -23
last-checkpoint/model.safetensors +0 -3
last-checkpoint/modeling_stlenc.py +0 -35
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scaler.pt +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -30
last-checkpoint/tokenizer_config.json +0 -50
last-checkpoint/tokenizer_stlenc.py +0 -93
last-checkpoint/trainer_state.json +0 -1234
last-checkpoint/training_args.bin +0 -3
last-checkpoint/vocab.json +0 -37

last-checkpoint/config.json DELETED Viewed

@@ -1,26 +0,0 @@
-{
-  "architectures": [
-    "STLEncoderModel"
-  ],
-  "auto_map": {
-    "AutoConfig": "configuration_stlenc.STLEncoderConfig",
-    "AutoModel": "modeling_stlenc.STLEncoderModel",
-    "AutoTokenizer": [
-      "tokenizer_stlenc.STLTokenizer",
-      null
-    ]
-  },
-  "bos_token_id": 2,
-  "dtype": "float32",
-  "embedding_dim_target": 1024,
-  "eos_token_id": 3,
-  "hidden_size": 1024,
-  "intermediate_size": 4096,
-  "max_position_embeddings": 512,
-  "model_type": "stl_encoder",
-  "num_attention_heads": 16,
-  "num_hidden_layers": 12,
-  "pad_token_id": 1,
-  "transformers_version": "4.57.3",
-  "vocab_size": 35
-}

last-checkpoint/configuration_stlenc.py DELETED Viewed

@@ -1,23 +0,0 @@
-from transformers import PretrainedConfig
-class STLEncoderConfig(PretrainedConfig):
-    model_type = "stl_encoder"
-    def __init__(
-        self,
-        vocab_size=35,
-        hidden_size=1024,
-        num_hidden_layers=12,
-        num_attention_heads=16,
-        intermediate_size=4096,
-        max_position_embeddings=512,
-        embedding_dim_target=1024,
-        **kwargs
-    ):
-        super().__init__(**kwargs)
-        self.vocab_size = vocab_size
-        self.hidden_size = hidden_size
-        self.num_hidden_layers = num_hidden_layers
-        self.num_attention_heads = num_attention_heads
-        self.intermediate_size = intermediate_size
-        self.max_position_embeddings = max_position_embeddings
-        self.embedding_dim_target = embedding_dim_target

last-checkpoint/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4c14360134ba900d2dec38e5d1938ef436c781041120dd2b1646f4d2872f9d93
-size 611073224

last-checkpoint/modeling_stlenc.py DELETED Viewed

@@ -1,35 +0,0 @@
-import torch
-import torch.nn as nn
-from transformers import PreTrainedModel
-from .configuration_stlenc import STLEncoderConfig
-class STLEncoderModel(PreTrainedModel):
-    config_class = STLEncoderConfig
-    def __init__(self, config):
-        super().__init__(config)
-        self.embeddings = nn.Embedding(config.vocab_size, config.hidden_size)
-        self.position_embeddings = nn.Embedding(config.max_position_embeddings, config.hidden_size)
-        encoder_layer = nn.TransformerEncoderLayer(
-            d_model=config.hidden_size,
-            nhead=config.num_attention_heads,
-            dim_feedforward=config.intermediate_size,
-            batch_first=True
-        )
-        self.encoder = nn.TransformerEncoder(encoder_layer, num_layers=config.num_hidden_layers)
-        self.pooler = nn.Linear(config.hidden_size, config.embedding_dim_target)
-        self.activation = nn.Tanh()
-        self.post_init()
-    def forward(self, input_ids, attention_mask=None, **kwargs):
-        batch_size, seq_length = input_ids.size()
-        position_ids = torch.arange(seq_length, dtype=torch.long, device=input_ids.device)
-        position_ids = position_ids.unsqueeze(0).expand(batch_size, seq_length)
-        x = self.embeddings(input_ids) + self.position_embeddings(position_ids)
-        padding_mask = (attention_mask == 0) if attention_mask is not None else None
-        x = self.encoder(x, src_key_padding_mask=padding_mask)
-        pooled_output = self.activation(self.pooler(x[:, 0, :]))
-        return pooled_output

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:99060a481ee1e9c32b48e8e0ca4159f4449a57541b54802b60aeea2b6c77354f
-size 1222241675

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9301fdb63c8f7e117dacb34dd6b2675f07003e4703c56505ff6c5837f6209a98
-size 14645

last-checkpoint/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ca372268f4fa9335030c0cb7aedb6cdba75f457da50e7a4034abb1a2d0843689
-size 1383

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:314048210ad2604ec1b09b90e17a875d2f267f3c96d2b6a50754bb2f69863b15
-size 1465

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,30 +0,0 @@
-{
-  "bos_token": {
-    "content": "/s",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "s",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "pad",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "unk",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

last-checkpoint/tokenizer_config.json DELETED Viewed

@@ -1,50 +0,0 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "unk",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "pad",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "/s",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "3": {
-      "content": "s",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "auto_map": {
-    "AutoTokenizer": [
-      "tokenizer_stlenc.STLTokenizer",
-      null
-    ]
-  },
-  "bos_token": "/s",
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "s",
-  "extra_special_tokens": {},
-  "model_max_length": 512,
-  "pad_token": "pad",
-  "tokenizer_class": "STLTokenizer",
-  "unk_token": "unk"
-}

last-checkpoint/tokenizer_stlenc.py DELETED Viewed

@@ -1,93 +0,0 @@
-import json
-import os
-import torch
-from typing import Any, Dict, List, Optional, Tuple, Union
-from transformers import PreTrainedTokenizer, AutoTokenizer
-class STLTokenizer(PreTrainedTokenizer):
-    model_type = "stl_encoder"
-    def __init__(
-        self,
-        vocab_file="vocab.json",
-        unk_token="unk",
-        pad_token="pad",
-        bos_token="/s",
-        eos_token="s",
-        model_max_length=512,
-        **kwargs
-    ):
-        current_dir = os.path.dirname(__file__)
-        full_vocab_path = os.path.join(current_dir, vocab_file)
-        if not os.path.exists(full_vocab_path):
-            from huggingface_hub import hf_hub_download
-            try:
-                full_vocab_path = hf_hub_download("saracandu/stlenc", vocab_file)
-            except:
-                full_vocab_path = vocab_file
-        with open(full_vocab_path, "r", encoding="utf-8") as f:
-            self.vocab = json.load(f)
-        self.id_to_token = {v: k for k, v in self.vocab.items()}
-        super().__init__(
-            unk_token=unk_token,
-            pad_token=pad_token,
-            bos_token=bos_token,
-            eos_token=eos_token,
-            model_max_length=model_max_length,
-            **kwargs
-        )
-    @property
-    def vocab_size(self) -> int:
-        return len(self.vocab)
-    def get_vocab(self) -> Dict[str, int]:
-        return dict(self.vocab)
-    def _tokenize(self, text: str) -> List[str]:
-        text = f'{self.bos_token} {text} {self.eos_token}'.replace(' ', '@')
-        tokens = []
-        i = 0
-        while i < len(text):
-            best_match = None
-            for j in range(min(i + 50, len(text)), i, -1):
-                subtoken = text[i:j]
-                if subtoken in self.vocab:
-                    best_match = subtoken
-                    break
-            if best_match:
-                tokens.append(best_match)
-                i += len(best_match)
-            else:
-                tokens.append(self.unk_token)
-                i += 1
-        return tokens
-    def _convert_token_to_id(self, token: str) -> int:
-        return self.vocab.get(token, self.vocab.get(self.unk_token))
-    def _convert_id_to_token(self, index: int) -> str:
-        return self.id_to_token.get(index, self.unk_token)
-    def save_vocabulary(self, save_directory: str, filename_prefix: Optional[str] = None) -> Tuple[str]:
-        if not os.path.isdir(save_directory):
-            os.makedirs(save_directory)
-        prefix = filename_prefix if filename_prefix is not None else ""
-        vocab_file = os.path.join(save_directory, prefix + "vocab.json")
-        with open(vocab_file, "w", encoding="utf-8") as f:
-            json.dump(self.vocab, f, indent=2, ensure_ascii=False)
-        return (vocab_file,)
-try:
-    AutoTokenizer.register("stl_encoder", STLTokenizer)
-except Exception:
-    pass

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,1234 +0,0 @@
-{
-  "best_global_step": 1500,
-  "best_metric": 0.020201340437836564,
-  "best_model_checkpoint": "./stlenc-training/checkpoint-1500",
-  "epoch": 0.3048780487804878,
-  "eval_steps": 100,
-  "global_step": 1500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0020325203252032522,
-      "grad_norm": 0.3073508143424988,
-      "learning_rate": 4.998170731707317e-05,
-      "loss": 0.1335,
-      "step": 10
-    },
-    {
-      "epoch": 0.0040650406504065045,
-      "grad_norm": 0.20867981016635895,
-      "learning_rate": 4.996138211382114e-05,
-      "loss": 0.0568,
-      "step": 20
-    },
-    {
-      "epoch": 0.006097560975609756,
-      "grad_norm": 0.1618652641773224,
-      "learning_rate": 4.994105691056911e-05,
-      "loss": 0.0505,
-      "step": 30
-    },
-    {
-      "epoch": 0.008130081300813009,
-      "grad_norm": 0.14075744152069092,
-      "learning_rate": 4.9920731707317074e-05,
-      "loss": 0.0459,
-      "step": 40
-    },
-    {
-      "epoch": 0.01016260162601626,
-      "grad_norm": 0.15348248183727264,
-      "learning_rate": 4.990040650406504e-05,
-      "loss": 0.0441,
-      "step": 50
-    },
-    {
-      "epoch": 0.012195121951219513,
-      "grad_norm": 0.1347082257270813,
-      "learning_rate": 4.988008130081301e-05,
-      "loss": 0.0426,
-      "step": 60
-    },
-    {
-      "epoch": 0.014227642276422764,
-      "grad_norm": 0.1535383015871048,
-      "learning_rate": 4.9859756097560977e-05,
-      "loss": 0.0428,
-      "step": 70
-    },
-    {
-      "epoch": 0.016260162601626018,
-      "grad_norm": 0.14122287929058075,
-      "learning_rate": 4.9839430894308944e-05,
-      "loss": 0.0395,
-      "step": 80
-    },
-    {
-      "epoch": 0.018292682926829267,
-      "grad_norm": 0.16186140477657318,
-      "learning_rate": 4.981910569105691e-05,
-      "loss": 0.0397,
-      "step": 90
-    },
-    {
-      "epoch": 0.02032520325203252,
-      "grad_norm": 0.14353497326374054,
-      "learning_rate": 4.979878048780488e-05,
-      "loss": 0.0387,
-      "step": 100
-    },
-    {
-      "epoch": 0.02032520325203252,
-      "eval_cosine_similarity": 0.43845831272477015,
-      "eval_loss": 0.023171832785010338,
-      "eval_mse_sync": 0.023171832367424337,
-      "eval_runtime": 7.8562,
-      "eval_samples_per_second": 380.971,
-      "eval_steps_per_second": 23.93,
-      "step": 100
-    },
-    {
-      "epoch": 0.022357723577235773,
-      "grad_norm": 0.16455022990703583,
-      "learning_rate": 4.977845528455285e-05,
-      "loss": 0.039,
-      "step": 110
-    },
-    {
-      "epoch": 0.024390243902439025,
-      "grad_norm": 0.14409448206424713,
-      "learning_rate": 4.9758130081300813e-05,
-      "loss": 0.0377,
-      "step": 120
-    },
-    {
-      "epoch": 0.026422764227642278,
-      "grad_norm": 0.14973576366901398,
-      "learning_rate": 4.973780487804878e-05,
-      "loss": 0.0367,
-      "step": 130
-    },
-    {
-      "epoch": 0.028455284552845527,
-      "grad_norm": 0.12309937924146652,
-      "learning_rate": 4.9717479674796755e-05,
-      "loss": 0.0358,
-      "step": 140
-    },
-    {
-      "epoch": 0.03048780487804878,
-      "grad_norm": 0.12204054743051529,
-      "learning_rate": 4.9697154471544716e-05,
-      "loss": 0.0339,
-      "step": 150
-    },
-    {
-      "epoch": 0.032520325203252036,
-      "grad_norm": 0.16795864701271057,
-      "learning_rate": 4.967682926829268e-05,
-      "loss": 0.0359,
-      "step": 160
-    },
-    {
-      "epoch": 0.034552845528455285,
-      "grad_norm": 0.14515043795108795,
-      "learning_rate": 4.965650406504066e-05,
-      "loss": 0.034,
-      "step": 170
-    },
-    {
-      "epoch": 0.036585365853658534,
-      "grad_norm": 0.14003875851631165,
-      "learning_rate": 4.963617886178862e-05,
-      "loss": 0.0351,
-      "step": 180
-    },
-    {
-      "epoch": 0.03861788617886179,
-      "grad_norm": 0.1429203450679779,
-      "learning_rate": 4.9615853658536585e-05,
-      "loss": 0.035,
-      "step": 190
-    },
-    {
-      "epoch": 0.04065040650406504,
-      "grad_norm": 0.13865381479263306,
-      "learning_rate": 4.959552845528456e-05,
-      "loss": 0.0337,
-      "step": 200
-    },
-    {
-      "epoch": 0.04065040650406504,
-      "eval_cosine_similarity": 0.44644545833681326,
-      "eval_loss": 0.022488251328468323,
-      "eval_mse_sync": 0.02248825095382336,
-      "eval_runtime": 7.8597,
-      "eval_samples_per_second": 380.801,
-      "eval_steps_per_second": 23.919,
-      "step": 200
-    },
-    {
-      "epoch": 0.042682926829268296,
-      "grad_norm": 0.18544256687164307,
-      "learning_rate": 4.957520325203252e-05,
-      "loss": 0.0345,
-      "step": 210
-    },
-    {
-      "epoch": 0.044715447154471545,
-      "grad_norm": 0.1306702345609665,
-      "learning_rate": 4.955487804878049e-05,
-      "loss": 0.0351,
-      "step": 220
-    },
-    {
-      "epoch": 0.046747967479674794,
-      "grad_norm": 0.13073720037937164,
-      "learning_rate": 4.953455284552846e-05,
-      "loss": 0.0334,
-      "step": 230
-    },
-    {
-      "epoch": 0.04878048780487805,
-      "grad_norm": 0.13994655013084412,
-      "learning_rate": 4.951422764227642e-05,
-      "loss": 0.0329,
-      "step": 240
-    },
-    {
-      "epoch": 0.0508130081300813,
-      "grad_norm": 0.13009095191955566,
-      "learning_rate": 4.949390243902439e-05,
-      "loss": 0.0336,
-      "step": 250
-    },
-    {
-      "epoch": 0.052845528455284556,
-      "grad_norm": 0.12570971250534058,
-      "learning_rate": 4.9473577235772363e-05,
-      "loss": 0.033,
-      "step": 260
-    },
-    {
-      "epoch": 0.054878048780487805,
-      "grad_norm": 0.12797130644321442,
-      "learning_rate": 4.9453252032520324e-05,
-      "loss": 0.0323,
-      "step": 270
-    },
-    {
-      "epoch": 0.056910569105691054,
-      "grad_norm": 0.1270533800125122,
-      "learning_rate": 4.943292682926829e-05,
-      "loss": 0.0324,
-      "step": 280
-    },
-    {
-      "epoch": 0.05894308943089431,
-      "grad_norm": 0.13283374905586243,
-      "learning_rate": 4.9412601626016266e-05,
-      "loss": 0.0328,
-      "step": 290
-    },
-    {
-      "epoch": 0.06097560975609756,
-      "grad_norm": 0.14629143476486206,
-      "learning_rate": 4.9392276422764226e-05,
-      "loss": 0.0311,
-      "step": 300
-    },
-    {
-      "epoch": 0.06097560975609756,
-      "eval_cosine_similarity": 0.4329459800733757,
-      "eval_loss": 0.02308308333158493,
-      "eval_mse_sync": 0.02308308467053616,
-      "eval_runtime": 7.902,
-      "eval_samples_per_second": 378.765,
-      "eval_steps_per_second": 23.791,
-      "step": 300
-    },
-    {
-      "epoch": 0.06300813008130081,
-      "grad_norm": 0.15855424106121063,
-      "learning_rate": 4.93719512195122e-05,
-      "loss": 0.0324,
-      "step": 310
-    },
-    {
-      "epoch": 0.06504065040650407,
-      "grad_norm": 0.1387602835893631,
-      "learning_rate": 4.935162601626017e-05,
-      "loss": 0.0312,
-      "step": 320
-    },
-    {
-      "epoch": 0.06707317073170732,
-      "grad_norm": 0.14994463324546814,
-      "learning_rate": 4.933130081300813e-05,
-      "loss": 0.0342,
-      "step": 330
-    },
-    {
-      "epoch": 0.06910569105691057,
-      "grad_norm": 0.1439775824546814,
-      "learning_rate": 4.93109756097561e-05,
-      "loss": 0.032,
-      "step": 340
-    },
-    {
-      "epoch": 0.07113821138211382,
-      "grad_norm": 0.11875730007886887,
-      "learning_rate": 4.929065040650407e-05,
-      "loss": 0.0325,
-      "step": 350
-    },
-    {
-      "epoch": 0.07317073170731707,
-      "grad_norm": 0.12371476739645004,
-      "learning_rate": 4.927032520325203e-05,
-      "loss": 0.0319,
-      "step": 360
-    },
-    {
-      "epoch": 0.07520325203252033,
-      "grad_norm": 0.12192820757627487,
-      "learning_rate": 4.9250000000000004e-05,
-      "loss": 0.0312,
-      "step": 370
-    },
-    {
-      "epoch": 0.07723577235772358,
-      "grad_norm": 0.14944523572921753,
-      "learning_rate": 4.922967479674797e-05,
-      "loss": 0.0325,
-      "step": 380
-    },
-    {
-      "epoch": 0.07926829268292683,
-      "grad_norm": 0.13014467060565948,
-      "learning_rate": 4.920934959349593e-05,
-      "loss": 0.0296,
-      "step": 390
-    },
-    {
-      "epoch": 0.08130081300813008,
-      "grad_norm": 0.12468204647302628,
-      "learning_rate": 4.9189024390243907e-05,
-      "loss": 0.0336,
-      "step": 400
-    },
-    {
-      "epoch": 0.08130081300813008,
-      "eval_cosine_similarity": 0.45511097012655893,
-      "eval_loss": 0.023316312581300735,
-      "eval_mse_sync": 0.02331631100243981,
-      "eval_runtime": 7.896,
-      "eval_samples_per_second": 379.053,
-      "eval_steps_per_second": 23.81,
-      "step": 400
-    },
-    {
-      "epoch": 0.08333333333333333,
-      "grad_norm": 0.12918700277805328,
-      "learning_rate": 4.9168699186991874e-05,
-      "loss": 0.0307,
-      "step": 410
-    },
-    {
-      "epoch": 0.08536585365853659,
-      "grad_norm": 0.16114428639411926,
-      "learning_rate": 4.9148373983739835e-05,
-      "loss": 0.0302,
-      "step": 420
-    },
-    {
-      "epoch": 0.08739837398373984,
-      "grad_norm": 0.13520212471485138,
-      "learning_rate": 4.912804878048781e-05,
-      "loss": 0.0311,
-      "step": 430
-    },
-    {
-      "epoch": 0.08943089430894309,
-      "grad_norm": 0.12596647441387177,
-      "learning_rate": 4.9107723577235776e-05,
-      "loss": 0.0297,
-      "step": 440
-    },
-    {
-      "epoch": 0.09146341463414634,
-      "grad_norm": 0.10777679830789566,
-      "learning_rate": 4.908739837398374e-05,
-      "loss": 0.0304,
-      "step": 450
-    },
-    {
-      "epoch": 0.09349593495934959,
-      "grad_norm": 0.127786323428154,
-      "learning_rate": 4.906707317073171e-05,
-      "loss": 0.0308,
-      "step": 460
-    },
-    {
-      "epoch": 0.09552845528455285,
-      "grad_norm": 0.165998637676239,
-      "learning_rate": 4.904674796747968e-05,
-      "loss": 0.0294,
-      "step": 470
-    },
-    {
-      "epoch": 0.0975609756097561,
-      "grad_norm": 0.1122402474284172,
-      "learning_rate": 4.902642276422764e-05,
-      "loss": 0.0305,
-      "step": 480
-    },
-    {
-      "epoch": 0.09959349593495935,
-      "grad_norm": 0.1091734766960144,
-      "learning_rate": 4.900609756097561e-05,
-      "loss": 0.0323,
-      "step": 490
-    },
-    {
-      "epoch": 0.1016260162601626,
-      "grad_norm": 0.12982085347175598,
-      "learning_rate": 4.898577235772358e-05,
-      "loss": 0.0297,
-      "step": 500
-    },
-    {
-      "epoch": 0.1016260162601626,
-      "eval_cosine_similarity": 0.44197734325098587,
-      "eval_loss": 0.022700216621160507,
-      "eval_mse_sync": 0.02270021719246296,
-      "eval_runtime": 7.917,
-      "eval_samples_per_second": 378.046,
-      "eval_steps_per_second": 23.746,
-      "step": 500
-    },
-    {
-      "epoch": 0.10365853658536585,
-      "grad_norm": 0.14651747047901154,
-      "learning_rate": 4.896544715447154e-05,
-      "loss": 0.0291,
-      "step": 510
-    },
-    {
-      "epoch": 0.10569105691056911,
-      "grad_norm": 0.13730144500732422,
-      "learning_rate": 4.8945121951219515e-05,
-      "loss": 0.0313,
-      "step": 520
-    },
-    {
-      "epoch": 0.10772357723577236,
-      "grad_norm": 0.1328081637620926,
-      "learning_rate": 4.892479674796748e-05,
-      "loss": 0.0305,
-      "step": 530
-    },
-    {
-      "epoch": 0.10975609756097561,
-      "grad_norm": 0.15137328207492828,
-      "learning_rate": 4.890447154471545e-05,
-      "loss": 0.0299,
-      "step": 540
-    },
-    {
-      "epoch": 0.11178861788617886,
-      "grad_norm": 0.15069301426410675,
-      "learning_rate": 4.888414634146342e-05,
-      "loss": 0.0302,
-      "step": 550
-    },
-    {
-      "epoch": 0.11382113821138211,
-      "grad_norm": 0.13555215299129486,
-      "learning_rate": 4.8863821138211385e-05,
-      "loss": 0.031,
-      "step": 560
-    },
-    {
-      "epoch": 0.11585365853658537,
-      "grad_norm": 0.11980469524860382,
-      "learning_rate": 4.884349593495935e-05,
-      "loss": 0.0302,
-      "step": 570
-    },
-    {
-      "epoch": 0.11788617886178862,
-      "grad_norm": 0.11329913884401321,
-      "learning_rate": 4.882317073170732e-05,
-      "loss": 0.0302,
-      "step": 580
-    },
-    {
-      "epoch": 0.11991869918699187,
-      "grad_norm": 0.11942901462316513,
-      "learning_rate": 4.880284552845529e-05,
-      "loss": 0.0283,
-      "step": 590
-    },
-    {
-      "epoch": 0.12195121951219512,
-      "grad_norm": 0.17668181657791138,
-      "learning_rate": 4.8782520325203254e-05,
-      "loss": 0.0298,
-      "step": 600
-    },
-    {
-      "epoch": 0.12195121951219512,
-      "eval_cosine_similarity": 0.45993702271452247,
-      "eval_loss": 0.022243835031986237,
-      "eval_mse_sync": 0.02224383312391072,
-      "eval_runtime": 7.95,
-      "eval_samples_per_second": 376.478,
-      "eval_steps_per_second": 23.648,
-      "step": 600
-    },
-    {
-      "epoch": 0.12398373983739837,
-      "grad_norm": 0.14265325665473938,
-      "learning_rate": 4.876219512195122e-05,
-      "loss": 0.0298,
-      "step": 610
-    },
-    {
-      "epoch": 0.12601626016260162,
-      "grad_norm": 0.1118614450097084,
-      "learning_rate": 4.874186991869919e-05,
-      "loss": 0.0303,
-      "step": 620
-    },
-    {
-      "epoch": 0.12804878048780488,
-      "grad_norm": 0.11675341427326202,
-      "learning_rate": 4.8721544715447156e-05,
-      "loss": 0.0304,
-      "step": 630
-    },
-    {
-      "epoch": 0.13008130081300814,
-      "grad_norm": 0.12549124658107758,
-      "learning_rate": 4.8701219512195124e-05,
-      "loss": 0.0297,
-      "step": 640
-    },
-    {
-      "epoch": 0.13211382113821138,
-      "grad_norm": 0.13423743844032288,
-      "learning_rate": 4.868089430894309e-05,
-      "loss": 0.0289,
-      "step": 650
-    },
-    {
-      "epoch": 0.13414634146341464,
-      "grad_norm": 0.1256653517484665,
-      "learning_rate": 4.8660569105691065e-05,
-      "loss": 0.0291,
-      "step": 660
-    },
-    {
-      "epoch": 0.13617886178861788,
-      "grad_norm": 0.1281777024269104,
-      "learning_rate": 4.8640243902439026e-05,
-      "loss": 0.0302,
-      "step": 670
-    },
-    {
-      "epoch": 0.13821138211382114,
-      "grad_norm": 0.1304328590631485,
-      "learning_rate": 4.861991869918699e-05,
-      "loss": 0.0282,
-      "step": 680
-    },
-    {
-      "epoch": 0.1402439024390244,
-      "grad_norm": 0.1297086775302887,
-      "learning_rate": 4.859959349593497e-05,
-      "loss": 0.0299,
-      "step": 690
-    },
-    {
-      "epoch": 0.14227642276422764,
-      "grad_norm": 0.13382111489772797,
-      "learning_rate": 4.857926829268293e-05,
-      "loss": 0.0303,
-      "step": 700
-    },
-    {
-      "epoch": 0.14227642276422764,
-      "eval_cosine_similarity": 0.4609147342917037,
-      "eval_loss": 0.02211085520684719,
-      "eval_mse_sync": 0.022110854542816995,
-      "eval_runtime": 7.95,
-      "eval_samples_per_second": 376.479,
-      "eval_steps_per_second": 23.648,
-      "step": 700
-    },
-    {
-      "epoch": 0.1443089430894309,
-      "grad_norm": 0.14310456812381744,
-      "learning_rate": 4.8558943089430895e-05,
-      "loss": 0.0282,
-      "step": 710
-    },
-    {
-      "epoch": 0.14634146341463414,
-      "grad_norm": 0.13597296178340912,
-      "learning_rate": 4.853861788617887e-05,
-      "loss": 0.0282,
-      "step": 720
-    },
-    {
-      "epoch": 0.1483739837398374,
-      "grad_norm": 0.21410208940505981,
-      "learning_rate": 4.851829268292683e-05,
-      "loss": 0.03,
-      "step": 730
-    },
-    {
-      "epoch": 0.15040650406504066,
-      "grad_norm": 0.14297862350940704,
-      "learning_rate": 4.84979674796748e-05,
-      "loss": 0.0288,
-      "step": 740
-    },
-    {
-      "epoch": 0.1524390243902439,
-      "grad_norm": 0.13763341307640076,
-      "learning_rate": 4.847764227642277e-05,
-      "loss": 0.0293,
-      "step": 750
-    },
-    {
-      "epoch": 0.15447154471544716,
-      "grad_norm": 0.14061112701892853,
-      "learning_rate": 4.845731707317073e-05,
-      "loss": 0.0294,
-      "step": 760
-    },
-    {
-      "epoch": 0.1565040650406504,
-      "grad_norm": 0.1257963925600052,
-      "learning_rate": 4.84369918699187e-05,
-      "loss": 0.0292,
-      "step": 770
-    },
-    {
-      "epoch": 0.15853658536585366,
-      "grad_norm": 0.10741665959358215,
-      "learning_rate": 4.8416666666666673e-05,
-      "loss": 0.0284,
-      "step": 780
-    },
-    {
-      "epoch": 0.16056910569105692,
-      "grad_norm": 0.15043672919273376,
-      "learning_rate": 4.8396341463414634e-05,
-      "loss": 0.029,
-      "step": 790
-    },
-    {
-      "epoch": 0.16260162601626016,
-      "grad_norm": 0.15317371487617493,
-      "learning_rate": 4.83760162601626e-05,
-      "loss": 0.0298,
-      "step": 800
-    },
-    {
-      "epoch": 0.16260162601626016,
-      "eval_cosine_similarity": 0.4601094912733874,
-      "eval_loss": 0.022229857742786407,
-      "eval_mse_sync": 0.022229857477672196,
-      "eval_runtime": 7.9894,
-      "eval_samples_per_second": 374.619,
-      "eval_steps_per_second": 23.531,
-      "step": 800
-    },
-    {
-      "epoch": 0.16463414634146342,
-      "grad_norm": 0.11747121810913086,
-      "learning_rate": 4.8355691056910576e-05,
-      "loss": 0.029,
-      "step": 810
-    },
-    {
-      "epoch": 0.16666666666666666,
-      "grad_norm": 0.12080563604831696,
-      "learning_rate": 4.8335365853658536e-05,
-      "loss": 0.029,
-      "step": 820
-    },
-    {
-      "epoch": 0.16869918699186992,
-      "grad_norm": 0.11985825002193451,
-      "learning_rate": 4.8315040650406504e-05,
-      "loss": 0.0289,
-      "step": 830
-    },
-    {
-      "epoch": 0.17073170731707318,
-      "grad_norm": 0.139726921916008,
-      "learning_rate": 4.829471544715448e-05,
-      "loss": 0.0289,
-      "step": 840
-    },
-    {
-      "epoch": 0.17276422764227642,
-      "grad_norm": 0.12052454799413681,
-      "learning_rate": 4.827439024390244e-05,
-      "loss": 0.0278,
-      "step": 850
-    },
-    {
-      "epoch": 0.17479674796747968,
-      "grad_norm": 0.1230531707406044,
-      "learning_rate": 4.825406504065041e-05,
-      "loss": 0.0282,
-      "step": 860
-    },
-    {
-      "epoch": 0.17682926829268292,
-      "grad_norm": 0.12765666842460632,
-      "learning_rate": 4.823373983739838e-05,
-      "loss": 0.0277,
-      "step": 870
-    },
-    {
-      "epoch": 0.17886178861788618,
-      "grad_norm": 0.11474256962537766,
-      "learning_rate": 4.821341463414634e-05,
-      "loss": 0.0259,
-      "step": 880
-    },
-    {
-      "epoch": 0.18089430894308944,
-      "grad_norm": 0.12510469555854797,
-      "learning_rate": 4.8193089430894315e-05,
-      "loss": 0.0295,
-      "step": 890
-    },
-    {
-      "epoch": 0.18292682926829268,
-      "grad_norm": 0.13411709666252136,
-      "learning_rate": 4.817276422764228e-05,
-      "loss": 0.0286,
-      "step": 900
-    },
-    {
-      "epoch": 0.18292682926829268,
-      "eval_cosine_similarity": 0.47567485046354857,
-      "eval_loss": 0.021220851689577103,
-      "eval_mse_sync": 0.021220852660106707,
-      "eval_runtime": 7.9662,
-      "eval_samples_per_second": 375.714,
-      "eval_steps_per_second": 23.6,
-      "step": 900
-    },
-    {
-      "epoch": 0.18495934959349594,
-      "grad_norm": 0.12140695750713348,
-      "learning_rate": 4.815243902439024e-05,
-      "loss": 0.0271,
-      "step": 910
-    },
-    {
-      "epoch": 0.18699186991869918,
-      "grad_norm": 0.1151667982339859,
-      "learning_rate": 4.813211382113822e-05,
-      "loss": 0.0261,
-      "step": 920
-    },
-    {
-      "epoch": 0.18902439024390244,
-      "grad_norm": 0.13169187307357788,
-      "learning_rate": 4.8111788617886184e-05,
-      "loss": 0.0284,
-      "step": 930
-    },
-    {
-      "epoch": 0.1910569105691057,
-      "grad_norm": 0.11413775384426117,
-      "learning_rate": 4.8091463414634145e-05,
-      "loss": 0.0278,
-      "step": 940
-    },
-    {
-      "epoch": 0.19308943089430894,
-      "grad_norm": 0.13462452590465546,
-      "learning_rate": 4.807113821138212e-05,
-      "loss": 0.0269,
-      "step": 950
-    },
-    {
-      "epoch": 0.1951219512195122,
-      "grad_norm": 0.0989966094493866,
-      "learning_rate": 4.8050813008130086e-05,
-      "loss": 0.0269,
-      "step": 960
-    },
-    {
-      "epoch": 0.19715447154471544,
-      "grad_norm": 0.11530207097530365,
-      "learning_rate": 4.803048780487805e-05,
-      "loss": 0.0273,
-      "step": 970
-    },
-    {
-      "epoch": 0.1991869918699187,
-      "grad_norm": 0.11543365567922592,
-      "learning_rate": 4.801016260162602e-05,
-      "loss": 0.0265,
-      "step": 980
-    },
-    {
-      "epoch": 0.20121951219512196,
-      "grad_norm": 0.12322687357664108,
-      "learning_rate": 4.798983739837399e-05,
-      "loss": 0.0277,
-      "step": 990
-    },
-    {
-      "epoch": 0.2032520325203252,
-      "grad_norm": 0.12608106434345245,
-      "learning_rate": 4.796951219512195e-05,
-      "loss": 0.0254,
-      "step": 1000
-    },
-    {
-      "epoch": 0.2032520325203252,
-      "eval_cosine_similarity": 0.4821661613555485,
-      "eval_loss": 0.021430717781186104,
-      "eval_mse_sync": 0.021430718056257656,
-      "eval_runtime": 8.0256,
-      "eval_samples_per_second": 372.931,
-      "eval_steps_per_second": 23.425,
-      "step": 1000
-    },
-    {
-      "epoch": 0.20528455284552846,
-      "grad_norm": 0.1113312616944313,
-      "learning_rate": 4.794918699186992e-05,
-      "loss": 0.0277,
-      "step": 1010
-    },
-    {
-      "epoch": 0.2073170731707317,
-      "grad_norm": 0.1282844841480255,
-      "learning_rate": 4.792886178861789e-05,
-      "loss": 0.0275,
-      "step": 1020
-    },
-    {
-      "epoch": 0.20934959349593496,
-      "grad_norm": 0.10981626808643341,
-      "learning_rate": 4.790853658536585e-05,
-      "loss": 0.0282,
-      "step": 1030
-    },
-    {
-      "epoch": 0.21138211382113822,
-      "grad_norm": 0.1443098783493042,
-      "learning_rate": 4.7888211382113825e-05,
-      "loss": 0.0268,
-      "step": 1040
-    },
-    {
-      "epoch": 0.21341463414634146,
-      "grad_norm": 0.10926985740661621,
-      "learning_rate": 4.786788617886179e-05,
-      "loss": 0.0265,
-      "step": 1050
-    },
-    {
-      "epoch": 0.21544715447154472,
-      "grad_norm": 0.12235318124294281,
-      "learning_rate": 4.784756097560975e-05,
-      "loss": 0.0271,
-      "step": 1060
-    },
-    {
-      "epoch": 0.21747967479674796,
-      "grad_norm": 0.12022686749696732,
-      "learning_rate": 4.782723577235773e-05,
-      "loss": 0.0269,
-      "step": 1070
-    },
-    {
-      "epoch": 0.21951219512195122,
-      "grad_norm": 0.13947460055351257,
-      "learning_rate": 4.7806910569105695e-05,
-      "loss": 0.0272,
-      "step": 1080
-    },
-    {
-      "epoch": 0.22154471544715448,
-      "grad_norm": 0.10289262980222702,
-      "learning_rate": 4.778658536585366e-05,
-      "loss": 0.027,
-      "step": 1090
-    },
-    {
-      "epoch": 0.22357723577235772,
-      "grad_norm": 0.10644431412220001,
-      "learning_rate": 4.776626016260163e-05,
-      "loss": 0.026,
-      "step": 1100
-    },
-    {
-      "epoch": 0.22357723577235772,
-      "eval_cosine_similarity": 0.490080117004355,
-      "eval_loss": 0.020727790892124176,
-      "eval_mse_sync": 0.020727790696711355,
-      "eval_runtime": 7.9802,
-      "eval_samples_per_second": 375.055,
-      "eval_steps_per_second": 23.558,
-      "step": 1100
-    },
-    {
-      "epoch": 0.22560975609756098,
-      "grad_norm": 0.1217174306511879,
-      "learning_rate": 4.77459349593496e-05,
-      "loss": 0.0255,
-      "step": 1110
-    },
-    {
-      "epoch": 0.22764227642276422,
-      "grad_norm": 0.13680125772953033,
-      "learning_rate": 4.7725609756097564e-05,
-      "loss": 0.0261,
-      "step": 1120
-    },
-    {
-      "epoch": 0.22967479674796748,
-      "grad_norm": 0.10098998993635178,
-      "learning_rate": 4.770528455284553e-05,
-      "loss": 0.0266,
-      "step": 1130
-    },
-    {
-      "epoch": 0.23170731707317074,
-      "grad_norm": 0.10652109980583191,
-      "learning_rate": 4.76849593495935e-05,
-      "loss": 0.0254,
-      "step": 1140
-    },
-    {
-      "epoch": 0.23373983739837398,
-      "grad_norm": 0.14970383048057556,
-      "learning_rate": 4.7664634146341466e-05,
-      "loss": 0.0255,
-      "step": 1150
-    },
-    {
-      "epoch": 0.23577235772357724,
-      "grad_norm": 0.10969521850347519,
-      "learning_rate": 4.7644308943089434e-05,
-      "loss": 0.0262,
-      "step": 1160
-    },
-    {
-      "epoch": 0.23780487804878048,
-      "grad_norm": 0.18681780993938446,
-      "learning_rate": 4.76239837398374e-05,
-      "loss": 0.0267,
-      "step": 1170
-    },
-    {
-      "epoch": 0.23983739837398374,
-      "grad_norm": 0.13186466693878174,
-      "learning_rate": 4.760365853658537e-05,
-      "loss": 0.0279,
-      "step": 1180
-    },
-    {
-      "epoch": 0.241869918699187,
-      "grad_norm": 0.09688113629817963,
-      "learning_rate": 4.7583333333333336e-05,
-      "loss": 0.0259,
-      "step": 1190
-    },
-    {
-      "epoch": 0.24390243902439024,
-      "grad_norm": 0.1350603997707367,
-      "learning_rate": 4.75630081300813e-05,
-      "loss": 0.0274,
-      "step": 1200
-    },
-    {
-      "epoch": 0.24390243902439024,
-      "eval_cosine_similarity": 0.46065077879657484,
-      "eval_loss": 0.02211129106581211,
-      "eval_mse_sync": 0.0221112903003415,
-      "eval_runtime": 8.0094,
-      "eval_samples_per_second": 373.686,
-      "eval_steps_per_second": 23.472,
-      "step": 1200
-    },
-    {
-      "epoch": 0.2459349593495935,
-      "grad_norm": 0.13613583147525787,
-      "learning_rate": 4.754268292682927e-05,
-      "loss": 0.0275,
-      "step": 1210
-    },
-    {
-      "epoch": 0.24796747967479674,
-      "grad_norm": 0.1278214156627655,
-      "learning_rate": 4.752235772357724e-05,
-      "loss": 0.0257,
-      "step": 1220
-    },
-    {
-      "epoch": 0.25,
-      "grad_norm": 0.1331510692834854,
-      "learning_rate": 4.7502032520325205e-05,
-      "loss": 0.0251,
-      "step": 1230
-    },
-    {
-      "epoch": 0.25203252032520324,
-      "grad_norm": 0.15280725061893463,
-      "learning_rate": 4.748170731707317e-05,
-      "loss": 0.0268,
-      "step": 1240
-    },
-    {
-      "epoch": 0.2540650406504065,
-      "grad_norm": 0.11740286648273468,
-      "learning_rate": 4.746138211382114e-05,
-      "loss": 0.0258,
-      "step": 1250
-    },
-    {
-      "epoch": 0.25609756097560976,
-      "grad_norm": 0.09965524077415466,
-      "learning_rate": 4.744105691056911e-05,
-      "loss": 0.0274,
-      "step": 1260
-    },
-    {
-      "epoch": 0.258130081300813,
-      "grad_norm": 0.12852798402309418,
-      "learning_rate": 4.7420731707317075e-05,
-      "loss": 0.0272,
-      "step": 1270
-    },
-    {
-      "epoch": 0.2601626016260163,
-      "grad_norm": 0.11415109783411026,
-      "learning_rate": 4.740040650406504e-05,
-      "loss": 0.026,
-      "step": 1280
-    },
-    {
-      "epoch": 0.2621951219512195,
-      "grad_norm": 0.1628946214914322,
-      "learning_rate": 4.738008130081301e-05,
-      "loss": 0.0279,
-      "step": 1290
-    },
-    {
-      "epoch": 0.26422764227642276,
-      "grad_norm": 0.11203841865062714,
-      "learning_rate": 4.735975609756098e-05,
-      "loss": 0.0253,
-      "step": 1300
-    },
-    {
-      "epoch": 0.26422764227642276,
-      "eval_cosine_similarity": 0.477201213187053,
-      "eval_loss": 0.021068334579467773,
-      "eval_mse_sync": 0.02106833454150541,
-      "eval_runtime": 7.9772,
-      "eval_samples_per_second": 375.194,
-      "eval_steps_per_second": 23.567,
-      "step": 1300
-    },
-    {
-      "epoch": 0.266260162601626,
-      "grad_norm": 0.10183481872081757,
-      "learning_rate": 4.7339430894308944e-05,
-      "loss": 0.0266,
-      "step": 1310
-    },
-    {
-      "epoch": 0.2682926829268293,
-      "grad_norm": 0.09649122506380081,
-      "learning_rate": 4.731910569105691e-05,
-      "loss": 0.0254,
-      "step": 1320
-    },
-    {
-      "epoch": 0.2703252032520325,
-      "grad_norm": 0.11728145182132721,
-      "learning_rate": 4.729878048780488e-05,
-      "loss": 0.0256,
-      "step": 1330
-    },
-    {
-      "epoch": 0.27235772357723576,
-      "grad_norm": 0.11149100959300995,
-      "learning_rate": 4.7278455284552846e-05,
-      "loss": 0.0247,
-      "step": 1340
-    },
-    {
-      "epoch": 0.27439024390243905,
-      "grad_norm": 0.12775219976902008,
-      "learning_rate": 4.7258130081300814e-05,
-      "loss": 0.0263,
-      "step": 1350
-    },
-    {
-      "epoch": 0.2764227642276423,
-      "grad_norm": 0.1255025416612625,
-      "learning_rate": 4.723780487804878e-05,
-      "loss": 0.0248,
-      "step": 1360
-    },
-    {
-      "epoch": 0.2784552845528455,
-      "grad_norm": 0.11553100496530533,
-      "learning_rate": 4.721747967479675e-05,
-      "loss": 0.0261,
-      "step": 1370
-    },
-    {
-      "epoch": 0.2804878048780488,
-      "grad_norm": 0.115130715072155,
-      "learning_rate": 4.7197154471544716e-05,
-      "loss": 0.0266,
-      "step": 1380
-    },
-    {
-      "epoch": 0.28252032520325204,
-      "grad_norm": 0.10078372061252594,
-      "learning_rate": 4.717682926829268e-05,
-      "loss": 0.0249,
-      "step": 1390
-    },
-    {
-      "epoch": 0.2845528455284553,
-      "grad_norm": 0.11324010044336319,
-      "learning_rate": 4.715650406504065e-05,
-      "loss": 0.0257,
-      "step": 1400
-    },
-    {
-      "epoch": 0.2845528455284553,
-      "eval_cosine_similarity": 0.490024376186367,
-      "eval_loss": 0.02175692841410637,
-      "eval_mse_sync": 0.021756927129920514,
-      "eval_runtime": 8.0149,
-      "eval_samples_per_second": 373.432,
-      "eval_steps_per_second": 23.456,
-      "step": 1400
-    },
-    {
-      "epoch": 0.2865853658536585,
-      "grad_norm": 0.1149812862277031,
-      "learning_rate": 4.7136178861788625e-05,
-      "loss": 0.0254,
-      "step": 1410
-    },
-    {
-      "epoch": 0.2886178861788618,
-      "grad_norm": 0.11180515587329865,
-      "learning_rate": 4.7115853658536585e-05,
-      "loss": 0.0266,
-      "step": 1420
-    },
-    {
-      "epoch": 0.29065040650406504,
-      "grad_norm": 0.11090870201587677,
-      "learning_rate": 4.709552845528455e-05,
-      "loss": 0.0252,
-      "step": 1430
-    },
-    {
-      "epoch": 0.2926829268292683,
-      "grad_norm": 0.15381398797035217,
-      "learning_rate": 4.707520325203253e-05,
-      "loss": 0.0267,
-      "step": 1440
-    },
-    {
-      "epoch": 0.29471544715447157,
-      "grad_norm": 0.11547625809907913,
-      "learning_rate": 4.705487804878049e-05,
-      "loss": 0.0259,
-      "step": 1450
-    },
-    {
-      "epoch": 0.2967479674796748,
-      "grad_norm": 0.12333870679140091,
-      "learning_rate": 4.7034552845528455e-05,
-      "loss": 0.0273,
-      "step": 1460
-    },
-    {
-      "epoch": 0.29878048780487804,
-      "grad_norm": 0.13967566192150116,
-      "learning_rate": 4.701422764227643e-05,
-      "loss": 0.0255,
-      "step": 1470
-    },
-    {
-      "epoch": 0.3008130081300813,
-      "grad_norm": 0.12606772780418396,
-      "learning_rate": 4.699390243902439e-05,
-      "loss": 0.0245,
-      "step": 1480
-    },
-    {
-      "epoch": 0.30284552845528456,
-      "grad_norm": 0.11195407062768936,
-      "learning_rate": 4.697357723577236e-05,
-      "loss": 0.0258,
-      "step": 1490
-    },
-    {
-      "epoch": 0.3048780487804878,
-      "grad_norm": 0.1050952821969986,
-      "learning_rate": 4.695325203252033e-05,
-      "loss": 0.0256,
-      "step": 1500
-    },
-    {
-      "epoch": 0.3048780487804878,
-      "eval_cosine_similarity": 0.5019669328052943,
-      "eval_loss": 0.020201340317726135,
-      "eval_mse_sync": 0.020201340437836564,
-      "eval_runtime": 8.0028,
-      "eval_samples_per_second": 373.996,
-      "eval_steps_per_second": 23.492,
-      "step": 1500
-    }
-  ],
-  "logging_steps": 10,
-  "max_steps": 24600,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 100,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 1.1221717745664e+16,
-  "train_batch_size": 16,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:cb70f48c7fa1622aca3a115af51cf270a88d8053efe253371c58188a6a763ba4
-size 5841

last-checkpoint/vocab.json DELETED Viewed

@@ -1,37 +0,0 @@
-{
-  "unk": 0,
-  "pad": 1,
-  "/s": 2,
-  "s": 3,
-  "(": 4,
-  ")": 5,
-  "always": 6,
-  "eventually": 7,
-  "until": 8,
-  "and": 9,
-  "or": 10,
-  "not": 11,
-  ">=": 12,
-  "<=": 13,
-  ">": 14,
-  "<": 15,
-  "=": 16,
-  "x_": 17,
-  "[": 18,
-  "]": 19,
-  ",": 20,
-  "inf": 21,
-  "-": 22,
-  ".": 23,
-  "0": 24,
-  "1": 25,
-  "2": 26,
-  "3": 27,
-  "4": 28,
-  "5": 29,
-  "6": 30,
-  "7": 31,
-  "8": 32,
-  "9": 33,
-  "@": 34
-}