BurnyCoder commited on Jun 15, 2025

Commit

c0e955f

verified ·

1 Parent(s): 41533c2

Initial upload of EsperBERTo model

Browse files

Files changed (33) hide show

README.md +86 -0
checkpoint-10000/config.json +26 -0
checkpoint-10000/merges.txt +0 -0
checkpoint-10000/model.safetensors +3 -0
checkpoint-10000/optimizer.pt +3 -0
checkpoint-10000/rng_state.pth +3 -0
checkpoint-10000/scheduler.pt +3 -0
checkpoint-10000/special_tokens_map.json +51 -0
checkpoint-10000/tokenizer.json +0 -0
checkpoint-10000/tokenizer_config.json +59 -0
checkpoint-10000/trainer_state.json +174 -0
checkpoint-10000/training_args.bin +3 -0
checkpoint-10000/vocab.json +0 -0
checkpoint-15228/config.json +26 -0
checkpoint-15228/merges.txt +0 -0
checkpoint-15228/model.safetensors +3 -0
checkpoint-15228/optimizer.pt +3 -0
checkpoint-15228/rng_state.pth +3 -0
checkpoint-15228/scheduler.pt +3 -0
checkpoint-15228/special_tokens_map.json +51 -0
checkpoint-15228/tokenizer.json +0 -0
checkpoint-15228/tokenizer_config.json +59 -0
checkpoint-15228/trainer_state.json +244 -0
checkpoint-15228/training_args.bin +3 -0
checkpoint-15228/vocab.json +0 -0
config.json +26 -0
merges.txt +0 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +59 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,86 @@

+---
+language: eo
+license: mit
+---
+# EsperBERTo: A RoBERTa-like model for Esperanto
+This is a RoBERTa-like model trained from scratch on the Esperanto language.
+## Model description
+The model has 6 layers, 768 hidden size, 12 attention heads, and a total of 84 million parameters. It's based on the RoBERTa architecture. The tokenizer is a byte-level Byte-Pair Encoding (BPE) tokenizer trained from scratch on the same Esperanto corpus.
+- **Model:** RoBERTa-like
+- **Layers:** 6
+- **Hidden size:** 768
+- **Heads:** 12
+- **Parameters:** 84M
+- **Tokenizer:** Byte-level BPE
+- **Vocabulary size:** 52,000
+## Training data
+The model was trained on the Esperanto portion of the OSCAR corpus (`oscar.eo.txt`), which is approximately 3GB in size.
+## Training procedure
+The model was trained for one epoch on the OSCAR corpus using the `Trainer` API from the `transformers` library. The training was performed on a single GPU.
+### Hyperparameters
+- `output_dir`: "./EsperBERTo"
+- `overwrite_output_dir`: `True`
+- `num_train_epochs`: 1
+- `per_gpu_train_batch_size`: 64
+- `save_steps`: 10_000
+- `save_total_limit`: 2
+- `prediction_loss_only`: `True`
+The final training loss was `6.1178`.
+## Evaluation results
+The model was not evaluated on a downstream task in the notebook. However, its capabilities can be tested using the `fill-mask` pipeline.
+Example 1:
+```python
+from transformers import pipeline
+fill_mask = pipeline(
+    "fill-mask",
+    model="./EsperBERTo",
+    tokenizer="./EsperBERTo"
+)
+fill_mask("La suno <mask>.")
+```
+Output:
+```
+[{'score': 0.013023526407778263, 'token': 316, 'token_str': ' estas', 'sequence': 'La suno estas.'},
+ {'score': 0.008523152209818363, 'token': 607, 'token_str': ' min', 'sequence': 'La suno min.'},
+ {'score': 0.007405377924442291, 'token': 2575, 'token_str': ' okuloj', 'sequence': 'La suno okuloj.'},
+ {'score': 0.007219308987259865, 'token': 1635, 'token_str': ' tago', 'sequence': 'La suno tago.'},
+ {'score': 0.006888304837048054, 'token': 394, 'token_str': ' estis', 'sequence': 'La suno estis.'}]
+```
+Example 2:
+```python
+fill_mask("Jen la komenco de bela <mask>.")
+```
+Output:
+```
+[{'score': 0.016247423365712166, 'token': 1635, 'token_str': ' tago', 'sequence': 'Jen la komenco de bela tago.'},
+ {'score': 0.009718689136207104, 'token': 1021, 'token_str': ' tempo', 'sequence': 'Jen la komenco de bela tempo.'},
+ {'score': 0.007543196901679039, 'token': 2257, 'token_str': ' kongreso', 'sequence': 'Jen la komenco de bela kongreso.'},
+ {'score': 0.0071307034231722355, 'token': 1161, 'token_str': ' vivo', 'sequence': 'Jen la komenco de bela vivo.'},
+ {'score': 0.006644904613494873, 'token': 758, 'token_str': ' jaroj', 'sequence': 'Jen la komenco de bela jaroj.'}]
+```
+## Intended uses & limitations
+This model is intended to be a general-purpose language model for Esperanto. It can be used for masked language modeling and can be fine-tuned for various downstream tasks such as:
+- Text Classification
+- Token Classification (Part-of-Speech Tagging, Named Entity Recognition)
+- Question Answering
+Since the model was trained on a relatively small dataset, its performance may be limited. For better results on specific tasks, fine-tuning on a relevant dataset is recommended.

checkpoint-10000/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.0.dev0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 52000
+}

checkpoint-10000/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-10000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d60e2e32c32f8c40e804d7c353c374085847227e5f00da50eb4762662496e1b
+size 334030264

checkpoint-10000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32e6396ae51291f9b22bdbc3a863dfc5068ffc2d447a218764093495ed119994
+size 668124683

checkpoint-10000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:972c860353848b9bc0947f70085405424a6c794b8a204e40286ae3c69298208b
+size 14645

checkpoint-10000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cbb445dc162b5dd4346ca2fb80abebbbf76da9a7736009b794b959a33f32116
+size 1465

checkpoint-10000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-10000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-10000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_len": 512,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-10000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,174 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.6566850538481744,
+  "eval_steps": 500,
+  "global_step": 10000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03283425269240872,
+      "grad_norm": 2.0115110874176025,
+      "learning_rate": 4.836157079064881e-05,
+      "loss": 7.8535,
+      "step": 500
+    },
+    {
+      "epoch": 0.06566850538481744,
+      "grad_norm": 1.8765583038330078,
+      "learning_rate": 4.671985815602837e-05,
+      "loss": 7.2604,
+      "step": 1000
+    },
+    {
+      "epoch": 0.09850275807722617,
+      "grad_norm": 1.813555121421814,
+      "learning_rate": 4.507814552140793e-05,
+      "loss": 7.0768,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1313370107696349,
+      "grad_norm": 2.100990056991577,
+      "learning_rate": 4.34364328867875e-05,
+      "loss": 6.9514,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1641712634620436,
+      "grad_norm": 2.4078993797302246,
+      "learning_rate": 4.1794720252167065e-05,
+      "loss": 6.8599,
+      "step": 2500
+    },
+    {
+      "epoch": 0.19700551615445233,
+      "grad_norm": 1.9332386255264282,
+      "learning_rate": 4.015300761754663e-05,
+      "loss": 6.8066,
+      "step": 3000
+    },
+    {
+      "epoch": 0.22983976884686105,
+      "grad_norm": 2.384559154510498,
+      "learning_rate": 3.8511294982926185e-05,
+      "loss": 6.7556,
+      "step": 3500
+    },
+    {
+      "epoch": 0.2626740215392698,
+      "grad_norm": 2.159532308578491,
+      "learning_rate": 3.6869582348305756e-05,
+      "loss": 6.7005,
+      "step": 4000
+    },
+    {
+      "epoch": 0.29550827423167847,
+      "grad_norm": 2.3822381496429443,
+      "learning_rate": 3.522786971368532e-05,
+      "loss": 6.6413,
+      "step": 4500
+    },
+    {
+      "epoch": 0.3283425269240872,
+      "grad_norm": 2.6890079975128174,
+      "learning_rate": 3.3586157079064884e-05,
+      "loss": 6.5969,
+      "step": 5000
+    },
+    {
+      "epoch": 0.3611767796164959,
+      "grad_norm": 2.734480857849121,
+      "learning_rate": 3.194444444444444e-05,
+      "loss": 6.5226,
+      "step": 5500
+    },
+    {
+      "epoch": 0.39401103230890466,
+      "grad_norm": 3.228806257247925,
+      "learning_rate": 3.0302731809824008e-05,
+      "loss": 6.4609,
+      "step": 6000
+    },
+    {
+      "epoch": 0.42684528500131336,
+      "grad_norm": 3.1673390865325928,
+      "learning_rate": 2.8661019175203575e-05,
+      "loss": 6.3505,
+      "step": 6500
+    },
+    {
+      "epoch": 0.4596795376937221,
+      "grad_norm": 3.190369129180908,
+      "learning_rate": 2.701930654058314e-05,
+      "loss": 6.2476,
+      "step": 7000
+    },
+    {
+      "epoch": 0.4925137903861308,
+      "grad_norm": 3.3769636154174805,
+      "learning_rate": 2.53775939059627e-05,
+      "loss": 6.1132,
+      "step": 7500
+    },
+    {
+      "epoch": 0.5253480430785396,
+      "grad_norm": 3.465238332748413,
+      "learning_rate": 2.3735881271342264e-05,
+      "loss": 5.9959,
+      "step": 8000
+    },
+    {
+      "epoch": 0.5581822957709482,
+      "grad_norm": 3.3762824535369873,
+      "learning_rate": 2.209416863672183e-05,
+      "loss": 5.8872,
+      "step": 8500
+    },
+    {
+      "epoch": 0.5910165484633569,
+      "grad_norm": 3.428150177001953,
+      "learning_rate": 2.0452456002101395e-05,
+      "loss": 5.7939,
+      "step": 9000
+    },
+    {
+      "epoch": 0.6238508011557657,
+      "grad_norm": 3.5672378540039062,
+      "learning_rate": 1.881074336748096e-05,
+      "loss": 5.7013,
+      "step": 9500
+    },
+    {
+      "epoch": 0.6566850538481744,
+      "grad_norm": 3.6406631469726562,
+      "learning_rate": 1.7169030732860522e-05,
+      "loss": 5.6368,
+      "step": 10000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 15228,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 10000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.122034184192e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-10000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:361c27590c72754ba8ac5e3b227371e4ed2881a639738e66b897fd307c2a9ced
+size 5649

checkpoint-10000/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-15228/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.0.dev0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 52000
+}

checkpoint-15228/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-15228/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d53dfb0c238e7b34f9694a39a127ac66ca5c144a09604945d7e92d77a1655005
+size 334030264

checkpoint-15228/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f90766f63e48fda9391eba89db11452e23ce7facd101047c859652aae33c0bac
+size 668124683

checkpoint-15228/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee3813d6e83c780347a7cc1f319e59174774e111e03a0945d35bc883d30a5776
+size 14645

checkpoint-15228/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5727ed166a6972bfdc70485e858975d59802e964f76812631eb37007bea9a0ff
+size 1465

checkpoint-15228/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-15228/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-15228/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_len": 512,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-15228/trainer_state.json ADDED Viewed

	@@ -0,0 +1,244 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 15228,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03283425269240872,
+      "grad_norm": 2.0115110874176025,
+      "learning_rate": 4.836157079064881e-05,
+      "loss": 7.8535,
+      "step": 500
+    },
+    {
+      "epoch": 0.06566850538481744,
+      "grad_norm": 1.8765583038330078,
+      "learning_rate": 4.671985815602837e-05,
+      "loss": 7.2604,
+      "step": 1000
+    },
+    {
+      "epoch": 0.09850275807722617,
+      "grad_norm": 1.813555121421814,
+      "learning_rate": 4.507814552140793e-05,
+      "loss": 7.0768,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1313370107696349,
+      "grad_norm": 2.100990056991577,
+      "learning_rate": 4.34364328867875e-05,
+      "loss": 6.9514,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1641712634620436,
+      "grad_norm": 2.4078993797302246,
+      "learning_rate": 4.1794720252167065e-05,
+      "loss": 6.8599,
+      "step": 2500
+    },
+    {
+      "epoch": 0.19700551615445233,
+      "grad_norm": 1.9332386255264282,
+      "learning_rate": 4.015300761754663e-05,
+      "loss": 6.8066,
+      "step": 3000
+    },
+    {
+      "epoch": 0.22983976884686105,
+      "grad_norm": 2.384559154510498,
+      "learning_rate": 3.8511294982926185e-05,
+      "loss": 6.7556,
+      "step": 3500
+    },
+    {
+      "epoch": 0.2626740215392698,
+      "grad_norm": 2.159532308578491,
+      "learning_rate": 3.6869582348305756e-05,
+      "loss": 6.7005,
+      "step": 4000
+    },
+    {
+      "epoch": 0.29550827423167847,
+      "grad_norm": 2.3822381496429443,
+      "learning_rate": 3.522786971368532e-05,
+      "loss": 6.6413,
+      "step": 4500
+    },
+    {
+      "epoch": 0.3283425269240872,
+      "grad_norm": 2.6890079975128174,
+      "learning_rate": 3.3586157079064884e-05,
+      "loss": 6.5969,
+      "step": 5000
+    },
+    {
+      "epoch": 0.3611767796164959,
+      "grad_norm": 2.734480857849121,
+      "learning_rate": 3.194444444444444e-05,
+      "loss": 6.5226,
+      "step": 5500
+    },
+    {
+      "epoch": 0.39401103230890466,
+      "grad_norm": 3.228806257247925,
+      "learning_rate": 3.0302731809824008e-05,
+      "loss": 6.4609,
+      "step": 6000
+    },
+    {
+      "epoch": 0.42684528500131336,
+      "grad_norm": 3.1673390865325928,
+      "learning_rate": 2.8661019175203575e-05,
+      "loss": 6.3505,
+      "step": 6500
+    },
+    {
+      "epoch": 0.4596795376937221,
+      "grad_norm": 3.190369129180908,
+      "learning_rate": 2.701930654058314e-05,
+      "loss": 6.2476,
+      "step": 7000
+    },
+    {
+      "epoch": 0.4925137903861308,
+      "grad_norm": 3.3769636154174805,
+      "learning_rate": 2.53775939059627e-05,
+      "loss": 6.1132,
+      "step": 7500
+    },
+    {
+      "epoch": 0.5253480430785396,
+      "grad_norm": 3.465238332748413,
+      "learning_rate": 2.3735881271342264e-05,
+      "loss": 5.9959,
+      "step": 8000
+    },
+    {
+      "epoch": 0.5581822957709482,
+      "grad_norm": 3.3762824535369873,
+      "learning_rate": 2.209416863672183e-05,
+      "loss": 5.8872,
+      "step": 8500
+    },
+    {
+      "epoch": 0.5910165484633569,
+      "grad_norm": 3.428150177001953,
+      "learning_rate": 2.0452456002101395e-05,
+      "loss": 5.7939,
+      "step": 9000
+    },
+    {
+      "epoch": 0.6238508011557657,
+      "grad_norm": 3.5672378540039062,
+      "learning_rate": 1.881074336748096e-05,
+      "loss": 5.7013,
+      "step": 9500
+    },
+    {
+      "epoch": 0.6566850538481744,
+      "grad_norm": 3.6406631469726562,
+      "learning_rate": 1.7169030732860522e-05,
+      "loss": 5.6368,
+      "step": 10000
+    },
+    {
+      "epoch": 0.6895193065405831,
+      "grad_norm": 3.694791555404663,
+      "learning_rate": 1.5527318098240086e-05,
+      "loss": 5.5591,
+      "step": 10500
+    },
+    {
+      "epoch": 0.7223535592329918,
+      "grad_norm": 3.98870587348938,
+      "learning_rate": 1.388560546361965e-05,
+      "loss": 5.4825,
+      "step": 11000
+    },
+    {
+      "epoch": 0.7551878119254006,
+      "grad_norm": 3.6506927013397217,
+      "learning_rate": 1.2243892828999212e-05,
+      "loss": 5.4542,
+      "step": 11500
+    },
+    {
+      "epoch": 0.7880220646178093,
+      "grad_norm": 3.9111599922180176,
+      "learning_rate": 1.0602180194378776e-05,
+      "loss": 5.3903,
+      "step": 12000
+    },
+    {
+      "epoch": 0.820856317310218,
+      "grad_norm": 3.6450743675231934,
+      "learning_rate": 8.96046755975834e-06,
+      "loss": 5.3594,
+      "step": 12500
+    },
+    {
+      "epoch": 0.8536905700026267,
+      "grad_norm": 3.8948936462402344,
+      "learning_rate": 7.318754925137904e-06,
+      "loss": 5.3447,
+      "step": 13000
+    },
+    {
+      "epoch": 0.8865248226950354,
+      "grad_norm": 3.537013292312622,
+      "learning_rate": 5.6770422905174684e-06,
+      "loss": 5.2947,
+      "step": 13500
+    },
+    {
+      "epoch": 0.9193590753874442,
+      "grad_norm": 3.3274927139282227,
+      "learning_rate": 4.035329655897032e-06,
+      "loss": 5.2935,
+      "step": 14000
+    },
+    {
+      "epoch": 0.9521933280798529,
+      "grad_norm": 3.2864270210266113,
+      "learning_rate": 2.3936170212765957e-06,
+      "loss": 5.2692,
+      "step": 14500
+    },
+    {
+      "epoch": 0.9850275807722616,
+      "grad_norm": 3.5905466079711914,
+      "learning_rate": 7.519043866561598e-07,
+      "loss": 5.2641,
+      "step": 15000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 15228,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 10000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.231269529606144e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-15228/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:361c27590c72754ba8ac5e3b227371e4ed2881a639738e66b897fd307c2a9ced
+size 5649

checkpoint-15228/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.0.dev0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 52000
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d53dfb0c238e7b34f9694a39a127ac66ca5c144a09604945d7e92d77a1655005
+size 334030264

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_len": 512,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:361c27590c72754ba8ac5e3b227371e4ed2881a639738e66b897fd307c2a9ced
+size 5649

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff