youralien commited on Jun 10, 2025

Commit

e4fc915

verified ·

1 Parent(s): 9778162

Upload trained RoBERTa model

Browse files

Files changed (33) hide show

README.md +86 -0
checkpoint-1600/config.json +35 -0
checkpoint-1600/merges.txt +0 -0
checkpoint-1600/model.safetensors +3 -0
checkpoint-1600/optimizer.pt +3 -0
checkpoint-1600/rng_state.pth +3 -0
checkpoint-1600/scheduler.pt +3 -0
checkpoint-1600/special_tokens_map.json +15 -0
checkpoint-1600/tokenizer.json +0 -0
checkpoint-1600/tokenizer_config.json +58 -0
checkpoint-1600/trainer_state.json +413 -0
checkpoint-1600/training_args.bin +3 -0
checkpoint-1600/vocab.json +0 -0
checkpoint-560/config.json +35 -0
checkpoint-560/merges.txt +0 -0
checkpoint-560/model.safetensors +3 -0
checkpoint-560/optimizer.pt +3 -0
checkpoint-560/rng_state.pth +3 -0
checkpoint-560/scheduler.pt +3 -0
checkpoint-560/special_tokens_map.json +15 -0
checkpoint-560/tokenizer.json +0 -0
checkpoint-560/tokenizer_config.json +58 -0
checkpoint-560/trainer_state.json +166 -0
checkpoint-560/training_args.bin +3 -0
checkpoint-560/vocab.json +0 -0
config.json +35 -0
merges.txt +0 -0
model.safetensors +3 -0
special_tokens_map.json +15 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,86 @@

+---
+library_name: transformers
+license: mit
+base_model: FacebookAI/roberta-large
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+- precision
+- recall
+- f1
+model-index:
+- name: roberta-Reflections-goodareas-eval_FeedbackESConv5pp_CARE10pp-sweeps-current
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# roberta-Reflections-goodareas-eval_FeedbackESConv5pp_CARE10pp-sweeps-current
+This model is a fine-tuned version of [FacebookAI/roberta-large](https://huggingface.co/FacebookAI/roberta-large) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4328
+- Accuracy: 0.8678
+- Precision: 0.4273
+- Recall: 0.5402
+- F1: 0.4772
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 9.49118803819061e-06
+- train_batch_size: 32
+- eval_batch_size: 16
+- seed: 42
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 20
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | Precision | Recall | F1     |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:---------:|:------:|:------:|
+| 0.3453        | 1.0   | 80   | 0.2368          | 0.8845   | 0.4444    | 0.1379 | 0.2105 |
+| 0.2686        | 2.0   | 160  | 0.1995          | 0.8883   | 0.0       | 0.0    | 0.0    |
+| 0.2467        | 3.0   | 240  | 0.2582          | 0.8755   | 0.4561    | 0.5977 | 0.5174 |
+| 0.2346        | 4.0   | 320  | 0.1663          | 0.9012   | 0.6923    | 0.2069 | 0.3186 |
+| 0.2153        | 5.0   | 400  | 0.1441          | 0.9037   | 0.8       | 0.1839 | 0.2991 |
+| 0.2003        | 6.0   | 480  | 0.2784          | 0.8267   | 0.3571    | 0.6897 | 0.4706 |
+| 0.1806        | 7.0   | 560  | 0.1637          | 0.8999   | 0.5495    | 0.5747 | 0.5618 |
+| 0.1477        | 8.0   | 640  | 0.2062          | 0.8639   | 0.4275    | 0.6437 | 0.5138 |
+| 0.1234        | 9.0   | 720  | 0.2175          | 0.8626   | 0.4167    | 0.5747 | 0.4831 |
+| 0.1116        | 10.0  | 800  | 0.1914          | 0.8845   | 0.4810    | 0.4368 | 0.4578 |
+| 0.0959        | 11.0  | 880  | 0.3313          | 0.8485   | 0.3916    | 0.6437 | 0.4870 |
+| 0.0933        | 12.0  | 960  | 0.3027          | 0.8575   | 0.4048    | 0.5862 | 0.4789 |
+| 0.0796        | 13.0  | 1040 | 0.3267          | 0.8575   | 0.4032    | 0.5747 | 0.4739 |
+| 0.0688        | 14.0  | 1120 | 0.2958          | 0.8819   | 0.4731    | 0.5057 | 0.4889 |
+| 0.0723        | 15.0  | 1200 | 0.4122          | 0.8575   | 0.4032    | 0.5747 | 0.4739 |
+| 0.048         | 16.0  | 1280 | 0.5274          | 0.8447   | 0.3851    | 0.6552 | 0.4851 |
+| 0.0504        | 17.0  | 1360 | 0.5241          | 0.8562   | 0.4031    | 0.5977 | 0.4815 |
+| 0.0353        | 18.0  | 1440 | 0.4845          | 0.8601   | 0.4098    | 0.5747 | 0.4785 |
+| 0.0485        | 19.0  | 1520 | 0.5141          | 0.8562   | 0.4031    | 0.5977 | 0.4815 |
+| 0.0481        | 20.0  | 1600 | 0.4328          | 0.8678   | 0.4273    | 0.5402 | 0.4772 |
+### Framework versions
+- Transformers 4.48.3
+- Pytorch 2.5.1+cu124
+- Datasets 2.21.0
+- Tokenizers 0.21.0

checkpoint-1600/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "FacebookAI/roberta-large",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "not selected",
+    "1": "selected"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "not selected": "0",
+    "selected": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

checkpoint-1600/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1600/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31ebf47dec1ac43f57228e18575cfc7e5fb1a666f1647ffacef26427b3e6a1ab
+size 1421495416

checkpoint-1600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b569f947226399aeed48cd5279bf0c2291ee665519d5293f854add30a5657b9
+size 2843228717

checkpoint-1600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9aaffce7babf997dc5fa3942d23f3fe89cd1be900f8063c5742e433aa4a492c7
+size 14244

checkpoint-1600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f462eae5de6170103b75a48d331948c6e76e54fbc91c09466f9080d52789bea
+size 1064

checkpoint-1600/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-1600/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1600/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-1600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,413 @@

+{
+  "best_metric": 0.5617977528089888,
+  "best_model_checkpoint": "roberta-Reflections-goodareas-eval_FeedbackESConv5pp_CARE10pp-sweeps-current/checkpoint-560",
+  "epoch": 20.0,
+  "eval_steps": 500,
+  "global_step": 1600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 65.6139144897461,
+      "learning_rate": 9.01662863628108e-06,
+      "loss": 0.3453,
+      "step": 80
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8844672657252889,
+      "eval_f1": 0.21052631578947367,
+      "eval_loss": 0.236761674284935,
+      "eval_precision": 0.4444444444444444,
+      "eval_recall": 0.13793103448275862,
+      "eval_runtime": 3.0292,
+      "eval_samples_per_second": 257.161,
+      "eval_steps_per_second": 16.176,
+      "step": 80
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 11.26146411895752,
+      "learning_rate": 8.54206923437155e-06,
+      "loss": 0.2686,
+      "step": 160
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8883183568677792,
+      "eval_f1": 0.0,
+      "eval_loss": 0.19945281744003296,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 3.1517,
+      "eval_samples_per_second": 247.167,
+      "eval_steps_per_second": 15.547,
+      "step": 160
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 17.682777404785156,
+      "learning_rate": 8.067509832462019e-06,
+      "loss": 0.2467,
+      "step": 240
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8754813863928113,
+      "eval_f1": 0.5174129353233831,
+      "eval_loss": 0.2581908404827118,
+      "eval_precision": 0.45614035087719296,
+      "eval_recall": 0.5977011494252874,
+      "eval_runtime": 3.0214,
+      "eval_samples_per_second": 257.831,
+      "eval_steps_per_second": 16.218,
+      "step": 240
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 15.032783508300781,
+      "learning_rate": 7.592950430552488e-06,
+      "loss": 0.2346,
+      "step": 320
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9011553273427471,
+      "eval_f1": 0.3185840707964602,
+      "eval_loss": 0.16634990274906158,
+      "eval_precision": 0.6923076923076923,
+      "eval_recall": 0.20689655172413793,
+      "eval_runtime": 3.0455,
+      "eval_samples_per_second": 255.788,
+      "eval_steps_per_second": 16.089,
+      "step": 320
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 11.804676055908203,
+      "learning_rate": 7.118391028642958e-06,
+      "loss": 0.2153,
+      "step": 400
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9037227214377407,
+      "eval_f1": 0.29906542056074764,
+      "eval_loss": 0.14412762224674225,
+      "eval_precision": 0.8,
+      "eval_recall": 0.1839080459770115,
+      "eval_runtime": 3.0668,
+      "eval_samples_per_second": 254.013,
+      "eval_steps_per_second": 15.978,
+      "step": 400
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 38.897178649902344,
+      "learning_rate": 6.643831626733427e-06,
+      "loss": 0.2003,
+      "step": 480
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8267008985879333,
+      "eval_f1": 0.47058823529411764,
+      "eval_loss": 0.2783520519733429,
+      "eval_precision": 0.35714285714285715,
+      "eval_recall": 0.6896551724137931,
+      "eval_runtime": 3.1385,
+      "eval_samples_per_second": 248.208,
+      "eval_steps_per_second": 15.613,
+      "step": 480
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 46.657535552978516,
+      "learning_rate": 6.169272224823897e-06,
+      "loss": 0.1806,
+      "step": 560
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8998716302952503,
+      "eval_f1": 0.5617977528089888,
+      "eval_loss": 0.16373790800571442,
+      "eval_precision": 0.5494505494505495,
+      "eval_recall": 0.5747126436781609,
+      "eval_runtime": 3.0921,
+      "eval_samples_per_second": 251.934,
+      "eval_steps_per_second": 15.847,
+      "step": 560
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 79.26252746582031,
+      "learning_rate": 5.694712822914366e-06,
+      "loss": 0.1477,
+      "step": 640
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8639281129653402,
+      "eval_f1": 0.5137614678899083,
+      "eval_loss": 0.20617738366127014,
+      "eval_precision": 0.42748091603053434,
+      "eval_recall": 0.6436781609195402,
+      "eval_runtime": 3.766,
+      "eval_samples_per_second": 206.852,
+      "eval_steps_per_second": 13.011,
+      "step": 640
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 18.165985107421875,
+      "learning_rate": 5.220153421004836e-06,
+      "loss": 0.1234,
+      "step": 720
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8626444159178434,
+      "eval_f1": 0.4830917874396135,
+      "eval_loss": 0.21749651432037354,
+      "eval_precision": 0.4166666666666667,
+      "eval_recall": 0.5747126436781609,
+      "eval_runtime": 3.0317,
+      "eval_samples_per_second": 256.949,
+      "eval_steps_per_second": 16.162,
+      "step": 720
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 2.0673418045043945,
+      "learning_rate": 4.745594019095305e-06,
+      "loss": 0.1116,
+      "step": 800
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8844672657252889,
+      "eval_f1": 0.4578313253012048,
+      "eval_loss": 0.19141623377799988,
+      "eval_precision": 0.4810126582278481,
+      "eval_recall": 0.4367816091954023,
+      "eval_runtime": 3.1007,
+      "eval_samples_per_second": 251.234,
+      "eval_steps_per_second": 15.803,
+      "step": 800
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.15599511563777924,
+      "learning_rate": 4.271034617185775e-06,
+      "loss": 0.0959,
+      "step": 880
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.8485237483953787,
+      "eval_f1": 0.48695652173913045,
+      "eval_loss": 0.33126145601272583,
+      "eval_precision": 0.3916083916083916,
+      "eval_recall": 0.6436781609195402,
+      "eval_runtime": 3.2233,
+      "eval_samples_per_second": 241.681,
+      "eval_steps_per_second": 15.202,
+      "step": 880
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.9359363317489624,
+      "learning_rate": 3.796475215276244e-06,
+      "loss": 0.0933,
+      "step": 960
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8575096277278562,
+      "eval_f1": 0.4788732394366197,
+      "eval_loss": 0.3026818335056305,
+      "eval_precision": 0.40476190476190477,
+      "eval_recall": 0.5862068965517241,
+      "eval_runtime": 3.0182,
+      "eval_samples_per_second": 258.097,
+      "eval_steps_per_second": 16.235,
+      "step": 960
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.1464570015668869,
+      "learning_rate": 3.3219158133667136e-06,
+      "loss": 0.0796,
+      "step": 1040
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.8575096277278562,
+      "eval_f1": 0.47393364928909953,
+      "eval_loss": 0.32667848467826843,
+      "eval_precision": 0.4032258064516129,
+      "eval_recall": 0.5747126436781609,
+      "eval_runtime": 3.0299,
+      "eval_samples_per_second": 257.1,
+      "eval_steps_per_second": 16.172,
+      "step": 1040
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.5023568868637085,
+      "learning_rate": 2.847356411457183e-06,
+      "loss": 0.0688,
+      "step": 1120
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8818998716302953,
+      "eval_f1": 0.4888888888888889,
+      "eval_loss": 0.2957651913166046,
+      "eval_precision": 0.4731182795698925,
+      "eval_recall": 0.5057471264367817,
+      "eval_runtime": 3.2559,
+      "eval_samples_per_second": 239.256,
+      "eval_steps_per_second": 15.049,
+      "step": 1120
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.34069183468818665,
+      "learning_rate": 2.3727970095476526e-06,
+      "loss": 0.0723,
+      "step": 1200
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.8575096277278562,
+      "eval_f1": 0.47393364928909953,
+      "eval_loss": 0.412211537361145,
+      "eval_precision": 0.4032258064516129,
+      "eval_recall": 0.5747126436781609,
+      "eval_runtime": 3.0316,
+      "eval_samples_per_second": 256.961,
+      "eval_steps_per_second": 16.163,
+      "step": 1200
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.027584612369537354,
+      "learning_rate": 1.898237607638122e-06,
+      "loss": 0.048,
+      "step": 1280
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8446726572528883,
+      "eval_f1": 0.4851063829787234,
+      "eval_loss": 0.5274401307106018,
+      "eval_precision": 0.38513513513513514,
+      "eval_recall": 0.6551724137931034,
+      "eval_runtime": 3.6161,
+      "eval_samples_per_second": 215.424,
+      "eval_steps_per_second": 13.55,
+      "step": 1280
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.9135520458221436,
+      "learning_rate": 1.4236782057285915e-06,
+      "loss": 0.0504,
+      "step": 1360
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.8562259306803595,
+      "eval_f1": 0.48148148148148145,
+      "eval_loss": 0.5240976214408875,
+      "eval_precision": 0.40310077519379844,
+      "eval_recall": 0.5977011494252874,
+      "eval_runtime": 3.0559,
+      "eval_samples_per_second": 254.916,
+      "eval_steps_per_second": 16.035,
+      "step": 1360
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.006816316395998001,
+      "learning_rate": 9.49118803819061e-07,
+      "loss": 0.0353,
+      "step": 1440
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.8600770218228498,
+      "eval_f1": 0.4784688995215311,
+      "eval_loss": 0.484482079744339,
+      "eval_precision": 0.4098360655737705,
+      "eval_recall": 0.5747126436781609,
+      "eval_runtime": 3.0044,
+      "eval_samples_per_second": 259.286,
+      "eval_steps_per_second": 16.309,
+      "step": 1440
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.03107047826051712,
+      "learning_rate": 4.745594019095305e-07,
+      "loss": 0.0485,
+      "step": 1520
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.8562259306803595,
+      "eval_f1": 0.48148148148148145,
+      "eval_loss": 0.5140769481658936,
+      "eval_precision": 0.40310077519379844,
+      "eval_recall": 0.5977011494252874,
+      "eval_runtime": 2.9889,
+      "eval_samples_per_second": 260.628,
+      "eval_steps_per_second": 16.394,
+      "step": 1520
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.014716532081365585,
+      "learning_rate": 0.0,
+      "loss": 0.0481,
+      "step": 1600
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8677792041078306,
+      "eval_f1": 0.47715736040609136,
+      "eval_loss": 0.432771772146225,
+      "eval_precision": 0.42727272727272725,
+      "eval_recall": 0.5402298850574713,
+      "eval_runtime": 3.0006,
+      "eval_samples_per_second": 259.618,
+      "eval_steps_per_second": 16.33,
+      "step": 1600
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 1600,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3332559558031616e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0557217f2922d1d78cae1ace55d5bb55927ee532e76734b644ec3800e9deef52
+size 5496

checkpoint-1600/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-560/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "FacebookAI/roberta-large",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "not selected",
+    "1": "selected"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "not selected": "0",
+    "selected": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

checkpoint-560/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-560/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9167951d5fef326c9b79b320958979c6cd9e2dacb6826c98362cbd99f47898a4
+size 1421495416

checkpoint-560/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7e9db95f73a8df95982a7809bee6fe19ebcb9dcda8392b2db9ebc9d25fca2f1
+size 2843228717

checkpoint-560/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a7269e243c3ea49c99daad4ffb39b1462efa574c1399726124e1a73ce219270
+size 14244

checkpoint-560/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2b7782761d00496ccc59c8f519ec82318d0c2e596d9f3e6a6e8554065041665
+size 1064

checkpoint-560/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-560/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-560/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-560/trainer_state.json ADDED Viewed

	@@ -0,0 +1,166 @@

+{
+  "best_metric": 0.5617977528089888,
+  "best_model_checkpoint": "roberta-Reflections-goodareas-eval_FeedbackESConv5pp_CARE10pp-sweeps-current/checkpoint-560",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 560,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 65.6139144897461,
+      "learning_rate": 9.01662863628108e-06,
+      "loss": 0.3453,
+      "step": 80
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8844672657252889,
+      "eval_f1": 0.21052631578947367,
+      "eval_loss": 0.236761674284935,
+      "eval_precision": 0.4444444444444444,
+      "eval_recall": 0.13793103448275862,
+      "eval_runtime": 3.0292,
+      "eval_samples_per_second": 257.161,
+      "eval_steps_per_second": 16.176,
+      "step": 80
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 11.26146411895752,
+      "learning_rate": 8.54206923437155e-06,
+      "loss": 0.2686,
+      "step": 160
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8883183568677792,
+      "eval_f1": 0.0,
+      "eval_loss": 0.19945281744003296,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 3.1517,
+      "eval_samples_per_second": 247.167,
+      "eval_steps_per_second": 15.547,
+      "step": 160
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 17.682777404785156,
+      "learning_rate": 8.067509832462019e-06,
+      "loss": 0.2467,
+      "step": 240
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8754813863928113,
+      "eval_f1": 0.5174129353233831,
+      "eval_loss": 0.2581908404827118,
+      "eval_precision": 0.45614035087719296,
+      "eval_recall": 0.5977011494252874,
+      "eval_runtime": 3.0214,
+      "eval_samples_per_second": 257.831,
+      "eval_steps_per_second": 16.218,
+      "step": 240
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 15.032783508300781,
+      "learning_rate": 7.592950430552488e-06,
+      "loss": 0.2346,
+      "step": 320
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9011553273427471,
+      "eval_f1": 0.3185840707964602,
+      "eval_loss": 0.16634990274906158,
+      "eval_precision": 0.6923076923076923,
+      "eval_recall": 0.20689655172413793,
+      "eval_runtime": 3.0455,
+      "eval_samples_per_second": 255.788,
+      "eval_steps_per_second": 16.089,
+      "step": 320
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 11.804676055908203,
+      "learning_rate": 7.118391028642958e-06,
+      "loss": 0.2153,
+      "step": 400
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9037227214377407,
+      "eval_f1": 0.29906542056074764,
+      "eval_loss": 0.14412762224674225,
+      "eval_precision": 0.8,
+      "eval_recall": 0.1839080459770115,
+      "eval_runtime": 3.0668,
+      "eval_samples_per_second": 254.013,
+      "eval_steps_per_second": 15.978,
+      "step": 400
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 38.897178649902344,
+      "learning_rate": 6.643831626733427e-06,
+      "loss": 0.2003,
+      "step": 480
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8267008985879333,
+      "eval_f1": 0.47058823529411764,
+      "eval_loss": 0.2783520519733429,
+      "eval_precision": 0.35714285714285715,
+      "eval_recall": 0.6896551724137931,
+      "eval_runtime": 3.1385,
+      "eval_samples_per_second": 248.208,
+      "eval_steps_per_second": 15.613,
+      "step": 480
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 46.657535552978516,
+      "learning_rate": 6.169272224823897e-06,
+      "loss": 0.1806,
+      "step": 560
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8998716302952503,
+      "eval_f1": 0.5617977528089888,
+      "eval_loss": 0.16373790800571442,
+      "eval_precision": 0.5494505494505495,
+      "eval_recall": 0.5747126436781609,
+      "eval_runtime": 3.0921,
+      "eval_samples_per_second": 251.934,
+      "eval_steps_per_second": 15.847,
+      "step": 560
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 1600,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4630799707588824.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-560/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0557217f2922d1d78cae1ace55d5bb55927ee532e76734b644ec3800e9deef52
+size 5496

checkpoint-560/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "FacebookAI/roberta-large",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "not selected",
+    "1": "selected"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "not selected": "0",
+    "selected": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9167951d5fef326c9b79b320958979c6cd9e2dacb6826c98362cbd99f47898a4
+size 1421495416

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0557217f2922d1d78cae1ace55d5bb55927ee532e76734b644ec3800e9deef52
+size 5496

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff