Anwaarma commited on May 11, 2025

Commit

e404cf5

verified ·

1 Parent(s): cb8f7af

Training in progress, step 500

Browse files

Files changed (47) hide show

config.json +26 -0
model.safetensors +3 -0
run-0/checkpoint-1000/config.json +26 -0
run-0/checkpoint-1000/model.safetensors +3 -0
run-0/checkpoint-1000/optimizer.pt +3 -0
run-0/checkpoint-1000/rng_state.pth +3 -0
run-0/checkpoint-1000/scaler.pt +3 -0
run-0/checkpoint-1000/scheduler.pt +3 -0
run-0/checkpoint-1000/special_tokens_map.json +51 -0
run-0/checkpoint-1000/tokenizer.json +0 -0
run-0/checkpoint-1000/tokenizer_config.json +62 -0
run-0/checkpoint-1000/trainer_state.json +368 -0
run-0/checkpoint-1000/training_args.bin +3 -0
run-0/checkpoint-500/config.json +26 -0
run-0/checkpoint-500/model.safetensors +3 -0
run-0/checkpoint-500/optimizer.pt +3 -0
run-0/checkpoint-500/rng_state.pth +3 -0
run-0/checkpoint-500/scaler.pt +3 -0
run-0/checkpoint-500/scheduler.pt +3 -0
run-0/checkpoint-500/special_tokens_map.json +51 -0
run-0/checkpoint-500/tokenizer.json +0 -0
run-0/checkpoint-500/tokenizer_config.json +62 -0
run-0/checkpoint-500/trainer_state.json +208 -0
run-0/checkpoint-500/training_args.bin +3 -0
run-1/checkpoint-500/config.json +26 -0
run-1/checkpoint-500/model.safetensors +3 -0
run-1/checkpoint-500/optimizer.pt +3 -0
run-1/checkpoint-500/rng_state.pth +3 -0
run-1/checkpoint-500/scaler.pt +3 -0
run-1/checkpoint-500/scheduler.pt +3 -0
run-1/checkpoint-500/special_tokens_map.json +51 -0
run-1/checkpoint-500/tokenizer.json +0 -0
run-1/checkpoint-500/tokenizer_config.json +62 -0
run-1/checkpoint-500/trainer_state.json +208 -0
run-1/checkpoint-500/training_args.bin +3 -0
runs/May10_21-55-16_kestrel-03/events.out.tfevents.1746910538.kestrel-03.184643.0 +3 -0
runs/May10_22-05-26_kestrel-03/events.out.tfevents.1746911132.kestrel-03.185312.0 +3 -0
runs/May10_22-21-59_eagle-02/events.out.tfevents.1746912125.eagle-02.560110.0 +3 -0
runs/May10_22-25-58_eagle-01/events.out.tfevents.1746912364.eagle-01.185430.0 +3 -0
runs/May10_22-33-08_eagle-01/events.out.tfevents.1746912790.eagle-01.185992.0 +3 -0
runs/May10_22-38-30_eagle-01/events.out.tfevents.1746913111.eagle-01.186318.0 +3 -0
runs/May11_11-11-27_falcon-05/events.out.tfevents.1746958290.falcon-05.265234.0 +3 -0
runs/May11_11-11-27_falcon-05/events.out.tfevents.1746958443.falcon-05.265234.1 +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +62 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 130,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 30000
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23b32e402598ca88acd5d632ade7854e4a965519b9c271006ca11d9a6fb458a8
+size 435179080

run-0/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 130,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 30000
+}

run-0/checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ac632e969d522739039e6a88d009a09be08b04d8f01bc23f3d8f70fb67130e2
+size 435179080

run-0/checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e62af9e74e73f616420b83c02f7cb3b38132a29943deaca12ca25dfea54a6fd
+size 870478475

run-0/checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a381048e72fe1109ff86010097edd3b4d1b6fd2f4426abab234534dc310be96a
+size 14645

run-0/checkpoint-1000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f87f789072d9b79c9157eb9688b945a42852694f1f091923d2b8df6e7321f08
+size 1383

run-0/checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec4cd42a30394b70aa166ac98c27dae831ccdf8b9e7716e3c455595157266777
+size 1465

run-0/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-0/checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_length": 128,
+  "model_max_length": 128,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "stride": 0,
+  "tokenizer_class": "PreTrainedTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

run-0/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,368 @@

+{
+  "best_global_step": 1000,
+  "best_metric": 0.8606300925228798,
+  "best_model_checkpoint": "./robertuito-esp/run-0/checkpoint-1000",
+  "epoch": 0.15654351909830932,
+  "eval_steps": 50,
+  "global_step": 1000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.007827175954915467,
+      "grad_norm": 19.564104080200195,
+      "learning_rate": 1.2465069045357695e-05,
+      "loss": 0.7153,
+      "step": 50
+    },
+    {
+      "epoch": 0.007827175954915467,
+      "eval_f1": 0.5814973293844199,
+      "eval_loss": 0.66972416639328,
+      "eval_runtime": 2.1927,
+      "eval_samples_per_second": 446.933,
+      "eval_steps_per_second": 111.733,
+      "step": 50
+    },
+    {
+      "epoch": 0.015654351909830933,
+      "grad_norm": 6.274869918823242,
+      "learning_rate": 1.2451395392864412e-05,
+      "loss": 0.723,
+      "step": 100
+    },
+    {
+      "epoch": 0.015654351909830933,
+      "eval_f1": 0.5240407965031568,
+      "eval_loss": 0.6730000376701355,
+      "eval_runtime": 2.2102,
+      "eval_samples_per_second": 443.407,
+      "eval_steps_per_second": 110.852,
+      "step": 100
+    },
+    {
+      "epoch": 0.023481527864746398,
+      "grad_norm": 12.325215339660645,
+      "learning_rate": 1.243744268623861e-05,
+      "loss": 0.7258,
+      "step": 150
+    },
+    {
+      "epoch": 0.023481527864746398,
+      "eval_f1": 0.6702165564749198,
+      "eval_loss": 0.618554949760437,
+      "eval_runtime": 2.1668,
+      "eval_samples_per_second": 452.276,
+      "eval_steps_per_second": 113.069,
+      "step": 150
+    },
+    {
+      "epoch": 0.031308703819661866,
+      "grad_norm": 7.337674140930176,
+      "learning_rate": 1.242348997961281e-05,
+      "loss": 0.6409,
+      "step": 200
+    },
+    {
+      "epoch": 0.031308703819661866,
+      "eval_f1": 0.6504815944850184,
+      "eval_loss": 0.629406750202179,
+      "eval_runtime": 2.2116,
+      "eval_samples_per_second": 443.123,
+      "eval_steps_per_second": 110.781,
+      "step": 200
+    },
+    {
+      "epoch": 0.03913587977457733,
+      "grad_norm": 11.70043659210205,
+      "learning_rate": 1.240953727298701e-05,
+      "loss": 0.6825,
+      "step": 250
+    },
+    {
+      "epoch": 0.03913587977457733,
+      "eval_f1": 0.6294069289489137,
+      "eval_loss": 0.6766626238822937,
+      "eval_runtime": 2.1929,
+      "eval_samples_per_second": 446.898,
+      "eval_steps_per_second": 111.725,
+      "step": 250
+    },
+    {
+      "epoch": 0.046963055729492796,
+      "grad_norm": 20.191137313842773,
+      "learning_rate": 1.239558456636121e-05,
+      "loss": 0.6583,
+      "step": 300
+    },
+    {
+      "epoch": 0.046963055729492796,
+      "eval_f1": 0.7144522144522144,
+      "eval_loss": 0.5963508486747742,
+      "eval_runtime": 2.1548,
+      "eval_samples_per_second": 454.799,
+      "eval_steps_per_second": 113.7,
+      "step": 300
+    },
+    {
+      "epoch": 0.05479023168440827,
+      "grad_norm": 10.917688369750977,
+      "learning_rate": 1.2381910913867924e-05,
+      "loss": 0.6621,
+      "step": 350
+    },
+    {
+      "epoch": 0.05479023168440827,
+      "eval_f1": 0.7455362231951733,
+      "eval_loss": 0.5801416635513306,
+      "eval_runtime": 2.1278,
+      "eval_samples_per_second": 460.569,
+      "eval_steps_per_second": 115.142,
+      "step": 350
+    },
+    {
+      "epoch": 0.06261740763932373,
+      "grad_norm": 2.700626850128174,
+      "learning_rate": 1.2367958207242124e-05,
+      "loss": 0.6045,
+      "step": 400
+    },
+    {
+      "epoch": 0.06261740763932373,
+      "eval_f1": 0.7608345960078264,
+      "eval_loss": 0.5664511919021606,
+      "eval_runtime": 2.1741,
+      "eval_samples_per_second": 450.751,
+      "eval_steps_per_second": 112.688,
+      "step": 400
+    },
+    {
+      "epoch": 0.0704445835942392,
+      "grad_norm": 41.931392669677734,
+      "learning_rate": 1.2354005500616322e-05,
+      "loss": 0.642,
+      "step": 450
+    },
+    {
+      "epoch": 0.0704445835942392,
+      "eval_f1": 0.7535545438244311,
+      "eval_loss": 0.6086084842681885,
+      "eval_runtime": 2.1637,
+      "eval_samples_per_second": 452.937,
+      "eval_steps_per_second": 113.234,
+      "step": 450
+    },
+    {
+      "epoch": 0.07827175954915466,
+      "grad_norm": 14.928444862365723,
+      "learning_rate": 1.2340052793990522e-05,
+      "loss": 0.5615,
+      "step": 500
+    },
+    {
+      "epoch": 0.07827175954915466,
+      "eval_f1": 0.7875816993464052,
+      "eval_loss": 0.5279112458229065,
+      "eval_runtime": 2.1932,
+      "eval_samples_per_second": 446.837,
+      "eval_steps_per_second": 111.709,
+      "step": 500
+    },
+    {
+      "epoch": 0.08609893550407013,
+      "grad_norm": 0.15141427516937256,
+      "learning_rate": 1.2326100087364722e-05,
+      "loss": 0.6715,
+      "step": 550
+    },
+    {
+      "epoch": 0.08609893550407013,
+      "eval_f1": 0.802000408246581,
+      "eval_loss": 0.49675270915031433,
+      "eval_runtime": 2.3287,
+      "eval_samples_per_second": 420.836,
+      "eval_steps_per_second": 105.209,
+      "step": 550
+    },
+    {
+      "epoch": 0.09392611145898559,
+      "grad_norm": 67.29998779296875,
+      "learning_rate": 1.2312147380738922e-05,
+      "loss": 0.6121,
+      "step": 600
+    },
+    {
+      "epoch": 0.09392611145898559,
+      "eval_f1": 0.818196977592496,
+      "eval_loss": 0.48247167468070984,
+      "eval_runtime": 2.3577,
+      "eval_samples_per_second": 415.654,
+      "eval_steps_per_second": 103.914,
+      "step": 600
+    },
+    {
+      "epoch": 0.10175328741390106,
+      "grad_norm": 47.65116882324219,
+      "learning_rate": 1.2298194674113121e-05,
+      "loss": 0.6235,
+      "step": 650
+    },
+    {
+      "epoch": 0.10175328741390106,
+      "eval_f1": 0.8135306553911205,
+      "eval_loss": 0.46964216232299805,
+      "eval_runtime": 2.3043,
+      "eval_samples_per_second": 425.285,
+      "eval_steps_per_second": 106.321,
+      "step": 650
+    },
+    {
+      "epoch": 0.10958046336881654,
+      "grad_norm": 64.26823425292969,
+      "learning_rate": 1.228424196748732e-05,
+      "loss": 0.5202,
+      "step": 700
+    },
+    {
+      "epoch": 0.10958046336881654,
+      "eval_f1": 0.8239942528735633,
+      "eval_loss": 0.4604596197605133,
+      "eval_runtime": 2.2844,
+      "eval_samples_per_second": 428.995,
+      "eval_steps_per_second": 107.249,
+      "step": 700
+    },
+    {
+      "epoch": 0.117407639323732,
+      "grad_norm": 18.147687911987305,
+      "learning_rate": 1.227028926086152e-05,
+      "loss": 0.4495,
+      "step": 750
+    },
+    {
+      "epoch": 0.117407639323732,
+      "eval_f1": 0.8460610477901906,
+      "eval_loss": 0.4548790156841278,
+      "eval_runtime": 2.2457,
+      "eval_samples_per_second": 436.391,
+      "eval_steps_per_second": 109.098,
+      "step": 750
+    },
+    {
+      "epoch": 0.12523481527864747,
+      "grad_norm": 0.5921919941902161,
+      "learning_rate": 1.225633655423572e-05,
+      "loss": 0.3791,
+      "step": 800
+    },
+    {
+      "epoch": 0.12523481527864747,
+      "eval_f1": 0.7905613416348929,
+      "eval_loss": 0.5360157489776611,
+      "eval_runtime": 2.189,
+      "eval_samples_per_second": 447.699,
+      "eval_steps_per_second": 111.925,
+      "step": 800
+    },
+    {
+      "epoch": 0.13306199123356294,
+      "grad_norm": 18.999170303344727,
+      "learning_rate": 1.2242383847609919e-05,
+      "loss": 0.4911,
+      "step": 850
+    },
+    {
+      "epoch": 0.13306199123356294,
+      "eval_f1": 0.840813674530188,
+      "eval_loss": 0.46410810947418213,
+      "eval_runtime": 2.1583,
+      "eval_samples_per_second": 454.058,
+      "eval_steps_per_second": 113.514,
+      "step": 850
+    },
+    {
+      "epoch": 0.1408891671884784,
+      "grad_norm": 26.950950622558594,
+      "learning_rate": 1.2228431140984119e-05,
+      "loss": 0.5958,
+      "step": 900
+    },
+    {
+      "epoch": 0.1408891671884784,
+      "eval_f1": 0.8473905723905724,
+      "eval_loss": 0.43761199712753296,
+      "eval_runtime": 2.1666,
+      "eval_samples_per_second": 452.312,
+      "eval_steps_per_second": 113.078,
+      "step": 900
+    },
+    {
+      "epoch": 0.14871634314339385,
+      "grad_norm": 0.00022970873396843672,
+      "learning_rate": 1.2214478434358317e-05,
+      "loss": 0.5189,
+      "step": 950
+    },
+    {
+      "epoch": 0.14871634314339385,
+      "eval_f1": 0.8488183986257734,
+      "eval_loss": 0.45094814896583557,
+      "eval_runtime": 2.1617,
+      "eval_samples_per_second": 453.351,
+      "eval_steps_per_second": 113.338,
+      "step": 950
+    },
+    {
+      "epoch": 0.15654351909830932,
+      "grad_norm": 2.4208905696868896,
+      "learning_rate": 1.2200525727732517e-05,
+      "loss": 0.4722,
+      "step": 1000
+    },
+    {
+      "epoch": 0.15654351909830932,
+      "eval_f1": 0.8606300925228798,
+      "eval_loss": 0.44244199991226196,
+      "eval_runtime": 2.1775,
+      "eval_samples_per_second": 450.049,
+      "eval_steps_per_second": 112.512,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 44716,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 21893203694340.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.2478184589585948e-05,
+    "num_train_epochs": 7,
+    "per_device_train_batch_size": 1,
+    "weight_decay": 0.05945867605206346
+  }
+}

run-0/checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:755cd6f28e7767e2abb9d2f1a8dceef555a9ce6bfa3b12742b43177292af4d13
+size 5777

run-0/checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 130,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 30000
+}

run-0/checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7335ac0549eefd160bda7ef9753f8da182b7892fd483414aec8254da1011ab0
+size 435179080

run-0/checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f0d69a17a9039c18d4344cf22338ca2a838db5cd53546c6694f9df63ab693b0
+size 870478475

run-0/checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13e906f66e903280d52015bfe82ad0b677e22105864a77948b2c10c8d250d8f6
+size 14645

run-0/checkpoint-500/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d265aedd04ff4f51f4f09b5269b650135e64e396997f15e9ed8ca76ab092a354
+size 1383

run-0/checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a532aad0cc7978f5f1963c3fb78c79918442fb54e0d68a2d1a6fbc6eb4707cf
+size 1465

run-0/checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-0/checkpoint-500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_length": 128,
+  "model_max_length": 128,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "stride": 0,
+  "tokenizer_class": "PreTrainedTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

run-0/checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "best_global_step": 500,
+  "best_metric": 0.7875816993464052,
+  "best_model_checkpoint": "./robertuito-esp/run-0/checkpoint-500",
+  "epoch": 0.07827175954915466,
+  "eval_steps": 50,
+  "global_step": 500,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.007827175954915467,
+      "grad_norm": 19.564104080200195,
+      "learning_rate": 1.2465069045357695e-05,
+      "loss": 0.7153,
+      "step": 50
+    },
+    {
+      "epoch": 0.007827175954915467,
+      "eval_f1": 0.5814973293844199,
+      "eval_loss": 0.66972416639328,
+      "eval_runtime": 2.1927,
+      "eval_samples_per_second": 446.933,
+      "eval_steps_per_second": 111.733,
+      "step": 50
+    },
+    {
+      "epoch": 0.015654351909830933,
+      "grad_norm": 6.274869918823242,
+      "learning_rate": 1.2451395392864412e-05,
+      "loss": 0.723,
+      "step": 100
+    },
+    {
+      "epoch": 0.015654351909830933,
+      "eval_f1": 0.5240407965031568,
+      "eval_loss": 0.6730000376701355,
+      "eval_runtime": 2.2102,
+      "eval_samples_per_second": 443.407,
+      "eval_steps_per_second": 110.852,
+      "step": 100
+    },
+    {
+      "epoch": 0.023481527864746398,
+      "grad_norm": 12.325215339660645,
+      "learning_rate": 1.243744268623861e-05,
+      "loss": 0.7258,
+      "step": 150
+    },
+    {
+      "epoch": 0.023481527864746398,
+      "eval_f1": 0.6702165564749198,
+      "eval_loss": 0.618554949760437,
+      "eval_runtime": 2.1668,
+      "eval_samples_per_second": 452.276,
+      "eval_steps_per_second": 113.069,
+      "step": 150
+    },
+    {
+      "epoch": 0.031308703819661866,
+      "grad_norm": 7.337674140930176,
+      "learning_rate": 1.242348997961281e-05,
+      "loss": 0.6409,
+      "step": 200
+    },
+    {
+      "epoch": 0.031308703819661866,
+      "eval_f1": 0.6504815944850184,
+      "eval_loss": 0.629406750202179,
+      "eval_runtime": 2.2116,
+      "eval_samples_per_second": 443.123,
+      "eval_steps_per_second": 110.781,
+      "step": 200
+    },
+    {
+      "epoch": 0.03913587977457733,
+      "grad_norm": 11.70043659210205,
+      "learning_rate": 1.240953727298701e-05,
+      "loss": 0.6825,
+      "step": 250
+    },
+    {
+      "epoch": 0.03913587977457733,
+      "eval_f1": 0.6294069289489137,
+      "eval_loss": 0.6766626238822937,
+      "eval_runtime": 2.1929,
+      "eval_samples_per_second": 446.898,
+      "eval_steps_per_second": 111.725,
+      "step": 250
+    },
+    {
+      "epoch": 0.046963055729492796,
+      "grad_norm": 20.191137313842773,
+      "learning_rate": 1.239558456636121e-05,
+      "loss": 0.6583,
+      "step": 300
+    },
+    {
+      "epoch": 0.046963055729492796,
+      "eval_f1": 0.7144522144522144,
+      "eval_loss": 0.5963508486747742,
+      "eval_runtime": 2.1548,
+      "eval_samples_per_second": 454.799,
+      "eval_steps_per_second": 113.7,
+      "step": 300
+    },
+    {
+      "epoch": 0.05479023168440827,
+      "grad_norm": 10.917688369750977,
+      "learning_rate": 1.2381910913867924e-05,
+      "loss": 0.6621,
+      "step": 350
+    },
+    {
+      "epoch": 0.05479023168440827,
+      "eval_f1": 0.7455362231951733,
+      "eval_loss": 0.5801416635513306,
+      "eval_runtime": 2.1278,
+      "eval_samples_per_second": 460.569,
+      "eval_steps_per_second": 115.142,
+      "step": 350
+    },
+    {
+      "epoch": 0.06261740763932373,
+      "grad_norm": 2.700626850128174,
+      "learning_rate": 1.2367958207242124e-05,
+      "loss": 0.6045,
+      "step": 400
+    },
+    {
+      "epoch": 0.06261740763932373,
+      "eval_f1": 0.7608345960078264,
+      "eval_loss": 0.5664511919021606,
+      "eval_runtime": 2.1741,
+      "eval_samples_per_second": 450.751,
+      "eval_steps_per_second": 112.688,
+      "step": 400
+    },
+    {
+      "epoch": 0.0704445835942392,
+      "grad_norm": 41.931392669677734,
+      "learning_rate": 1.2354005500616322e-05,
+      "loss": 0.642,
+      "step": 450
+    },
+    {
+      "epoch": 0.0704445835942392,
+      "eval_f1": 0.7535545438244311,
+      "eval_loss": 0.6086084842681885,
+      "eval_runtime": 2.1637,
+      "eval_samples_per_second": 452.937,
+      "eval_steps_per_second": 113.234,
+      "step": 450
+    },
+    {
+      "epoch": 0.07827175954915466,
+      "grad_norm": 14.928444862365723,
+      "learning_rate": 1.2340052793990522e-05,
+      "loss": 0.5615,
+      "step": 500
+    },
+    {
+      "epoch": 0.07827175954915466,
+      "eval_f1": 0.7875816993464052,
+      "eval_loss": 0.5279112458229065,
+      "eval_runtime": 2.1932,
+      "eval_samples_per_second": 446.837,
+      "eval_steps_per_second": 111.709,
+      "step": 500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 44716,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 11053747657800.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.2478184589585948e-05,
+    "num_train_epochs": 7,
+    "per_device_train_batch_size": 1,
+    "weight_decay": 0.05945867605206346
+  }
+}

run-0/checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:755cd6f28e7767e2abb9d2f1a8dceef555a9ce6bfa3b12742b43177292af4d13
+size 5777

run-1/checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 130,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 30000
+}

run-1/checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23b32e402598ca88acd5d632ade7854e4a965519b9c271006ca11d9a6fb458a8
+size 435179080

run-1/checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e992a490bfae20571b9b6cf61085460490f94b12700007b1978d88ee6409bc6
+size 870478475

run-1/checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:619776da0951c1c4afacf4e47900ce6d06a79bfce504c0895e1cd1bce504069e
+size 14645

run-1/checkpoint-500/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f3f0dacd62ed0c1d0cf61c392d53c17c34d60cdb864c1f50aae811adb62ad00
+size 1383

run-1/checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32c7835cc2414546ba3315e7af0e069872bc1fb2791ab8b70fe0ab170fe10087
+size 1465

run-1/checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-1/checkpoint-500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_length": 128,
+  "model_max_length": 128,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "stride": 0,
+  "tokenizer_class": "PreTrainedTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

run-1/checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "best_global_step": 450,
+  "best_metric": 0.868959868959869,
+  "best_model_checkpoint": null,
+  "epoch": 0.31308703819661865,
+  "eval_steps": 50,
+  "global_step": 500,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.031308703819661866,
+      "grad_norm": 8.278752326965332,
+      "learning_rate": 1.4608659906664293e-05,
+      "loss": 0.6911,
+      "step": 50
+    },
+    {
+      "epoch": 0.031308703819661866,
+      "eval_f1": 0.6744135183690473,
+      "eval_loss": 0.6388781070709229,
+      "eval_runtime": 2.17,
+      "eval_samples_per_second": 451.608,
+      "eval_steps_per_second": 112.902,
+      "step": 50
+    },
+    {
+      "epoch": 0.06261740763932373,
+      "grad_norm": 7.287458419799805,
+      "learning_rate": 1.4551272022052947e-05,
+      "loss": 0.6292,
+      "step": 100
+    },
+    {
+      "epoch": 0.06261740763932373,
+      "eval_f1": 0.7405039802177549,
+      "eval_loss": 0.5760383009910583,
+      "eval_runtime": 2.1717,
+      "eval_samples_per_second": 451.262,
+      "eval_steps_per_second": 112.816,
+      "step": 100
+    },
+    {
+      "epoch": 0.09392611145898559,
+      "grad_norm": 9.542899131774902,
+      "learning_rate": 1.4493884137441602e-05,
+      "loss": 0.61,
+      "step": 150
+    },
+    {
+      "epoch": 0.09392611145898559,
+      "eval_f1": 0.7517948717948717,
+      "eval_loss": 0.5416612029075623,
+      "eval_runtime": 2.1902,
+      "eval_samples_per_second": 447.454,
+      "eval_steps_per_second": 111.864,
+      "step": 150
+    },
+    {
+      "epoch": 0.12523481527864747,
+      "grad_norm": 7.49862813949585,
+      "learning_rate": 1.4436496252830255e-05,
+      "loss": 0.5278,
+      "step": 200
+    },
+    {
+      "epoch": 0.12523481527864747,
+      "eval_f1": 0.7796941838408146,
+      "eval_loss": 0.4883626699447632,
+      "eval_runtime": 2.1941,
+      "eval_samples_per_second": 446.649,
+      "eval_steps_per_second": 111.662,
+      "step": 200
+    },
+    {
+      "epoch": 0.15654351909830932,
+      "grad_norm": 10.641839981079102,
+      "learning_rate": 1.437910836821891e-05,
+      "loss": 0.5119,
+      "step": 250
+    },
+    {
+      "epoch": 0.15654351909830932,
+      "eval_f1": 0.8223890608660148,
+      "eval_loss": 0.45297476649284363,
+      "eval_runtime": 2.1824,
+      "eval_samples_per_second": 449.042,
+      "eval_steps_per_second": 112.261,
+      "step": 250
+    },
+    {
+      "epoch": 0.18785222291797118,
+      "grad_norm": 12.158267974853516,
+      "learning_rate": 1.432286824129979e-05,
+      "loss": 0.5144,
+      "step": 300
+    },
+    {
+      "epoch": 0.18785222291797118,
+      "eval_f1": 0.84075,
+      "eval_loss": 0.4445246160030365,
+      "eval_runtime": 2.1904,
+      "eval_samples_per_second": 447.415,
+      "eval_steps_per_second": 111.854,
+      "step": 300
+    },
+    {
+      "epoch": 0.21916092673763307,
+      "grad_norm": 3.415942668914795,
+      "learning_rate": 1.4265480356688443e-05,
+      "loss": 0.4357,
+      "step": 350
+    },
+    {
+      "epoch": 0.21916092673763307,
+      "eval_f1": 0.8448953751832601,
+      "eval_loss": 0.4431275427341461,
+      "eval_runtime": 2.1418,
+      "eval_samples_per_second": 457.551,
+      "eval_steps_per_second": 114.388,
+      "step": 350
+    },
+    {
+      "epoch": 0.25046963055729493,
+      "grad_norm": 10.299009323120117,
+      "learning_rate": 1.4208092472077096e-05,
+      "loss": 0.506,
+      "step": 400
+    },
+    {
+      "epoch": 0.25046963055729493,
+      "eval_f1": 0.8667425348624123,
+      "eval_loss": 0.423656165599823,
+      "eval_runtime": 2.2069,
+      "eval_samples_per_second": 444.056,
+      "eval_steps_per_second": 111.014,
+      "step": 400
+    },
+    {
+      "epoch": 0.2817783343769568,
+      "grad_norm": 12.57047176361084,
+      "learning_rate": 1.4150704587465751e-05,
+      "loss": 0.4393,
+      "step": 450
+    },
+    {
+      "epoch": 0.2817783343769568,
+      "eval_f1": 0.868959868959869,
+      "eval_loss": 0.4268187880516052,
+      "eval_runtime": 2.2031,
+      "eval_samples_per_second": 444.826,
+      "eval_steps_per_second": 111.207,
+      "step": 450
+    },
+    {
+      "epoch": 0.31308703819661865,
+      "grad_norm": 5.100917339324951,
+      "learning_rate": 1.4093316702854404e-05,
+      "loss": 0.4728,
+      "step": 500
+    },
+    {
+      "epoch": 0.31308703819661865,
+      "eval_f1": 0.8650813516896121,
+      "eval_loss": 0.41771137714385986,
+      "eval_runtime": 2.1879,
+      "eval_samples_per_second": 447.908,
+      "eval_steps_per_second": 111.977,
+      "step": 500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 12776,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 1
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 64618430752320.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.4663752275891186e-05,
+    "num_train_epochs": 8,
+    "per_device_train_batch_size": 4,
+    "weight_decay": 0.09441711486215941
+  }
+}

run-1/checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8cd685483891e41b5652487e985c77e8ec27d51adad32aecea426f7780676fe
+size 5777

runs/May10_21-55-16_kestrel-03/events.out.tfevents.1746910538.kestrel-03.184643.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:200cc29838a49de1571799d4daeb95bec672ec5bcdb9b2de3901d88c45e4d3cb
+size 5011

runs/May10_22-05-26_kestrel-03/events.out.tfevents.1746911132.kestrel-03.185312.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b96bbac73a6ab8342cf902fea9a5b7020652695c9e9659ec36bcd596f35db367
+size 5531

runs/May10_22-21-59_eagle-02/events.out.tfevents.1746912125.eagle-02.560110.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a33d067ed160b902bc8a60c83af6c6c1406044832db2a13e982630f191050207
+size 5010

runs/May10_22-25-58_eagle-01/events.out.tfevents.1746912364.eagle-01.185430.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d5acb1dc42b9888b435ae10a5b0ab7f652a2f8c520e7026212acaa00add2412
+size 5009

runs/May10_22-33-08_eagle-01/events.out.tfevents.1746912790.eagle-01.185992.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26aaa070458923bb21ebb8bfd7bd5951eef269f3e89aa369e32b5fedbd2f4066
+size 5008

runs/May10_22-38-30_eagle-01/events.out.tfevents.1746913111.eagle-01.186318.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73599df05e49387918471a0c9059368011d37488904cb9e220550472b72158a2
+size 5010

runs/May11_11-11-27_falcon-05/events.out.tfevents.1746958290.falcon-05.265234.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c41776648afdf73f1f1c13e8bce41d1450adc66d8ece8373a663c50b115699c
+size 20656

runs/May11_11-11-27_falcon-05/events.out.tfevents.1746958443.falcon-05.265234.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a88a4dc3d80abe5dd28b0d9c8ae04c8c258970eaace112e56a0e229e7780b5c7
+size 10481

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_length": 128,
+  "model_max_length": 128,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "stride": 0,
+  "tokenizer_class": "PreTrainedTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8cd685483891e41b5652487e985c77e8ec27d51adad32aecea426f7780676fe
+size 5777