DuckyDuck123 commited on 8 days ago

Commit

fdbfa85

verified ·

1 Parent(s): 1f8a38d

Upload folder using huggingface_hub

Browse files

Files changed (40) hide show

checkpoint-1563/config.json +29 -0
checkpoint-1563/model.safetensors +3 -0
checkpoint-1563/optimizer.pt +3 -0
checkpoint-1563/rng_state.pth +3 -0
checkpoint-1563/scheduler.pt +3 -0
checkpoint-1563/trainer_state.json +151 -0
checkpoint-1563/training_args.bin +3 -0
checkpoint-3126/config.json +29 -0
checkpoint-3126/model.safetensors +3 -0
checkpoint-3126/optimizer.pt +3 -0
checkpoint-3126/rng_state.pth +3 -0
checkpoint-3126/scheduler.pt +3 -0
checkpoint-3126/trainer_state.json +275 -0
checkpoint-3126/training_args.bin +3 -0
checkpoint-4689/config.json +29 -0
checkpoint-4689/model.safetensors +3 -0
checkpoint-4689/optimizer.pt +3 -0
checkpoint-4689/rng_state.pth +3 -0
checkpoint-4689/scheduler.pt +3 -0
checkpoint-4689/trainer_state.json +392 -0
checkpoint-4689/training_args.bin +3 -0
checkpoint-6252/config.json +29 -0
checkpoint-6252/model.safetensors +3 -0
checkpoint-6252/optimizer.pt +3 -0
checkpoint-6252/rng_state.pth +3 -0
checkpoint-6252/scheduler.pt +3 -0
checkpoint-6252/trainer_state.json +516 -0
checkpoint-6252/training_args.bin +3 -0
checkpoint-7815/config.json +29 -0
checkpoint-7815/model.safetensors +3 -0
checkpoint-7815/optimizer.pt +3 -0
checkpoint-7815/rng_state.pth +3 -0
checkpoint-7815/scheduler.pt +3 -0
checkpoint-7815/trainer_state.json +640 -0
checkpoint-7815/training_args.bin +3 -0
config.json +8 -5
model.safetensors +2 -2
tokenizer.json +0 -0
tokenizer_config.json +3 -46
training_args.bin +2 -2

checkpoint-1563/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": null,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 30522
+}

checkpoint-1563/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b21739cbb462f3171b180a97a73ab2d20e5a11411b00bc6b500dae999c83f1e6
+size 17549304

checkpoint-1563/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a256413bfa7f410b39b9495f90fafd978f30ad1026d358d70d6b8c5b59a6d8bd
+size 35124939

checkpoint-1563/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cecc51cab2a0807d9bab78751494474272ab74c5227da8b3cc7f8fd53049599e
+size 14645

checkpoint-1563/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b066d688f632c8d3d7598b3c6230abba0dd07074b69c51c980fad111fb859277
+size 1465

checkpoint-1563/trainer_state.json ADDED Viewed

	@@ -0,0 +1,151 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1563,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06397952655150352,
+      "grad_norm": 2.6240322589874268,
+      "learning_rate": 1.974664107485605e-05,
+      "loss": 0.692889175415039,
+      "step": 100
+    },
+    {
+      "epoch": 0.12795905310300704,
+      "grad_norm": 1.6500952243804932,
+      "learning_rate": 1.9490722968650032e-05,
+      "loss": 0.6690621948242188,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 5.539139747619629,
+      "learning_rate": 1.923480486244402e-05,
+      "loss": 0.6443107604980469,
+      "step": 300
+    },
+    {
+      "epoch": 0.2559181062060141,
+      "grad_norm": 9.561639785766602,
+      "learning_rate": 1.8978886756238006e-05,
+      "loss": 0.6174827194213868,
+      "step": 400
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "grad_norm": 3.9405109882354736,
+      "learning_rate": 1.8722968650031992e-05,
+      "loss": 0.603485221862793,
+      "step": 500
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 5.654637336730957,
+      "learning_rate": 1.846705054382598e-05,
+      "loss": 0.5690624237060546,
+      "step": 600
+    },
+    {
+      "epoch": 0.44785668586052463,
+      "grad_norm": 6.288730144500732,
+      "learning_rate": 1.8211132437619962e-05,
+      "loss": 0.5585448455810547,
+      "step": 700
+    },
+    {
+      "epoch": 0.5118362124120281,
+      "grad_norm": 7.303677558898926,
+      "learning_rate": 1.795521433141395e-05,
+      "loss": 0.5453743362426757,
+      "step": 800
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 4.167948246002197,
+      "learning_rate": 1.7699296225207935e-05,
+      "loss": 0.5284878540039063,
+      "step": 900
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "grad_norm": 6.335079669952393,
+      "learning_rate": 1.744337811900192e-05,
+      "loss": 0.497203369140625,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7037747920665387,
+      "grad_norm": 9.398835182189941,
+      "learning_rate": 1.7187460012795908e-05,
+      "loss": 0.4662479782104492,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 17.086259841918945,
+      "learning_rate": 1.693154190658989e-05,
+      "loss": 0.4858377456665039,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8317338451695457,
+      "grad_norm": 11.53818416595459,
+      "learning_rate": 1.6675623800383878e-05,
+      "loss": 0.45729072570800783,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8957133717210493,
+      "grad_norm": 22.93279457092285,
+      "learning_rate": 1.6419705694177864e-05,
+      "loss": 0.45677249908447265,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 15.763897895812988,
+      "learning_rate": 1.616378758797185e-05,
+      "loss": 0.4614885711669922,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.81124,
+      "eval_f1": 0.8026596411993476,
+      "eval_loss": 0.4272981286048889,
+      "eval_precision": 0.8408832033645842,
+      "eval_recall": 0.76776,
+      "eval_runtime": 16.5749,
+      "eval_samples_per_second": 1508.308,
+      "eval_steps_per_second": 94.299,
+      "step": 1563
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 7815,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 15881088000000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1563/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72e5730834fb50b731e6ed2a038bc96471cea902a782210769d571be5fa37df0
+size 5201

checkpoint-3126/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": null,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 30522
+}

checkpoint-3126/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8065680bcd8ce183b9a98d08c8fc08cd68e1663654b8b7e61d21999d4a0aa756
+size 17549304

checkpoint-3126/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58b45ba52cc295e984559e3f471eff90e1a79d953bf4cf8d5279d3c7d1a5ec3a
+size 35124939

checkpoint-3126/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:938bd0d5986458918e2977526a8cbcb22bbf3e51d0d2fce4d8466e00816238c6
+size 14645

checkpoint-3126/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3467314533cca9833232039cb4699563afa5305362ec3f4f90b43047b774ea2
+size 1465

checkpoint-3126/trainer_state.json ADDED Viewed

	@@ -0,0 +1,275 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 3126,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06397952655150352,
+      "grad_norm": 2.6240322589874268,
+      "learning_rate": 1.974664107485605e-05,
+      "loss": 0.692889175415039,
+      "step": 100
+    },
+    {
+      "epoch": 0.12795905310300704,
+      "grad_norm": 1.6500952243804932,
+      "learning_rate": 1.9490722968650032e-05,
+      "loss": 0.6690621948242188,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 5.539139747619629,
+      "learning_rate": 1.923480486244402e-05,
+      "loss": 0.6443107604980469,
+      "step": 300
+    },
+    {
+      "epoch": 0.2559181062060141,
+      "grad_norm": 9.561639785766602,
+      "learning_rate": 1.8978886756238006e-05,
+      "loss": 0.6174827194213868,
+      "step": 400
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "grad_norm": 3.9405109882354736,
+      "learning_rate": 1.8722968650031992e-05,
+      "loss": 0.603485221862793,
+      "step": 500
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 5.654637336730957,
+      "learning_rate": 1.846705054382598e-05,
+      "loss": 0.5690624237060546,
+      "step": 600
+    },
+    {
+      "epoch": 0.44785668586052463,
+      "grad_norm": 6.288730144500732,
+      "learning_rate": 1.8211132437619962e-05,
+      "loss": 0.5585448455810547,
+      "step": 700
+    },
+    {
+      "epoch": 0.5118362124120281,
+      "grad_norm": 7.303677558898926,
+      "learning_rate": 1.795521433141395e-05,
+      "loss": 0.5453743362426757,
+      "step": 800
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 4.167948246002197,
+      "learning_rate": 1.7699296225207935e-05,
+      "loss": 0.5284878540039063,
+      "step": 900
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "grad_norm": 6.335079669952393,
+      "learning_rate": 1.744337811900192e-05,
+      "loss": 0.497203369140625,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7037747920665387,
+      "grad_norm": 9.398835182189941,
+      "learning_rate": 1.7187460012795908e-05,
+      "loss": 0.4662479782104492,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 17.086259841918945,
+      "learning_rate": 1.693154190658989e-05,
+      "loss": 0.4858377456665039,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8317338451695457,
+      "grad_norm": 11.53818416595459,
+      "learning_rate": 1.6675623800383878e-05,
+      "loss": 0.45729072570800783,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8957133717210493,
+      "grad_norm": 22.93279457092285,
+      "learning_rate": 1.6419705694177864e-05,
+      "loss": 0.45677249908447265,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 15.763897895812988,
+      "learning_rate": 1.616378758797185e-05,
+      "loss": 0.4614885711669922,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.81124,
+      "eval_f1": 0.8026596411993476,
+      "eval_loss": 0.4272981286048889,
+      "eval_precision": 0.8408832033645842,
+      "eval_recall": 0.76776,
+      "eval_runtime": 16.5749,
+      "eval_samples_per_second": 1508.308,
+      "eval_steps_per_second": 94.299,
+      "step": 1563
+    },
+    {
+      "epoch": 1.0236724248240563,
+      "grad_norm": 16.664216995239258,
+      "learning_rate": 1.5907869481765838e-05,
+      "loss": 0.44625389099121093,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0876519513755598,
+      "grad_norm": 23.07805824279785,
+      "learning_rate": 1.565195137555982e-05,
+      "loss": 0.44664024353027343,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 8.32645320892334,
+      "learning_rate": 1.5396033269353807e-05,
+      "loss": 0.42939315795898436,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2156110044785668,
+      "grad_norm": 7.903297424316406,
+      "learning_rate": 1.5140115163147796e-05,
+      "loss": 0.41601951599121095,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "grad_norm": 11.639277458190918,
+      "learning_rate": 1.488419705694178e-05,
+      "loss": 0.39629173278808594,
+      "step": 2000
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 6.199832916259766,
+      "learning_rate": 1.4628278950735765e-05,
+      "loss": 0.3827814102172852,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4075495841330774,
+      "grad_norm": 17.21854019165039,
+      "learning_rate": 1.4372360844529752e-05,
+      "loss": 0.41142051696777343,
+      "step": 2200
+    },
+    {
+      "epoch": 1.471529110684581,
+      "grad_norm": 15.716930389404297,
+      "learning_rate": 1.4116442738323737e-05,
+      "loss": 0.38613304138183596,
+      "step": 2300
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 6.01155948638916,
+      "learning_rate": 1.3860524632117725e-05,
+      "loss": 0.41208648681640625,
+      "step": 2400
+    },
+    {
+      "epoch": 1.599488163787588,
+      "grad_norm": 20.55832862854004,
+      "learning_rate": 1.360460652591171e-05,
+      "loss": 0.38446582794189454,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6634676903390915,
+      "grad_norm": 11.465950012207031,
+      "learning_rate": 1.3348688419705695e-05,
+      "loss": 0.37646575927734377,
+      "step": 2600
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 3.505220651626587,
+      "learning_rate": 1.3092770313499681e-05,
+      "loss": 0.3866144561767578,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7914267434420985,
+      "grad_norm": 27.13107681274414,
+      "learning_rate": 1.2836852207293666e-05,
+      "loss": 0.4025085830688477,
+      "step": 2800
+    },
+    {
+      "epoch": 1.855406269993602,
+      "grad_norm": 7.345473766326904,
+      "learning_rate": 1.2580934101087654e-05,
+      "loss": 0.3890159225463867,
+      "step": 2900
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 24.46322250366211,
+      "learning_rate": 1.232501599488164e-05,
+      "loss": 0.381514778137207,
+      "step": 3000
+    },
+    {
+      "epoch": 1.983365323096609,
+      "grad_norm": 6.782553195953369,
+      "learning_rate": 1.2069097888675624e-05,
+      "loss": 0.3956758499145508,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8286,
+      "eval_f1": 0.8181779607077694,
+      "eval_loss": 0.3925381898880005,
+      "eval_precision": 0.8711484593837535,
+      "eval_recall": 0.77128,
+      "eval_runtime": 18.1817,
+      "eval_samples_per_second": 1375.01,
+      "eval_steps_per_second": 85.966,
+      "step": 3126
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 7815,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 31762176000000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3126/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72e5730834fb50b731e6ed2a038bc96471cea902a782210769d571be5fa37df0
+size 5201

checkpoint-4689/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": null,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 30522
+}

checkpoint-4689/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:850cb5c7a7a3911c442eb220b5aa09f555940c165c58d2014f6a3759e9daefad
+size 17549304

checkpoint-4689/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0036c06d6d2680c7819f2f628179bf43be254bd9de48ef5dbd585ee63fd194f8
+size 35124939

checkpoint-4689/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da02765be33e2403a5cc456e72a86b6880abe7188c7c1cc9cc9ac7f65934c4d2
+size 14645

checkpoint-4689/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3f4700fb7d477d8c66661bf4df5eb8b880b1a4e61cf4a5bff3a626b214accd6
+size 1465

checkpoint-4689/trainer_state.json ADDED Viewed

	@@ -0,0 +1,392 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 4689,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06397952655150352,
+      "grad_norm": 2.6240322589874268,
+      "learning_rate": 1.974664107485605e-05,
+      "loss": 0.692889175415039,
+      "step": 100
+    },
+    {
+      "epoch": 0.12795905310300704,
+      "grad_norm": 1.6500952243804932,
+      "learning_rate": 1.9490722968650032e-05,
+      "loss": 0.6690621948242188,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 5.539139747619629,
+      "learning_rate": 1.923480486244402e-05,
+      "loss": 0.6443107604980469,
+      "step": 300
+    },
+    {
+      "epoch": 0.2559181062060141,
+      "grad_norm": 9.561639785766602,
+      "learning_rate": 1.8978886756238006e-05,
+      "loss": 0.6174827194213868,
+      "step": 400
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "grad_norm": 3.9405109882354736,
+      "learning_rate": 1.8722968650031992e-05,
+      "loss": 0.603485221862793,
+      "step": 500
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 5.654637336730957,
+      "learning_rate": 1.846705054382598e-05,
+      "loss": 0.5690624237060546,
+      "step": 600
+    },
+    {
+      "epoch": 0.44785668586052463,
+      "grad_norm": 6.288730144500732,
+      "learning_rate": 1.8211132437619962e-05,
+      "loss": 0.5585448455810547,
+      "step": 700
+    },
+    {
+      "epoch": 0.5118362124120281,
+      "grad_norm": 7.303677558898926,
+      "learning_rate": 1.795521433141395e-05,
+      "loss": 0.5453743362426757,
+      "step": 800
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 4.167948246002197,
+      "learning_rate": 1.7699296225207935e-05,
+      "loss": 0.5284878540039063,
+      "step": 900
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "grad_norm": 6.335079669952393,
+      "learning_rate": 1.744337811900192e-05,
+      "loss": 0.497203369140625,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7037747920665387,
+      "grad_norm": 9.398835182189941,
+      "learning_rate": 1.7187460012795908e-05,
+      "loss": 0.4662479782104492,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 17.086259841918945,
+      "learning_rate": 1.693154190658989e-05,
+      "loss": 0.4858377456665039,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8317338451695457,
+      "grad_norm": 11.53818416595459,
+      "learning_rate": 1.6675623800383878e-05,
+      "loss": 0.45729072570800783,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8957133717210493,
+      "grad_norm": 22.93279457092285,
+      "learning_rate": 1.6419705694177864e-05,
+      "loss": 0.45677249908447265,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 15.763897895812988,
+      "learning_rate": 1.616378758797185e-05,
+      "loss": 0.4614885711669922,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.81124,
+      "eval_f1": 0.8026596411993476,
+      "eval_loss": 0.4272981286048889,
+      "eval_precision": 0.8408832033645842,
+      "eval_recall": 0.76776,
+      "eval_runtime": 16.5749,
+      "eval_samples_per_second": 1508.308,
+      "eval_steps_per_second": 94.299,
+      "step": 1563
+    },
+    {
+      "epoch": 1.0236724248240563,
+      "grad_norm": 16.664216995239258,
+      "learning_rate": 1.5907869481765838e-05,
+      "loss": 0.44625389099121093,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0876519513755598,
+      "grad_norm": 23.07805824279785,
+      "learning_rate": 1.565195137555982e-05,
+      "loss": 0.44664024353027343,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 8.32645320892334,
+      "learning_rate": 1.5396033269353807e-05,
+      "loss": 0.42939315795898436,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2156110044785668,
+      "grad_norm": 7.903297424316406,
+      "learning_rate": 1.5140115163147796e-05,
+      "loss": 0.41601951599121095,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "grad_norm": 11.639277458190918,
+      "learning_rate": 1.488419705694178e-05,
+      "loss": 0.39629173278808594,
+      "step": 2000
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 6.199832916259766,
+      "learning_rate": 1.4628278950735765e-05,
+      "loss": 0.3827814102172852,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4075495841330774,
+      "grad_norm": 17.21854019165039,
+      "learning_rate": 1.4372360844529752e-05,
+      "loss": 0.41142051696777343,
+      "step": 2200
+    },
+    {
+      "epoch": 1.471529110684581,
+      "grad_norm": 15.716930389404297,
+      "learning_rate": 1.4116442738323737e-05,
+      "loss": 0.38613304138183596,
+      "step": 2300
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 6.01155948638916,
+      "learning_rate": 1.3860524632117725e-05,
+      "loss": 0.41208648681640625,
+      "step": 2400
+    },
+    {
+      "epoch": 1.599488163787588,
+      "grad_norm": 20.55832862854004,
+      "learning_rate": 1.360460652591171e-05,
+      "loss": 0.38446582794189454,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6634676903390915,
+      "grad_norm": 11.465950012207031,
+      "learning_rate": 1.3348688419705695e-05,
+      "loss": 0.37646575927734377,
+      "step": 2600
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 3.505220651626587,
+      "learning_rate": 1.3092770313499681e-05,
+      "loss": 0.3866144561767578,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7914267434420985,
+      "grad_norm": 27.13107681274414,
+      "learning_rate": 1.2836852207293666e-05,
+      "loss": 0.4025085830688477,
+      "step": 2800
+    },
+    {
+      "epoch": 1.855406269993602,
+      "grad_norm": 7.345473766326904,
+      "learning_rate": 1.2580934101087654e-05,
+      "loss": 0.3890159225463867,
+      "step": 2900
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 24.46322250366211,
+      "learning_rate": 1.232501599488164e-05,
+      "loss": 0.381514778137207,
+      "step": 3000
+    },
+    {
+      "epoch": 1.983365323096609,
+      "grad_norm": 6.782553195953369,
+      "learning_rate": 1.2069097888675624e-05,
+      "loss": 0.3956758499145508,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8286,
+      "eval_f1": 0.8181779607077694,
+      "eval_loss": 0.3925381898880005,
+      "eval_precision": 0.8711484593837535,
+      "eval_recall": 0.77128,
+      "eval_runtime": 18.1817,
+      "eval_samples_per_second": 1375.01,
+      "eval_steps_per_second": 85.966,
+      "step": 3126
+    },
+    {
+      "epoch": 2.0473448496481126,
+      "grad_norm": 11.411704063415527,
+      "learning_rate": 1.181317978246961e-05,
+      "loss": 0.36985355377197265,
+      "step": 3200
+    },
+    {
+      "epoch": 2.111324376199616,
+      "grad_norm": 8.180529594421387,
+      "learning_rate": 1.1557261676263596e-05,
+      "loss": 0.34660816192626953,
+      "step": 3300
+    },
+    {
+      "epoch": 2.1753039027511196,
+      "grad_norm": 14.788076400756836,
+      "learning_rate": 1.1301343570057584e-05,
+      "loss": 0.3805205154418945,
+      "step": 3400
+    },
+    {
+      "epoch": 2.239283429302623,
+      "grad_norm": 38.90132522583008,
+      "learning_rate": 1.1045425463851569e-05,
+      "loss": 0.36612781524658206,
+      "step": 3500
+    },
+    {
+      "epoch": 2.3032629558541267,
+      "grad_norm": 6.464240550994873,
+      "learning_rate": 1.0789507357645555e-05,
+      "loss": 0.3882516098022461,
+      "step": 3600
+    },
+    {
+      "epoch": 2.36724248240563,
+      "grad_norm": 12.745105743408203,
+      "learning_rate": 1.053358925143954e-05,
+      "loss": 0.37442840576171876,
+      "step": 3700
+    },
+    {
+      "epoch": 2.4312220089571337,
+      "grad_norm": 18.671857833862305,
+      "learning_rate": 1.0277671145233525e-05,
+      "loss": 0.3458353424072266,
+      "step": 3800
+    },
+    {
+      "epoch": 2.495201535508637,
+      "grad_norm": 14.760592460632324,
+      "learning_rate": 1.0021753039027513e-05,
+      "loss": 0.3635056686401367,
+      "step": 3900
+    },
+    {
+      "epoch": 2.5591810620601407,
+      "grad_norm": 3.513972282409668,
+      "learning_rate": 9.765834932821498e-06,
+      "loss": 0.33845436096191406,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6231605886116443,
+      "grad_norm": 7.455184459686279,
+      "learning_rate": 9.509916826615485e-06,
+      "loss": 0.36538402557373045,
+      "step": 4100
+    },
+    {
+      "epoch": 2.6871401151631478,
+      "grad_norm": 35.58430862426758,
+      "learning_rate": 9.25399872040947e-06,
+      "loss": 0.38003883361816404,
+      "step": 4200
+    },
+    {
+      "epoch": 2.7511196417146513,
+      "grad_norm": 28.353757858276367,
+      "learning_rate": 8.998080614203456e-06,
+      "loss": 0.334156379699707,
+      "step": 4300
+    },
+    {
+      "epoch": 2.815099168266155,
+      "grad_norm": 10.301733016967773,
+      "learning_rate": 8.742162507997441e-06,
+      "loss": 0.36084671020507814,
+      "step": 4400
+    },
+    {
+      "epoch": 2.8790786948176583,
+      "grad_norm": 8.111748695373535,
+      "learning_rate": 8.486244401791428e-06,
+      "loss": 0.3733618545532227,
+      "step": 4500
+    },
+    {
+      "epoch": 2.943058221369162,
+      "grad_norm": 7.716980934143066,
+      "learning_rate": 8.230326295585414e-06,
+      "loss": 0.37022560119628906,
+      "step": 4600
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8426,
+      "eval_f1": 0.8457286235151135,
+      "eval_loss": 0.36446496844291687,
+      "eval_precision": 0.8292457907280695,
+      "eval_recall": 0.86288,
+      "eval_runtime": 13.8616,
+      "eval_samples_per_second": 1803.544,
+      "eval_steps_per_second": 112.758,
+      "step": 4689
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 7815,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 47643264000000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4689/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72e5730834fb50b731e6ed2a038bc96471cea902a782210769d571be5fa37df0
+size 5201

checkpoint-6252/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": null,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 30522
+}

checkpoint-6252/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edcfd43658753d747967f6c65bb2850d5c3ac0e8d3d1fde9fb15be1c25f31379
+size 17549304

checkpoint-6252/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71fe50cbf9b4fd235d2a2a9d5c59532548cee90c96ac9a389f6e945c90b8cbed
+size 35124939

checkpoint-6252/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:add48656b491a29e576e41e18eeb0d936a6690b0fe71b8e7b8fb1862a5c4edfa
+size 14645

checkpoint-6252/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:632775edc5ea848beee3dfdd8bdea1dfbcfc0f819e9209a3f6b1a4c76c74812a
+size 1465

checkpoint-6252/trainer_state.json ADDED Viewed

	@@ -0,0 +1,516 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 6252,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06397952655150352,
+      "grad_norm": 2.6240322589874268,
+      "learning_rate": 1.974664107485605e-05,
+      "loss": 0.692889175415039,
+      "step": 100
+    },
+    {
+      "epoch": 0.12795905310300704,
+      "grad_norm": 1.6500952243804932,
+      "learning_rate": 1.9490722968650032e-05,
+      "loss": 0.6690621948242188,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 5.539139747619629,
+      "learning_rate": 1.923480486244402e-05,
+      "loss": 0.6443107604980469,
+      "step": 300
+    },
+    {
+      "epoch": 0.2559181062060141,
+      "grad_norm": 9.561639785766602,
+      "learning_rate": 1.8978886756238006e-05,
+      "loss": 0.6174827194213868,
+      "step": 400
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "grad_norm": 3.9405109882354736,
+      "learning_rate": 1.8722968650031992e-05,
+      "loss": 0.603485221862793,
+      "step": 500
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 5.654637336730957,
+      "learning_rate": 1.846705054382598e-05,
+      "loss": 0.5690624237060546,
+      "step": 600
+    },
+    {
+      "epoch": 0.44785668586052463,
+      "grad_norm": 6.288730144500732,
+      "learning_rate": 1.8211132437619962e-05,
+      "loss": 0.5585448455810547,
+      "step": 700
+    },
+    {
+      "epoch": 0.5118362124120281,
+      "grad_norm": 7.303677558898926,
+      "learning_rate": 1.795521433141395e-05,
+      "loss": 0.5453743362426757,
+      "step": 800
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 4.167948246002197,
+      "learning_rate": 1.7699296225207935e-05,
+      "loss": 0.5284878540039063,
+      "step": 900
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "grad_norm": 6.335079669952393,
+      "learning_rate": 1.744337811900192e-05,
+      "loss": 0.497203369140625,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7037747920665387,
+      "grad_norm": 9.398835182189941,
+      "learning_rate": 1.7187460012795908e-05,
+      "loss": 0.4662479782104492,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 17.086259841918945,
+      "learning_rate": 1.693154190658989e-05,
+      "loss": 0.4858377456665039,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8317338451695457,
+      "grad_norm": 11.53818416595459,
+      "learning_rate": 1.6675623800383878e-05,
+      "loss": 0.45729072570800783,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8957133717210493,
+      "grad_norm": 22.93279457092285,
+      "learning_rate": 1.6419705694177864e-05,
+      "loss": 0.45677249908447265,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 15.763897895812988,
+      "learning_rate": 1.616378758797185e-05,
+      "loss": 0.4614885711669922,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.81124,
+      "eval_f1": 0.8026596411993476,
+      "eval_loss": 0.4272981286048889,
+      "eval_precision": 0.8408832033645842,
+      "eval_recall": 0.76776,
+      "eval_runtime": 16.5749,
+      "eval_samples_per_second": 1508.308,
+      "eval_steps_per_second": 94.299,
+      "step": 1563
+    },
+    {
+      "epoch": 1.0236724248240563,
+      "grad_norm": 16.664216995239258,
+      "learning_rate": 1.5907869481765838e-05,
+      "loss": 0.44625389099121093,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0876519513755598,
+      "grad_norm": 23.07805824279785,
+      "learning_rate": 1.565195137555982e-05,
+      "loss": 0.44664024353027343,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 8.32645320892334,
+      "learning_rate": 1.5396033269353807e-05,
+      "loss": 0.42939315795898436,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2156110044785668,
+      "grad_norm": 7.903297424316406,
+      "learning_rate": 1.5140115163147796e-05,
+      "loss": 0.41601951599121095,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "grad_norm": 11.639277458190918,
+      "learning_rate": 1.488419705694178e-05,
+      "loss": 0.39629173278808594,
+      "step": 2000
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 6.199832916259766,
+      "learning_rate": 1.4628278950735765e-05,
+      "loss": 0.3827814102172852,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4075495841330774,
+      "grad_norm": 17.21854019165039,
+      "learning_rate": 1.4372360844529752e-05,
+      "loss": 0.41142051696777343,
+      "step": 2200
+    },
+    {
+      "epoch": 1.471529110684581,
+      "grad_norm": 15.716930389404297,
+      "learning_rate": 1.4116442738323737e-05,
+      "loss": 0.38613304138183596,
+      "step": 2300
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 6.01155948638916,
+      "learning_rate": 1.3860524632117725e-05,
+      "loss": 0.41208648681640625,
+      "step": 2400
+    },
+    {
+      "epoch": 1.599488163787588,
+      "grad_norm": 20.55832862854004,
+      "learning_rate": 1.360460652591171e-05,
+      "loss": 0.38446582794189454,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6634676903390915,
+      "grad_norm": 11.465950012207031,
+      "learning_rate": 1.3348688419705695e-05,
+      "loss": 0.37646575927734377,
+      "step": 2600
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 3.505220651626587,
+      "learning_rate": 1.3092770313499681e-05,
+      "loss": 0.3866144561767578,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7914267434420985,
+      "grad_norm": 27.13107681274414,
+      "learning_rate": 1.2836852207293666e-05,
+      "loss": 0.4025085830688477,
+      "step": 2800
+    },
+    {
+      "epoch": 1.855406269993602,
+      "grad_norm": 7.345473766326904,
+      "learning_rate": 1.2580934101087654e-05,
+      "loss": 0.3890159225463867,
+      "step": 2900
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 24.46322250366211,
+      "learning_rate": 1.232501599488164e-05,
+      "loss": 0.381514778137207,
+      "step": 3000
+    },
+    {
+      "epoch": 1.983365323096609,
+      "grad_norm": 6.782553195953369,
+      "learning_rate": 1.2069097888675624e-05,
+      "loss": 0.3956758499145508,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8286,
+      "eval_f1": 0.8181779607077694,
+      "eval_loss": 0.3925381898880005,
+      "eval_precision": 0.8711484593837535,
+      "eval_recall": 0.77128,
+      "eval_runtime": 18.1817,
+      "eval_samples_per_second": 1375.01,
+      "eval_steps_per_second": 85.966,
+      "step": 3126
+    },
+    {
+      "epoch": 2.0473448496481126,
+      "grad_norm": 11.411704063415527,
+      "learning_rate": 1.181317978246961e-05,
+      "loss": 0.36985355377197265,
+      "step": 3200
+    },
+    {
+      "epoch": 2.111324376199616,
+      "grad_norm": 8.180529594421387,
+      "learning_rate": 1.1557261676263596e-05,
+      "loss": 0.34660816192626953,
+      "step": 3300
+    },
+    {
+      "epoch": 2.1753039027511196,
+      "grad_norm": 14.788076400756836,
+      "learning_rate": 1.1301343570057584e-05,
+      "loss": 0.3805205154418945,
+      "step": 3400
+    },
+    {
+      "epoch": 2.239283429302623,
+      "grad_norm": 38.90132522583008,
+      "learning_rate": 1.1045425463851569e-05,
+      "loss": 0.36612781524658206,
+      "step": 3500
+    },
+    {
+      "epoch": 2.3032629558541267,
+      "grad_norm": 6.464240550994873,
+      "learning_rate": 1.0789507357645555e-05,
+      "loss": 0.3882516098022461,
+      "step": 3600
+    },
+    {
+      "epoch": 2.36724248240563,
+      "grad_norm": 12.745105743408203,
+      "learning_rate": 1.053358925143954e-05,
+      "loss": 0.37442840576171876,
+      "step": 3700
+    },
+    {
+      "epoch": 2.4312220089571337,
+      "grad_norm": 18.671857833862305,
+      "learning_rate": 1.0277671145233525e-05,
+      "loss": 0.3458353424072266,
+      "step": 3800
+    },
+    {
+      "epoch": 2.495201535508637,
+      "grad_norm": 14.760592460632324,
+      "learning_rate": 1.0021753039027513e-05,
+      "loss": 0.3635056686401367,
+      "step": 3900
+    },
+    {
+      "epoch": 2.5591810620601407,
+      "grad_norm": 3.513972282409668,
+      "learning_rate": 9.765834932821498e-06,
+      "loss": 0.33845436096191406,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6231605886116443,
+      "grad_norm": 7.455184459686279,
+      "learning_rate": 9.509916826615485e-06,
+      "loss": 0.36538402557373045,
+      "step": 4100
+    },
+    {
+      "epoch": 2.6871401151631478,
+      "grad_norm": 35.58430862426758,
+      "learning_rate": 9.25399872040947e-06,
+      "loss": 0.38003883361816404,
+      "step": 4200
+    },
+    {
+      "epoch": 2.7511196417146513,
+      "grad_norm": 28.353757858276367,
+      "learning_rate": 8.998080614203456e-06,
+      "loss": 0.334156379699707,
+      "step": 4300
+    },
+    {
+      "epoch": 2.815099168266155,
+      "grad_norm": 10.301733016967773,
+      "learning_rate": 8.742162507997441e-06,
+      "loss": 0.36084671020507814,
+      "step": 4400
+    },
+    {
+      "epoch": 2.8790786948176583,
+      "grad_norm": 8.111748695373535,
+      "learning_rate": 8.486244401791428e-06,
+      "loss": 0.3733618545532227,
+      "step": 4500
+    },
+    {
+      "epoch": 2.943058221369162,
+      "grad_norm": 7.716980934143066,
+      "learning_rate": 8.230326295585414e-06,
+      "loss": 0.37022560119628906,
+      "step": 4600
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8426,
+      "eval_f1": 0.8457286235151135,
+      "eval_loss": 0.36446496844291687,
+      "eval_precision": 0.8292457907280695,
+      "eval_recall": 0.86288,
+      "eval_runtime": 13.8616,
+      "eval_samples_per_second": 1803.544,
+      "eval_steps_per_second": 112.758,
+      "step": 4689
+    },
+    {
+      "epoch": 3.0070377479206654,
+      "grad_norm": 8.766412734985352,
+      "learning_rate": 7.974408189379399e-06,
+      "loss": 0.3578424835205078,
+      "step": 4700
+    },
+    {
+      "epoch": 3.071017274472169,
+      "grad_norm": 25.10895538330078,
+      "learning_rate": 7.718490083173386e-06,
+      "loss": 0.36146461486816406,
+      "step": 4800
+    },
+    {
+      "epoch": 3.1349968010236724,
+      "grad_norm": 2.3490066528320312,
+      "learning_rate": 7.462571976967371e-06,
+      "loss": 0.33738922119140624,
+      "step": 4900
+    },
+    {
+      "epoch": 3.198976327575176,
+      "grad_norm": 13.975132942199707,
+      "learning_rate": 7.206653870761356e-06,
+      "loss": 0.326907958984375,
+      "step": 5000
+    },
+    {
+      "epoch": 3.2629558541266794,
+      "grad_norm": 6.52653694152832,
+      "learning_rate": 6.950735764555343e-06,
+      "loss": 0.34798374176025393,
+      "step": 5100
+    },
+    {
+      "epoch": 3.326935380678183,
+      "grad_norm": 5.691891670227051,
+      "learning_rate": 6.694817658349328e-06,
+      "loss": 0.36636493682861326,
+      "step": 5200
+    },
+    {
+      "epoch": 3.3909149072296865,
+      "grad_norm": 25.656173706054688,
+      "learning_rate": 6.438899552143315e-06,
+      "loss": 0.3263176727294922,
+      "step": 5300
+    },
+    {
+      "epoch": 3.45489443378119,
+      "grad_norm": 10.740619659423828,
+      "learning_rate": 6.182981445937301e-06,
+      "loss": 0.36173702239990235,
+      "step": 5400
+    },
+    {
+      "epoch": 3.5188739603326935,
+      "grad_norm": 6.179443836212158,
+      "learning_rate": 5.927063339731286e-06,
+      "loss": 0.3383364486694336,
+      "step": 5500
+    },
+    {
+      "epoch": 3.582853486884197,
+      "grad_norm": 8.635146141052246,
+      "learning_rate": 5.671145233525273e-06,
+      "loss": 0.3060850715637207,
+      "step": 5600
+    },
+    {
+      "epoch": 3.6468330134357005,
+      "grad_norm": 12.844294548034668,
+      "learning_rate": 5.415227127319258e-06,
+      "loss": 0.3492905807495117,
+      "step": 5700
+    },
+    {
+      "epoch": 3.710812539987204,
+      "grad_norm": 3.7722866535186768,
+      "learning_rate": 5.159309021113244e-06,
+      "loss": 0.352115592956543,
+      "step": 5800
+    },
+    {
+      "epoch": 3.7747920665387076,
+      "grad_norm": 16.642221450805664,
+      "learning_rate": 4.90339091490723e-06,
+      "loss": 0.3466293716430664,
+      "step": 5900
+    },
+    {
+      "epoch": 3.838771593090211,
+      "grad_norm": 22.054513931274414,
+      "learning_rate": 4.647472808701216e-06,
+      "loss": 0.3272230529785156,
+      "step": 6000
+    },
+    {
+      "epoch": 3.9027511196417146,
+      "grad_norm": 5.188161849975586,
+      "learning_rate": 4.391554702495202e-06,
+      "loss": 0.3530220794677734,
+      "step": 6100
+    },
+    {
+      "epoch": 3.966730646193218,
+      "grad_norm": 24.137426376342773,
+      "learning_rate": 4.135636596289187e-06,
+      "loss": 0.3384724807739258,
+      "step": 6200
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8466,
+      "eval_f1": 0.845081801656231,
+      "eval_loss": 0.36203694343566895,
+      "eval_precision": 0.8535291717666259,
+      "eval_recall": 0.8368,
+      "eval_runtime": 16.3968,
+      "eval_samples_per_second": 1524.69,
+      "eval_steps_per_second": 95.324,
+      "step": 6252
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 7815,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 63524352000000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-6252/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72e5730834fb50b731e6ed2a038bc96471cea902a782210769d571be5fa37df0
+size 5201

checkpoint-7815/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": null,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 30522
+}

checkpoint-7815/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e463d4b60aefb340640cb8a4ae32c81c7caded7588ca9419eda6a28f12fd1f8e
+size 17549304

checkpoint-7815/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e124969e832e1c996d63f0e09f1f3d1ca2ca540bf954a759cea3cc5e0964a227
+size 35124939

checkpoint-7815/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb4ae28c66f4c0741b11f2d6f97f2592ad1a57f30642f46ec3548339edc75d38
+size 14645

checkpoint-7815/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87e05219b4abffcf7501b383079e0bc0173a8a1d79fa49c25677a005a669925d
+size 1465

checkpoint-7815/trainer_state.json ADDED Viewed

	@@ -0,0 +1,640 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 7815,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06397952655150352,
+      "grad_norm": 2.6240322589874268,
+      "learning_rate": 1.974664107485605e-05,
+      "loss": 0.692889175415039,
+      "step": 100
+    },
+    {
+      "epoch": 0.12795905310300704,
+      "grad_norm": 1.6500952243804932,
+      "learning_rate": 1.9490722968650032e-05,
+      "loss": 0.6690621948242188,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 5.539139747619629,
+      "learning_rate": 1.923480486244402e-05,
+      "loss": 0.6443107604980469,
+      "step": 300
+    },
+    {
+      "epoch": 0.2559181062060141,
+      "grad_norm": 9.561639785766602,
+      "learning_rate": 1.8978886756238006e-05,
+      "loss": 0.6174827194213868,
+      "step": 400
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "grad_norm": 3.9405109882354736,
+      "learning_rate": 1.8722968650031992e-05,
+      "loss": 0.603485221862793,
+      "step": 500
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 5.654637336730957,
+      "learning_rate": 1.846705054382598e-05,
+      "loss": 0.5690624237060546,
+      "step": 600
+    },
+    {
+      "epoch": 0.44785668586052463,
+      "grad_norm": 6.288730144500732,
+      "learning_rate": 1.8211132437619962e-05,
+      "loss": 0.5585448455810547,
+      "step": 700
+    },
+    {
+      "epoch": 0.5118362124120281,
+      "grad_norm": 7.303677558898926,
+      "learning_rate": 1.795521433141395e-05,
+      "loss": 0.5453743362426757,
+      "step": 800
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 4.167948246002197,
+      "learning_rate": 1.7699296225207935e-05,
+      "loss": 0.5284878540039063,
+      "step": 900
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "grad_norm": 6.335079669952393,
+      "learning_rate": 1.744337811900192e-05,
+      "loss": 0.497203369140625,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7037747920665387,
+      "grad_norm": 9.398835182189941,
+      "learning_rate": 1.7187460012795908e-05,
+      "loss": 0.4662479782104492,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 17.086259841918945,
+      "learning_rate": 1.693154190658989e-05,
+      "loss": 0.4858377456665039,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8317338451695457,
+      "grad_norm": 11.53818416595459,
+      "learning_rate": 1.6675623800383878e-05,
+      "loss": 0.45729072570800783,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8957133717210493,
+      "grad_norm": 22.93279457092285,
+      "learning_rate": 1.6419705694177864e-05,
+      "loss": 0.45677249908447265,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 15.763897895812988,
+      "learning_rate": 1.616378758797185e-05,
+      "loss": 0.4614885711669922,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.81124,
+      "eval_f1": 0.8026596411993476,
+      "eval_loss": 0.4272981286048889,
+      "eval_precision": 0.8408832033645842,
+      "eval_recall": 0.76776,
+      "eval_runtime": 16.5749,
+      "eval_samples_per_second": 1508.308,
+      "eval_steps_per_second": 94.299,
+      "step": 1563
+    },
+    {
+      "epoch": 1.0236724248240563,
+      "grad_norm": 16.664216995239258,
+      "learning_rate": 1.5907869481765838e-05,
+      "loss": 0.44625389099121093,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0876519513755598,
+      "grad_norm": 23.07805824279785,
+      "learning_rate": 1.565195137555982e-05,
+      "loss": 0.44664024353027343,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 8.32645320892334,
+      "learning_rate": 1.5396033269353807e-05,
+      "loss": 0.42939315795898436,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2156110044785668,
+      "grad_norm": 7.903297424316406,
+      "learning_rate": 1.5140115163147796e-05,
+      "loss": 0.41601951599121095,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "grad_norm": 11.639277458190918,
+      "learning_rate": 1.488419705694178e-05,
+      "loss": 0.39629173278808594,
+      "step": 2000
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 6.199832916259766,
+      "learning_rate": 1.4628278950735765e-05,
+      "loss": 0.3827814102172852,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4075495841330774,
+      "grad_norm": 17.21854019165039,
+      "learning_rate": 1.4372360844529752e-05,
+      "loss": 0.41142051696777343,
+      "step": 2200
+    },
+    {
+      "epoch": 1.471529110684581,
+      "grad_norm": 15.716930389404297,
+      "learning_rate": 1.4116442738323737e-05,
+      "loss": 0.38613304138183596,
+      "step": 2300
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 6.01155948638916,
+      "learning_rate": 1.3860524632117725e-05,
+      "loss": 0.41208648681640625,
+      "step": 2400
+    },
+    {
+      "epoch": 1.599488163787588,
+      "grad_norm": 20.55832862854004,
+      "learning_rate": 1.360460652591171e-05,
+      "loss": 0.38446582794189454,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6634676903390915,
+      "grad_norm": 11.465950012207031,
+      "learning_rate": 1.3348688419705695e-05,
+      "loss": 0.37646575927734377,
+      "step": 2600
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 3.505220651626587,
+      "learning_rate": 1.3092770313499681e-05,
+      "loss": 0.3866144561767578,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7914267434420985,
+      "grad_norm": 27.13107681274414,
+      "learning_rate": 1.2836852207293666e-05,
+      "loss": 0.4025085830688477,
+      "step": 2800
+    },
+    {
+      "epoch": 1.855406269993602,
+      "grad_norm": 7.345473766326904,
+      "learning_rate": 1.2580934101087654e-05,
+      "loss": 0.3890159225463867,
+      "step": 2900
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 24.46322250366211,
+      "learning_rate": 1.232501599488164e-05,
+      "loss": 0.381514778137207,
+      "step": 3000
+    },
+    {
+      "epoch": 1.983365323096609,
+      "grad_norm": 6.782553195953369,
+      "learning_rate": 1.2069097888675624e-05,
+      "loss": 0.3956758499145508,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8286,
+      "eval_f1": 0.8181779607077694,
+      "eval_loss": 0.3925381898880005,
+      "eval_precision": 0.8711484593837535,
+      "eval_recall": 0.77128,
+      "eval_runtime": 18.1817,
+      "eval_samples_per_second": 1375.01,
+      "eval_steps_per_second": 85.966,
+      "step": 3126
+    },
+    {
+      "epoch": 2.0473448496481126,
+      "grad_norm": 11.411704063415527,
+      "learning_rate": 1.181317978246961e-05,
+      "loss": 0.36985355377197265,
+      "step": 3200
+    },
+    {
+      "epoch": 2.111324376199616,
+      "grad_norm": 8.180529594421387,
+      "learning_rate": 1.1557261676263596e-05,
+      "loss": 0.34660816192626953,
+      "step": 3300
+    },
+    {
+      "epoch": 2.1753039027511196,
+      "grad_norm": 14.788076400756836,
+      "learning_rate": 1.1301343570057584e-05,
+      "loss": 0.3805205154418945,
+      "step": 3400
+    },
+    {
+      "epoch": 2.239283429302623,
+      "grad_norm": 38.90132522583008,
+      "learning_rate": 1.1045425463851569e-05,
+      "loss": 0.36612781524658206,
+      "step": 3500
+    },
+    {
+      "epoch": 2.3032629558541267,
+      "grad_norm": 6.464240550994873,
+      "learning_rate": 1.0789507357645555e-05,
+      "loss": 0.3882516098022461,
+      "step": 3600
+    },
+    {
+      "epoch": 2.36724248240563,
+      "grad_norm": 12.745105743408203,
+      "learning_rate": 1.053358925143954e-05,
+      "loss": 0.37442840576171876,
+      "step": 3700
+    },
+    {
+      "epoch": 2.4312220089571337,
+      "grad_norm": 18.671857833862305,
+      "learning_rate": 1.0277671145233525e-05,
+      "loss": 0.3458353424072266,
+      "step": 3800
+    },
+    {
+      "epoch": 2.495201535508637,
+      "grad_norm": 14.760592460632324,
+      "learning_rate": 1.0021753039027513e-05,
+      "loss": 0.3635056686401367,
+      "step": 3900
+    },
+    {
+      "epoch": 2.5591810620601407,
+      "grad_norm": 3.513972282409668,
+      "learning_rate": 9.765834932821498e-06,
+      "loss": 0.33845436096191406,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6231605886116443,
+      "grad_norm": 7.455184459686279,
+      "learning_rate": 9.509916826615485e-06,
+      "loss": 0.36538402557373045,
+      "step": 4100
+    },
+    {
+      "epoch": 2.6871401151631478,
+      "grad_norm": 35.58430862426758,
+      "learning_rate": 9.25399872040947e-06,
+      "loss": 0.38003883361816404,
+      "step": 4200
+    },
+    {
+      "epoch": 2.7511196417146513,
+      "grad_norm": 28.353757858276367,
+      "learning_rate": 8.998080614203456e-06,
+      "loss": 0.334156379699707,
+      "step": 4300
+    },
+    {
+      "epoch": 2.815099168266155,
+      "grad_norm": 10.301733016967773,
+      "learning_rate": 8.742162507997441e-06,
+      "loss": 0.36084671020507814,
+      "step": 4400
+    },
+    {
+      "epoch": 2.8790786948176583,
+      "grad_norm": 8.111748695373535,
+      "learning_rate": 8.486244401791428e-06,
+      "loss": 0.3733618545532227,
+      "step": 4500
+    },
+    {
+      "epoch": 2.943058221369162,
+      "grad_norm": 7.716980934143066,
+      "learning_rate": 8.230326295585414e-06,
+      "loss": 0.37022560119628906,
+      "step": 4600
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8426,
+      "eval_f1": 0.8457286235151135,
+      "eval_loss": 0.36446496844291687,
+      "eval_precision": 0.8292457907280695,
+      "eval_recall": 0.86288,
+      "eval_runtime": 13.8616,
+      "eval_samples_per_second": 1803.544,
+      "eval_steps_per_second": 112.758,
+      "step": 4689
+    },
+    {
+      "epoch": 3.0070377479206654,
+      "grad_norm": 8.766412734985352,
+      "learning_rate": 7.974408189379399e-06,
+      "loss": 0.3578424835205078,
+      "step": 4700
+    },
+    {
+      "epoch": 3.071017274472169,
+      "grad_norm": 25.10895538330078,
+      "learning_rate": 7.718490083173386e-06,
+      "loss": 0.36146461486816406,
+      "step": 4800
+    },
+    {
+      "epoch": 3.1349968010236724,
+      "grad_norm": 2.3490066528320312,
+      "learning_rate": 7.462571976967371e-06,
+      "loss": 0.33738922119140624,
+      "step": 4900
+    },
+    {
+      "epoch": 3.198976327575176,
+      "grad_norm": 13.975132942199707,
+      "learning_rate": 7.206653870761356e-06,
+      "loss": 0.326907958984375,
+      "step": 5000
+    },
+    {
+      "epoch": 3.2629558541266794,
+      "grad_norm": 6.52653694152832,
+      "learning_rate": 6.950735764555343e-06,
+      "loss": 0.34798374176025393,
+      "step": 5100
+    },
+    {
+      "epoch": 3.326935380678183,
+      "grad_norm": 5.691891670227051,
+      "learning_rate": 6.694817658349328e-06,
+      "loss": 0.36636493682861326,
+      "step": 5200
+    },
+    {
+      "epoch": 3.3909149072296865,
+      "grad_norm": 25.656173706054688,
+      "learning_rate": 6.438899552143315e-06,
+      "loss": 0.3263176727294922,
+      "step": 5300
+    },
+    {
+      "epoch": 3.45489443378119,
+      "grad_norm": 10.740619659423828,
+      "learning_rate": 6.182981445937301e-06,
+      "loss": 0.36173702239990235,
+      "step": 5400
+    },
+    {
+      "epoch": 3.5188739603326935,
+      "grad_norm": 6.179443836212158,
+      "learning_rate": 5.927063339731286e-06,
+      "loss": 0.3383364486694336,
+      "step": 5500
+    },
+    {
+      "epoch": 3.582853486884197,
+      "grad_norm": 8.635146141052246,
+      "learning_rate": 5.671145233525273e-06,
+      "loss": 0.3060850715637207,
+      "step": 5600
+    },
+    {
+      "epoch": 3.6468330134357005,
+      "grad_norm": 12.844294548034668,
+      "learning_rate": 5.415227127319258e-06,
+      "loss": 0.3492905807495117,
+      "step": 5700
+    },
+    {
+      "epoch": 3.710812539987204,
+      "grad_norm": 3.7722866535186768,
+      "learning_rate": 5.159309021113244e-06,
+      "loss": 0.352115592956543,
+      "step": 5800
+    },
+    {
+      "epoch": 3.7747920665387076,
+      "grad_norm": 16.642221450805664,
+      "learning_rate": 4.90339091490723e-06,
+      "loss": 0.3466293716430664,
+      "step": 5900
+    },
+    {
+      "epoch": 3.838771593090211,
+      "grad_norm": 22.054513931274414,
+      "learning_rate": 4.647472808701216e-06,
+      "loss": 0.3272230529785156,
+      "step": 6000
+    },
+    {
+      "epoch": 3.9027511196417146,
+      "grad_norm": 5.188161849975586,
+      "learning_rate": 4.391554702495202e-06,
+      "loss": 0.3530220794677734,
+      "step": 6100
+    },
+    {
+      "epoch": 3.966730646193218,
+      "grad_norm": 24.137426376342773,
+      "learning_rate": 4.135636596289187e-06,
+      "loss": 0.3384724807739258,
+      "step": 6200
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8466,
+      "eval_f1": 0.845081801656231,
+      "eval_loss": 0.36203694343566895,
+      "eval_precision": 0.8535291717666259,
+      "eval_recall": 0.8368,
+      "eval_runtime": 16.3968,
+      "eval_samples_per_second": 1524.69,
+      "eval_steps_per_second": 95.324,
+      "step": 6252
+    },
+    {
+      "epoch": 4.030710172744722,
+      "grad_norm": 22.76490592956543,
+      "learning_rate": 3.879718490083174e-06,
+      "loss": 0.32106273651123046,
+      "step": 6300
+    },
+    {
+      "epoch": 4.094689699296225,
+      "grad_norm": 6.895203113555908,
+      "learning_rate": 3.6238003838771595e-06,
+      "loss": 0.32752437591552735,
+      "step": 6400
+    },
+    {
+      "epoch": 4.158669225847729,
+      "grad_norm": 22.1447696685791,
+      "learning_rate": 3.3678822776711457e-06,
+      "loss": 0.32436195373535154,
+      "step": 6500
+    },
+    {
+      "epoch": 4.222648752399232,
+      "grad_norm": 2.5634121894836426,
+      "learning_rate": 3.111964171465132e-06,
+      "loss": 0.3267522811889648,
+      "step": 6600
+    },
+    {
+      "epoch": 4.286628278950736,
+      "grad_norm": 11.268364906311035,
+      "learning_rate": 2.856046065259117e-06,
+      "loss": 0.3346476364135742,
+      "step": 6700
+    },
+    {
+      "epoch": 4.350607805502239,
+      "grad_norm": 13.30309009552002,
+      "learning_rate": 2.6001279590531032e-06,
+      "loss": 0.3301812744140625,
+      "step": 6800
+    },
+    {
+      "epoch": 4.414587332053743,
+      "grad_norm": 36.629371643066406,
+      "learning_rate": 2.344209852847089e-06,
+      "loss": 0.3226265335083008,
+      "step": 6900
+    },
+    {
+      "epoch": 4.478566858605246,
+      "grad_norm": 21.645925521850586,
+      "learning_rate": 2.088291746641075e-06,
+      "loss": 0.3106839370727539,
+      "step": 7000
+    },
+    {
+      "epoch": 4.54254638515675,
+      "grad_norm": 15.254359245300293,
+      "learning_rate": 1.8323736404350608e-06,
+      "loss": 0.3521112442016602,
+      "step": 7100
+    },
+    {
+      "epoch": 4.606525911708253,
+      "grad_norm": 12.946036338806152,
+      "learning_rate": 1.576455534229047e-06,
+      "loss": 0.314422664642334,
+      "step": 7200
+    },
+    {
+      "epoch": 4.670505438259757,
+      "grad_norm": 9.554559707641602,
+      "learning_rate": 1.3205374280230327e-06,
+      "loss": 0.36591068267822263,
+      "step": 7300
+    },
+    {
+      "epoch": 4.73448496481126,
+      "grad_norm": 16.924890518188477,
+      "learning_rate": 1.0646193218170186e-06,
+      "loss": 0.3219599151611328,
+      "step": 7400
+    },
+    {
+      "epoch": 4.798464491362764,
+      "grad_norm": 12.717796325683594,
+      "learning_rate": 8.087012156110045e-07,
+      "loss": 0.3387944412231445,
+      "step": 7500
+    },
+    {
+      "epoch": 4.862444017914267,
+      "grad_norm": 17.223955154418945,
+      "learning_rate": 5.527831094049904e-07,
+      "loss": 0.31999959945678713,
+      "step": 7600
+    },
+    {
+      "epoch": 4.926423544465771,
+      "grad_norm": 8.725737571716309,
+      "learning_rate": 2.9686500319897637e-07,
+      "loss": 0.328571662902832,
+      "step": 7700
+    },
+    {
+      "epoch": 4.990403071017274,
+      "grad_norm": 47.724571228027344,
+      "learning_rate": 4.0946896992962254e-08,
+      "loss": 0.32502983093261717,
+      "step": 7800
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.84804,
+      "eval_f1": 0.8465856317893632,
+      "eval_loss": 0.36020222306251526,
+      "eval_precision": 0.8547663703824513,
+      "eval_recall": 0.83856,
+      "eval_runtime": 20.3823,
+      "eval_samples_per_second": 1226.555,
+      "eval_steps_per_second": 76.684,
+      "step": 7815
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 7815,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 79405440000000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-7815/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72e5730834fb50b731e6ed2a038bc96471cea902a782210769d571be5fa37df0
+size 5201

config.json CHANGED Viewed

@@ -1,26 +1,29 @@
 {
-  "_name_or_path": "prajjwal1/bert-tiny",
   "architectures": [
     "BertForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 128,
   "initializer_range": 0.02,
   "intermediate_size": 512,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
   "model_type": "bert",
   "num_attention_heads": 2,
   "num_hidden_layers": 2,
   "pad_token_id": 0,
-  "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
-  "torch_dtype": "float32",
-  "transformers_version": "4.38.2",
   "type_vocab_size": 2,
-  "use_cache": true,
   "vocab_size": 30522
 }

 {
+  "add_cross_attention": false,
   "architectures": [
     "BertForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": null,
   "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": null,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 128,
   "initializer_range": 0.02,
   "intermediate_size": 512,
+  "is_decoder": false,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
   "model_type": "bert",
   "num_attention_heads": 2,
   "num_hidden_layers": 2,
   "pad_token_id": 0,
   "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
   "type_vocab_size": 2,
+  "use_cache": false,
   "vocab_size": 30522
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e02859c5dc120e0414be1b029ae6e54b3674c2b262d8134f14d267e50807501
-size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:e463d4b60aefb340640cb8a4ae32c81c7caded7588ca9419eda6a28f12fd1f8e
+size 17549304

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,53 +1,10 @@
 {
-  "added_tokens_decoder": {
-    "0": {
-      "content": "[PAD]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "100": {
-      "content": "[UNK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "101": {
-      "content": "[CLS]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "102": {
-      "content": "[SEP]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "103": {
-      "content": "[MASK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "clean_up_tokenization_spaces": true,
   "cls_token": "[CLS]",
-  "do_basic_tokenize": true,
-  "do_lower_case": true,
   "mask_token": "[MASK]",
   "model_max_length": 1000000000000000019884624838656,
-  "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "strip_accents": null,

 {
+  "backend": "tokenizers",
   "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "is_local": false,
   "mask_token": "[MASK]",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "strip_accents": null,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4695fa03477caa6949d67ae3a0f17b42d6e931eb0f27a0e1ba906da857df1c2
-size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:72e5730834fb50b731e6ed2a038bc96471cea902a782210769d571be5fa37df0
+size 5201