tarabfish commited on Apr 23, 2025

Commit

97c34c5

verified ·

1 Parent(s): 0a1bffd

Upload folder using huggingface_hub

Browse files

Files changed (25) hide show

checkpoints/checkpoint-5300/config.json +26 -0
checkpoints/checkpoint-5300/model.safetensors +3 -0
checkpoints/checkpoint-5300/optimizer.pt +3 -0
checkpoints/checkpoint-5300/rng_state.pth +3 -0
checkpoints/checkpoint-5300/scheduler.pt +3 -0
checkpoints/checkpoint-5300/special_tokens_map.json +7 -0
checkpoints/checkpoint-5300/tokenizer.json +0 -0
checkpoints/checkpoint-5300/tokenizer_config.json +56 -0
checkpoints/checkpoint-5300/trainer_state.json +581 -0
checkpoints/checkpoint-5300/training_args.bin +3 -0
checkpoints/checkpoint-5300/vocab.txt +0 -0
checkpoints/checkpoint-9600/config.json +26 -0
checkpoints/checkpoint-9600/model.safetensors +3 -0
checkpoints/checkpoint-9600/optimizer.pt +3 -0
checkpoints/checkpoint-9600/rng_state.pth +3 -0
checkpoints/checkpoint-9600/scheduler.pt +3 -0
checkpoints/checkpoint-9600/special_tokens_map.json +7 -0
checkpoints/checkpoint-9600/tokenizer.json +0 -0
checkpoints/checkpoint-9600/tokenizer_config.json +56 -0
checkpoints/checkpoint-9600/trainer_state.json +1031 -0
checkpoints/checkpoint-9600/training_args.bin +3 -0
checkpoints/checkpoint-9600/vocab.txt +0 -0
final_model.pt +3 -0
final_model_meta.json +1 -0
test_outputs.jsonl +96 -0

checkpoints/checkpoint-5300/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoints/checkpoint-5300/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a94e9fca5fe42fd4faa0639854ccc7a4c6b4694b39a9ee4546535237970236a4
+size 437958648

checkpoints/checkpoint-5300/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8075779ee5ca6c70c114ee662b19e2677400a5ec66cab67db1275d73c87a32ee
+size 876038394

checkpoints/checkpoint-5300/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccf68acb16b42df8c6cbf2989e34213e24c5f5b43afb3e67c67c0314224eb79c
+size 14244

checkpoints/checkpoint-5300/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9136b9fcc9e87fdf00a3ae59416e1668e25e5ef391855c73cb3229ecaaf47fdb
+size 1064

checkpoints/checkpoint-5300/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-5300/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-5300/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-5300/trainer_state.json ADDED Viewed

	@@ -0,0 +1,581 @@

+{
+  "best_global_step": 5300,
+  "best_metric": 0.94375,
+  "best_model_checkpoint": "../merge_models/amzn_yelp/task2/checkpoints/checkpoint-5300",
+  "epoch": 2.2083333333333335,
+  "eval_steps": 100,
+  "global_step": 5300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.041666666666666664,
+      "eval_accuracy": 0.871875,
+      "eval_loss": 0.7828950881958008,
+      "eval_runtime": 2.8057,
+      "eval_samples_per_second": 114.053,
+      "eval_steps_per_second": 57.027,
+      "step": 100
+    },
+    {
+      "epoch": 0.08333333333333333,
+      "eval_accuracy": 0.88125,
+      "eval_loss": 0.6410558819770813,
+      "eval_runtime": 2.9454,
+      "eval_samples_per_second": 108.645,
+      "eval_steps_per_second": 54.323,
+      "step": 200
+    },
+    {
+      "epoch": 0.125,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.4724481701850891,
+      "eval_runtime": 2.6489,
+      "eval_samples_per_second": 120.804,
+      "eval_steps_per_second": 60.402,
+      "step": 300
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "eval_accuracy": 0.88125,
+      "eval_loss": 0.46632274985313416,
+      "eval_runtime": 2.743,
+      "eval_samples_per_second": 116.66,
+      "eval_steps_per_second": 58.33,
+      "step": 400
+    },
+    {
+      "epoch": 0.20833333333333334,
+      "grad_norm": 0.26992425322532654,
+      "learning_rate": 3.792083333333334e-05,
+      "loss": 0.5589,
+      "step": 500
+    },
+    {
+      "epoch": 0.20833333333333334,
+      "eval_accuracy": 0.928125,
+      "eval_loss": 0.336311399936676,
+      "eval_runtime": 2.7645,
+      "eval_samples_per_second": 115.753,
+      "eval_steps_per_second": 57.876,
+      "step": 500
+    },
+    {
+      "epoch": 0.25,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5237163305282593,
+      "eval_runtime": 2.9888,
+      "eval_samples_per_second": 107.065,
+      "eval_steps_per_second": 53.532,
+      "step": 600
+    },
+    {
+      "epoch": 0.2916666666666667,
+      "eval_accuracy": 0.865625,
+      "eval_loss": 0.612436056137085,
+      "eval_runtime": 3.0505,
+      "eval_samples_per_second": 104.901,
+      "eval_steps_per_second": 52.45,
+      "step": 700
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.47742635011672974,
+      "eval_runtime": 2.8541,
+      "eval_samples_per_second": 112.12,
+      "eval_steps_per_second": 56.06,
+      "step": 800
+    },
+    {
+      "epoch": 0.375,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.4391939640045166,
+      "eval_runtime": 2.7428,
+      "eval_samples_per_second": 116.667,
+      "eval_steps_per_second": 58.334,
+      "step": 900
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 0.19945169985294342,
+      "learning_rate": 3.5837500000000004e-05,
+      "loss": 0.5193,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.3529580235481262,
+      "eval_runtime": 2.7396,
+      "eval_samples_per_second": 116.807,
+      "eval_steps_per_second": 58.404,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4583333333333333,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.32948821783065796,
+      "eval_runtime": 3.0406,
+      "eval_samples_per_second": 105.242,
+      "eval_steps_per_second": 52.621,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.5077411532402039,
+      "eval_runtime": 3.0926,
+      "eval_samples_per_second": 103.474,
+      "eval_steps_per_second": 51.737,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5416666666666666,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.4512642025947571,
+      "eval_runtime": 2.7715,
+      "eval_samples_per_second": 115.459,
+      "eval_steps_per_second": 57.73,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "eval_accuracy": 0.89375,
+      "eval_loss": 0.43066683411598206,
+      "eval_runtime": 2.8379,
+      "eval_samples_per_second": 112.76,
+      "eval_steps_per_second": 56.38,
+      "step": 1400
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 0.08616471290588379,
+      "learning_rate": 3.375416666666667e-05,
+      "loss": 0.5088,
+      "step": 1500
+    },
+    {
+      "epoch": 0.625,
+      "eval_accuracy": 0.9125,
+      "eval_loss": 0.37902718782424927,
+      "eval_runtime": 2.8742,
+      "eval_samples_per_second": 111.336,
+      "eval_steps_per_second": 55.668,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "eval_accuracy": 0.8875,
+      "eval_loss": 0.435788631439209,
+      "eval_runtime": 3.0691,
+      "eval_samples_per_second": 104.266,
+      "eval_steps_per_second": 52.133,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7083333333333334,
+      "eval_accuracy": 0.878125,
+      "eval_loss": 0.6496487855911255,
+      "eval_runtime": 3.019,
+      "eval_samples_per_second": 105.995,
+      "eval_steps_per_second": 52.998,
+      "step": 1700
+    },
+    {
+      "epoch": 0.75,
+      "eval_accuracy": 0.896875,
+      "eval_loss": 0.5356670618057251,
+      "eval_runtime": 2.7479,
+      "eval_samples_per_second": 116.452,
+      "eval_steps_per_second": 58.226,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7916666666666666,
+      "eval_accuracy": 0.903125,
+      "eval_loss": 0.5577458143234253,
+      "eval_runtime": 2.7431,
+      "eval_samples_per_second": 116.657,
+      "eval_steps_per_second": 58.329,
+      "step": 1900
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 0.2015516757965088,
+      "learning_rate": 3.1670833333333335e-05,
+      "loss": 0.5272,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.5010732412338257,
+      "eval_runtime": 2.8418,
+      "eval_samples_per_second": 112.606,
+      "eval_steps_per_second": 56.303,
+      "step": 2000
+    },
+    {
+      "epoch": 0.875,
+      "eval_accuracy": 0.871875,
+      "eval_loss": 0.5578997135162354,
+      "eval_runtime": 2.9909,
+      "eval_samples_per_second": 106.99,
+      "eval_steps_per_second": 53.495,
+      "step": 2100
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "eval_accuracy": 0.9125,
+      "eval_loss": 0.49204739928245544,
+      "eval_runtime": 2.9421,
+      "eval_samples_per_second": 108.768,
+      "eval_steps_per_second": 54.384,
+      "step": 2200
+    },
+    {
+      "epoch": 0.9583333333333334,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.42611804604530334,
+      "eval_runtime": 2.8842,
+      "eval_samples_per_second": 110.949,
+      "eval_steps_per_second": 55.475,
+      "step": 2300
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.903125,
+      "eval_loss": 0.5209008455276489,
+      "eval_runtime": 2.8447,
+      "eval_samples_per_second": 112.49,
+      "eval_steps_per_second": 56.245,
+      "step": 2400
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "grad_norm": 0.026173487305641174,
+      "learning_rate": 2.9587500000000004e-05,
+      "loss": 0.3682,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.558965802192688,
+      "eval_runtime": 3.0287,
+      "eval_samples_per_second": 105.655,
+      "eval_steps_per_second": 52.828,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0833333333333333,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.5337815284729004,
+      "eval_runtime": 2.8886,
+      "eval_samples_per_second": 110.781,
+      "eval_steps_per_second": 55.391,
+      "step": 2600
+    },
+    {
+      "epoch": 1.125,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.43373221158981323,
+      "eval_runtime": 2.927,
+      "eval_samples_per_second": 109.328,
+      "eval_steps_per_second": 54.664,
+      "step": 2700
+    },
+    {
+      "epoch": 1.1666666666666667,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.562017560005188,
+      "eval_runtime": 3.1459,
+      "eval_samples_per_second": 101.72,
+      "eval_steps_per_second": 50.86,
+      "step": 2800
+    },
+    {
+      "epoch": 1.2083333333333333,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.48360759019851685,
+      "eval_runtime": 2.7861,
+      "eval_samples_per_second": 114.855,
+      "eval_steps_per_second": 57.427,
+      "step": 2900
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.03431430086493492,
+      "learning_rate": 2.750416666666667e-05,
+      "loss": 0.2665,
+      "step": 3000
+    },
+    {
+      "epoch": 1.25,
+      "eval_accuracy": 0.903125,
+      "eval_loss": 0.5819778442382812,
+      "eval_runtime": 2.7837,
+      "eval_samples_per_second": 114.956,
+      "eval_steps_per_second": 57.478,
+      "step": 3000
+    },
+    {
+      "epoch": 1.2916666666666667,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.549329400062561,
+      "eval_runtime": 3.1117,
+      "eval_samples_per_second": 102.837,
+      "eval_steps_per_second": 51.418,
+      "step": 3100
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.5409368276596069,
+      "eval_runtime": 3.0275,
+      "eval_samples_per_second": 105.698,
+      "eval_steps_per_second": 52.849,
+      "step": 3200
+    },
+    {
+      "epoch": 1.375,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.5061095952987671,
+      "eval_runtime": 2.7533,
+      "eval_samples_per_second": 116.222,
+      "eval_steps_per_second": 58.111,
+      "step": 3300
+    },
+    {
+      "epoch": 1.4166666666666667,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.5100991129875183,
+      "eval_runtime": 2.8582,
+      "eval_samples_per_second": 111.958,
+      "eval_steps_per_second": 55.979,
+      "step": 3400
+    },
+    {
+      "epoch": 1.4583333333333333,
+      "grad_norm": 0.04029667377471924,
+      "learning_rate": 2.5420833333333336e-05,
+      "loss": 0.2556,
+      "step": 3500
+    },
+    {
+      "epoch": 1.4583333333333333,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.48856163024902344,
+      "eval_runtime": 2.8545,
+      "eval_samples_per_second": 112.104,
+      "eval_steps_per_second": 56.052,
+      "step": 3500
+    },
+    {
+      "epoch": 1.5,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.5146762728691101,
+      "eval_runtime": 3.0905,
+      "eval_samples_per_second": 103.544,
+      "eval_steps_per_second": 51.772,
+      "step": 3600
+    },
+    {
+      "epoch": 1.5416666666666665,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.5367563962936401,
+      "eval_runtime": 2.9095,
+      "eval_samples_per_second": 109.983,
+      "eval_steps_per_second": 54.992,
+      "step": 3700
+    },
+    {
+      "epoch": 1.5833333333333335,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.4761125445365906,
+      "eval_runtime": 2.8026,
+      "eval_samples_per_second": 114.178,
+      "eval_steps_per_second": 57.089,
+      "step": 3800
+    },
+    {
+      "epoch": 1.625,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.4483864903450012,
+      "eval_runtime": 3.0492,
+      "eval_samples_per_second": 104.944,
+      "eval_steps_per_second": 52.472,
+      "step": 3900
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 107.47529602050781,
+      "learning_rate": 2.3337500000000005e-05,
+      "loss": 0.2449,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "eval_accuracy": 0.928125,
+      "eval_loss": 0.35619640350341797,
+      "eval_runtime": 2.9753,
+      "eval_samples_per_second": 107.553,
+      "eval_steps_per_second": 53.777,
+      "step": 4000
+    },
+    {
+      "epoch": 1.7083333333333335,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.38642579317092896,
+      "eval_runtime": 3.0163,
+      "eval_samples_per_second": 106.091,
+      "eval_steps_per_second": 53.046,
+      "step": 4100
+    },
+    {
+      "epoch": 1.75,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.5521766543388367,
+      "eval_runtime": 2.8851,
+      "eval_samples_per_second": 110.915,
+      "eval_steps_per_second": 55.457,
+      "step": 4200
+    },
+    {
+      "epoch": 1.7916666666666665,
+      "eval_accuracy": 0.890625,
+      "eval_loss": 0.4897506833076477,
+      "eval_runtime": 2.805,
+      "eval_samples_per_second": 114.082,
+      "eval_steps_per_second": 57.041,
+      "step": 4300
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.4268820881843567,
+      "eval_runtime": 3.0937,
+      "eval_samples_per_second": 103.437,
+      "eval_steps_per_second": 51.718,
+      "step": 4400
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 0.026214903220534325,
+      "learning_rate": 2.125416666666667e-05,
+      "loss": 0.2134,
+      "step": 4500
+    },
+    {
+      "epoch": 1.875,
+      "eval_accuracy": 0.928125,
+      "eval_loss": 0.43541350960731506,
+      "eval_runtime": 2.9558,
+      "eval_samples_per_second": 108.262,
+      "eval_steps_per_second": 54.131,
+      "step": 4500
+    },
+    {
+      "epoch": 1.9166666666666665,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.4590047299861908,
+      "eval_runtime": 3.1134,
+      "eval_samples_per_second": 102.782,
+      "eval_steps_per_second": 51.391,
+      "step": 4600
+    },
+    {
+      "epoch": 1.9583333333333335,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.42555299401283264,
+      "eval_runtime": 2.7577,
+      "eval_samples_per_second": 116.038,
+      "eval_steps_per_second": 58.019,
+      "step": 4700
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.46792250871658325,
+      "eval_runtime": 3.199,
+      "eval_samples_per_second": 100.03,
+      "eval_steps_per_second": 50.015,
+      "step": 4800
+    },
+    {
+      "epoch": 2.0416666666666665,
+      "eval_accuracy": 0.934375,
+      "eval_loss": 0.40328049659729004,
+      "eval_runtime": 2.8034,
+      "eval_samples_per_second": 114.146,
+      "eval_steps_per_second": 57.073,
+      "step": 4900
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 0.021490707993507385,
+      "learning_rate": 1.9170833333333333e-05,
+      "loss": 0.2505,
+      "step": 5000
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.4490671753883362,
+      "eval_runtime": 2.8849,
+      "eval_samples_per_second": 110.924,
+      "eval_steps_per_second": 55.462,
+      "step": 5000
+    },
+    {
+      "epoch": 2.125,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.41796278953552246,
+      "eval_runtime": 3.1312,
+      "eval_samples_per_second": 102.196,
+      "eval_steps_per_second": 51.098,
+      "step": 5100
+    },
+    {
+      "epoch": 2.1666666666666665,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.3970945477485657,
+      "eval_runtime": 2.9082,
+      "eval_samples_per_second": 110.032,
+      "eval_steps_per_second": 55.016,
+      "step": 5200
+    },
+    {
+      "epoch": 2.2083333333333335,
+      "eval_accuracy": 0.94375,
+      "eval_loss": 0.3905588984489441,
+      "eval_runtime": 2.972,
+      "eval_samples_per_second": 107.671,
+      "eval_steps_per_second": 53.835,
+      "step": 5300
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 9600,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 718532653304280.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-5300/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65494a2338792a7eb98d28ceffbee46e49ecedf50dfe5b401590a45c130902ae
+size 5304

checkpoints/checkpoint-5300/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-9600/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoints/checkpoint-9600/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6309c2d1e3641872fbf02c22b043f8ba23a03ffd3d222edff88ad69dbbb9c6de
+size 437958648

checkpoints/checkpoint-9600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eff799c2f9c3df2f2d9f2994fa0caa2f35d5e41ca4324748a8fdb0791b30452
+size 876038394

checkpoints/checkpoint-9600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5cf02a5b5d7c80c61d5768256c8d689bb502772d19a15c35eb350226afeac75
+size 14244

checkpoints/checkpoint-9600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70b4b49382b81ae82c82f376964b1763ea6f54b6fa49526da8f199bd9ab93c7a
+size 1064

checkpoints/checkpoint-9600/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-9600/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-9600/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-9600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1031 @@

+{
+  "best_global_step": 5300,
+  "best_metric": 0.94375,
+  "best_model_checkpoint": "../merge_models/amzn_yelp/task2/checkpoints/checkpoint-5300",
+  "epoch": 4.0,
+  "eval_steps": 100,
+  "global_step": 9600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.041666666666666664,
+      "eval_accuracy": 0.871875,
+      "eval_loss": 0.7828950881958008,
+      "eval_runtime": 2.8057,
+      "eval_samples_per_second": 114.053,
+      "eval_steps_per_second": 57.027,
+      "step": 100
+    },
+    {
+      "epoch": 0.08333333333333333,
+      "eval_accuracy": 0.88125,
+      "eval_loss": 0.6410558819770813,
+      "eval_runtime": 2.9454,
+      "eval_samples_per_second": 108.645,
+      "eval_steps_per_second": 54.323,
+      "step": 200
+    },
+    {
+      "epoch": 0.125,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.4724481701850891,
+      "eval_runtime": 2.6489,
+      "eval_samples_per_second": 120.804,
+      "eval_steps_per_second": 60.402,
+      "step": 300
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "eval_accuracy": 0.88125,
+      "eval_loss": 0.46632274985313416,
+      "eval_runtime": 2.743,
+      "eval_samples_per_second": 116.66,
+      "eval_steps_per_second": 58.33,
+      "step": 400
+    },
+    {
+      "epoch": 0.20833333333333334,
+      "grad_norm": 0.26992425322532654,
+      "learning_rate": 3.792083333333334e-05,
+      "loss": 0.5589,
+      "step": 500
+    },
+    {
+      "epoch": 0.20833333333333334,
+      "eval_accuracy": 0.928125,
+      "eval_loss": 0.336311399936676,
+      "eval_runtime": 2.7645,
+      "eval_samples_per_second": 115.753,
+      "eval_steps_per_second": 57.876,
+      "step": 500
+    },
+    {
+      "epoch": 0.25,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5237163305282593,
+      "eval_runtime": 2.9888,
+      "eval_samples_per_second": 107.065,
+      "eval_steps_per_second": 53.532,
+      "step": 600
+    },
+    {
+      "epoch": 0.2916666666666667,
+      "eval_accuracy": 0.865625,
+      "eval_loss": 0.612436056137085,
+      "eval_runtime": 3.0505,
+      "eval_samples_per_second": 104.901,
+      "eval_steps_per_second": 52.45,
+      "step": 700
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.47742635011672974,
+      "eval_runtime": 2.8541,
+      "eval_samples_per_second": 112.12,
+      "eval_steps_per_second": 56.06,
+      "step": 800
+    },
+    {
+      "epoch": 0.375,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.4391939640045166,
+      "eval_runtime": 2.7428,
+      "eval_samples_per_second": 116.667,
+      "eval_steps_per_second": 58.334,
+      "step": 900
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 0.19945169985294342,
+      "learning_rate": 3.5837500000000004e-05,
+      "loss": 0.5193,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.3529580235481262,
+      "eval_runtime": 2.7396,
+      "eval_samples_per_second": 116.807,
+      "eval_steps_per_second": 58.404,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4583333333333333,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.32948821783065796,
+      "eval_runtime": 3.0406,
+      "eval_samples_per_second": 105.242,
+      "eval_steps_per_second": 52.621,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.5077411532402039,
+      "eval_runtime": 3.0926,
+      "eval_samples_per_second": 103.474,
+      "eval_steps_per_second": 51.737,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5416666666666666,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.4512642025947571,
+      "eval_runtime": 2.7715,
+      "eval_samples_per_second": 115.459,
+      "eval_steps_per_second": 57.73,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "eval_accuracy": 0.89375,
+      "eval_loss": 0.43066683411598206,
+      "eval_runtime": 2.8379,
+      "eval_samples_per_second": 112.76,
+      "eval_steps_per_second": 56.38,
+      "step": 1400
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 0.08616471290588379,
+      "learning_rate": 3.375416666666667e-05,
+      "loss": 0.5088,
+      "step": 1500
+    },
+    {
+      "epoch": 0.625,
+      "eval_accuracy": 0.9125,
+      "eval_loss": 0.37902718782424927,
+      "eval_runtime": 2.8742,
+      "eval_samples_per_second": 111.336,
+      "eval_steps_per_second": 55.668,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "eval_accuracy": 0.8875,
+      "eval_loss": 0.435788631439209,
+      "eval_runtime": 3.0691,
+      "eval_samples_per_second": 104.266,
+      "eval_steps_per_second": 52.133,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7083333333333334,
+      "eval_accuracy": 0.878125,
+      "eval_loss": 0.6496487855911255,
+      "eval_runtime": 3.019,
+      "eval_samples_per_second": 105.995,
+      "eval_steps_per_second": 52.998,
+      "step": 1700
+    },
+    {
+      "epoch": 0.75,
+      "eval_accuracy": 0.896875,
+      "eval_loss": 0.5356670618057251,
+      "eval_runtime": 2.7479,
+      "eval_samples_per_second": 116.452,
+      "eval_steps_per_second": 58.226,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7916666666666666,
+      "eval_accuracy": 0.903125,
+      "eval_loss": 0.5577458143234253,
+      "eval_runtime": 2.7431,
+      "eval_samples_per_second": 116.657,
+      "eval_steps_per_second": 58.329,
+      "step": 1900
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 0.2015516757965088,
+      "learning_rate": 3.1670833333333335e-05,
+      "loss": 0.5272,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.5010732412338257,
+      "eval_runtime": 2.8418,
+      "eval_samples_per_second": 112.606,
+      "eval_steps_per_second": 56.303,
+      "step": 2000
+    },
+    {
+      "epoch": 0.875,
+      "eval_accuracy": 0.871875,
+      "eval_loss": 0.5578997135162354,
+      "eval_runtime": 2.9909,
+      "eval_samples_per_second": 106.99,
+      "eval_steps_per_second": 53.495,
+      "step": 2100
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "eval_accuracy": 0.9125,
+      "eval_loss": 0.49204739928245544,
+      "eval_runtime": 2.9421,
+      "eval_samples_per_second": 108.768,
+      "eval_steps_per_second": 54.384,
+      "step": 2200
+    },
+    {
+      "epoch": 0.9583333333333334,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.42611804604530334,
+      "eval_runtime": 2.8842,
+      "eval_samples_per_second": 110.949,
+      "eval_steps_per_second": 55.475,
+      "step": 2300
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.903125,
+      "eval_loss": 0.5209008455276489,
+      "eval_runtime": 2.8447,
+      "eval_samples_per_second": 112.49,
+      "eval_steps_per_second": 56.245,
+      "step": 2400
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "grad_norm": 0.026173487305641174,
+      "learning_rate": 2.9587500000000004e-05,
+      "loss": 0.3682,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.558965802192688,
+      "eval_runtime": 3.0287,
+      "eval_samples_per_second": 105.655,
+      "eval_steps_per_second": 52.828,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0833333333333333,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.5337815284729004,
+      "eval_runtime": 2.8886,
+      "eval_samples_per_second": 110.781,
+      "eval_steps_per_second": 55.391,
+      "step": 2600
+    },
+    {
+      "epoch": 1.125,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.43373221158981323,
+      "eval_runtime": 2.927,
+      "eval_samples_per_second": 109.328,
+      "eval_steps_per_second": 54.664,
+      "step": 2700
+    },
+    {
+      "epoch": 1.1666666666666667,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.562017560005188,
+      "eval_runtime": 3.1459,
+      "eval_samples_per_second": 101.72,
+      "eval_steps_per_second": 50.86,
+      "step": 2800
+    },
+    {
+      "epoch": 1.2083333333333333,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.48360759019851685,
+      "eval_runtime": 2.7861,
+      "eval_samples_per_second": 114.855,
+      "eval_steps_per_second": 57.427,
+      "step": 2900
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.03431430086493492,
+      "learning_rate": 2.750416666666667e-05,
+      "loss": 0.2665,
+      "step": 3000
+    },
+    {
+      "epoch": 1.25,
+      "eval_accuracy": 0.903125,
+      "eval_loss": 0.5819778442382812,
+      "eval_runtime": 2.7837,
+      "eval_samples_per_second": 114.956,
+      "eval_steps_per_second": 57.478,
+      "step": 3000
+    },
+    {
+      "epoch": 1.2916666666666667,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.549329400062561,
+      "eval_runtime": 3.1117,
+      "eval_samples_per_second": 102.837,
+      "eval_steps_per_second": 51.418,
+      "step": 3100
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.5409368276596069,
+      "eval_runtime": 3.0275,
+      "eval_samples_per_second": 105.698,
+      "eval_steps_per_second": 52.849,
+      "step": 3200
+    },
+    {
+      "epoch": 1.375,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.5061095952987671,
+      "eval_runtime": 2.7533,
+      "eval_samples_per_second": 116.222,
+      "eval_steps_per_second": 58.111,
+      "step": 3300
+    },
+    {
+      "epoch": 1.4166666666666667,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.5100991129875183,
+      "eval_runtime": 2.8582,
+      "eval_samples_per_second": 111.958,
+      "eval_steps_per_second": 55.979,
+      "step": 3400
+    },
+    {
+      "epoch": 1.4583333333333333,
+      "grad_norm": 0.04029667377471924,
+      "learning_rate": 2.5420833333333336e-05,
+      "loss": 0.2556,
+      "step": 3500
+    },
+    {
+      "epoch": 1.4583333333333333,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.48856163024902344,
+      "eval_runtime": 2.8545,
+      "eval_samples_per_second": 112.104,
+      "eval_steps_per_second": 56.052,
+      "step": 3500
+    },
+    {
+      "epoch": 1.5,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.5146762728691101,
+      "eval_runtime": 3.0905,
+      "eval_samples_per_second": 103.544,
+      "eval_steps_per_second": 51.772,
+      "step": 3600
+    },
+    {
+      "epoch": 1.5416666666666665,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.5367563962936401,
+      "eval_runtime": 2.9095,
+      "eval_samples_per_second": 109.983,
+      "eval_steps_per_second": 54.992,
+      "step": 3700
+    },
+    {
+      "epoch": 1.5833333333333335,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.4761125445365906,
+      "eval_runtime": 2.8026,
+      "eval_samples_per_second": 114.178,
+      "eval_steps_per_second": 57.089,
+      "step": 3800
+    },
+    {
+      "epoch": 1.625,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.4483864903450012,
+      "eval_runtime": 3.0492,
+      "eval_samples_per_second": 104.944,
+      "eval_steps_per_second": 52.472,
+      "step": 3900
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 107.47529602050781,
+      "learning_rate": 2.3337500000000005e-05,
+      "loss": 0.2449,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "eval_accuracy": 0.928125,
+      "eval_loss": 0.35619640350341797,
+      "eval_runtime": 2.9753,
+      "eval_samples_per_second": 107.553,
+      "eval_steps_per_second": 53.777,
+      "step": 4000
+    },
+    {
+      "epoch": 1.7083333333333335,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.38642579317092896,
+      "eval_runtime": 3.0163,
+      "eval_samples_per_second": 106.091,
+      "eval_steps_per_second": 53.046,
+      "step": 4100
+    },
+    {
+      "epoch": 1.75,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.5521766543388367,
+      "eval_runtime": 2.8851,
+      "eval_samples_per_second": 110.915,
+      "eval_steps_per_second": 55.457,
+      "step": 4200
+    },
+    {
+      "epoch": 1.7916666666666665,
+      "eval_accuracy": 0.890625,
+      "eval_loss": 0.4897506833076477,
+      "eval_runtime": 2.805,
+      "eval_samples_per_second": 114.082,
+      "eval_steps_per_second": 57.041,
+      "step": 4300
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.4268820881843567,
+      "eval_runtime": 3.0937,
+      "eval_samples_per_second": 103.437,
+      "eval_steps_per_second": 51.718,
+      "step": 4400
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 0.026214903220534325,
+      "learning_rate": 2.125416666666667e-05,
+      "loss": 0.2134,
+      "step": 4500
+    },
+    {
+      "epoch": 1.875,
+      "eval_accuracy": 0.928125,
+      "eval_loss": 0.43541350960731506,
+      "eval_runtime": 2.9558,
+      "eval_samples_per_second": 108.262,
+      "eval_steps_per_second": 54.131,
+      "step": 4500
+    },
+    {
+      "epoch": 1.9166666666666665,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.4590047299861908,
+      "eval_runtime": 3.1134,
+      "eval_samples_per_second": 102.782,
+      "eval_steps_per_second": 51.391,
+      "step": 4600
+    },
+    {
+      "epoch": 1.9583333333333335,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.42555299401283264,
+      "eval_runtime": 2.7577,
+      "eval_samples_per_second": 116.038,
+      "eval_steps_per_second": 58.019,
+      "step": 4700
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.46792250871658325,
+      "eval_runtime": 3.199,
+      "eval_samples_per_second": 100.03,
+      "eval_steps_per_second": 50.015,
+      "step": 4800
+    },
+    {
+      "epoch": 2.0416666666666665,
+      "eval_accuracy": 0.934375,
+      "eval_loss": 0.40328049659729004,
+      "eval_runtime": 2.8034,
+      "eval_samples_per_second": 114.146,
+      "eval_steps_per_second": 57.073,
+      "step": 4900
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 0.021490707993507385,
+      "learning_rate": 1.9170833333333333e-05,
+      "loss": 0.2505,
+      "step": 5000
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.4490671753883362,
+      "eval_runtime": 2.8849,
+      "eval_samples_per_second": 110.924,
+      "eval_steps_per_second": 55.462,
+      "step": 5000
+    },
+    {
+      "epoch": 2.125,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.41796278953552246,
+      "eval_runtime": 3.1312,
+      "eval_samples_per_second": 102.196,
+      "eval_steps_per_second": 51.098,
+      "step": 5100
+    },
+    {
+      "epoch": 2.1666666666666665,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.3970945477485657,
+      "eval_runtime": 2.9082,
+      "eval_samples_per_second": 110.032,
+      "eval_steps_per_second": 55.016,
+      "step": 5200
+    },
+    {
+      "epoch": 2.2083333333333335,
+      "eval_accuracy": 0.94375,
+      "eval_loss": 0.3905588984489441,
+      "eval_runtime": 2.972,
+      "eval_samples_per_second": 107.671,
+      "eval_steps_per_second": 53.835,
+      "step": 5300
+    },
+    {
+      "epoch": 2.25,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.3661550283432007,
+      "eval_runtime": 2.7487,
+      "eval_samples_per_second": 116.419,
+      "eval_steps_per_second": 58.21,
+      "step": 5400
+    },
+    {
+      "epoch": 2.2916666666666665,
+      "grad_norm": 0.016279272735118866,
+      "learning_rate": 1.7087500000000002e-05,
+      "loss": 0.1376,
+      "step": 5500
+    },
+    {
+      "epoch": 2.2916666666666665,
+      "eval_accuracy": 0.928125,
+      "eval_loss": 0.42674118280410767,
+      "eval_runtime": 2.824,
+      "eval_samples_per_second": 113.315,
+      "eval_steps_per_second": 56.658,
+      "step": 5500
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "eval_accuracy": 0.93125,
+      "eval_loss": 0.47028741240501404,
+      "eval_runtime": 2.9991,
+      "eval_samples_per_second": 106.699,
+      "eval_steps_per_second": 53.35,
+      "step": 5600
+    },
+    {
+      "epoch": 2.375,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.48885369300842285,
+      "eval_runtime": 3.0056,
+      "eval_samples_per_second": 106.467,
+      "eval_steps_per_second": 53.233,
+      "step": 5700
+    },
+    {
+      "epoch": 2.4166666666666665,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.4400312006473541,
+      "eval_runtime": 2.7602,
+      "eval_samples_per_second": 115.934,
+      "eval_steps_per_second": 57.967,
+      "step": 5800
+    },
+    {
+      "epoch": 2.4583333333333335,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.4716396927833557,
+      "eval_runtime": 2.8432,
+      "eval_samples_per_second": 112.548,
+      "eval_steps_per_second": 56.274,
+      "step": 5900
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.02649284340441227,
+      "learning_rate": 1.5004166666666668e-05,
+      "loss": 0.1487,
+      "step": 6000
+    },
+    {
+      "epoch": 2.5,
+      "eval_accuracy": 0.9125,
+      "eval_loss": 0.45153647661209106,
+      "eval_runtime": 2.8676,
+      "eval_samples_per_second": 111.59,
+      "eval_steps_per_second": 55.795,
+      "step": 6000
+    },
+    {
+      "epoch": 2.5416666666666665,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.45402488112449646,
+      "eval_runtime": 3.1616,
+      "eval_samples_per_second": 101.214,
+      "eval_steps_per_second": 50.607,
+      "step": 6100
+    },
+    {
+      "epoch": 2.5833333333333335,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.5484554767608643,
+      "eval_runtime": 3.133,
+      "eval_samples_per_second": 102.137,
+      "eval_steps_per_second": 51.069,
+      "step": 6200
+    },
+    {
+      "epoch": 2.625,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.541451632976532,
+      "eval_runtime": 2.8683,
+      "eval_samples_per_second": 111.564,
+      "eval_steps_per_second": 55.782,
+      "step": 6300
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.619576096534729,
+      "eval_runtime": 2.8756,
+      "eval_samples_per_second": 111.281,
+      "eval_steps_per_second": 55.641,
+      "step": 6400
+    },
+    {
+      "epoch": 2.7083333333333335,
+      "grad_norm": 0.024532603099942207,
+      "learning_rate": 1.2920833333333333e-05,
+      "loss": 0.1248,
+      "step": 6500
+    },
+    {
+      "epoch": 2.7083333333333335,
+      "eval_accuracy": 0.93125,
+      "eval_loss": 0.4348299503326416,
+      "eval_runtime": 2.7745,
+      "eval_samples_per_second": 115.336,
+      "eval_steps_per_second": 57.668,
+      "step": 6500
+    },
+    {
+      "epoch": 2.75,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.4980931878089905,
+      "eval_runtime": 2.9938,
+      "eval_samples_per_second": 106.888,
+      "eval_steps_per_second": 53.444,
+      "step": 6600
+    },
+    {
+      "epoch": 2.7916666666666665,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.4891650080680847,
+      "eval_runtime": 2.9254,
+      "eval_samples_per_second": 109.387,
+      "eval_steps_per_second": 54.694,
+      "step": 6700
+    },
+    {
+      "epoch": 2.8333333333333335,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.5331800580024719,
+      "eval_runtime": 2.8311,
+      "eval_samples_per_second": 113.03,
+      "eval_steps_per_second": 56.515,
+      "step": 6800
+    },
+    {
+      "epoch": 2.875,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.5215120315551758,
+      "eval_runtime": 2.7313,
+      "eval_samples_per_second": 117.159,
+      "eval_steps_per_second": 58.58,
+      "step": 6900
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 0.022552967071533203,
+      "learning_rate": 1.08375e-05,
+      "loss": 0.1273,
+      "step": 7000
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.5357473492622375,
+      "eval_runtime": 2.872,
+      "eval_samples_per_second": 111.419,
+      "eval_steps_per_second": 55.71,
+      "step": 7000
+    },
+    {
+      "epoch": 2.9583333333333335,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.5796685218811035,
+      "eval_runtime": 3.1783,
+      "eval_samples_per_second": 100.682,
+      "eval_steps_per_second": 50.341,
+      "step": 7100
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.4970870614051819,
+      "eval_runtime": 3.0019,
+      "eval_samples_per_second": 106.598,
+      "eval_steps_per_second": 53.299,
+      "step": 7200
+    },
+    {
+      "epoch": 3.0416666666666665,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.46576887369155884,
+      "eval_runtime": 2.83,
+      "eval_samples_per_second": 113.073,
+      "eval_steps_per_second": 56.536,
+      "step": 7300
+    },
+    {
+      "epoch": 3.0833333333333335,
+      "eval_accuracy": 0.91875,
+      "eval_loss": 0.46547237038612366,
+      "eval_runtime": 2.873,
+      "eval_samples_per_second": 111.381,
+      "eval_steps_per_second": 55.691,
+      "step": 7400
+    },
+    {
+      "epoch": 3.125,
+      "grad_norm": 0.019446508958935738,
+      "learning_rate": 8.754166666666667e-06,
+      "loss": 0.1225,
+      "step": 7500
+    },
+    {
+      "epoch": 3.125,
+      "eval_accuracy": 0.93125,
+      "eval_loss": 0.4488906264305115,
+      "eval_runtime": 2.7426,
+      "eval_samples_per_second": 116.676,
+      "eval_steps_per_second": 58.338,
+      "step": 7500
+    },
+    {
+      "epoch": 3.1666666666666665,
+      "eval_accuracy": 0.93125,
+      "eval_loss": 0.4806918203830719,
+      "eval_runtime": 2.884,
+      "eval_samples_per_second": 110.955,
+      "eval_steps_per_second": 55.478,
+      "step": 7600
+    },
+    {
+      "epoch": 3.2083333333333335,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.5847142934799194,
+      "eval_runtime": 2.8473,
+      "eval_samples_per_second": 112.387,
+      "eval_steps_per_second": 56.193,
+      "step": 7700
+    },
+    {
+      "epoch": 3.25,
+      "eval_accuracy": 0.909375,
+      "eval_loss": 0.5970549583435059,
+      "eval_runtime": 3.0567,
+      "eval_samples_per_second": 104.688,
+      "eval_steps_per_second": 52.344,
+      "step": 7800
+    },
+    {
+      "epoch": 3.2916666666666665,
+      "eval_accuracy": 0.925,
+      "eval_loss": 0.4819498658180237,
+      "eval_runtime": 2.9925,
+      "eval_samples_per_second": 106.933,
+      "eval_steps_per_second": 53.467,
+      "step": 7900
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.016704484820365906,
+      "learning_rate": 6.670833333333334e-06,
+      "loss": 0.074,
+      "step": 8000
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "eval_accuracy": 0.928125,
+      "eval_loss": 0.4904124140739441,
+      "eval_runtime": 3.0803,
+      "eval_samples_per_second": 103.886,
+      "eval_steps_per_second": 51.943,
+      "step": 8000
+    },
+    {
+      "epoch": 3.375,
+      "eval_accuracy": 0.928125,
+      "eval_loss": 0.4956900179386139,
+      "eval_runtime": 2.7659,
+      "eval_samples_per_second": 115.694,
+      "eval_steps_per_second": 57.847,
+      "step": 8100
+    },
+    {
+      "epoch": 3.4166666666666665,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.5745713114738464,
+      "eval_runtime": 2.9216,
+      "eval_samples_per_second": 109.529,
+      "eval_steps_per_second": 54.764,
+      "step": 8200
+    },
+    {
+      "epoch": 3.4583333333333335,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.5323331952095032,
+      "eval_runtime": 3.1843,
+      "eval_samples_per_second": 100.494,
+      "eval_steps_per_second": 50.247,
+      "step": 8300
+    },
+    {
+      "epoch": 3.5,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.5545214414596558,
+      "eval_runtime": 3.0076,
+      "eval_samples_per_second": 106.398,
+      "eval_steps_per_second": 53.199,
+      "step": 8400
+    },
+    {
+      "epoch": 3.5416666666666665,
+      "grad_norm": 0.013942297548055649,
+      "learning_rate": 4.5875000000000005e-06,
+      "loss": 0.0776,
+      "step": 8500
+    },
+    {
+      "epoch": 3.5416666666666665,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.43759164214134216,
+      "eval_runtime": 3.0869,
+      "eval_samples_per_second": 103.665,
+      "eval_steps_per_second": 51.832,
+      "step": 8500
+    },
+    {
+      "epoch": 3.5833333333333335,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.43747997283935547,
+      "eval_runtime": 2.8407,
+      "eval_samples_per_second": 112.65,
+      "eval_steps_per_second": 56.325,
+      "step": 8600
+    },
+    {
+      "epoch": 3.625,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.43234896659851074,
+      "eval_runtime": 2.8979,
+      "eval_samples_per_second": 110.425,
+      "eval_steps_per_second": 55.213,
+      "step": 8700
+    },
+    {
+      "epoch": 3.6666666666666665,
+      "eval_accuracy": 0.934375,
+      "eval_loss": 0.4293266832828522,
+      "eval_runtime": 3.1221,
+      "eval_samples_per_second": 102.496,
+      "eval_steps_per_second": 51.248,
+      "step": 8800
+    },
+    {
+      "epoch": 3.7083333333333335,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.4287172853946686,
+      "eval_runtime": 2.9021,
+      "eval_samples_per_second": 110.265,
+      "eval_steps_per_second": 55.132,
+      "step": 8900
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.009651360101997852,
+      "learning_rate": 2.504166666666667e-06,
+      "loss": 0.0718,
+      "step": 9000
+    },
+    {
+      "epoch": 3.75,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.43642768263816833,
+      "eval_runtime": 2.9997,
+      "eval_samples_per_second": 106.679,
+      "eval_steps_per_second": 53.339,
+      "step": 9000
+    },
+    {
+      "epoch": 3.7916666666666665,
+      "eval_accuracy": 0.934375,
+      "eval_loss": 0.4443955421447754,
+      "eval_runtime": 2.7499,
+      "eval_samples_per_second": 116.37,
+      "eval_steps_per_second": 58.185,
+      "step": 9100
+    },
+    {
+      "epoch": 3.8333333333333335,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.43916934728622437,
+      "eval_runtime": 2.8399,
+      "eval_samples_per_second": 112.68,
+      "eval_steps_per_second": 56.34,
+      "step": 9200
+    },
+    {
+      "epoch": 3.875,
+      "eval_accuracy": 0.934375,
+      "eval_loss": 0.44628801941871643,
+      "eval_runtime": 2.7737,
+      "eval_samples_per_second": 115.367,
+      "eval_steps_per_second": 57.684,
+      "step": 9300
+    },
+    {
+      "epoch": 3.9166666666666665,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.4474868178367615,
+      "eval_runtime": 2.8338,
+      "eval_samples_per_second": 112.924,
+      "eval_steps_per_second": 56.462,
+      "step": 9400
+    },
+    {
+      "epoch": 3.9583333333333335,
+      "grad_norm": 0.013326543383300304,
+      "learning_rate": 4.2083333333333336e-07,
+      "loss": 0.0505,
+      "step": 9500
+    },
+    {
+      "epoch": 3.9583333333333335,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.448885440826416,
+      "eval_runtime": 3.0868,
+      "eval_samples_per_second": 103.668,
+      "eval_steps_per_second": 51.834,
+      "step": 9500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.44648313522338867,
+      "eval_runtime": 3.1112,
+      "eval_samples_per_second": 102.855,
+      "eval_steps_per_second": 51.427,
+      "step": 9600
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 9600,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1303231196078040.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-9600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65494a2338792a7eb98d28ceffbee46e49ecedf50dfe5b401590a45c130902ae
+size 5304

checkpoints/checkpoint-9600/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

final_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4841b3f5997fb9b7affa793d77470a9e90ed9513e37df98628f64b87fdb9449
+size 438017556

final_model_meta.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"model_name": "google-bert/bert-base-uncased"}

test_outputs.jsonl ADDED Viewed

	@@ -0,0 +1,96 @@

+{"step": 100, "loss": 0.7828950881958008, "accuracy": 0.871875, "runtime": 2.8057, "samples_per_second": 114.053, "steps_per_second": 57.027}
+{"step": 200, "loss": 0.6410558819770813, "accuracy": 0.88125, "runtime": 2.9454, "samples_per_second": 108.645, "steps_per_second": 54.323}
+{"step": 300, "loss": 0.4724481701850891, "accuracy": 0.90625, "runtime": 2.6489, "samples_per_second": 120.804, "steps_per_second": 60.402}
+{"step": 400, "loss": 0.46632274985313416, "accuracy": 0.88125, "runtime": 2.743, "samples_per_second": 116.66, "steps_per_second": 58.33}
+{"step": 500, "loss": 0.336311399936676, "accuracy": 0.928125, "runtime": 2.7645, "samples_per_second": 115.753, "steps_per_second": 57.876}
+{"step": 600, "loss": 0.5237163305282593, "accuracy": 0.875, "runtime": 2.9888, "samples_per_second": 107.065, "steps_per_second": 53.532}
+{"step": 700, "loss": 0.612436056137085, "accuracy": 0.865625, "runtime": 3.0505, "samples_per_second": 104.901, "steps_per_second": 52.45}
+{"step": 800, "loss": 0.47742635011672974, "accuracy": 0.9, "runtime": 2.8541, "samples_per_second": 112.12, "steps_per_second": 56.06}
+{"step": 900, "loss": 0.4391939640045166, "accuracy": 0.925, "runtime": 2.7428, "samples_per_second": 116.667, "steps_per_second": 58.334}
+{"step": 1000, "loss": 0.3529580235481262, "accuracy": 0.925, "runtime": 2.7396, "samples_per_second": 116.807, "steps_per_second": 58.404}
+{"step": 1100, "loss": 0.32948821783065796, "accuracy": 0.925, "runtime": 3.0406, "samples_per_second": 105.242, "steps_per_second": 52.621}
+{"step": 1200, "loss": 0.5077411532402039, "accuracy": 0.9, "runtime": 3.0926, "samples_per_second": 103.474, "steps_per_second": 51.737}
+{"step": 1300, "loss": 0.4512642025947571, "accuracy": 0.9, "runtime": 2.7715, "samples_per_second": 115.459, "steps_per_second": 57.73}
+{"step": 1400, "loss": 0.43066683411598206, "accuracy": 0.89375, "runtime": 2.8379, "samples_per_second": 112.76, "steps_per_second": 56.38}
+{"step": 1500, "loss": 0.37902718782424927, "accuracy": 0.9125, "runtime": 2.8742, "samples_per_second": 111.336, "steps_per_second": 55.668}
+{"step": 1600, "loss": 0.435788631439209, "accuracy": 0.8875, "runtime": 3.0691, "samples_per_second": 104.266, "steps_per_second": 52.133}
+{"step": 1700, "loss": 0.6496487855911255, "accuracy": 0.878125, "runtime": 3.019, "samples_per_second": 105.995, "steps_per_second": 52.998}
+{"step": 1800, "loss": 0.5356670618057251, "accuracy": 0.896875, "runtime": 2.7479, "samples_per_second": 116.452, "steps_per_second": 58.226}
+{"step": 1900, "loss": 0.5577458143234253, "accuracy": 0.903125, "runtime": 2.7431, "samples_per_second": 116.657, "steps_per_second": 58.329}
+{"step": 2000, "loss": 0.5010732412338257, "accuracy": 0.9, "runtime": 2.8418, "samples_per_second": 112.606, "steps_per_second": 56.303}
+{"step": 2100, "loss": 0.5578997135162354, "accuracy": 0.871875, "runtime": 2.9909, "samples_per_second": 106.99, "steps_per_second": 53.495}
+{"step": 2200, "loss": 0.49204739928245544, "accuracy": 0.9125, "runtime": 2.9421, "samples_per_second": 108.768, "steps_per_second": 54.384}
+{"step": 2300, "loss": 0.42611804604530334, "accuracy": 0.921875, "runtime": 2.8842, "samples_per_second": 110.949, "steps_per_second": 55.475}
+{"step": 2400, "loss": 0.5209008455276489, "accuracy": 0.903125, "runtime": 2.8447, "samples_per_second": 112.49, "steps_per_second": 56.245}
+{"step": 2500, "loss": 0.558965802192688, "accuracy": 0.909375, "runtime": 3.0287, "samples_per_second": 105.655, "steps_per_second": 52.828}
+{"step": 2600, "loss": 0.5337815284729004, "accuracy": 0.909375, "runtime": 2.8886, "samples_per_second": 110.781, "steps_per_second": 55.391}
+{"step": 2700, "loss": 0.43373221158981323, "accuracy": 0.91875, "runtime": 2.927, "samples_per_second": 109.328, "steps_per_second": 54.664}
+{"step": 2800, "loss": 0.562017560005188, "accuracy": 0.90625, "runtime": 3.1459, "samples_per_second": 101.72, "steps_per_second": 50.86}
+{"step": 2900, "loss": 0.48360759019851685, "accuracy": 0.915625, "runtime": 2.7861, "samples_per_second": 114.855, "steps_per_second": 57.427}
+{"step": 3000, "loss": 0.5819778442382812, "accuracy": 0.903125, "runtime": 2.7837, "samples_per_second": 114.956, "steps_per_second": 57.478}
+{"step": 3100, "loss": 0.549329400062561, "accuracy": 0.90625, "runtime": 3.1117, "samples_per_second": 102.837, "steps_per_second": 51.418}
+{"step": 3200, "loss": 0.5409368276596069, "accuracy": 0.909375, "runtime": 3.0275, "samples_per_second": 105.698, "steps_per_second": 52.849}
+{"step": 3300, "loss": 0.5061095952987671, "accuracy": 0.91875, "runtime": 2.7533, "samples_per_second": 116.222, "steps_per_second": 58.111}
+{"step": 3400, "loss": 0.5100991129875183, "accuracy": 0.915625, "runtime": 2.8582, "samples_per_second": 111.958, "steps_per_second": 55.979}
+{"step": 3500, "loss": 0.48856163024902344, "accuracy": 0.91875, "runtime": 2.8545, "samples_per_second": 112.104, "steps_per_second": 56.052}
+{"step": 3600, "loss": 0.5146762728691101, "accuracy": 0.91875, "runtime": 3.0905, "samples_per_second": 103.544, "steps_per_second": 51.772}
+{"step": 3700, "loss": 0.5367563962936401, "accuracy": 0.915625, "runtime": 2.9095, "samples_per_second": 109.983, "steps_per_second": 54.992}
+{"step": 3800, "loss": 0.4761125445365906, "accuracy": 0.909375, "runtime": 2.8026, "samples_per_second": 114.178, "steps_per_second": 57.089}
+{"step": 3900, "loss": 0.4483864903450012, "accuracy": 0.90625, "runtime": 3.0492, "samples_per_second": 104.944, "steps_per_second": 52.472}
+{"step": 4000, "loss": 0.35619640350341797, "accuracy": 0.928125, "runtime": 2.9753, "samples_per_second": 107.553, "steps_per_second": 53.777}
+{"step": 4100, "loss": 0.38642579317092896, "accuracy": 0.921875, "runtime": 3.0163, "samples_per_second": 106.091, "steps_per_second": 53.046}
+{"step": 4200, "loss": 0.5521766543388367, "accuracy": 0.90625, "runtime": 2.8851, "samples_per_second": 110.915, "steps_per_second": 55.457}
+{"step": 4300, "loss": 0.4897506833076477, "accuracy": 0.890625, "runtime": 2.805, "samples_per_second": 114.082, "steps_per_second": 57.041}
+{"step": 4400, "loss": 0.4268820881843567, "accuracy": 0.921875, "runtime": 3.0937, "samples_per_second": 103.437, "steps_per_second": 51.718}
+{"step": 4500, "loss": 0.43541350960731506, "accuracy": 0.928125, "runtime": 2.9558, "samples_per_second": 108.262, "steps_per_second": 54.131}
+{"step": 4600, "loss": 0.4590047299861908, "accuracy": 0.91875, "runtime": 3.1134, "samples_per_second": 102.782, "steps_per_second": 51.391}
+{"step": 4700, "loss": 0.42555299401283264, "accuracy": 0.921875, "runtime": 2.7577, "samples_per_second": 116.038, "steps_per_second": 58.019}
+{"step": 4800, "loss": 0.46792250871658325, "accuracy": 0.921875, "runtime": 3.199, "samples_per_second": 100.03, "steps_per_second": 50.015}
+{"step": 4900, "loss": 0.40328049659729004, "accuracy": 0.934375, "runtime": 2.8034, "samples_per_second": 114.146, "steps_per_second": 57.073}
+{"step": 5000, "loss": 0.4490671753883362, "accuracy": 0.91875, "runtime": 2.8849, "samples_per_second": 110.924, "steps_per_second": 55.462}
+{"step": 5100, "loss": 0.41796278953552246, "accuracy": 0.925, "runtime": 3.1312, "samples_per_second": 102.196, "steps_per_second": 51.098}
+{"step": 5200, "loss": 0.3970945477485657, "accuracy": 0.925, "runtime": 2.9082, "samples_per_second": 110.032, "steps_per_second": 55.016}
+{"step": 5300, "loss": 0.3905588984489441, "accuracy": 0.94375, "runtime": 2.972, "samples_per_second": 107.671, "steps_per_second": 53.835}
+{"step": 5400, "loss": 0.3661550283432007, "accuracy": 0.9375, "runtime": 2.7487, "samples_per_second": 116.419, "steps_per_second": 58.21}
+{"step": 5500, "loss": 0.42674118280410767, "accuracy": 0.928125, "runtime": 2.824, "samples_per_second": 113.315, "steps_per_second": 56.658}
+{"step": 5600, "loss": 0.47028741240501404, "accuracy": 0.93125, "runtime": 2.9991, "samples_per_second": 106.699, "steps_per_second": 53.35}
+{"step": 5700, "loss": 0.48885369300842285, "accuracy": 0.925, "runtime": 3.0056, "samples_per_second": 106.467, "steps_per_second": 53.233}
+{"step": 5800, "loss": 0.4400312006473541, "accuracy": 0.925, "runtime": 2.7602, "samples_per_second": 115.934, "steps_per_second": 57.967}
+{"step": 5900, "loss": 0.4716396927833557, "accuracy": 0.925, "runtime": 2.8432, "samples_per_second": 112.548, "steps_per_second": 56.274}
+{"step": 6000, "loss": 0.45153647661209106, "accuracy": 0.9125, "runtime": 2.8676, "samples_per_second": 111.59, "steps_per_second": 55.795}
+{"step": 6100, "loss": 0.45402488112449646, "accuracy": 0.925, "runtime": 3.1616, "samples_per_second": 101.214, "steps_per_second": 50.607}
+{"step": 6200, "loss": 0.5484554767608643, "accuracy": 0.909375, "runtime": 3.133, "samples_per_second": 102.137, "steps_per_second": 51.069}
+{"step": 6300, "loss": 0.541451632976532, "accuracy": 0.915625, "runtime": 2.8683, "samples_per_second": 111.564, "steps_per_second": 55.782}
+{"step": 6400, "loss": 0.619576096534729, "accuracy": 0.9, "runtime": 2.8756, "samples_per_second": 111.281, "steps_per_second": 55.641}
+{"step": 6500, "loss": 0.4348299503326416, "accuracy": 0.93125, "runtime": 2.7745, "samples_per_second": 115.336, "steps_per_second": 57.668}
+{"step": 6600, "loss": 0.4980931878089905, "accuracy": 0.921875, "runtime": 2.9938, "samples_per_second": 106.888, "steps_per_second": 53.444}
+{"step": 6700, "loss": 0.4891650080680847, "accuracy": 0.921875, "runtime": 2.9254, "samples_per_second": 109.387, "steps_per_second": 54.694}
+{"step": 6800, "loss": 0.5331800580024719, "accuracy": 0.925, "runtime": 2.8311, "samples_per_second": 113.03, "steps_per_second": 56.515}
+{"step": 6900, "loss": 0.5215120315551758, "accuracy": 0.91875, "runtime": 2.7313, "samples_per_second": 117.159, "steps_per_second": 58.58}
+{"step": 7000, "loss": 0.5357473492622375, "accuracy": 0.921875, "runtime": 2.872, "samples_per_second": 111.419, "steps_per_second": 55.71}
+{"step": 7100, "loss": 0.5796685218811035, "accuracy": 0.91875, "runtime": 3.1783, "samples_per_second": 100.682, "steps_per_second": 50.341}
+{"step": 7200, "loss": 0.4970870614051819, "accuracy": 0.921875, "runtime": 3.0019, "samples_per_second": 106.598, "steps_per_second": 53.299}
+{"step": 7300, "loss": 0.46576887369155884, "accuracy": 0.925, "runtime": 2.83, "samples_per_second": 113.073, "steps_per_second": 56.536}
+{"step": 7400, "loss": 0.46547237038612366, "accuracy": 0.91875, "runtime": 2.873, "samples_per_second": 111.381, "steps_per_second": 55.691}
+{"step": 7500, "loss": 0.4488906264305115, "accuracy": 0.93125, "runtime": 2.7426, "samples_per_second": 116.676, "steps_per_second": 58.338}
+{"step": 7600, "loss": 0.4806918203830719, "accuracy": 0.93125, "runtime": 2.884, "samples_per_second": 110.955, "steps_per_second": 55.478}
+{"step": 7700, "loss": 0.5847142934799194, "accuracy": 0.90625, "runtime": 2.8473, "samples_per_second": 112.387, "steps_per_second": 56.193}
+{"step": 7800, "loss": 0.5970549583435059, "accuracy": 0.909375, "runtime": 3.0567, "samples_per_second": 104.688, "steps_per_second": 52.344}
+{"step": 7900, "loss": 0.4819498658180237, "accuracy": 0.925, "runtime": 2.9925, "samples_per_second": 106.933, "steps_per_second": 53.467}
+{"step": 8000, "loss": 0.4904124140739441, "accuracy": 0.928125, "runtime": 3.0803, "samples_per_second": 103.886, "steps_per_second": 51.943}
+{"step": 8100, "loss": 0.4956900179386139, "accuracy": 0.928125, "runtime": 2.7659, "samples_per_second": 115.694, "steps_per_second": 57.847}
+{"step": 8200, "loss": 0.5745713114738464, "accuracy": 0.90625, "runtime": 2.9216, "samples_per_second": 109.529, "steps_per_second": 54.764}
+{"step": 8300, "loss": 0.5323331952095032, "accuracy": 0.915625, "runtime": 3.1843, "samples_per_second": 100.494, "steps_per_second": 50.247}
+{"step": 8400, "loss": 0.5545214414596558, "accuracy": 0.915625, "runtime": 3.0076, "samples_per_second": 106.398, "steps_per_second": 53.199}
+{"step": 8500, "loss": 0.43759164214134216, "accuracy": 0.9375, "runtime": 3.0869, "samples_per_second": 103.665, "steps_per_second": 51.832}
+{"step": 8600, "loss": 0.43747997283935547, "accuracy": 0.9375, "runtime": 2.8407, "samples_per_second": 112.65, "steps_per_second": 56.325}
+{"step": 8700, "loss": 0.43234896659851074, "accuracy": 0.9375, "runtime": 2.8979, "samples_per_second": 110.425, "steps_per_second": 55.213}
+{"step": 8800, "loss": 0.4293266832828522, "accuracy": 0.934375, "runtime": 3.1221, "samples_per_second": 102.496, "steps_per_second": 51.248}
+{"step": 8900, "loss": 0.4287172853946686, "accuracy": 0.9375, "runtime": 2.9021, "samples_per_second": 110.265, "steps_per_second": 55.132}
+{"step": 9000, "loss": 0.43642768263816833, "accuracy": 0.9375, "runtime": 2.9997, "samples_per_second": 106.679, "steps_per_second": 53.339}
+{"step": 9100, "loss": 0.4443955421447754, "accuracy": 0.934375, "runtime": 2.7499, "samples_per_second": 116.37, "steps_per_second": 58.185}
+{"step": 9200, "loss": 0.43916934728622437, "accuracy": 0.9375, "runtime": 2.8399, "samples_per_second": 112.68, "steps_per_second": 56.34}
+{"step": 9300, "loss": 0.44628801941871643, "accuracy": 0.934375, "runtime": 2.7737, "samples_per_second": 115.367, "steps_per_second": 57.684}
+{"step": 9400, "loss": 0.4474868178367615, "accuracy": 0.9375, "runtime": 2.8338, "samples_per_second": 112.924, "steps_per_second": 56.462}
+{"step": 9500, "loss": 0.448885440826416, "accuracy": 0.9375, "runtime": 3.0868, "samples_per_second": 103.668, "steps_per_second": 51.834}
+{"step": 9600, "loss": 0.44648313522338867, "accuracy": 0.9375, "runtime": 3.1112, "samples_per_second": 102.855, "steps_per_second": 51.427}