BartLunenborg commited on Jan 27, 2025

Commit

137457a

1 Parent(s): 408b5e3

Trained and model and test file

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

finetuned/checkpoint-1000/optimizer.pt +0 -3
finetuned/checkpoint-1000/rng_state.pth +0 -3
finetuned/checkpoint-1000/trainer_state.json +0 -47
finetuned/checkpoint-1500/config.json +0 -35
finetuned/checkpoint-1500/rng_state.pth +0 -3
finetuned/checkpoint-1500/scheduler.pt +0 -3
finetuned/checkpoint-1500/trainer_state.json +0 -54
finetuned/checkpoint-1500/training_args.bin +0 -3
finetuned/checkpoint-2000/config.json +0 -35
finetuned/checkpoint-2000/model.safetensors +0 -3
finetuned/checkpoint-2000/trainer_state.json +0 -61
finetuned/checkpoint-2500/model.safetensors +0 -3
finetuned/checkpoint-2500/optimizer.pt +0 -3
finetuned/checkpoint-2500/scheduler.pt +0 -3
finetuned/checkpoint-2500/trainer_state.json +0 -68
finetuned/checkpoint-2500/training_args.bin +0 -3
finetuned/checkpoint-3000/config.json +0 -35
finetuned/checkpoint-3000/model.safetensors +0 -3
finetuned/checkpoint-3000/optimizer.pt +0 -3
finetuned/checkpoint-3000/rng_state.pth +0 -3
finetuned/checkpoint-3000/scheduler.pt +0 -3
finetuned/checkpoint-3000/trainer_state.json +0 -75
finetuned/checkpoint-3000/training_args.bin +0 -3
finetuned/checkpoint-3500/config.json +0 -35
finetuned/checkpoint-3500/model.safetensors +0 -3
finetuned/checkpoint-3500/optimizer.pt +0 -3
finetuned/checkpoint-3500/rng_state.pth +0 -3
finetuned/checkpoint-3500/scheduler.pt +0 -3
finetuned/checkpoint-3500/trainer_state.json +0 -82
finetuned/checkpoint-3500/training_args.bin +0 -3
finetuned/checkpoint-3910/config.json +0 -35
finetuned/checkpoint-3910/model.safetensors +0 -3
finetuned/checkpoint-3910/optimizer.pt +0 -3
finetuned/checkpoint-3910/rng_state.pth +0 -3
finetuned/checkpoint-3910/scheduler.pt +0 -3
finetuned/checkpoint-3910/trainer_state.json +0 -82
finetuned/checkpoint-3910/training_args.bin +0 -3
finetuned/{checkpoint-1000 → checkpoint-4000}/config.json +1 -1
finetuned/{checkpoint-1500 → checkpoint-4000}/model.safetensors +1 -1
finetuned/{checkpoint-1500 → checkpoint-4000}/optimizer.pt +2 -2
finetuned/{checkpoint-2000 → checkpoint-4000}/rng_state.pth +1 -1
finetuned/{checkpoint-1000 → checkpoint-4000}/scheduler.pt +1 -1
finetuned/checkpoint-4000/trainer_state.json +209 -0
finetuned/{checkpoint-2000 → checkpoint-4000}/training_args.bin +2 -2
finetuned/{checkpoint-2500 → checkpoint-4478}/config.json +1 -1
finetuned/{checkpoint-1000 → checkpoint-4478}/model.safetensors +1 -1
finetuned/{checkpoint-2000 → checkpoint-4478}/optimizer.pt +2 -2
finetuned/{checkpoint-2500 → checkpoint-4478}/rng_state.pth +1 -1
finetuned/{checkpoint-2000 → checkpoint-4478}/scheduler.pt +1 -1
finetuned/checkpoint-4478/trainer_state.json +216 -0

finetuned/checkpoint-1000/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:34f7dc356694bc193a20fcd5d3d89cb71c8dfbd059d16ecd1df5d4f2f57789d4
-size 876038330

finetuned/checkpoint-1000/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:fc53217f065c0885a0a689c3821c9fcb75774575fb9467a6417cad07882490d5
-size 14244

finetuned/checkpoint-1000/trainer_state.json DELETED Viewed

@@ -1,47 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.278772378516624,
-  "eval_steps": 500,
-  "global_step": 1000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.639386189258312,
-      "grad_norm": 533343.5625,
-      "learning_rate": 8.721227621483377e-06,
-      "loss": 0.2807,
-      "step": 500
-    },
-    {
-      "epoch": 1.278772378516624,
-      "grad_norm": 293576.46875,
-      "learning_rate": 7.442455242966753e-06,
-      "loss": 0.1817,
-      "step": 1000
-    }
-  ],
-  "logging_steps": 500,
-  "max_steps": 3910,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 8411199995512320.0,
-  "train_batch_size": 32,
-  "trial_name": null,
-  "trial_params": null
-}

finetuned/checkpoint-1500/config.json DELETED Viewed

@@ -1,35 +0,0 @@
-{
-  "_name_or_path": "google-bert/bert-base-uncased",
-  "architectures": [
-    "BertForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "NEGATIVE",
-    "1": "POSITIVE"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "NEGATIVE": 0,
-    "POSITIVE": 1
-  },
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 30522
-}

finetuned/checkpoint-1500/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e3ac55272dbf5131637a60e2090309efebfe823872bbf2fe2c1677fa2e2cd562
-size 14244

finetuned/checkpoint-1500/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d617fd58fe4ec741cd9bbc14d43f1527b3eadedfbbc9e5741d564d795210d91f
-size 1064

finetuned/checkpoint-1500/trainer_state.json DELETED Viewed

@@ -1,54 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.918158567774936,
-  "eval_steps": 500,
-  "global_step": 1500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.639386189258312,
-      "grad_norm": 533343.5625,
-      "learning_rate": 8.721227621483377e-06,
-      "loss": 0.2807,
-      "step": 500
-    },
-    {
-      "epoch": 1.278772378516624,
-      "grad_norm": 293576.46875,
-      "learning_rate": 7.442455242966753e-06,
-      "loss": 0.1817,
-      "step": 1000
-    },
-    {
-      "epoch": 1.918158567774936,
-      "grad_norm": 212895.234375,
-      "learning_rate": 6.163682864450128e-06,
-      "loss": 0.1532,
-      "step": 1500
-    }
-  ],
-  "logging_steps": 500,
-  "max_steps": 3910,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 1.261689865991424e+16,
-  "train_batch_size": 32,
-  "trial_name": null,
-  "trial_params": null
-}

finetuned/checkpoint-1500/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c2d467fd004b82564bf87f840a5a063cdb96832e1ad2d05429b1e9464eca34a0
-size 5304

finetuned/checkpoint-2000/config.json DELETED Viewed

@@ -1,35 +0,0 @@
-{
-  "_name_or_path": "google-bert/bert-base-uncased",
-  "architectures": [
-    "BertForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "NEGATIVE",
-    "1": "POSITIVE"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "NEGATIVE": 0,
-    "POSITIVE": 1
-  },
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 30522
-}

finetuned/checkpoint-2000/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b11088c111728c93325c62ad747322f07e75d5895962a6ae6804f6214f43547f
-size 437958648

finetuned/checkpoint-2000/trainer_state.json DELETED Viewed

@@ -1,61 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 2.557544757033248,
-  "eval_steps": 500,
-  "global_step": 2000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.639386189258312,
-      "grad_norm": 533343.5625,
-      "learning_rate": 8.721227621483377e-06,
-      "loss": 0.2807,
-      "step": 500
-    },
-    {
-      "epoch": 1.278772378516624,
-      "grad_norm": 293576.46875,
-      "learning_rate": 7.442455242966753e-06,
-      "loss": 0.1817,
-      "step": 1000
-    },
-    {
-      "epoch": 1.918158567774936,
-      "grad_norm": 212895.234375,
-      "learning_rate": 6.163682864450128e-06,
-      "loss": 0.1532,
-      "step": 1500
-    },
-    {
-      "epoch": 2.557544757033248,
-      "grad_norm": 1228927.0,
-      "learning_rate": 4.884910485933504e-06,
-      "loss": 0.1079,
-      "step": 2000
-    }
-  ],
-  "logging_steps": 500,
-  "max_steps": 3910,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 1.682006488040832e+16,
-  "train_batch_size": 32,
-  "trial_name": null,
-  "trial_params": null
-}

finetuned/checkpoint-2500/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:908d9d02379b868830e83e8c186373c262ce29ef16bdca187427a80212f4bc16
-size 437958648

finetuned/checkpoint-2500/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:38838ae6c3801dc7aeb827ed841ac89270954c096484a5d7ba985946927c9676
-size 876038330

finetuned/checkpoint-2500/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:22434b050bd3651c8706a9c9f40e9bc7aabffee18cb6bce61a5af85e533c0f44
-size 1064

finetuned/checkpoint-2500/trainer_state.json DELETED Viewed

@@ -1,68 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 3.1969309462915603,
-  "eval_steps": 500,
-  "global_step": 2500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.639386189258312,
-      "grad_norm": 533343.5625,
-      "learning_rate": 8.721227621483377e-06,
-      "loss": 0.2807,
-      "step": 500
-    },
-    {
-      "epoch": 1.278772378516624,
-      "grad_norm": 293576.46875,
-      "learning_rate": 7.442455242966753e-06,
-      "loss": 0.1817,
-      "step": 1000
-    },
-    {
-      "epoch": 1.918158567774936,
-      "grad_norm": 212895.234375,
-      "learning_rate": 6.163682864450128e-06,
-      "loss": 0.1532,
-      "step": 1500
-    },
-    {
-      "epoch": 2.557544757033248,
-      "grad_norm": 1228927.0,
-      "learning_rate": 4.884910485933504e-06,
-      "loss": 0.1079,
-      "step": 2000
-    },
-    {
-      "epoch": 3.1969309462915603,
-      "grad_norm": 178655.1875,
-      "learning_rate": 3.60613810741688e-06,
-      "loss": 0.1019,
-      "step": 2500
-    }
-  ],
-  "logging_steps": 500,
-  "max_steps": 3910,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 2.10205794347976e+16,
-  "train_batch_size": 32,
-  "trial_name": null,
-  "trial_params": null
-}

finetuned/checkpoint-2500/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c2d467fd004b82564bf87f840a5a063cdb96832e1ad2d05429b1e9464eca34a0
-size 5304

finetuned/checkpoint-3000/config.json DELETED Viewed

@@ -1,35 +0,0 @@
-{
-  "_name_or_path": "google-bert/bert-base-uncased",
-  "architectures": [
-    "BertForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "NEGATIVE",
-    "1": "POSITIVE"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "NEGATIVE": 0,
-    "POSITIVE": 1
-  },
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 30522
-}

finetuned/checkpoint-3000/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4bb1795d571ef2773eb13e791714856dd9c5122374e7e99e5b90f356035d645e
-size 437958648

finetuned/checkpoint-3000/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ac4702546e7abcea92809a026382228410e589e48d75248bbe9be1c7c36c2d49
-size 876038330

finetuned/checkpoint-3000/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:adad5a1d42d3b0e0b4161eac348e2efbeced358e2597bda6624afeb9b3dbe137
-size 14244

finetuned/checkpoint-3000/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:5c52cd26d76efa87b43e9faa2f20505bf24be8b072e8dedce581551dd946bd27
-size 1064

finetuned/checkpoint-3000/trainer_state.json DELETED Viewed

@@ -1,75 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 3.836317135549872,
-  "eval_steps": 500,
-  "global_step": 3000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.639386189258312,
-      "grad_norm": 533343.5625,
-      "learning_rate": 8.721227621483377e-06,
-      "loss": 0.2807,
-      "step": 500
-    },
-    {
-      "epoch": 1.278772378516624,
-      "grad_norm": 293576.46875,
-      "learning_rate": 7.442455242966753e-06,
-      "loss": 0.1817,
-      "step": 1000
-    },
-    {
-      "epoch": 1.918158567774936,
-      "grad_norm": 212895.234375,
-      "learning_rate": 6.163682864450128e-06,
-      "loss": 0.1532,
-      "step": 1500
-    },
-    {
-      "epoch": 2.557544757033248,
-      "grad_norm": 1228927.0,
-      "learning_rate": 4.884910485933504e-06,
-      "loss": 0.1079,
-      "step": 2000
-    },
-    {
-      "epoch": 3.1969309462915603,
-      "grad_norm": 178655.1875,
-      "learning_rate": 3.60613810741688e-06,
-      "loss": 0.1019,
-      "step": 2500
-    },
-    {
-      "epoch": 3.836317135549872,
-      "grad_norm": 1843713.875,
-      "learning_rate": 2.327365728900256e-06,
-      "loss": 0.0993,
-      "step": 3000
-    }
-  ],
-  "logging_steps": 500,
-  "max_steps": 3910,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 2.52303563205576e+16,
-  "train_batch_size": 32,
-  "trial_name": null,
-  "trial_params": null
-}

finetuned/checkpoint-3000/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c2d467fd004b82564bf87f840a5a063cdb96832e1ad2d05429b1e9464eca34a0
-size 5304

finetuned/checkpoint-3500/config.json DELETED Viewed

@@ -1,35 +0,0 @@
-{
-  "_name_or_path": "google-bert/bert-base-uncased",
-  "architectures": [
-    "BertForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "NEGATIVE",
-    "1": "POSITIVE"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "NEGATIVE": 0,
-    "POSITIVE": 1
-  },
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 30522
-}

finetuned/checkpoint-3500/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:71a4030abab180fdb181991d1c90acafe0e1c0abb79bd299c6e3cdd2ff8f50bd
-size 437958648

finetuned/checkpoint-3500/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:70c863095ecf7d6fe801cf54d255f7d89d2de682dfb5d0e2fb7312733d931a27
-size 876038330

finetuned/checkpoint-3500/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ec2710bfa27485acc2db1bd72a7d4db64a01a5d2aea25e65b26150ff601d5073
-size 14244

finetuned/checkpoint-3500/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1a52805cefea10e59a479e9ca9cc65000858d8213bdab457913dd86ef55fcab4
-size 1064

finetuned/checkpoint-3500/trainer_state.json DELETED Viewed

@@ -1,82 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 4.475703324808184,
-  "eval_steps": 500,
-  "global_step": 3500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.639386189258312,
-      "grad_norm": 533343.5625,
-      "learning_rate": 8.721227621483377e-06,
-      "loss": 0.2807,
-      "step": 500
-    },
-    {
-      "epoch": 1.278772378516624,
-      "grad_norm": 293576.46875,
-      "learning_rate": 7.442455242966753e-06,
-      "loss": 0.1817,
-      "step": 1000
-    },
-    {
-      "epoch": 1.918158567774936,
-      "grad_norm": 212895.234375,
-      "learning_rate": 6.163682864450128e-06,
-      "loss": 0.1532,
-      "step": 1500
-    },
-    {
-      "epoch": 2.557544757033248,
-      "grad_norm": 1228927.0,
-      "learning_rate": 4.884910485933504e-06,
-      "loss": 0.1079,
-      "step": 2000
-    },
-    {
-      "epoch": 3.1969309462915603,
-      "grad_norm": 178655.1875,
-      "learning_rate": 3.60613810741688e-06,
-      "loss": 0.1019,
-      "step": 2500
-    },
-    {
-      "epoch": 3.836317135549872,
-      "grad_norm": 1843713.875,
-      "learning_rate": 2.327365728900256e-06,
-      "loss": 0.0993,
-      "step": 3000
-    },
-    {
-      "epoch": 4.475703324808184,
-      "grad_norm": 966544.375,
-      "learning_rate": 1.0485933503836318e-06,
-      "loss": 0.0954,
-      "step": 3500
-    }
-  ],
-  "logging_steps": 500,
-  "max_steps": 3910,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 2.943138476372688e+16,
-  "train_batch_size": 32,
-  "trial_name": null,
-  "trial_params": null
-}

finetuned/checkpoint-3500/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c2d467fd004b82564bf87f840a5a063cdb96832e1ad2d05429b1e9464eca34a0
-size 5304

finetuned/checkpoint-3910/config.json DELETED Viewed

@@ -1,35 +0,0 @@
-{
-  "_name_or_path": "google-bert/bert-base-uncased",
-  "architectures": [
-    "BertForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "NEGATIVE",
-    "1": "POSITIVE"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "NEGATIVE": 0,
-    "POSITIVE": 1
-  },
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 30522
-}

finetuned/checkpoint-3910/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:fd6371c7202fb80670a014b63253b77c372ba800266c5c52a02cdf5e348c0525
-size 437958648

finetuned/checkpoint-3910/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:cc9c2b12f4c0f337b9a1930962b4540a8ae7dcd5e499cfb44df38d5d14bc3de3
-size 876038330

finetuned/checkpoint-3910/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:5473c0291a1c0eb36f990d0d917ac13a6888d99a6c00f1ebd7a3566a18a4bf11
-size 14244

finetuned/checkpoint-3910/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b89bdce6e0443b324c96f188ef932f1b73ba0bf8c16033128e8999f65da055b3
-size 1064

finetuned/checkpoint-3910/trainer_state.json DELETED Viewed

@@ -1,82 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 5.0,
-  "eval_steps": 500,
-  "global_step": 3910,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.639386189258312,
-      "grad_norm": 533343.5625,
-      "learning_rate": 8.721227621483377e-06,
-      "loss": 0.2807,
-      "step": 500
-    },
-    {
-      "epoch": 1.278772378516624,
-      "grad_norm": 293576.46875,
-      "learning_rate": 7.442455242966753e-06,
-      "loss": 0.1817,
-      "step": 1000
-    },
-    {
-      "epoch": 1.918158567774936,
-      "grad_norm": 212895.234375,
-      "learning_rate": 6.163682864450128e-06,
-      "loss": 0.1532,
-      "step": 1500
-    },
-    {
-      "epoch": 2.557544757033248,
-      "grad_norm": 1228927.0,
-      "learning_rate": 4.884910485933504e-06,
-      "loss": 0.1079,
-      "step": 2000
-    },
-    {
-      "epoch": 3.1969309462915603,
-      "grad_norm": 178655.1875,
-      "learning_rate": 3.60613810741688e-06,
-      "loss": 0.1019,
-      "step": 2500
-    },
-    {
-      "epoch": 3.836317135549872,
-      "grad_norm": 1843713.875,
-      "learning_rate": 2.327365728900256e-06,
-      "loss": 0.0993,
-      "step": 3000
-    },
-    {
-      "epoch": 4.475703324808184,
-      "grad_norm": 966544.375,
-      "learning_rate": 1.0485933503836318e-06,
-      "loss": 0.0954,
-      "step": 3500
-    }
-  ],
-  "logging_steps": 500,
-  "max_steps": 3910,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 3.287503158960144e+16,
-  "train_batch_size": 32,
-  "trial_name": null,
-  "trial_params": null
-}

finetuned/checkpoint-3910/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c2d467fd004b82564bf87f840a5a063cdb96832e1ad2d05429b1e9464eca34a0
-size 5304

finetuned/{checkpoint-1000 → checkpoint-4000}/config.json RENAMED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "google-bert/bert-base-uncased",
   "architectures": [
     "BertForSequenceClassification"
   ],

 {
+  "_name_or_path": "bert-base-uncased",
   "architectures": [
     "BertForSequenceClassification"
   ],

finetuned/{checkpoint-1500 → checkpoint-4000}/model.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97429bde605537275cbae7b22f2c311b0701995fe46479e20e73d33d3ffa3caf
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:41a96c9dbcd10f3392344b0d993bb252e361f6a10794df174d228d32026a36bb
 size 437958648

finetuned/{checkpoint-1500 → checkpoint-4000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0681395055000d4e747cc300f2cbc56670b28d89b76be36481f980cb1de9f08e
-size 876038330

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1ea34cc74aa14a146de7b5f181aac6fce8d17d22e4d9337f5dd3fbbaaec9295
+size 876038394

finetuned/{checkpoint-2000 → checkpoint-4000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3baefb05144af3284dffe17d206ea2b1aa96ef791488c680bd7f236a35cb6bbc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdd796aa89fddb7fbfb345fbbc50fed5f53d97172cbddf9c71a21c13cbeabbc7
 size 14244

finetuned/{checkpoint-1000 → checkpoint-4000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17a6414b6fb5de33c203279a7297b9438b98c06da76a94c9dd96712c5a1d8e13
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4502fb7dec15afe09ebc246fb1872a7b2a71f04495fc6ff09683c387e02e2b3b
 size 1064

finetuned/checkpoint-4000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,209 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.786511835640911,
+  "eval_steps": 500,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11165698972755694,
+      "grad_norm": 2.4662914276123047,
+      "learning_rate": 9.446181330951318e-06,
+      "loss": 0.3851,
+      "step": 250
+    },
+    {
+      "epoch": 0.2233139794551139,
+      "grad_norm": 2.047555923461914,
+      "learning_rate": 8.890129522108086e-06,
+      "loss": 0.2527,
+      "step": 500
+    },
+    {
+      "epoch": 0.2233139794551139,
+      "eval_loss": 0.1920539289712906,
+      "eval_runtime": 20.4794,
+      "eval_samples_per_second": 308.7,
+      "eval_steps_per_second": 38.624,
+      "step": 500
+    },
+    {
+      "epoch": 0.33497096918267083,
+      "grad_norm": 9.508040428161621,
+      "learning_rate": 8.3318445734703e-06,
+      "loss": 0.2201,
+      "step": 750
+    },
+    {
+      "epoch": 0.4466279589102278,
+      "grad_norm": 3.1730806827545166,
+      "learning_rate": 7.773559624832514e-06,
+      "loss": 0.2306,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4466279589102278,
+      "eval_loss": 0.19817066192626953,
+      "eval_runtime": 20.4532,
+      "eval_samples_per_second": 309.096,
+      "eval_steps_per_second": 38.674,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5582849486377848,
+      "grad_norm": 9.710593223571777,
+      "learning_rate": 7.21527467619473e-06,
+      "loss": 0.2134,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6699419383653417,
+      "grad_norm": 11.616806983947754,
+      "learning_rate": 6.656989727556945e-06,
+      "loss": 0.2099,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6699419383653417,
+      "eval_loss": 0.183230921626091,
+      "eval_runtime": 20.4778,
+      "eval_samples_per_second": 308.725,
+      "eval_steps_per_second": 38.627,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7815989280928987,
+      "grad_norm": 0.7312414646148682,
+      "learning_rate": 6.098704778919161e-06,
+      "loss": 0.1859,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8932559178204555,
+      "grad_norm": 9.158418655395508,
+      "learning_rate": 5.540419830281376e-06,
+      "loss": 0.209,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8932559178204555,
+      "eval_loss": 0.20334886014461517,
+      "eval_runtime": 20.5003,
+      "eval_samples_per_second": 308.386,
+      "eval_steps_per_second": 38.585,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0049129075480125,
+      "grad_norm": 0.6505267024040222,
+      "learning_rate": 4.982134881643591e-06,
+      "loss": 0.1914,
+      "step": 2250
+    },
+    {
+      "epoch": 1.1165698972755695,
+      "grad_norm": 0.2128743827342987,
+      "learning_rate": 4.423849933005807e-06,
+      "loss": 0.1477,
+      "step": 2500
+    },
+    {
+      "epoch": 1.1165698972755695,
+      "eval_loss": 0.19207331538200378,
+      "eval_runtime": 20.4457,
+      "eval_samples_per_second": 309.21,
+      "eval_steps_per_second": 38.688,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2282268870031263,
+      "grad_norm": 7.301019668579102,
+      "learning_rate": 3.865564984368021e-06,
+      "loss": 0.1346,
+      "step": 2750
+    },
+    {
+      "epoch": 1.3398838767306833,
+      "grad_norm": 1.8853554725646973,
+      "learning_rate": 3.307280035730237e-06,
+      "loss": 0.1534,
+      "step": 3000
+    },
+    {
+      "epoch": 1.3398838767306833,
+      "eval_loss": 0.22205530107021332,
+      "eval_runtime": 20.4921,
+      "eval_samples_per_second": 308.51,
+      "eval_steps_per_second": 38.6,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4515408664582403,
+      "grad_norm": 4.45537805557251,
+      "learning_rate": 2.748995087092452e-06,
+      "loss": 0.134,
+      "step": 3250
+    },
+    {
+      "epoch": 1.563197856185797,
+      "grad_norm": 1.3830872774124146,
+      "learning_rate": 2.1907101384546676e-06,
+      "loss": 0.1423,
+      "step": 3500
+    },
+    {
+      "epoch": 1.563197856185797,
+      "eval_loss": 0.2144242823123932,
+      "eval_runtime": 20.4506,
+      "eval_samples_per_second": 309.135,
+      "eval_steps_per_second": 38.679,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6748548459133543,
+      "grad_norm": 6.6492156982421875,
+      "learning_rate": 1.6324251898168828e-06,
+      "loss": 0.1304,
+      "step": 3750
+    },
+    {
+      "epoch": 1.786511835640911,
+      "grad_norm": 25.870407104492188,
+      "learning_rate": 1.076373380973649e-06,
+      "loss": 0.1472,
+      "step": 4000
+    },
+    {
+      "epoch": 1.786511835640911,
+      "eval_loss": 0.2106480598449707,
+      "eval_runtime": 20.45,
+      "eval_samples_per_second": 309.144,
+      "eval_steps_per_second": 38.68,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 250,
+  "max_steps": 4478,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.65695831557056e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

finetuned/{checkpoint-2000 → checkpoint-4000}/training_args.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2d467fd004b82564bf87f840a5a063cdb96832e1ad2d05429b1e9464eca34a0
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:141eb34e31450e25b568f7f7191acf4a98da817c0aadd9f7e72805b0f4f79fb9
+size 5240

finetuned/{checkpoint-2500 → checkpoint-4478}/config.json RENAMED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "google-bert/bert-base-uncased",
   "architectures": [
     "BertForSequenceClassification"
   ],

 {
+  "_name_or_path": "bert-base-uncased",
   "architectures": [
     "BertForSequenceClassification"
   ],

finetuned/{checkpoint-1000 → checkpoint-4478}/model.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09c27c55f327985102eae7e9c1be83b8c60c8275a8b0b3ff27bfcf1fd513100a
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:82960dd8038b454884bd4c04473e51c711111b0f37db5cd655609c2b03aa8162
 size 437958648

finetuned/{checkpoint-2000 → checkpoint-4478}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:956dd23a3f2662f6624ded6c8fadb3694817f9c7e932226bab6c2da14494b95e
-size 876038330

 version https://git-lfs.github.com/spec/v1
+oid sha256:86e35b1717a5fcff9af4d5201723cacf06fac8ac9bfa5d74801ea64aa492c78f
+size 876038394

finetuned/{checkpoint-2500 → checkpoint-4478}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e7cf5be83b0239859ac0fa079f293d45972f68d6dcb8d77b28dc21e1efb5720
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a388acc7697c4b3506f8910dd0fde563539f54157bdf6c5221bcabce8ab28d78
 size 14244

finetuned/{checkpoint-2000 → checkpoint-4478}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4c4b1cfd22d6cb65d5d53fb61cc94ce7abe5101099a35f9cc8f20b468437e7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:77207998e702c63df9df9da34fefc0ac738c9e53197c280e0846bc33b69d12d3
 size 1064

finetuned/checkpoint-4478/trainer_state.json ADDED Viewed

	@@ -0,0 +1,216 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 4478,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11165698972755694,
+      "grad_norm": 2.4662914276123047,
+      "learning_rate": 9.446181330951318e-06,
+      "loss": 0.3851,
+      "step": 250
+    },
+    {
+      "epoch": 0.2233139794551139,
+      "grad_norm": 2.047555923461914,
+      "learning_rate": 8.890129522108086e-06,
+      "loss": 0.2527,
+      "step": 500
+    },
+    {
+      "epoch": 0.2233139794551139,
+      "eval_loss": 0.1920539289712906,
+      "eval_runtime": 20.4794,
+      "eval_samples_per_second": 308.7,
+      "eval_steps_per_second": 38.624,
+      "step": 500
+    },
+    {
+      "epoch": 0.33497096918267083,
+      "grad_norm": 9.508040428161621,
+      "learning_rate": 8.3318445734703e-06,
+      "loss": 0.2201,
+      "step": 750
+    },
+    {
+      "epoch": 0.4466279589102278,
+      "grad_norm": 3.1730806827545166,
+      "learning_rate": 7.773559624832514e-06,
+      "loss": 0.2306,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4466279589102278,
+      "eval_loss": 0.19817066192626953,
+      "eval_runtime": 20.4532,
+      "eval_samples_per_second": 309.096,
+      "eval_steps_per_second": 38.674,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5582849486377848,
+      "grad_norm": 9.710593223571777,
+      "learning_rate": 7.21527467619473e-06,
+      "loss": 0.2134,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6699419383653417,
+      "grad_norm": 11.616806983947754,
+      "learning_rate": 6.656989727556945e-06,
+      "loss": 0.2099,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6699419383653417,
+      "eval_loss": 0.183230921626091,
+      "eval_runtime": 20.4778,
+      "eval_samples_per_second": 308.725,
+      "eval_steps_per_second": 38.627,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7815989280928987,
+      "grad_norm": 0.7312414646148682,
+      "learning_rate": 6.098704778919161e-06,
+      "loss": 0.1859,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8932559178204555,
+      "grad_norm": 9.158418655395508,
+      "learning_rate": 5.540419830281376e-06,
+      "loss": 0.209,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8932559178204555,
+      "eval_loss": 0.20334886014461517,
+      "eval_runtime": 20.5003,
+      "eval_samples_per_second": 308.386,
+      "eval_steps_per_second": 38.585,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0049129075480125,
+      "grad_norm": 0.6505267024040222,
+      "learning_rate": 4.982134881643591e-06,
+      "loss": 0.1914,
+      "step": 2250
+    },
+    {
+      "epoch": 1.1165698972755695,
+      "grad_norm": 0.2128743827342987,
+      "learning_rate": 4.423849933005807e-06,
+      "loss": 0.1477,
+      "step": 2500
+    },
+    {
+      "epoch": 1.1165698972755695,
+      "eval_loss": 0.19207331538200378,
+      "eval_runtime": 20.4457,
+      "eval_samples_per_second": 309.21,
+      "eval_steps_per_second": 38.688,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2282268870031263,
+      "grad_norm": 7.301019668579102,
+      "learning_rate": 3.865564984368021e-06,
+      "loss": 0.1346,
+      "step": 2750
+    },
+    {
+      "epoch": 1.3398838767306833,
+      "grad_norm": 1.8853554725646973,
+      "learning_rate": 3.307280035730237e-06,
+      "loss": 0.1534,
+      "step": 3000
+    },
+    {
+      "epoch": 1.3398838767306833,
+      "eval_loss": 0.22205530107021332,
+      "eval_runtime": 20.4921,
+      "eval_samples_per_second": 308.51,
+      "eval_steps_per_second": 38.6,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4515408664582403,
+      "grad_norm": 4.45537805557251,
+      "learning_rate": 2.748995087092452e-06,
+      "loss": 0.134,
+      "step": 3250
+    },
+    {
+      "epoch": 1.563197856185797,
+      "grad_norm": 1.3830872774124146,
+      "learning_rate": 2.1907101384546676e-06,
+      "loss": 0.1423,
+      "step": 3500
+    },
+    {
+      "epoch": 1.563197856185797,
+      "eval_loss": 0.2144242823123932,
+      "eval_runtime": 20.4506,
+      "eval_samples_per_second": 309.135,
+      "eval_steps_per_second": 38.679,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6748548459133543,
+      "grad_norm": 6.6492156982421875,
+      "learning_rate": 1.6324251898168828e-06,
+      "loss": 0.1304,
+      "step": 3750
+    },
+    {
+      "epoch": 1.786511835640911,
+      "grad_norm": 25.870407104492188,
+      "learning_rate": 1.076373380973649e-06,
+      "loss": 0.1472,
+      "step": 4000
+    },
+    {
+      "epoch": 1.786511835640911,
+      "eval_loss": 0.2106480598449707,
+      "eval_runtime": 20.45,
+      "eval_samples_per_second": 309.144,
+      "eval_steps_per_second": 38.68,
+      "step": 4000
+    },
+    {
+      "epoch": 1.898168825368468,
+      "grad_norm": 14.559236526489258,
+      "learning_rate": 5.180884323358643e-07,
+      "loss": 0.1483,
+      "step": 4250
+    }
+  ],
+  "logging_steps": 250,
+  "max_steps": 4478,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.854354095966208e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}