Training in progress, epoch 2, checkpoint

Browse files

Files changed (12) hide show

checkpoint-750/config.json +36 -0
checkpoint-750/merges.txt +0 -0
checkpoint-750/model.safetensors +3 -0
checkpoint-750/optimizer.pt +3 -0
checkpoint-750/rng_state.pth +3 -0
checkpoint-750/scheduler.pt +3 -0
checkpoint-750/special_tokens_map.json +15 -0
checkpoint-750/tokenizer.json +0 -0
checkpoint-750/tokenizer_config.json +57 -0
checkpoint-750/trainer_state.json +487 -0
checkpoint-750/training_args.bin +3 -0
checkpoint-750/vocab.json +0 -0

checkpoint-750/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "roberta-base",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "HUMAN",
+    "1": "AI"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "AI": 1,
+    "HUMAN": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

checkpoint-750/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-750/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff7f28857af96d1ba3e142d0c12d98112d2edf28b6b3fb8255554ade44cf7d5f
+size 498612824

checkpoint-750/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77428254bc5a60c539ceaad1960742407d2d3b390421fcc71a91e6f678d2f74a
+size 997345530

checkpoint-750/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ade21613e4a6556447631a27617347f6561f35b81d1e6628fe6b21671f48331a
+size 14244

checkpoint-750/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d9b45a47fc52f6bfea992e0121ca20a248e9eadfddc184be212f22630fb987f
+size 1064

checkpoint-750/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-750/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-750/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-750/trainer_state.json ADDED Viewed

	@@ -0,0 +1,487 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 375,
+  "global_step": 750,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.866666666666668e-06,
+      "loss": 0.6835,
+      "step": 10
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.733333333333334e-06,
+      "loss": 0.6815,
+      "step": 20
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.6261,
+      "step": 30
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.48e-06,
+      "loss": 0.4608,
+      "step": 40
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.373333333333334e-06,
+      "loss": 0.2467,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.240000000000001e-06,
+      "loss": 0.1414,
+      "step": 60
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 9.12e-06,
+      "loss": 0.1253,
+      "step": 70
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 8.986666666666666e-06,
+      "loss": 0.0183,
+      "step": 80
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 8.853333333333334e-06,
+      "loss": 0.0055,
+      "step": 90
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 8.733333333333333e-06,
+      "loss": 0.0502,
+      "step": 100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 8.6e-06,
+      "loss": 0.0702,
+      "step": 110
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 8.466666666666668e-06,
+      "loss": 0.1821,
+      "step": 120
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0929,
+      "step": 130
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 8.2e-06,
+      "loss": 0.1865,
+      "step": 140
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 8.066666666666667e-06,
+      "loss": 0.0082,
+      "step": 150
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 7.933333333333334e-06,
+      "loss": 0.2579,
+      "step": 160
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 0.003,
+      "step": 170
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.0674,
+      "step": 180
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 7.533333333333334e-06,
+      "loss": 0.0756,
+      "step": 190
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 7.413333333333333e-06,
+      "loss": 0.0348,
+      "step": 200
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 7.280000000000001e-06,
+      "loss": 0.0021,
+      "step": 210
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 7.146666666666667e-06,
+      "loss": 0.1315,
+      "step": 220
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 7.0133333333333345e-06,
+      "loss": 0.0013,
+      "step": 230
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 6.88e-06,
+      "loss": 0.0868,
+      "step": 240
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 6.746666666666667e-06,
+      "loss": 0.0872,
+      "step": 250
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 6.613333333333334e-06,
+      "loss": 0.0777,
+      "step": 260
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 6.480000000000001e-06,
+      "loss": 0.0013,
+      "step": 270
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 6.346666666666668e-06,
+      "loss": 0.001,
+      "step": 280
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 6.213333333333334e-06,
+      "loss": 0.0784,
+      "step": 290
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.08e-06,
+      "loss": 0.0828,
+      "step": 300
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 5.946666666666668e-06,
+      "loss": 0.0008,
+      "step": 310
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 5.813333333333334e-06,
+      "loss": 0.0008,
+      "step": 320
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.68e-06,
+      "loss": 0.0748,
+      "step": 330
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 5.546666666666667e-06,
+      "loss": 0.1819,
+      "step": 340
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.413333333333334e-06,
+      "loss": 0.001,
+      "step": 350
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 5.28e-06,
+      "loss": 0.0345,
+      "step": 360
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.146666666666668e-06,
+      "loss": 0.0012,
+      "step": 370
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.984,
+      "eval_loss": 0.09017323702573776,
+      "eval_runtime": 11.888,
+      "eval_samples_per_second": 84.118,
+      "eval_steps_per_second": 10.515,
+      "step": 375
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 5.013333333333333e-06,
+      "loss": 0.0652,
+      "step": 380
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.880000000000001e-06,
+      "loss": 0.0859,
+      "step": 390
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.746666666666667e-06,
+      "loss": 0.1667,
+      "step": 400
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 4.613333333333334e-06,
+      "loss": 0.0011,
+      "step": 410
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.48e-06,
+      "loss": 0.045,
+      "step": 420
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 4.346666666666667e-06,
+      "loss": 0.0073,
+      "step": 430
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 4.213333333333333e-06,
+      "loss": 0.0006,
+      "step": 440
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 4.08e-06,
+      "loss": 0.0008,
+      "step": 450
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 3.946666666666667e-06,
+      "loss": 0.1224,
+      "step": 460
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 3.813333333333334e-06,
+      "loss": 0.0739,
+      "step": 470
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 3.6800000000000003e-06,
+      "loss": 0.001,
+      "step": 480
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 3.5466666666666673e-06,
+      "loss": 0.0005,
+      "step": 490
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 3.4133333333333334e-06,
+      "loss": 0.0693,
+      "step": 500
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 3.2800000000000004e-06,
+      "loss": 0.0006,
+      "step": 510
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 3.146666666666667e-06,
+      "loss": 0.0007,
+      "step": 520
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 3.013333333333334e-06,
+      "loss": 0.0315,
+      "step": 530
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 2.88e-06,
+      "loss": 0.001,
+      "step": 540
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 2.746666666666667e-06,
+      "loss": 0.0789,
+      "step": 550
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 2.6133333333333334e-06,
+      "loss": 0.0004,
+      "step": 560
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.4800000000000004e-06,
+      "loss": 0.0929,
+      "step": 570
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.346666666666667e-06,
+      "loss": 0.0005,
+      "step": 580
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.2133333333333335e-06,
+      "loss": 0.0004,
+      "step": 590
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.08e-06,
+      "loss": 0.0004,
+      "step": 600
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.9466666666666665e-06,
+      "loss": 0.0004,
+      "step": 610
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.8133333333333337e-06,
+      "loss": 0.0004,
+      "step": 620
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 1.6800000000000002e-06,
+      "loss": 0.0008,
+      "step": 630
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.546666666666667e-06,
+      "loss": 0.069,
+      "step": 640
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 1.4133333333333335e-06,
+      "loss": 0.0006,
+      "step": 650
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1.28e-06,
+      "loss": 0.0921,
+      "step": 660
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1.1466666666666668e-06,
+      "loss": 0.1001,
+      "step": 670
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.0133333333333333e-06,
+      "loss": 0.0823,
+      "step": 680
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 8.8e-07,
+      "loss": 0.0005,
+      "step": 690
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 7.466666666666668e-07,
+      "loss": 0.0004,
+      "step": 700
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 6.133333333333333e-07,
+      "loss": 0.097,
+      "step": 710
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 4.800000000000001e-07,
+      "loss": 0.0005,
+      "step": 720
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 3.466666666666667e-07,
+      "loss": 0.0004,
+      "step": 730
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 2.1333333333333334e-07,
+      "loss": 0.0009,
+      "step": 740
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 8e-08,
+      "loss": 0.0005,
+      "step": 750
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.954,
+      "eval_loss": 0.29370617866516113,
+      "eval_runtime": 12.0522,
+      "eval_samples_per_second": 82.973,
+      "eval_steps_per_second": 10.372,
+      "step": 750
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 750,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 1565802668219040.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-750/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:631ca6bda3983a5bef0f03e58f8de8b2464b219d053167129f2342a537df6f67
+size 4600

checkpoint-750/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff