Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

checkpoints/checkpoint-3450/config.json +26 -0
checkpoints/checkpoint-3450/model.safetensors +3 -0
checkpoints/checkpoint-3450/optimizer.pt +3 -0
checkpoints/checkpoint-3450/rng_state.pth +3 -0
checkpoints/checkpoint-3450/scheduler.pt +3 -0
checkpoints/checkpoint-3450/trainer_state.json +576 -0
checkpoints/checkpoint-3450/training_args.bin +3 -0

checkpoints/checkpoint-3450/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 52000
+}

checkpoints/checkpoint-3450/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9b60e19c43e23f096675a238ce334145dc2ff5125a71e8dc2df424bbd3ba225
+size 504150808

checkpoints/checkpoint-3450/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abf6f1a93f5769713d620606190fdbeaf74b06831d5981b86dc6cb37bfbf878b
+size 1008422138

checkpoints/checkpoint-3450/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bf2f82fa28f61ddc874b9136fe02051374abb94adea146b1f3bb0e51cb2c4fb
+size 14244

checkpoints/checkpoint-3450/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3312537a98c0a24c49948e9034e0dc85c213f955658302b4a489f2fd37390295
+size 1064

checkpoints/checkpoint-3450/trainer_state.json ADDED Viewed

	@@ -0,0 +1,576 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.998697351280938,
+  "eval_steps": 500,
+  "global_step": 3450,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08684324793747286,
+      "grad_norm": 64.51876068115234,
+      "learning_rate": 2.5e-06,
+      "loss": 10.5808,
+      "step": 50
+    },
+    {
+      "epoch": 0.17368649587494572,
+      "grad_norm": 46.88249588012695,
+      "learning_rate": 5e-06,
+      "loss": 9.4375,
+      "step": 100
+    },
+    {
+      "epoch": 0.26052974381241856,
+      "grad_norm": 37.17626190185547,
+      "learning_rate": 7.5e-06,
+      "loss": 8.5182,
+      "step": 150
+    },
+    {
+      "epoch": 0.34737299174989145,
+      "grad_norm": 36.42595291137695,
+      "learning_rate": 1e-05,
+      "loss": 7.8819,
+      "step": 200
+    },
+    {
+      "epoch": 0.4342162396873643,
+      "grad_norm": 37.513221740722656,
+      "learning_rate": 1.25e-05,
+      "loss": 7.3998,
+      "step": 250
+    },
+    {
+      "epoch": 0.5210594876248371,
+      "grad_norm": 37.72527313232422,
+      "learning_rate": 1.5e-05,
+      "loss": 6.9285,
+      "step": 300
+    },
+    {
+      "epoch": 0.60790273556231,
+      "grad_norm": 25.45908546447754,
+      "learning_rate": 1.7500000000000002e-05,
+      "loss": 6.4779,
+      "step": 350
+    },
+    {
+      "epoch": 0.6947459834997829,
+      "grad_norm": 19.964221954345703,
+      "learning_rate": 2e-05,
+      "loss": 6.0723,
+      "step": 400
+    },
+    {
+      "epoch": 0.7815892314372558,
+      "grad_norm": 22.95414924621582,
+      "learning_rate": 2.2499999999999998e-05,
+      "loss": 5.7359,
+      "step": 450
+    },
+    {
+      "epoch": 0.8684324793747286,
+      "grad_norm": 25.838315963745117,
+      "learning_rate": 2.5e-05,
+      "loss": 5.5306,
+      "step": 500
+    },
+    {
+      "epoch": 0.9552757273122015,
+      "grad_norm": 20.025278091430664,
+      "learning_rate": 2.75e-05,
+      "loss": 5.3827,
+      "step": 550
+    },
+    {
+      "epoch": 0.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 5.815488815307617,
+      "eval_normalizer": 136811.0,
+      "eval_runtime": 103.9161,
+      "eval_samples_per_second": 567.285,
+      "eval_steps_per_second": 1.116,
+      "step": 575
+    },
+    {
+      "epoch": 1.0434216239687364,
+      "grad_norm": 24.807146072387695,
+      "learning_rate": 3e-05,
+      "loss": 5.3056,
+      "step": 600
+    },
+    {
+      "epoch": 1.1302648719062094,
+      "grad_norm": 24.356752395629883,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 5.1787,
+      "step": 650
+    },
+    {
+      "epoch": 1.2171081198436822,
+      "grad_norm": 34.20137023925781,
+      "learning_rate": 3.5000000000000004e-05,
+      "loss": 5.0808,
+      "step": 700
+    },
+    {
+      "epoch": 1.303951367781155,
+      "grad_norm": 20.841449737548828,
+      "learning_rate": 3.75e-05,
+      "loss": 5.0151,
+      "step": 750
+    },
+    {
+      "epoch": 1.390794615718628,
+      "grad_norm": 17.446142196655273,
+      "learning_rate": 4e-05,
+      "loss": 4.9479,
+      "step": 800
+    },
+    {
+      "epoch": 1.4776378636561007,
+      "grad_norm": 21.755874633789062,
+      "learning_rate": 4.25e-05,
+      "loss": 4.8636,
+      "step": 850
+    },
+    {
+      "epoch": 1.5644811115935737,
+      "grad_norm": 23.59573745727539,
+      "learning_rate": 4.4999999999999996e-05,
+      "loss": 4.8055,
+      "step": 900
+    },
+    {
+      "epoch": 1.6513243595310465,
+      "grad_norm": 29.339677810668945,
+      "learning_rate": 4.75e-05,
+      "loss": 4.7349,
+      "step": 950
+    },
+    {
+      "epoch": 1.7381676074685193,
+      "grad_norm": 19.896867752075195,
+      "learning_rate": 5e-05,
+      "loss": 4.6511,
+      "step": 1000
+    },
+    {
+      "epoch": 1.825010855405992,
+      "grad_norm": 25.321279525756836,
+      "learning_rate": 5.25e-05,
+      "loss": 4.6093,
+      "step": 1050
+    },
+    {
+      "epoch": 1.911854103343465,
+      "grad_norm": 24.375009536743164,
+      "learning_rate": 5.5e-05,
+      "loss": 4.5466,
+      "step": 1100
+    },
+    {
+      "epoch": 1.998697351280938,
+      "grad_norm": 19.765535354614258,
+      "learning_rate": 5.75e-05,
+      "loss": 4.4822,
+      "step": 1150
+    },
+    {
+      "epoch": 1.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 5.009335041046143,
+      "eval_normalizer": 136797.0,
+      "eval_runtime": 106.1852,
+      "eval_samples_per_second": 555.162,
+      "eval_steps_per_second": 1.092,
+      "step": 1150
+    },
+    {
+      "epoch": 2.086843247937473,
+      "grad_norm": 22.055421829223633,
+      "learning_rate": 6e-05,
+      "loss": 4.4112,
+      "step": 1200
+    },
+    {
+      "epoch": 2.1736864958749456,
+      "grad_norm": 22.794734954833984,
+      "learning_rate": 6.25e-05,
+      "loss": 4.342,
+      "step": 1250
+    },
+    {
+      "epoch": 2.260529743812419,
+      "grad_norm": 22.201148986816406,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 4.2642,
+      "step": 1300
+    },
+    {
+      "epoch": 2.3473729917498916,
+      "grad_norm": 26.878231048583984,
+      "learning_rate": 6.75e-05,
+      "loss": 4.21,
+      "step": 1350
+    },
+    {
+      "epoch": 2.4342162396873643,
+      "grad_norm": 26.893157958984375,
+      "learning_rate": 7.000000000000001e-05,
+      "loss": 4.1912,
+      "step": 1400
+    },
+    {
+      "epoch": 2.521059487624837,
+      "grad_norm": 22.139896392822266,
+      "learning_rate": 7.25e-05,
+      "loss": 4.1345,
+      "step": 1450
+    },
+    {
+      "epoch": 2.60790273556231,
+      "grad_norm": 22.048015594482422,
+      "learning_rate": 7.5e-05,
+      "loss": 4.0536,
+      "step": 1500
+    },
+    {
+      "epoch": 2.694745983499783,
+      "grad_norm": 20.372922897338867,
+      "learning_rate": 7.75e-05,
+      "loss": 4.0141,
+      "step": 1550
+    },
+    {
+      "epoch": 2.781589231437256,
+      "grad_norm": 23.150230407714844,
+      "learning_rate": 8e-05,
+      "loss": 3.9682,
+      "step": 1600
+    },
+    {
+      "epoch": 2.8684324793747287,
+      "grad_norm": 23.635217666625977,
+      "learning_rate": 8.25e-05,
+      "loss": 3.9323,
+      "step": 1650
+    },
+    {
+      "epoch": 2.9552757273122015,
+      "grad_norm": 23.827754974365234,
+      "learning_rate": 8.5e-05,
+      "loss": 3.8978,
+      "step": 1700
+    },
+    {
+      "epoch": 2.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 4.390091896057129,
+      "eval_normalizer": 135800.0,
+      "eval_runtime": 102.8052,
+      "eval_samples_per_second": 573.414,
+      "eval_steps_per_second": 1.128,
+      "step": 1725
+    },
+    {
+      "epoch": 3.0434216239687366,
+      "grad_norm": 23.427833557128906,
+      "learning_rate": 8.75e-05,
+      "loss": 3.8416,
+      "step": 1750
+    },
+    {
+      "epoch": 3.1302648719062094,
+      "grad_norm": 22.676321029663086,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 3.7893,
+      "step": 1800
+    },
+    {
+      "epoch": 3.217108119843682,
+      "grad_norm": 21.082340240478516,
+      "learning_rate": 9.25e-05,
+      "loss": 3.7538,
+      "step": 1850
+    },
+    {
+      "epoch": 3.303951367781155,
+      "grad_norm": 22.935646057128906,
+      "learning_rate": 9.5e-05,
+      "loss": 3.7105,
+      "step": 1900
+    },
+    {
+      "epoch": 3.3907946157186277,
+      "grad_norm": 17.609500885009766,
+      "learning_rate": 9.750000000000001e-05,
+      "loss": 3.6724,
+      "step": 1950
+    },
+    {
+      "epoch": 3.477637863656101,
+      "grad_norm": 24.803913116455078,
+      "learning_rate": 0.0001,
+      "loss": 3.6343,
+      "step": 2000
+    },
+    {
+      "epoch": 3.5644811115935737,
+      "grad_norm": 23.1530704498291,
+      "learning_rate": 0.0001025,
+      "loss": 3.5885,
+      "step": 2050
+    },
+    {
+      "epoch": 3.6513243595310465,
+      "grad_norm": 18.984954833984375,
+      "learning_rate": 0.000105,
+      "loss": 3.5862,
+      "step": 2100
+    },
+    {
+      "epoch": 3.7381676074685193,
+      "grad_norm": 24.13288688659668,
+      "learning_rate": 0.0001075,
+      "loss": 3.5399,
+      "step": 2150
+    },
+    {
+      "epoch": 3.825010855405992,
+      "grad_norm": 20.114696502685547,
+      "learning_rate": 0.00011,
+      "loss": 3.5134,
+      "step": 2200
+    },
+    {
+      "epoch": 3.9118541033434653,
+      "grad_norm": 21.485876083374023,
+      "learning_rate": 0.00011250000000000001,
+      "loss": 3.5002,
+      "step": 2250
+    },
+    {
+      "epoch": 3.998697351280938,
+      "grad_norm": 19.5527286529541,
+      "learning_rate": 0.000115,
+      "loss": 3.4823,
+      "step": 2300
+    },
+    {
+      "epoch": 3.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 3.955526828765869,
+      "eval_normalizer": 136953.0,
+      "eval_runtime": 103.399,
+      "eval_samples_per_second": 570.122,
+      "eval_steps_per_second": 1.122,
+      "step": 2300
+    },
+    {
+      "epoch": 4.086843247937473,
+      "grad_norm": 20.296035766601562,
+      "learning_rate": 0.0001175,
+      "loss": 3.4443,
+      "step": 2350
+    },
+    {
+      "epoch": 4.173686495874946,
+      "grad_norm": 23.345937728881836,
+      "learning_rate": 0.00012,
+      "loss": 3.4204,
+      "step": 2400
+    },
+    {
+      "epoch": 4.260529743812419,
+      "grad_norm": 20.19176483154297,
+      "learning_rate": 0.0001225,
+      "loss": 3.3671,
+      "step": 2450
+    },
+    {
+      "epoch": 4.347372991749891,
+      "grad_norm": 18.96110725402832,
+      "learning_rate": 0.000125,
+      "loss": 3.372,
+      "step": 2500
+    },
+    {
+      "epoch": 4.434216239687364,
+      "grad_norm": 19.05695915222168,
+      "learning_rate": 0.0001275,
+      "loss": 3.3274,
+      "step": 2550
+    },
+    {
+      "epoch": 4.521059487624838,
+      "grad_norm": 19.250852584838867,
+      "learning_rate": 0.00013000000000000002,
+      "loss": 3.3274,
+      "step": 2600
+    },
+    {
+      "epoch": 4.60790273556231,
+      "grad_norm": 18.30086326599121,
+      "learning_rate": 0.00013250000000000002,
+      "loss": 3.2973,
+      "step": 2650
+    },
+    {
+      "epoch": 4.694745983499783,
+      "grad_norm": 18.18668556213379,
+      "learning_rate": 0.000135,
+      "loss": 3.2728,
+      "step": 2700
+    },
+    {
+      "epoch": 4.7815892314372554,
+      "grad_norm": 20.339557647705078,
+      "learning_rate": 0.0001375,
+      "loss": 3.2655,
+      "step": 2750
+    },
+    {
+      "epoch": 4.868432479374729,
+      "grad_norm": 18.8162841796875,
+      "learning_rate": 0.00014000000000000001,
+      "loss": 3.2437,
+      "step": 2800
+    },
+    {
+      "epoch": 4.955275727312202,
+      "grad_norm": 22.74474334716797,
+      "learning_rate": 0.0001425,
+      "loss": 3.2268,
+      "step": 2850
+    },
+    {
+      "epoch": 4.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 3.7116966247558594,
+      "eval_normalizer": 136898.0,
+      "eval_runtime": 102.1707,
+      "eval_samples_per_second": 576.976,
+      "eval_steps_per_second": 1.135,
+      "step": 2875
+    },
+    {
+      "epoch": 5.043421623968737,
+      "grad_norm": 19.14987564086914,
+      "learning_rate": 0.000145,
+      "loss": 3.2086,
+      "step": 2900
+    },
+    {
+      "epoch": 5.130264871906209,
+      "grad_norm": 20.017988204956055,
+      "learning_rate": 0.0001475,
+      "loss": 3.1762,
+      "step": 2950
+    },
+    {
+      "epoch": 5.217108119843682,
+      "grad_norm": 19.542016983032227,
+      "learning_rate": 0.00015,
+      "loss": 3.1541,
+      "step": 3000
+    },
+    {
+      "epoch": 5.303951367781155,
+      "grad_norm": 19.774423599243164,
+      "learning_rate": 0.0001525,
+      "loss": 3.1478,
+      "step": 3050
+    },
+    {
+      "epoch": 5.390794615718628,
+      "grad_norm": 17.859071731567383,
+      "learning_rate": 0.000155,
+      "loss": 3.1161,
+      "step": 3100
+    },
+    {
+      "epoch": 5.477637863656101,
+      "grad_norm": 19.971141815185547,
+      "learning_rate": 0.0001575,
+      "loss": 3.1557,
+      "step": 3150
+    },
+    {
+      "epoch": 5.564481111593573,
+      "grad_norm": 20.248157501220703,
+      "learning_rate": 0.00016,
+      "loss": 3.1065,
+      "step": 3200
+    },
+    {
+      "epoch": 5.6513243595310465,
+      "grad_norm": 18.28225326538086,
+      "learning_rate": 0.00016250000000000002,
+      "loss": 3.0919,
+      "step": 3250
+    },
+    {
+      "epoch": 5.738167607468519,
+      "grad_norm": 18.790512084960938,
+      "learning_rate": 0.000165,
+      "loss": 3.0674,
+      "step": 3300
+    },
+    {
+      "epoch": 5.825010855405992,
+      "grad_norm": 19.873552322387695,
+      "learning_rate": 0.0001675,
+      "loss": 3.0937,
+      "step": 3350
+    },
+    {
+      "epoch": 5.911854103343465,
+      "grad_norm": 16.722440719604492,
+      "learning_rate": 0.00017,
+      "loss": 3.051,
+      "step": 3400
+    },
+    {
+      "epoch": 5.998697351280938,
+      "grad_norm": 20.395442962646484,
+      "learning_rate": 0.0001725,
+      "loss": 3.0683,
+      "step": 3450
+    },
+    {
+      "epoch": 5.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 3.523391008377075,
+      "eval_normalizer": 136004.0,
+      "eval_runtime": 104.2937,
+      "eval_samples_per_second": 565.23,
+      "eval_steps_per_second": 1.112,
+      "step": 3450
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5750,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.540745776219259e+17,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-3450/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70088d65e5801098d4101207af477ddb2535731647b91a260697c3242af10928
+size 5368