Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

config.json +28 -0
merges.txt +0 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +15 -0
tokenizer.json +0 -0
tokenizer_config.json +57 -0
trainer_state.json +195 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "roberta-base",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0294b9fb5725623cc654f276d10ac84f529ff82bd570a46aac804ba2ebada7bf
+size 498612824

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9774e3e326beda4ac0bd8f1b9a173012decd211f0fe5fb16b662421f22089026
+size 997345530

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7377babedd7b8472d083b1abcffec26d0d6a644b2a9b36d56adb964fb22676f2
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:caf89778b3e447d0191bcd1682d41799e652149f1f60c48905386d7c0408eb07
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27c9111fd0b4cb5653b336151db712b0b5c627f4f6ebcc3aabf6a4bd3a9d7fd9
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,195 @@

+{
+  "best_metric": 0.8454458293384468,
+  "best_model_checkpoint": "test4-pairwise/checkpoint-516",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 516,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.0769230769230774e-05,
+      "loss": 0.6865,
+      "step": 20
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 5.538461538461539e-05,
+      "loss": 0.3337,
+      "step": 40
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 7.998533144893137e-05,
+      "loss": 0.1844,
+      "step": 60
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 7.947306090166105e-05,
+      "loss": 0.1622,
+      "step": 80
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 7.823808570686448e-05,
+      "loss": 0.1337,
+      "step": 100
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 7.63030167868383e-05,
+      "loss": 0.1452,
+      "step": 120
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 7.370328294466597e-05,
+      "loss": 0.0922,
+      "step": 140
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 7.048648220510546e-05,
+      "loss": 0.0946,
+      "step": 160
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 6.671151035154783e-05,
+      "loss": 0.0903,
+      "step": 180
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.24474826144953e-05,
+      "loss": 0.075,
+      "step": 200
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 5.7772468254156155e-05,
+      "loss": 0.0801,
+      "step": 220
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.27720612054392e-05,
+      "loss": 0.0864,
+      "step": 240
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.4745593070983887,
+      "eval_runtime": 8.6606,
+      "eval_samples_per_second": 10129.044,
+      "eval_steps_per_second": 79.209,
+      "eval_top-1-accuracy": 0.7670182166826462,
+      "eval_top-10-accuracy": 0.9311601150527326,
+      "eval_top-3-accuracy": 0.8186001917545541,
+      "eval_top-5-accuracy": 0.8705656759348035,
+      "step": 258
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.753781295513274e-05,
+      "loss": 0.0629,
+      "step": 260
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 4.216555634341671e-05,
+      "loss": 0.0654,
+      "step": 280
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 3.675365097890276e-05,
+      "loss": 0.0585,
+      "step": 300
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 3.140118239155904e-05,
+      "loss": 0.0525,
+      "step": 320
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 2.6206147894881193e-05,
+      "loss": 0.0377,
+      "step": 340
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 2.12636623720084e-05,
+      "loss": 0.0415,
+      "step": 360
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.666421683570024e-05,
+      "loss": 0.0453,
+      "step": 380
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.2492021645863064e-05,
+      "loss": 0.0457,
+      "step": 400
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 8.823464718336336e-06,
+      "loss": 0.0369,
+      "step": 420
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 5.725712953296439e-06,
+      "loss": 0.0272,
+      "step": 440
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 3.2554824894551306e-06,
+      "loss": 0.0316,
+      "step": 460
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 1.4580002992310837e-06,
+      "loss": 0.0363,
+      "step": 480
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 3.66176136847729e-07,
+      "loss": 0.0411,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 3.0463552474975586,
+      "eval_runtime": 8.6788,
+      "eval_samples_per_second": 10107.877,
+      "eval_steps_per_second": 79.043,
+      "eval_top-1-accuracy": 0.7946308724832215,
+      "eval_top-10-accuracy": 0.9497603068072866,
+      "eval_top-3-accuracy": 0.8454458293384468,
+      "eval_top-5-accuracy": 0.8928092042186002,
+      "step": 516
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 516,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 2415688357511168.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa6dcd7f8a1f6f7069d8fd6c34ec2e2b43dad2ca1ea8f63a0fbc71667441aa6a
+size 4856

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff