Add model weight and config

Browse files

Files changed (13) hide show

all_results.json +14 -0
config.json +40 -0
eval_results.json +9 -0
merges.txt +0 -0
predict_results_None.txt +252 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
train_results.json +8 -0
trainer_state.json +247 -0
training_args.bin +3 -0
vocab.json +0 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.8623978495597839,
+    "eval_loss": 0.6752045750617981,
+    "eval_runtime": 8.1962,
+    "eval_samples": 734,
+    "eval_samples_per_second": 89.554,
+    "eval_steps_per_second": 44.777,
+    "train_loss": 0.18581116994222005,
+    "train_runtime": 2514.2374,
+    "train_samples": 2889,
+    "train_samples_per_second": 22.981,
+    "train_steps_per_second": 1.432
+}

config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "roberta-large-mnli",
+  "_num_labels": 3,
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": 0,
+    "1": 1,
+    "2": 2
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "0": 0,
+    "1": 1,
+    "2": 2
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.10.0.dev0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.8623978495597839,
+    "eval_loss": 0.6752045750617981,
+    "eval_runtime": 8.1962,
+    "eval_samples": 734,
+    "eval_samples_per_second": 89.554,
+    "eval_steps_per_second": 44.777
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

predict_results_None.txt ADDED Viewed

	@@ -0,0 +1,252 @@

+index	prediction
+0	1
+1	1
+2	0
+3	1
+4	0
+5	1
+6	1
+7	0
+8	1
+9	1
+10	1
+11	1
+12	1
+13	1
+14	0
+15	1
+16	0
+17	1
+18	2
+19	1
+20	0
+21	1
+22	2
+23	1
+24	0
+25	1
+26	2
+27	0
+28	0
+29	0
+30	1
+31	0
+32	0
+33	0
+34	0
+35	2
+36	0
+37	2
+38	0
+39	1
+40	0
+41	0
+42	0
+43	0
+44	0
+45	1
+46	2
+47	2
+48	2
+49	1
+50	0
+51	0
+52	0
+53	0
+54	1
+55	0
+56	1
+57	0
+58	1
+59	0
+60	1
+61	1
+62	1
+63	0
+64	0
+65	0
+66	0
+67	1
+68	2
+69	0
+70	0
+71	1
+72	0
+73	1
+74	1
+75	1
+76	1
+77	1
+78	1
+79	1
+80	1
+81	1
+82	0
+83	1
+84	0
+85	1
+86	0
+87	1
+88	1
+89	1
+90	0
+91	1
+92	1
+93	1
+94	1
+95	1
+96	1
+97	1
+98	1
+99	1
+100	1
+101	1
+102	0
+103	1
+104	2
+105	0
+106	0
+107	0
+108	0
+109	0
+110	0
+111	1
+112	0
+113	1
+114	1
+115	1
+116	1
+117	1
+118	1
+119	1
+120	1
+121	1
+122	0
+123	0
+124	0
+125	2
+126	2
+127	0
+128	2
+129	0
+130	1
+131	1
+132	1
+133	0
+134	1
+135	1
+136	1
+137	2
+138	2
+139	2
+140	1
+141	1
+142	2
+143	2
+144	1
+145	1
+146	1
+147	1
+148	0
+149	1
+150	0
+151	1
+152	1
+153	0
+154	0
+155	1
+156	2
+157	2
+158	1
+159	2
+160	1
+161	2
+162	1
+163	2
+164	2
+165	0
+166	0
+167	1
+168	0
+169	1
+170	0
+171	1
+172	1
+173	1
+174	1
+175	0
+176	1
+177	2
+178	1
+179	0
+180	0
+181	2
+182	1
+183	1
+184	2
+185	1
+186	1
+187	1
+188	0
+189	1
+190	0
+191	1
+192	0
+193	1
+194	1
+195	1
+196	1
+197	1
+198	0
+199	0
+200	0
+201	1
+202	1
+203	0
+204	0
+205	1
+206	0
+207	0
+208	1
+209	0
+210	1
+211	2
+212	1
+213	1
+214	1
+215	1
+216	0
+217	1
+218	0
+219	0
+220	0
+221	0
+222	0
+223	1
+224	0
+225	0
+226	0
+227	1
+228	0
+229	0
+230	1
+231	0
+232	0
+233	2
+234	0
+235	0
+236	1
+237	0
+238	0
+239	1
+240	0
+241	1
+242	1
+243	1
+244	1
+245	1
+246	1
+247	1
+248	1
+249	1
+250	1

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ae5760c2cd564499419f91c868033eaf11ec16a7a712180f9325e880dcc83e1
+size 1421624777

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "add_prefix_space": false, "errors": "replace", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": "<mask>", "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "roberta-large-mnli", "tokenizer_class": "RobertaTokenizer"}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 20.0,
+    "train_loss": 0.18581116994222005,
+    "train_runtime": 2514.2374,
+    "train_samples": 2889,
+    "train_samples_per_second": 22.981,
+    "train_steps_per_second": 1.432
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,247 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.996539792387544,
+  "global_step": 3600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8460490703582764,
+      "eval_loss": 0.5365713834762573,
+      "eval_runtime": 8.0333,
+      "eval_samples_per_second": 91.369,
+      "eval_steps_per_second": 45.685,
+      "step": 180
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8092643022537231,
+      "eval_loss": 0.5189609527587891,
+      "eval_runtime": 8.0124,
+      "eval_samples_per_second": 91.608,
+      "eval_steps_per_second": 45.804,
+      "step": 360
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 4.309722222222222e-05,
+      "loss": 0.4021,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8283378481864929,
+      "eval_loss": 0.6708077788352966,
+      "eval_runtime": 8.0551,
+      "eval_samples_per_second": 91.122,
+      "eval_steps_per_second": 45.561,
+      "step": 540
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8542234301567078,
+      "eval_loss": 0.516476571559906,
+      "eval_runtime": 8.0611,
+      "eval_samples_per_second": 91.054,
+      "eval_steps_per_second": 45.527,
+      "step": 720
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8188011050224304,
+      "eval_loss": 0.6029361486434937,
+      "eval_runtime": 8.0681,
+      "eval_samples_per_second": 90.975,
+      "eval_steps_per_second": 45.488,
+      "step": 900
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 3.6166666666666674e-05,
+      "loss": 0.2576,
+      "step": 1000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8487738370895386,
+      "eval_loss": 0.6060934066772461,
+      "eval_runtime": 8.0522,
+      "eval_samples_per_second": 91.155,
+      "eval_steps_per_second": 45.578,
+      "step": 1080
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8514986634254456,
+      "eval_loss": 0.748849630355835,
+      "eval_runtime": 8.0692,
+      "eval_samples_per_second": 90.963,
+      "eval_steps_per_second": 45.481,
+      "step": 1260
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8651226162910461,
+      "eval_loss": 0.6119422912597656,
+      "eval_runtime": 8.0635,
+      "eval_samples_per_second": 91.028,
+      "eval_steps_per_second": 45.514,
+      "step": 1440
+    },
+    {
+      "epoch": 8.33,
+      "learning_rate": 2.9236111111111115e-05,
+      "loss": 0.1738,
+      "step": 1500
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8542234301567078,
+      "eval_loss": 0.6864181160926819,
+      "eval_runtime": 8.212,
+      "eval_samples_per_second": 89.382,
+      "eval_steps_per_second": 44.691,
+      "step": 1620
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8446866273880005,
+      "eval_loss": 0.7817405462265015,
+      "eval_runtime": 8.0215,
+      "eval_samples_per_second": 91.505,
+      "eval_steps_per_second": 45.752,
+      "step": 1800
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.8514986634254456,
+      "eval_loss": 0.6188392043113708,
+      "eval_runtime": 8.0857,
+      "eval_samples_per_second": 90.777,
+      "eval_steps_per_second": 45.389,
+      "step": 1980
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 2.2305555555555556e-05,
+      "loss": 0.1303,
+      "step": 2000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8569482564926147,
+      "eval_loss": 0.5936163663864136,
+      "eval_runtime": 8.0618,
+      "eval_samples_per_second": 91.047,
+      "eval_steps_per_second": 45.523,
+      "step": 2160
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.859673023223877,
+      "eval_loss": 0.6109394431114197,
+      "eval_runtime": 8.0512,
+      "eval_samples_per_second": 91.167,
+      "eval_steps_per_second": 45.583,
+      "step": 2340
+    },
+    {
+      "epoch": 13.89,
+      "learning_rate": 1.5375e-05,
+      "loss": 0.1226,
+      "step": 2500
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8501362204551697,
+      "eval_loss": 0.7600889205932617,
+      "eval_runtime": 8.0176,
+      "eval_samples_per_second": 91.549,
+      "eval_steps_per_second": 45.774,
+      "step": 2520
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.8501362204551697,
+      "eval_loss": 0.6596993803977966,
+      "eval_runtime": 8.0565,
+      "eval_samples_per_second": 91.107,
+      "eval_steps_per_second": 45.553,
+      "step": 2700
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8460490703582764,
+      "eval_loss": 0.712175190448761,
+      "eval_runtime": 8.0456,
+      "eval_samples_per_second": 91.23,
+      "eval_steps_per_second": 45.615,
+      "step": 2880
+    },
+    {
+      "epoch": 16.66,
+      "learning_rate": 8.430555555555556e-06,
+      "loss": 0.1261,
+      "step": 3000
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.8514986634254456,
+      "eval_loss": 0.7294248938560486,
+      "eval_runtime": 8.0369,
+      "eval_samples_per_second": 91.329,
+      "eval_steps_per_second": 45.664,
+      "step": 3060
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.863760232925415,
+      "eval_loss": 0.6875426173210144,
+      "eval_runtime": 8.0764,
+      "eval_samples_per_second": 90.882,
+      "eval_steps_per_second": 45.441,
+      "step": 3240
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.8664849996566772,
+      "eval_loss": 0.6823601126670837,
+      "eval_runtime": 8.0997,
+      "eval_samples_per_second": 90.62,
+      "eval_steps_per_second": 45.31,
+      "step": 3420
+    },
+    {
+      "epoch": 19.44,
+      "learning_rate": 1.4861111111111113e-06,
+      "loss": 0.1044,
+      "step": 3500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8623978495597839,
+      "eval_loss": 0.6752045750617981,
+      "eval_runtime": 8.0488,
+      "eval_samples_per_second": 91.193,
+      "eval_steps_per_second": 45.597,
+      "step": 3600
+    },
+    {
+      "epoch": 20.0,
+      "step": 3600,
+      "total_flos": 1.3459697175036672e+16,
+      "train_loss": 0.18581116994222005,
+      "train_runtime": 2514.2374,
+      "train_samples_per_second": 22.981,
+      "train_steps_per_second": 1.432
+    }
+  ],
+  "max_steps": 3600,
+  "num_train_epochs": 20,
+  "total_flos": 1.3459697175036672e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5863e266a34ca57f81dba3f859ac9e02d43fd6d5c3b46b3d8f7b926485dd16a8
+size 2671

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff