Upload 5 files

Browse files

Files changed (5) hide show

roberta-large-classifier-v01/config.json +29 -0
roberta-large-classifier-v01/model.safetensors +3 -0
roberta-large-classifier-v01/scheduler.pt +3 -0
roberta-large-classifier-v01/trainer_state.json +160 -0
roberta-large-classifier-v01/training_args.bin +3 -0

roberta-large-classifier-v01/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.0.0",
+  "type_vocab_size": 1,
+  "use_cache": false,
+  "vocab_size": 50270
+}

roberta-large-classifier-v01/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76ced2983410dd6cfdc639c34ca0373c8b30b4c6f37665baaa8f04a2ed33b300
+size 1421515840

roberta-large-classifier-v01/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d56082619687d8922fda778dde804ffb3ae7223abd00de80aa1b754e6cf2b574
+size 1465

roberta-large-classifier-v01/trainer_state.json ADDED Viewed

	@@ -0,0 +1,160 @@

+{
+  "best_global_step": 682,
+  "best_metric": 0.632375189107413,
+  "best_model_checkpoint": "./roberta-large-normclsf-wtrainer_v01/checkpoint-682",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 682,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1467351430667645,
+      "grad_norm": 100.62623596191406,
+      "learning_rate": 1.6333333333333335e-06,
+      "loss": 4.063176574707032,
+      "step": 50
+    },
+    {
+      "epoch": 0.293470286133529,
+      "grad_norm": 96.6983871459961,
+      "learning_rate": 3.3000000000000006e-06,
+      "loss": 2.3282891845703126,
+      "step": 100
+    },
+    {
+      "epoch": 0.4402054292002935,
+      "grad_norm": 28.92310905456543,
+      "learning_rate": 4.966666666666667e-06,
+      "loss": 2.171337890625,
+      "step": 150
+    },
+    {
+      "epoch": 0.586940572267058,
+      "grad_norm": 81.281982421875,
+      "learning_rate": 6.633333333333334e-06,
+      "loss": 1.71757568359375,
+      "step": 200
+    },
+    {
+      "epoch": 0.7336757153338225,
+      "grad_norm": 62.47601318359375,
+      "learning_rate": 8.3e-06,
+      "loss": 1.4878105163574218,
+      "step": 250
+    },
+    {
+      "epoch": 0.880410858400587,
+      "grad_norm": 44.91110610961914,
+      "learning_rate": 9.966666666666667e-06,
+      "loss": 1.4716207885742187,
+      "step": 300
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9375343973582829,
+      "eval_f1": 0.5032822757111597,
+      "eval_loss": 0.5080869197845459,
+      "eval_macro_f1": 0.7349769182108874,
+      "eval_precision": 0.8214285714285714,
+      "eval_recall": 0.3627760252365931,
+      "eval_runtime": 130.3538,
+      "eval_samples_per_second": 27.878,
+      "eval_steps_per_second": 1.749,
+      "step": 341
+    },
+    {
+      "epoch": 1.0264123257520177,
+      "grad_norm": 10.23391056060791,
+      "learning_rate": 9.651245551601425e-06,
+      "loss": 1.3976800537109375,
+      "step": 350
+    },
+    {
+      "epoch": 1.1731474688187822,
+      "grad_norm": 169.54437255859375,
+      "learning_rate": 9.295373665480429e-06,
+      "loss": 1.2954891967773436,
+      "step": 400
+    },
+    {
+      "epoch": 1.3198826118855465,
+      "grad_norm": 105.23279571533203,
+      "learning_rate": 8.939501779359432e-06,
+      "loss": 1.096920166015625,
+      "step": 450
+    },
+    {
+      "epoch": 1.4666177549523112,
+      "grad_norm": 68.01177215576172,
+      "learning_rate": 8.583629893238435e-06,
+      "loss": 1.396348419189453,
+      "step": 500
+    },
+    {
+      "epoch": 1.6133528980190754,
+      "grad_norm": 35.087650299072266,
+      "learning_rate": 8.227758007117438e-06,
+      "loss": 1.2719633483886719,
+      "step": 550
+    },
+    {
+      "epoch": 1.7600880410858402,
+      "grad_norm": 26.51964569091797,
+      "learning_rate": 7.87188612099644e-06,
+      "loss": 1.2927476501464843,
+      "step": 600
+    },
+    {
+      "epoch": 1.9068231841526044,
+      "grad_norm": 26.03403663635254,
+      "learning_rate": 7.516014234875445e-06,
+      "loss": 1.3671530151367188,
+      "step": 650
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9331315354980737,
+      "eval_f1": 0.632375189107413,
+      "eval_loss": 0.3130079507827759,
+      "eval_macro_f1": 0.7977980077518296,
+      "eval_precision": 0.6075581395348837,
+      "eval_recall": 0.6593059936908517,
+      "eval_runtime": 130.5148,
+      "eval_samples_per_second": 27.844,
+      "eval_steps_per_second": 1.747,
+      "step": 682
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1705,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0158983791638528e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

roberta-large-classifier-v01/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62f1c6fa212d0e8b7fd77c046d3f2891a6f41114e6733b7358804951d3255250
+size 5201