Gnider commited on Jul 4, 2024

Commit

2a230b1

verified ·

1 Parent(s): 07a1026

Upload folder using huggingface_hub

Browse files

Files changed (38) hide show

logs/events.out.tfevents.1720123378.bcbb291c3718.34.0 +2 -2
model.safetensors +1 -1
results/checkpoint-10632/config.json +56 -0
results/checkpoint-10632/model.safetensors +3 -0
results/checkpoint-10632/optimizer.pt +3 -0
results/checkpoint-10632/rng_state.pth +3 -0
results/checkpoint-10632/scheduler.pt +3 -0
results/checkpoint-10632/trainer_state.json +216 -0
results/checkpoint-10632/training_args.bin +3 -0
results/checkpoint-13290/config.json +56 -0
results/checkpoint-13290/model.safetensors +3 -0
results/checkpoint-13290/optimizer.pt +3 -0
results/checkpoint-13290/rng_state.pth +3 -0
results/checkpoint-13290/scheduler.pt +3 -0
results/checkpoint-13290/trainer_state.json +260 -0
results/checkpoint-13290/training_args.bin +3 -0
results/checkpoint-5316/config.json +56 -0
results/checkpoint-5316/model.safetensors +3 -0
results/checkpoint-5316/optimizer.pt +3 -0
results/checkpoint-5316/rng_state.pth +3 -0
results/checkpoint-5316/scheduler.pt +3 -0
results/checkpoint-5316/trainer_state.json +121 -0
results/checkpoint-5316/training_args.bin +3 -0
results/checkpoint-7974/config.json +56 -0
results/checkpoint-7974/model.safetensors +3 -0
results/checkpoint-7974/optimizer.pt +3 -0
results/checkpoint-7974/rng_state.pth +3 -0
results/checkpoint-7974/scheduler.pt +3 -0
results/checkpoint-7974/trainer_state.json +165 -0
results/checkpoint-7974/training_args.bin +3 -0
wandb/debug-internal.log +0 -0
wandb/debug.log +6 -0
wandb/run-20240704_200304-v5ofm505/files/config.yaml +1 -0
wandb/run-20240704_200304-v5ofm505/files/output.log +6 -0
wandb/run-20240704_200304-v5ofm505/files/wandb-summary.json +1 -1
wandb/run-20240704_200304-v5ofm505/logs/debug-internal.log +0 -0
wandb/run-20240704_200304-v5ofm505/logs/debug.log +6 -0
wandb/run-20240704_200304-v5ofm505/run-v5ofm505.wandb +0 -0

logs/events.out.tfevents.1720123378.bcbb291c3718.34.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d520b24992cfa244cd6027185f7d66ae5536512d1a87328177fa41b8aaca67a8
-size 6949

 version https://git-lfs.github.com/spec/v1
+oid sha256:4eda2a66f3caaac6d9ea52b9381aad8ebe1b7e2e5d98eb928143033685c28d44
+size 18358

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0097434e1f36db717fdcc6c5a6d7788c9cf43b08f5d67e60ada7a397a82184b
 size 116796656

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c11b7426ec7b401ee2241c706c3d9ef830379aecd4a15d94e93bdd6ea5d7ac0
 size 116796656

results/checkpoint-10632/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_name_or_path": "cointegrated/rubert-tiny2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "emb_size": 312,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 312,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 600,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 3,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 83828
+}

results/checkpoint-10632/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df2196e5fd92d738573585a1967188a3186a85b90dfc7fa44957812a374b63f3
+size 116796656

results/checkpoint-10632/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15fbb2443eaac2e510dc15c15d997202c904b04d538c0e5236ade85cf60e6d64
+size 233626042

results/checkpoint-10632/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6cd7e235dce9fb4222b0cb8a0aa00b936e56d6296c9826f3ff9e05607e6e93d
+size 14244

results/checkpoint-10632/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ef158148339fa607317b071372e02d9ebf27a67eb13299046b004a8f02e2316
+size 1064

results/checkpoint-10632/trainer_state.json ADDED Viewed

	@@ -0,0 +1,216 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 10632,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18811136192626035,
+      "grad_norm": 3.8497512340545654,
+      "learning_rate": 9.62377727614748e-06,
+      "loss": 2.393,
+      "step": 500
+    },
+    {
+      "epoch": 0.3762227238525207,
+      "grad_norm": 6.619251728057861,
+      "learning_rate": 9.24755455229496e-06,
+      "loss": 2.1964,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5643340857787811,
+      "grad_norm": 8.800378799438477,
+      "learning_rate": 8.871331828442438e-06,
+      "loss": 2.0264,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7524454477050414,
+      "grad_norm": 9.567648887634277,
+      "learning_rate": 8.495109104589918e-06,
+      "loss": 1.8566,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9405568096313017,
+      "grad_norm": 10.593893051147461,
+      "learning_rate": 8.118886380737398e-06,
+      "loss": 1.7467,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.46208708708708707,
+      "eval_loss": 1.6955029964447021,
+      "eval_runtime": 161.161,
+      "eval_samples_per_second": 66.12,
+      "eval_steps_per_second": 4.133,
+      "step": 2658
+    },
+    {
+      "epoch": 1.1286681715575622,
+      "grad_norm": 13.920074462890625,
+      "learning_rate": 7.742663656884877e-06,
+      "loss": 1.6306,
+      "step": 3000
+    },
+    {
+      "epoch": 1.3167795334838224,
+      "grad_norm": 9.244267463684082,
+      "learning_rate": 7.366440933032356e-06,
+      "loss": 1.5588,
+      "step": 3500
+    },
+    {
+      "epoch": 1.5048908954100828,
+      "grad_norm": 30.18651008605957,
+      "learning_rate": 6.990218209179835e-06,
+      "loss": 1.4983,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6930022573363432,
+      "grad_norm": 14.411537170410156,
+      "learning_rate": 6.613995485327315e-06,
+      "loss": 1.418,
+      "step": 4500
+    },
+    {
+      "epoch": 1.8811136192626035,
+      "grad_norm": 21.750417709350586,
+      "learning_rate": 6.237772761474794e-06,
+      "loss": 1.3877,
+      "step": 5000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5199887387387387,
+      "eval_loss": 1.4839669466018677,
+      "eval_runtime": 162.1391,
+      "eval_samples_per_second": 65.721,
+      "eval_steps_per_second": 4.108,
+      "step": 5316
+    },
+    {
+      "epoch": 2.0692249811888637,
+      "grad_norm": 6.762454986572266,
+      "learning_rate": 5.8615500376222734e-06,
+      "loss": 1.3045,
+      "step": 5500
+    },
+    {
+      "epoch": 2.2573363431151243,
+      "grad_norm": 18.455461502075195,
+      "learning_rate": 5.485327313769752e-06,
+      "loss": 1.2446,
+      "step": 6000
+    },
+    {
+      "epoch": 2.4454477050413845,
+      "grad_norm": 19.22394371032715,
+      "learning_rate": 5.109104589917231e-06,
+      "loss": 1.2256,
+      "step": 6500
+    },
+    {
+      "epoch": 2.6335590669676447,
+      "grad_norm": 21.144025802612305,
+      "learning_rate": 4.732881866064711e-06,
+      "loss": 1.1793,
+      "step": 7000
+    },
+    {
+      "epoch": 2.8216704288939054,
+      "grad_norm": 15.804853439331055,
+      "learning_rate": 4.35665914221219e-06,
+      "loss": 1.1443,
+      "step": 7500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5470157657657657,
+      "eval_loss": 1.406339406967163,
+      "eval_runtime": 162.4331,
+      "eval_samples_per_second": 65.602,
+      "eval_steps_per_second": 4.1,
+      "step": 7974
+    },
+    {
+      "epoch": 3.0097817908201656,
+      "grad_norm": 23.22028923034668,
+      "learning_rate": 3.9804364183596695e-06,
+      "loss": 1.1084,
+      "step": 8000
+    },
+    {
+      "epoch": 3.197893152746426,
+      "grad_norm": 69.02645111083984,
+      "learning_rate": 3.6042136945071488e-06,
+      "loss": 1.0553,
+      "step": 8500
+    },
+    {
+      "epoch": 3.386004514672686,
+      "grad_norm": 24.468629837036133,
+      "learning_rate": 3.227990970654628e-06,
+      "loss": 1.0541,
+      "step": 9000
+    },
+    {
+      "epoch": 3.5741158765989467,
+      "grad_norm": 38.99602127075195,
+      "learning_rate": 2.851768246802107e-06,
+      "loss": 0.9912,
+      "step": 9500
+    },
+    {
+      "epoch": 3.762227238525207,
+      "grad_norm": 13.85210132598877,
+      "learning_rate": 2.4755455229495866e-06,
+      "loss": 0.9912,
+      "step": 10000
+    },
+    {
+      "epoch": 3.950338600451467,
+      "grad_norm": 27.82014274597168,
+      "learning_rate": 2.099322799097066e-06,
+      "loss": 1.0062,
+      "step": 10500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5371621621621622,
+      "eval_loss": 1.4247430562973022,
+      "eval_runtime": 162.9732,
+      "eval_samples_per_second": 65.385,
+      "eval_steps_per_second": 4.087,
+      "step": 10632
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 13290,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5156743378305024.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

results/checkpoint-10632/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:504e25ea188ccf42347847d5a8a30b1e5f3453c958dd3b9182f817b1ec53254a
+size 5112

results/checkpoint-13290/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_name_or_path": "cointegrated/rubert-tiny2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "emb_size": 312,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 312,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 600,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 3,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 83828
+}

results/checkpoint-13290/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c11b7426ec7b401ee2241c706c3d9ef830379aecd4a15d94e93bdd6ea5d7ac0
+size 116796656

results/checkpoint-13290/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6bd3d8f1e23f395760921c2fb6d1691a6cee6cb2b8f0395e1ed594934ef69cd
+size 233626042

results/checkpoint-13290/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6185c29a10ccc299d849b4007ae047284eb74d39bf5f03c81b495d11ebfcc7d0
+size 14244

results/checkpoint-13290/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15e540e53dd57e986bade5c8f90fe7b82952b0578b67310ea34d06bc578cdcd5
+size 1064

results/checkpoint-13290/trainer_state.json ADDED Viewed

	@@ -0,0 +1,260 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 13290,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18811136192626035,
+      "grad_norm": 3.8497512340545654,
+      "learning_rate": 9.62377727614748e-06,
+      "loss": 2.393,
+      "step": 500
+    },
+    {
+      "epoch": 0.3762227238525207,
+      "grad_norm": 6.619251728057861,
+      "learning_rate": 9.24755455229496e-06,
+      "loss": 2.1964,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5643340857787811,
+      "grad_norm": 8.800378799438477,
+      "learning_rate": 8.871331828442438e-06,
+      "loss": 2.0264,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7524454477050414,
+      "grad_norm": 9.567648887634277,
+      "learning_rate": 8.495109104589918e-06,
+      "loss": 1.8566,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9405568096313017,
+      "grad_norm": 10.593893051147461,
+      "learning_rate": 8.118886380737398e-06,
+      "loss": 1.7467,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.46208708708708707,
+      "eval_loss": 1.6955029964447021,
+      "eval_runtime": 161.161,
+      "eval_samples_per_second": 66.12,
+      "eval_steps_per_second": 4.133,
+      "step": 2658
+    },
+    {
+      "epoch": 1.1286681715575622,
+      "grad_norm": 13.920074462890625,
+      "learning_rate": 7.742663656884877e-06,
+      "loss": 1.6306,
+      "step": 3000
+    },
+    {
+      "epoch": 1.3167795334838224,
+      "grad_norm": 9.244267463684082,
+      "learning_rate": 7.366440933032356e-06,
+      "loss": 1.5588,
+      "step": 3500
+    },
+    {
+      "epoch": 1.5048908954100828,
+      "grad_norm": 30.18651008605957,
+      "learning_rate": 6.990218209179835e-06,
+      "loss": 1.4983,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6930022573363432,
+      "grad_norm": 14.411537170410156,
+      "learning_rate": 6.613995485327315e-06,
+      "loss": 1.418,
+      "step": 4500
+    },
+    {
+      "epoch": 1.8811136192626035,
+      "grad_norm": 21.750417709350586,
+      "learning_rate": 6.237772761474794e-06,
+      "loss": 1.3877,
+      "step": 5000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5199887387387387,
+      "eval_loss": 1.4839669466018677,
+      "eval_runtime": 162.1391,
+      "eval_samples_per_second": 65.721,
+      "eval_steps_per_second": 4.108,
+      "step": 5316
+    },
+    {
+      "epoch": 2.0692249811888637,
+      "grad_norm": 6.762454986572266,
+      "learning_rate": 5.8615500376222734e-06,
+      "loss": 1.3045,
+      "step": 5500
+    },
+    {
+      "epoch": 2.2573363431151243,
+      "grad_norm": 18.455461502075195,
+      "learning_rate": 5.485327313769752e-06,
+      "loss": 1.2446,
+      "step": 6000
+    },
+    {
+      "epoch": 2.4454477050413845,
+      "grad_norm": 19.22394371032715,
+      "learning_rate": 5.109104589917231e-06,
+      "loss": 1.2256,
+      "step": 6500
+    },
+    {
+      "epoch": 2.6335590669676447,
+      "grad_norm": 21.144025802612305,
+      "learning_rate": 4.732881866064711e-06,
+      "loss": 1.1793,
+      "step": 7000
+    },
+    {
+      "epoch": 2.8216704288939054,
+      "grad_norm": 15.804853439331055,
+      "learning_rate": 4.35665914221219e-06,
+      "loss": 1.1443,
+      "step": 7500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5470157657657657,
+      "eval_loss": 1.406339406967163,
+      "eval_runtime": 162.4331,
+      "eval_samples_per_second": 65.602,
+      "eval_steps_per_second": 4.1,
+      "step": 7974
+    },
+    {
+      "epoch": 3.0097817908201656,
+      "grad_norm": 23.22028923034668,
+      "learning_rate": 3.9804364183596695e-06,
+      "loss": 1.1084,
+      "step": 8000
+    },
+    {
+      "epoch": 3.197893152746426,
+      "grad_norm": 69.02645111083984,
+      "learning_rate": 3.6042136945071488e-06,
+      "loss": 1.0553,
+      "step": 8500
+    },
+    {
+      "epoch": 3.386004514672686,
+      "grad_norm": 24.468629837036133,
+      "learning_rate": 3.227990970654628e-06,
+      "loss": 1.0541,
+      "step": 9000
+    },
+    {
+      "epoch": 3.5741158765989467,
+      "grad_norm": 38.99602127075195,
+      "learning_rate": 2.851768246802107e-06,
+      "loss": 0.9912,
+      "step": 9500
+    },
+    {
+      "epoch": 3.762227238525207,
+      "grad_norm": 13.85210132598877,
+      "learning_rate": 2.4755455229495866e-06,
+      "loss": 0.9912,
+      "step": 10000
+    },
+    {
+      "epoch": 3.950338600451467,
+      "grad_norm": 27.82014274597168,
+      "learning_rate": 2.099322799097066e-06,
+      "loss": 1.0062,
+      "step": 10500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5371621621621622,
+      "eval_loss": 1.4247430562973022,
+      "eval_runtime": 162.9732,
+      "eval_samples_per_second": 65.385,
+      "eval_steps_per_second": 4.087,
+      "step": 10632
+    },
+    {
+      "epoch": 4.138449962377727,
+      "grad_norm": 18.898746490478516,
+      "learning_rate": 1.7231000752445448e-06,
+      "loss": 0.9609,
+      "step": 11000
+    },
+    {
+      "epoch": 4.326561324303988,
+      "grad_norm": 16.6873722076416,
+      "learning_rate": 1.346877351392024e-06,
+      "loss": 0.9459,
+      "step": 11500
+    },
+    {
+      "epoch": 4.514672686230249,
+      "grad_norm": 14.038538932800293,
+      "learning_rate": 9.706546275395034e-07,
+      "loss": 0.9215,
+      "step": 12000
+    },
+    {
+      "epoch": 4.702784048156508,
+      "grad_norm": 36.04912567138672,
+      "learning_rate": 5.944319036869827e-07,
+      "loss": 0.9407,
+      "step": 12500
+    },
+    {
+      "epoch": 4.890895410082769,
+      "grad_norm": 22.409442901611328,
+      "learning_rate": 2.1820917983446203e-07,
+      "loss": 0.9092,
+      "step": 13000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5365052552552553,
+      "eval_loss": 1.4171342849731445,
+      "eval_runtime": 163.1805,
+      "eval_samples_per_second": 65.302,
+      "eval_steps_per_second": 4.081,
+      "step": 13290
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 13290,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6412613416501248.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

results/checkpoint-13290/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:504e25ea188ccf42347847d5a8a30b1e5f3453c958dd3b9182f817b1ec53254a
+size 5112

results/checkpoint-5316/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_name_or_path": "cointegrated/rubert-tiny2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "emb_size": 312,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 312,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 600,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 3,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 83828
+}

results/checkpoint-5316/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9e32f095ed729356ff45d3ba1cf7ebc8d7b89201339fe50b81419b505a13bf7
+size 116796656

results/checkpoint-5316/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbd91ac5752fe64cf2e18b41015c6f13e5073e9a97a2653314121e9c9a94ac8f
+size 233626042

results/checkpoint-5316/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0497121ba7e42396dcd398df1c3d61c2c36be55bd2214234c1620be946a0aa9c
+size 14244

results/checkpoint-5316/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:151bcc6814ed3dee42f7cdf4f173669f42ff51e5f2d386dcae94a352e98203de
+size 1064

results/checkpoint-5316/trainer_state.json ADDED Viewed

	@@ -0,0 +1,121 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 5316,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18811136192626035,
+      "grad_norm": 3.8497512340545654,
+      "learning_rate": 9.62377727614748e-06,
+      "loss": 2.393,
+      "step": 500
+    },
+    {
+      "epoch": 0.3762227238525207,
+      "grad_norm": 6.619251728057861,
+      "learning_rate": 9.24755455229496e-06,
+      "loss": 2.1964,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5643340857787811,
+      "grad_norm": 8.800378799438477,
+      "learning_rate": 8.871331828442438e-06,
+      "loss": 2.0264,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7524454477050414,
+      "grad_norm": 9.567648887634277,
+      "learning_rate": 8.495109104589918e-06,
+      "loss": 1.8566,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9405568096313017,
+      "grad_norm": 10.593893051147461,
+      "learning_rate": 8.118886380737398e-06,
+      "loss": 1.7467,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.46208708708708707,
+      "eval_loss": 1.6955029964447021,
+      "eval_runtime": 161.161,
+      "eval_samples_per_second": 66.12,
+      "eval_steps_per_second": 4.133,
+      "step": 2658
+    },
+    {
+      "epoch": 1.1286681715575622,
+      "grad_norm": 13.920074462890625,
+      "learning_rate": 7.742663656884877e-06,
+      "loss": 1.6306,
+      "step": 3000
+    },
+    {
+      "epoch": 1.3167795334838224,
+      "grad_norm": 9.244267463684082,
+      "learning_rate": 7.366440933032356e-06,
+      "loss": 1.5588,
+      "step": 3500
+    },
+    {
+      "epoch": 1.5048908954100828,
+      "grad_norm": 30.18651008605957,
+      "learning_rate": 6.990218209179835e-06,
+      "loss": 1.4983,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6930022573363432,
+      "grad_norm": 14.411537170410156,
+      "learning_rate": 6.613995485327315e-06,
+      "loss": 1.418,
+      "step": 4500
+    },
+    {
+      "epoch": 1.8811136192626035,
+      "grad_norm": 21.750417709350586,
+      "learning_rate": 6.237772761474794e-06,
+      "loss": 1.3877,
+      "step": 5000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5199887387387387,
+      "eval_loss": 1.4839669466018677,
+      "eval_runtime": 162.1391,
+      "eval_samples_per_second": 65.721,
+      "eval_steps_per_second": 4.108,
+      "step": 5316
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 13290,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2645003301912576.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

results/checkpoint-5316/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:504e25ea188ccf42347847d5a8a30b1e5f3453c958dd3b9182f817b1ec53254a
+size 5112

results/checkpoint-7974/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_name_or_path": "cointegrated/rubert-tiny2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "emb_size": 312,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 312,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 600,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 3,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 83828
+}

results/checkpoint-7974/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1e06f365f3d5045b0f95103d305f7c7a2c9fc2f589f3701089676a8d7cc76c1
+size 116796656

results/checkpoint-7974/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6168b1551df0154020abf5d8227ddda09fc44e9751363b6a367d01151eeff471
+size 233626042

results/checkpoint-7974/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7184ef5c822bb586fc205c46dbdd02435f30555e8314c3568fd62b4766ca82b5
+size 14244

results/checkpoint-7974/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c0a28006a82e57cc96981c9fee44db8e69ca46fd66207928630502a1e5e87da
+size 1064

results/checkpoint-7974/trainer_state.json ADDED Viewed

	@@ -0,0 +1,165 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 7974,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18811136192626035,
+      "grad_norm": 3.8497512340545654,
+      "learning_rate": 9.62377727614748e-06,
+      "loss": 2.393,
+      "step": 500
+    },
+    {
+      "epoch": 0.3762227238525207,
+      "grad_norm": 6.619251728057861,
+      "learning_rate": 9.24755455229496e-06,
+      "loss": 2.1964,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5643340857787811,
+      "grad_norm": 8.800378799438477,
+      "learning_rate": 8.871331828442438e-06,
+      "loss": 2.0264,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7524454477050414,
+      "grad_norm": 9.567648887634277,
+      "learning_rate": 8.495109104589918e-06,
+      "loss": 1.8566,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9405568096313017,
+      "grad_norm": 10.593893051147461,
+      "learning_rate": 8.118886380737398e-06,
+      "loss": 1.7467,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.46208708708708707,
+      "eval_loss": 1.6955029964447021,
+      "eval_runtime": 161.161,
+      "eval_samples_per_second": 66.12,
+      "eval_steps_per_second": 4.133,
+      "step": 2658
+    },
+    {
+      "epoch": 1.1286681715575622,
+      "grad_norm": 13.920074462890625,
+      "learning_rate": 7.742663656884877e-06,
+      "loss": 1.6306,
+      "step": 3000
+    },
+    {
+      "epoch": 1.3167795334838224,
+      "grad_norm": 9.244267463684082,
+      "learning_rate": 7.366440933032356e-06,
+      "loss": 1.5588,
+      "step": 3500
+    },
+    {
+      "epoch": 1.5048908954100828,
+      "grad_norm": 30.18651008605957,
+      "learning_rate": 6.990218209179835e-06,
+      "loss": 1.4983,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6930022573363432,
+      "grad_norm": 14.411537170410156,
+      "learning_rate": 6.613995485327315e-06,
+      "loss": 1.418,
+      "step": 4500
+    },
+    {
+      "epoch": 1.8811136192626035,
+      "grad_norm": 21.750417709350586,
+      "learning_rate": 6.237772761474794e-06,
+      "loss": 1.3877,
+      "step": 5000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5199887387387387,
+      "eval_loss": 1.4839669466018677,
+      "eval_runtime": 162.1391,
+      "eval_samples_per_second": 65.721,
+      "eval_steps_per_second": 4.108,
+      "step": 5316
+    },
+    {
+      "epoch": 2.0692249811888637,
+      "grad_norm": 6.762454986572266,
+      "learning_rate": 5.8615500376222734e-06,
+      "loss": 1.3045,
+      "step": 5500
+    },
+    {
+      "epoch": 2.2573363431151243,
+      "grad_norm": 18.455461502075195,
+      "learning_rate": 5.485327313769752e-06,
+      "loss": 1.2446,
+      "step": 6000
+    },
+    {
+      "epoch": 2.4454477050413845,
+      "grad_norm": 19.22394371032715,
+      "learning_rate": 5.109104589917231e-06,
+      "loss": 1.2256,
+      "step": 6500
+    },
+    {
+      "epoch": 2.6335590669676447,
+      "grad_norm": 21.144025802612305,
+      "learning_rate": 4.732881866064711e-06,
+      "loss": 1.1793,
+      "step": 7000
+    },
+    {
+      "epoch": 2.8216704288939054,
+      "grad_norm": 15.804853439331055,
+      "learning_rate": 4.35665914221219e-06,
+      "loss": 1.1443,
+      "step": 7500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5470157657657657,
+      "eval_loss": 1.406339406967163,
+      "eval_runtime": 162.4331,
+      "eval_samples_per_second": 65.602,
+      "eval_steps_per_second": 4.1,
+      "step": 7974
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 13290,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3900873340108800.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

results/checkpoint-7974/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:504e25ea188ccf42347847d5a8a30b1e5f3453c958dd3b9182f817b1ec53254a
+size 5112

wandb/debug-internal.log CHANGED Viewed

The diff for this file is too large to render. See raw diff

wandb/debug.log CHANGED Viewed

@@ -33,3 +33,9 @@ config: {}
 2024-07-04 20:52:34,983 INFO    MainThread:34 [jupyter.py:save_ipynb():373] not saving jupyter notebook
 2024-07-04 20:52:34,984 INFO    MainThread:34 [wandb_init.py:_pause_backend():431] pausing backend
 2024-07-04 20:52:35,213 INFO    MainThread:34 [wandb_init.py:_resume_backend():436] resuming backend

 2024-07-04 20:52:34,983 INFO    MainThread:34 [jupyter.py:save_ipynb():373] not saving jupyter notebook
 2024-07-04 20:52:34,984 INFO    MainThread:34 [wandb_init.py:_pause_backend():431] pausing backend
 2024-07-04 20:52:35,213 INFO    MainThread:34 [wandb_init.py:_resume_backend():436] resuming backend
+2024-07-04 20:52:45,661 INFO    MainThread:34 [jupyter.py:save_ipynb():373] not saving jupyter notebook
+2024-07-04 20:52:45,661 INFO    MainThread:34 [wandb_init.py:_pause_backend():431] pausing backend
+2024-07-04 20:56:16,312 INFO    MainThread:34 [wandb_init.py:_resume_backend():436] resuming backend
+2024-07-04 23:41:01,671 INFO    MainThread:34 [jupyter.py:save_ipynb():373] not saving jupyter notebook
+2024-07-04 23:41:01,671 INFO    MainThread:34 [wandb_init.py:_pause_backend():431] pausing backend
+2024-07-04 23:41:01,679 INFO    MainThread:34 [wandb_init.py:_resume_backend():436] resuming backend

wandb/run-20240704_200304-v5ofm505/files/config.yaml CHANGED Viewed

@@ -41,6 +41,7 @@ _wandb:
       - 7
       - 13
       - 23
       - 66
       4: 3.10.13
       5: 0.17.0

       - 7
       - 13
       - 23
+      - 62
       - 66
       4: 3.10.13
       5: 0.17.0

wandb/run-20240704_200304-v5ofm505/files/output.log CHANGED Viewed

	@@ -1,2 +1,8 @@
1
2	Successfully unpacked eval_pred: logits shape (10656, 12), labels shape (10656,)

 Successfully unpacked eval_pred: logits shape (10656, 12), labels shape (10656,)
+Model and tokenizer saved.
+Successfully unpacked eval_pred: logits shape (10656, 12), labels shape (10656,)
+Successfully unpacked eval_pred: logits shape (10656, 12), labels shape (10656,)
+Successfully unpacked eval_pred: logits shape (10656, 12), labels shape (10656,)
+wandb: Network error (ReadTimeout), entering retry loop.
+Successfully unpacked eval_pred: logits shape (10656, 12), labels shape (10656,)

wandb/run-20240704_200304-v5ofm505/files/wandb-summary.json CHANGED Viewed

@@ -1 +1 @@

- {"train/loss": 1.~~6415~~, "train/grad_norm": 13.~~920074462890625~~, "train/learning_rate": 7.~~742663656884877e~~-06, "train/epoch": 1.~~1286681715575622~~, "train/global_step": ~~3000~~, "_timestamp": ~~1720126112~~.~~3031855~~, "_runtime": ~~2727~~.~~297756433487~~, "_step": 6, "eval/loss": 1.~~6955029964447021~~, "eval/accuracy": 0.~~46208708708708707~~, "eval/runtime": ~~161~~.~~161~~, "eval/samples_per_second": 66.12, "eval/steps_per_second": 4.~~133~~}

+ {"train/loss": 0.9092, "train/grad_norm": 22.409442901611328, "train/learning_rate": 2.1820917983446203e-07, "train/epoch": 5.0, "train/global_step": 13290, "_timestamp": 1720136461.6662867, "_runtime": 13076.66085767746, "_step": 32, "eval/loss": 1.4171342849731445, "eval/accuracy": 0.5365052552552553, "eval/runtime": 163.1805, "eval/samples_per_second": 65.302, "eval/steps_per_second": 4.081, "train_runtime": 9884.6935, "train_samples_per_second": 21.509, "train_steps_per_second": 1.345, "total_flos": 6412613416501248.0, "train_loss": 0.9214439374867734}

wandb/run-20240704_200304-v5ofm505/logs/debug-internal.log CHANGED Viewed

The diff for this file is too large to render. See raw diff

wandb/run-20240704_200304-v5ofm505/logs/debug.log CHANGED Viewed

@@ -33,3 +33,9 @@ config: {}
 2024-07-04 20:52:34,983 INFO    MainThread:34 [jupyter.py:save_ipynb():373] not saving jupyter notebook
 2024-07-04 20:52:34,984 INFO    MainThread:34 [wandb_init.py:_pause_backend():431] pausing backend
 2024-07-04 20:52:35,213 INFO    MainThread:34 [wandb_init.py:_resume_backend():436] resuming backend

 2024-07-04 20:52:34,983 INFO    MainThread:34 [jupyter.py:save_ipynb():373] not saving jupyter notebook
 2024-07-04 20:52:34,984 INFO    MainThread:34 [wandb_init.py:_pause_backend():431] pausing backend
 2024-07-04 20:52:35,213 INFO    MainThread:34 [wandb_init.py:_resume_backend():436] resuming backend
+2024-07-04 20:52:45,661 INFO    MainThread:34 [jupyter.py:save_ipynb():373] not saving jupyter notebook
+2024-07-04 20:52:45,661 INFO    MainThread:34 [wandb_init.py:_pause_backend():431] pausing backend
+2024-07-04 20:56:16,312 INFO    MainThread:34 [wandb_init.py:_resume_backend():436] resuming backend
+2024-07-04 23:41:01,671 INFO    MainThread:34 [jupyter.py:save_ipynb():373] not saving jupyter notebook
+2024-07-04 23:41:01,671 INFO    MainThread:34 [wandb_init.py:_pause_backend():431] pausing backend
+2024-07-04 23:41:01,679 INFO    MainThread:34 [wandb_init.py:_resume_backend():436] resuming backend

wandb/run-20240704_200304-v5ofm505/run-v5ofm505.wandb CHANGED Viewed

Binary files a/wandb/run-20240704_200304-v5ofm505/run-v5ofm505.wandb and b/wandb/run-20240704_200304-v5ofm505/run-v5ofm505.wandb differ