lilyray commited on Mar 9, 2024

Commit

6f33b4d

verified ·

1 Parent(s): 4522022

Training in progress, epoch 1

Browse files

Files changed (20) hide show

model.safetensors +1 -1
run-0/checkpoint-1432/config.json +25 -0
run-0/checkpoint-1432/model.safetensors +3 -0
run-0/checkpoint-1432/optimizer.pt +3 -0
run-0/checkpoint-1432/rng_state.pth +3 -0
run-0/checkpoint-1432/scheduler.pt +3 -0
run-0/checkpoint-1432/special_tokens_map.json +7 -0
run-0/checkpoint-1432/tokenizer_config.json +57 -0
run-0/checkpoint-1432/trainer_state.json +76 -0
run-0/checkpoint-1432/training_args.bin +3 -0
run-0/checkpoint-1432/vocab.txt +0 -0
run-1/checkpoint-358/model.safetensors +1 -1
run-1/checkpoint-358/optimizer.pt +1 -1
run-1/checkpoint-358/rng_state.pth +2 -2
run-1/checkpoint-358/scheduler.pt +1 -1
run-1/checkpoint-358/trainer_state.json +14 -23
run-1/checkpoint-358/training_args.bin +1 -1
run-1/checkpoint-716/trainer_state.json +25 -43
runs/Mar09_20-46-55_12ef847df42e/events.out.tfevents.1710017918.12ef847df42e.11821.4 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:485040adadc4df794c682acb342a777cc1487a106aa332a6f9bbc3da47b2da3c
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:1312452b074c42529308bf096701b8d540d3c2d5bf954ff9e867b3a6d6657c85
 size 267832560

run-0/checkpoint-1432/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "vocab_size": 30522
+}

run-0/checkpoint-1432/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb856f110c71a538885c02f2cd792aaa30e4cc15d299efaa4dc146abd9cb2832
+size 267832560

run-0/checkpoint-1432/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55779307880b55bb2f0623f1c34649ef6c88e081993f79d1aff6dcf1754cfcc3
+size 535727290

run-0/checkpoint-1432/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4af46db25777f8205e06802b2fbf6310028acd288a751c232e877a9be58c46c
+size 14308

run-0/checkpoint-1432/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05c23b0c45f8e2b75b0f4308b33b6868f7d32d540a591b3b9ec91e85f3b0e057
+size 1064

run-0/checkpoint-1432/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-1432/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-1432/trainer_state.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "best_metric": 0.6083901524543762,
+  "best_model_checkpoint": "./results/run-0/checkpoint-358",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 1432,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6722222222222222,
+      "eval_loss": 0.6083901524543762,
+      "eval_runtime": 5.7737,
+      "eval_samples_per_second": 165.406,
+      "eval_steps_per_second": 20.784,
+      "step": 358
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 8.0650634765625,
+      "learning_rate": 1.0536381136099229e-05,
+      "loss": 0.6149,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6920138888888888,
+      "eval_loss": 0.6155831813812256,
+      "eval_runtime": 6.4389,
+      "eval_samples_per_second": 148.317,
+      "eval_steps_per_second": 18.637,
+      "step": 716
+    },
+    {
+      "epoch": 2.79,
+      "grad_norm": 5.074481010437012,
+      "learning_rate": 4.8838161489215315e-06,
+      "loss": 0.4408,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6836805555555555,
+      "eval_loss": 0.6700696349143982,
+      "eval_runtime": 5.7921,
+      "eval_samples_per_second": 164.88,
+      "eval_steps_per_second": 20.718,
+      "step": 1074
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6878472222222222,
+      "eval_loss": 0.7763063907623291,
+      "eval_runtime": 6.009,
+      "eval_samples_per_second": 158.928,
+      "eval_steps_per_second": 19.97,
+      "step": 1432
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1432,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 1059209319653376.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6188946123276927e-05,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 8,
+    "seed": 20
+  }
+}

run-0/checkpoint-1432/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:756e0c6b01f2dc28da5639bc1c7bcb62246c7526b8bef0298780aea65e098381
+size 4920

run-0/checkpoint-1432/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-358/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acb32e8f6fbc51c89b529efbb995526137d0ccde0b805800ac61d50b8b226398
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:1312452b074c42529308bf096701b8d540d3c2d5bf954ff9e867b3a6d6657c85
 size 267832560

run-1/checkpoint-358/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8cec03e21180ed7b160804a511526c6ac798f2dedee191d716a3e9b72844c2f0
 size 535727290

 version https://git-lfs.github.com/spec/v1
+oid sha256:08c9f3c571828e7bd43a825254c3ec3a5b29fa0e05eae8b686eba566a6105df9
 size 535727290

run-1/checkpoint-358/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c60a2df6de14c702310760f72492ff50324690863882e62ff3ac70aaf5e5529
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:03fbffb5807ef37922e14f44a85e6eeab69e0ade6bec6152f385a1d56f1f8e7c
+size 14244

run-1/checkpoint-358/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ba9c73e709f80e22d05b4cb1e362b57eb04ffe20023f81bd7c5c5dbd5a44e09
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d99530cc4ae1cbb1d5cc5857d9a9572c831a15fbc92252c30c3a92b9af3025e0
 size 1064

run-1/checkpoint-358/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.623793363571167,
-  "best_model_checkpoint": "./results/run-1/checkpoint-179",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 358,
   "is_hyper_param_search": true,
@@ -10,35 +10,26 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6246212121212121,
-      "eval_loss": 0.623793363571167,
-      "eval_runtime": 5.6017,
-      "eval_samples_per_second": 170.484,
-      "eval_steps_per_second": 10.711,
-      "step": 179
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.6923295454545454,
-      "eval_loss": 0.6612856984138489,
-      "eval_runtime": 5.3912,
-      "eval_samples_per_second": 177.139,
-      "eval_steps_per_second": 11.129,
       "step": 358
     }
   ],
   "logging_steps": 500,
   "max_steps": 716,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "total_flos": 0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 9.621056977763735e-05,
-    "num_train_epochs": 4,
-    "per_device_train_batch_size": 16,
-    "seed": 17
   }
 }

 {
+  "best_metric": 0.6688534617424011,
+  "best_model_checkpoint": "./results/run-1/checkpoint-358",
+  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 358,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6211805555555555,
+      "eval_loss": 0.6688534617424011,
+      "eval_runtime": 5.5824,
+      "eval_samples_per_second": 171.075,
+      "eval_steps_per_second": 21.496,
       "step": 358
     }
   ],
   "logging_steps": 500,
   "max_steps": 716,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "total_flos": 0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 8.514687247224755e-05,
+    "num_train_epochs": 2,
+    "per_device_train_batch_size": 8,
+    "seed": 40
   }
 }

run-1/checkpoint-358/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8dd0a6f82f44ad0806dfecfa060c04182bf3daf51bc9b7474a1711e44c162602
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb08b78a879b2a9b7abbbaf6e8ab5cc5cddbc616d40fcf027dd248408bd13c4e
 size 4920

run-1/checkpoint-716/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.623793363571167,
-  "best_model_checkpoint": "./results/run-1/checkpoint-179",
-  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 716,
   "is_hyper_param_search": true,
@@ -10,60 +10,42 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6246212121212121,
-      "eval_loss": 0.623793363571167,
-      "eval_runtime": 5.6017,
-      "eval_samples_per_second": 170.484,
-      "eval_steps_per_second": 10.711,
-      "step": 179
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.6923295454545454,
-      "eval_loss": 0.6612856984138489,
-      "eval_runtime": 5.3912,
-      "eval_samples_per_second": 177.139,
-      "eval_steps_per_second": 11.129,
       "step": 358
     },
     {
-      "epoch": 2.79,
-      "grad_norm": 3.6779439449310303,
-      "learning_rate": 2.902441769828166e-05,
-      "loss": 0.431,
       "step": 500
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.6544507575757575,
-      "eval_loss": 1.3626810312271118,
-      "eval_runtime": 5.6448,
-      "eval_samples_per_second": 169.184,
-      "eval_steps_per_second": 10.629,
-      "step": 537
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.6836174242424242,
-      "eval_loss": 1.5171432495117188,
-      "eval_runtime": 5.46,
-      "eval_samples_per_second": 174.907,
-      "eval_steps_per_second": 10.989,
       "step": 716
     }
   ],
   "logging_steps": 500,
   "max_steps": 716,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
-  "total_flos": 1059209319653376.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 9.621056977763735e-05,
-    "num_train_epochs": 4,
-    "per_device_train_batch_size": 16,
-    "seed": 17
   }
 }

 {
+  "best_metric": 0.6688534617424011,
+  "best_model_checkpoint": "./results/run-1/checkpoint-358",
+  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 716,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6211805555555555,
+      "eval_loss": 0.6688534617424011,
+      "eval_runtime": 5.5824,
+      "eval_samples_per_second": 171.075,
+      "eval_steps_per_second": 21.496,
       "step": 358
     },
     {
+      "epoch": 1.4,
+      "grad_norm": 5.350462436676025,
+      "learning_rate": 2.5686765997214346e-05,
+      "loss": 0.6185,
       "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6732638888888888,
+      "eval_loss": 0.684463620185852,
+      "eval_runtime": 6.2186,
+      "eval_samples_per_second": 153.57,
+      "eval_steps_per_second": 19.297,
       "step": 716
     }
   ],
   "logging_steps": 500,
   "max_steps": 716,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 529604659826688.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 8.514687247224755e-05,
+    "num_train_epochs": 2,
+    "per_device_train_batch_size": 8,
+    "seed": 40
   }
 }

runs/Mar09_20-46-55_12ef847df42e/events.out.tfevents.1710017918.12ef847df42e.11821.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:848c1d7a9c280a95f9ee01d919f6843e26fcd8a537e50d6c0500c313fe6f7baa
+size 5649

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:756e0c6b01f2dc28da5639bc1c7bcb62246c7526b8bef0298780aea65e098381
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb08b78a879b2a9b7abbbaf6e8ab5cc5cddbc616d40fcf027dd248408bd13c4e
 size 4920