Shushant commited on May 26, 2025

Commit

705ef4a

verified ·

1 Parent(s): c26b12f

Upload folder using huggingface_hub

Browse files

Files changed (24) hide show

checkpoint-2224/added_tokens.json +3 -0
checkpoint-2224/config.json +35 -0
checkpoint-2224/model.safetensors +3 -0
checkpoint-2224/optimizer.pt +3 -0
checkpoint-2224/rng_state.pth +3 -0
checkpoint-2224/scheduler.pt +3 -0
checkpoint-2224/special_tokens_map.json +15 -0
checkpoint-2224/spm.model +3 -0
checkpoint-2224/tokenizer_config.json +59 -0
checkpoint-2224/trainer_state.json +109 -0
checkpoint-2224/training_args.bin +3 -0
checkpoint-5560/added_tokens.json +3 -0
checkpoint-5560/config.json +35 -0
checkpoint-5560/model.safetensors +3 -0
checkpoint-5560/optimizer.pt +3 -0
checkpoint-5560/rng_state.pth +3 -0
checkpoint-5560/scheduler.pt +3 -0
checkpoint-5560/special_tokens_map.json +15 -0
checkpoint-5560/spm.model +3 -0
checkpoint-5560/tokenizer_config.json +59 -0
checkpoint-5560/trainer_state.json +230 -0
checkpoint-5560/training_args.bin +3 -0
logs/events.out.tfevents.1748245108.ADAPT-CLIN.1148101.0 +2 -2
predictions.jsonl +0 -0

checkpoint-2224/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-2224/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-2224/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b11bf556b0404394e1ea7c06d8f28c0804f27d6153ff6a6bc3c2afb5f1fbbeae
+size 1740304440

checkpoint-2224/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76c29b10ece3dca07c64cb96fbb78d7739320c19d3fc579decb2483b3db3a06d
+size 3480840240

checkpoint-2224/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85177ca78e6b4785c39813f194ca08fa112d0e0f51bab9987c2f154e66974e86
+size 14244

checkpoint-2224/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b541a4ee466473f63ae56f1de9e4b406788552c9dd2fe81a28f965b1f3c5fa67
+size 1064

checkpoint-2224/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2224/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-2224/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-2224/trainer_state.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "best_metric": 0.987703144062033,
+  "best_model_checkpoint": "./model/checkpoint-2224",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 2224,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.8992805755395683,
+      "grad_norm": 15.831398963928223,
+      "learning_rate": 2.731834532374101e-05,
+      "loss": 0.1341,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9858275687531635,
+      "eval_f1": 0.9858428119593087,
+      "eval_loss": 0.06046506017446518,
+      "eval_precision": 0.9858980040864742,
+      "eval_recall": 0.9858275687531635,
+      "eval_runtime": 123.5336,
+      "eval_samples_per_second": 47.979,
+      "eval_steps_per_second": 1.506,
+      "step": 556
+    },
+    {
+      "epoch": 1.7985611510791366,
+      "grad_norm": 0.1419404149055481,
+      "learning_rate": 2.4620503597122304e-05,
+      "loss": 0.0458,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9844778133963219,
+      "eval_f1": 0.9844685311325714,
+      "eval_loss": 0.06095171347260475,
+      "eval_precision": 0.984470890080927,
+      "eval_recall": 0.9844778133963219,
+      "eval_runtime": 324.024,
+      "eval_samples_per_second": 18.292,
+      "eval_steps_per_second": 0.574,
+      "step": 1112
+    },
+    {
+      "epoch": 2.697841726618705,
+      "grad_norm": 0.0644543468952179,
+      "learning_rate": 2.1928057553956834e-05,
+      "loss": 0.0255,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9856588493335583,
+      "eval_f1": 0.9856725274058569,
+      "eval_loss": 0.06607956439256668,
+      "eval_precision": 0.985717476255087,
+      "eval_recall": 0.9856588493335583,
+      "eval_runtime": 23.8528,
+      "eval_samples_per_second": 248.482,
+      "eval_steps_per_second": 7.798,
+      "step": 1668
+    },
+    {
+      "epoch": 3.597122302158273,
+      "grad_norm": 0.006873908918350935,
+      "learning_rate": 1.923021582733813e-05,
+      "loss": 0.0098,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9876834823688206,
+      "eval_f1": 0.987703144062033,
+      "eval_loss": 0.06861425936222076,
+      "eval_precision": 0.9878126950690342,
+      "eval_recall": 0.9876834823688206,
+      "eval_runtime": 123.3642,
+      "eval_samples_per_second": 48.045,
+      "eval_steps_per_second": 1.508,
+      "step": 2224
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 5560,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.656985150205952e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2224/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5dd6029c2d02a2d227cfcfcd43bd2b86533f1c7595b8493db0abfe49ac98968
+size 5176

checkpoint-5560/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-5560/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-5560/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6782b752469709fc6a72923a4543b5b1d0e57e3b108dfc8dd291b73f9b2daaf2
+size 1740304440

checkpoint-5560/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecf6c09c4aea7757c48baa8b2172975b9c1be4e7beed48e5eb43fe2a256de7fe
+size 3480840240

checkpoint-5560/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afb310390bdb175362fb078a5ea9c249706f119df8dc0d9b927998297e473ff7
+size 14244

checkpoint-5560/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03a0c13945210832df5a9103e7c3d6a675c2fafeff927b3fe10b9317b709fb44
+size 1064

checkpoint-5560/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-5560/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-5560/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-5560/trainer_state.json ADDED Viewed

	@@ -0,0 +1,230 @@

+{
+  "best_metric": 0.987703144062033,
+  "best_model_checkpoint": "./model/checkpoint-2224",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 5560,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.8992805755395683,
+      "grad_norm": 15.831398963928223,
+      "learning_rate": 2.731834532374101e-05,
+      "loss": 0.1341,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9858275687531635,
+      "eval_f1": 0.9858428119593087,
+      "eval_loss": 0.06046506017446518,
+      "eval_precision": 0.9858980040864742,
+      "eval_recall": 0.9858275687531635,
+      "eval_runtime": 123.5336,
+      "eval_samples_per_second": 47.979,
+      "eval_steps_per_second": 1.506,
+      "step": 556
+    },
+    {
+      "epoch": 1.7985611510791366,
+      "grad_norm": 0.1419404149055481,
+      "learning_rate": 2.4620503597122304e-05,
+      "loss": 0.0458,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9844778133963219,
+      "eval_f1": 0.9844685311325714,
+      "eval_loss": 0.06095171347260475,
+      "eval_precision": 0.984470890080927,
+      "eval_recall": 0.9844778133963219,
+      "eval_runtime": 324.024,
+      "eval_samples_per_second": 18.292,
+      "eval_steps_per_second": 0.574,
+      "step": 1112
+    },
+    {
+      "epoch": 2.697841726618705,
+      "grad_norm": 0.0644543468952179,
+      "learning_rate": 2.1928057553956834e-05,
+      "loss": 0.0255,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9856588493335583,
+      "eval_f1": 0.9856725274058569,
+      "eval_loss": 0.06607956439256668,
+      "eval_precision": 0.985717476255087,
+      "eval_recall": 0.9856588493335583,
+      "eval_runtime": 23.8528,
+      "eval_samples_per_second": 248.482,
+      "eval_steps_per_second": 7.798,
+      "step": 1668
+    },
+    {
+      "epoch": 3.597122302158273,
+      "grad_norm": 0.006873908918350935,
+      "learning_rate": 1.923021582733813e-05,
+      "loss": 0.0098,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9876834823688206,
+      "eval_f1": 0.987703144062033,
+      "eval_loss": 0.06861425936222076,
+      "eval_precision": 0.9878126950690342,
+      "eval_recall": 0.9876834823688206,
+      "eval_runtime": 123.3642,
+      "eval_samples_per_second": 48.045,
+      "eval_steps_per_second": 1.508,
+      "step": 2224
+    },
+    {
+      "epoch": 4.496402877697841,
+      "grad_norm": 0.0038243578746914864,
+      "learning_rate": 1.653776978417266e-05,
+      "loss": 0.0051,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.98279061920027,
+      "eval_f1": 0.9827652293288254,
+      "eval_loss": 0.11865255236625671,
+      "eval_precision": 0.9828086020917639,
+      "eval_recall": 0.98279061920027,
+      "eval_runtime": 123.5475,
+      "eval_samples_per_second": 47.973,
+      "eval_steps_per_second": 1.505,
+      "step": 2780
+    },
+    {
+      "epoch": 5.39568345323741,
+      "grad_norm": 0.00035207424662075937,
+      "learning_rate": 1.3839928057553959e-05,
+      "loss": 0.0012,
+      "step": 3000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9844778133963219,
+      "eval_f1": 0.9844549127279602,
+      "eval_loss": 0.10734612494707108,
+      "eval_precision": 0.9845009079108045,
+      "eval_recall": 0.9844778133963219,
+      "eval_runtime": 324.4042,
+      "eval_samples_per_second": 18.27,
+      "eval_steps_per_second": 0.573,
+      "step": 3336
+    },
+    {
+      "epoch": 6.294964028776978,
+      "grad_norm": 0.0010561492526903749,
+      "learning_rate": 1.1142086330935252e-05,
+      "loss": 0.0006,
+      "step": 3500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9844778133963219,
+      "eval_f1": 0.9844617747386799,
+      "eval_loss": 0.1119009479880333,
+      "eval_precision": 0.9844800053876499,
+      "eval_recall": 0.9844778133963219,
+      "eval_runtime": 123.6461,
+      "eval_samples_per_second": 47.935,
+      "eval_steps_per_second": 1.504,
+      "step": 3892
+    },
+    {
+      "epoch": 7.194244604316546,
+      "grad_norm": 0.0001651465572649613,
+      "learning_rate": 8.444244604316547e-06,
+      "loss": 0.0,
+      "step": 4000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9843090939767167,
+      "eval_f1": 0.9842866428636935,
+      "eval_loss": 0.12110123783349991,
+      "eval_precision": 0.9843290706362859,
+      "eval_recall": 0.9843090939767167,
+      "eval_runtime": 323.8258,
+      "eval_samples_per_second": 18.303,
+      "eval_steps_per_second": 0.574,
+      "step": 4448
+    },
+    {
+      "epoch": 8.093525179856115,
+      "grad_norm": 0.0001012256761896424,
+      "learning_rate": 5.7464028776978415e-06,
+      "loss": 0.0001,
+      "step": 4500
+    },
+    {
+      "epoch": 8.992805755395683,
+      "grad_norm": 0.00017143118020612746,
+      "learning_rate": 3.048561151079137e-06,
+      "loss": 0.0002,
+      "step": 5000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9849839716551375,
+      "eval_f1": 0.9849730419562784,
+      "eval_loss": 0.11790579557418823,
+      "eval_precision": 0.9849792957695417,
+      "eval_recall": 0.9849839716551375,
+      "eval_runtime": 324.0234,
+      "eval_samples_per_second": 18.292,
+      "eval_steps_per_second": 0.574,
+      "step": 5004
+    },
+    {
+      "epoch": 9.892086330935252,
+      "grad_norm": 0.00013196947111282498,
+      "learning_rate": 3.507194244604317e-07,
+      "loss": 0.0001,
+      "step": 5500
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9849839716551375,
+      "eval_f1": 0.9849833368509429,
+      "eval_loss": 0.11824283748865128,
+      "eval_precision": 0.9849827613456668,
+      "eval_recall": 0.9849839716551375,
+      "eval_runtime": 223.7176,
+      "eval_samples_per_second": 26.493,
+      "eval_steps_per_second": 0.831,
+      "step": 5560
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 5560,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.14246287551488e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-5560/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5dd6029c2d02a2d227cfcfcd43bd2b86533f1c7595b8493db0abfe49ac98968
+size 5176

logs/events.out.tfevents.1748245108.ADAPT-CLIN.1148101.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11e8d13a98de951dd92364a3ed0ae7021c12d2b994a9afb2493690d4b6306e85
-size 11584

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fd8dffb7be0de1bbf2bc2e740f9d40c7b96aabcaffb97fbfa55efc0bc326269
+size 12410

predictions.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff