Training in progress, epoch 2

Browse files

Files changed (4) hide show

adapter_model.safetensors +1 -1
config.json +27 -38
model.safetensors +2 -2
runs/Feb26_04-11-30_b40b033170fa/events.out.tfevents.1740543090.b40b033170fa.19395.1 +2 -2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c036511430a8237c8eea7775495c0c2954cfb32f7c69963d98a197cfc54b60b2
 size 578898352

 version https://git-lfs.github.com/spec/v1
+oid sha256:3176e54cd5919e675f983531a89c3b226c2637143bf280f193683173f3ca4e95
 size 578898352

config.json CHANGED Viewed

@@ -1,55 +1,44 @@
 {
-  "_name_or_path": "answerdotai/ModernBERT-base",
   "architectures": [
-    "ModernBertForSequenceClassification"
   ],
-  "attention_bias": false,
-  "attention_dropout": 0.0,
-  "bos_token_id": 50281,
-  "classifier_activation": "gelu",
-  "classifier_bias": false,
-  "classifier_dropout": 0.0,
-  "classifier_pooling": "mean",
-  "cls_token_id": 50281,
-  "decoder_bias": true,
-  "deterministic_flash_attn": false,
-  "embedding_dropout": 0.0,
-  "eos_token_id": 50282,
-  "global_attn_every_n_layers": 3,
-  "global_rope_theta": 160000.0,
-  "gradient_checkpointing": false,
-  "hidden_activation": "gelu",
   "hidden_size": 768,
   "id2label": {
     "0": "NEGATIVE",
     "1": "POSITIVE"
   },
-  "initializer_cutoff_factor": 2.0,
   "initializer_range": 0.02,
-  "intermediate_size": 1152,
   "label2id": {
     "NEGATIVE": 0,
     "POSITIVE": 1
   },
-  "layer_norm_eps": 1e-05,
-  "local_attention": 128,
-  "local_rope_theta": 10000.0,
-  "max_position_embeddings": 8192,
-  "mlp_bias": false,
-  "mlp_dropout": 0.0,
-  "model_type": "modernbert",
-  "norm_bias": false,
-  "norm_eps": 1e-05,
   "num_attention_heads": 12,
-  "num_hidden_layers": 22,
-  "pad_token_id": 50283,
-  "position_embedding_type": "absolute",
-  "reference_compile": true,
-  "repad_logits_with_grad": false,
-  "sep_token_id": 50282,
-  "sparse_pred_ignore_index": -100,
-  "sparse_prediction": false,
   "torch_dtype": "float32",
   "transformers_version": "4.48.3",
-  "vocab_size": 50368
 }

 {
+  "_name_or_path": "microsoft/deberta-v3-base",
   "architectures": [
+    "DebertaV2ForSequenceClassification"
   ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "id2label": {
     "0": "NEGATIVE",
     "1": "POSITIVE"
   },
   "initializer_range": 0.02,
+  "intermediate_size": 3072,
   "label2id": {
     "NEGATIVE": 0,
     "POSITIVE": 1
   },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
   "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
   "torch_dtype": "float32",
   "transformers_version": "4.48.3",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1baf2c59ca1866a584e3d2dabade35a20feefdf0728e62c665bea5365b2cb2b5
-size 598439784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e16ef993a03095c95e697ce1fb86368493e8d811fee7a52b954efda966bd848f
+size 737719272

runs/Feb26_04-11-30_b40b033170fa/events.out.tfevents.1740543090.b40b033170fa.19395.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f83de1405563b619dae14d34a0921dcd98ad6d395c935b9fd43ba86f6a72f84d
-size 6847

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0477e386443367be75dfe7cf83fd22fc024f1e5eaa1de8f4360d2c7ea4c9c60
+size 8219