Training in progress, epoch 1

Browse files

Files changed (7) hide show

config.json +139 -0
model.safetensors +3 -0
runs/Jan09_07-45-57_ip-10-192-12-117/events.out.tfevents.1736408758.ip-10-192-12-117.6654.0 +3 -0
runs/Jan09_07-48-53_ip-10-192-12-117/events.out.tfevents.1736408934.ip-10-192-12-117.12854.0 +3 -0
runs/Jan09_08-03-12_ip-10-192-12-117/events.out.tfevents.1736409792.ip-10-192-12-117.30120.0 +3 -0
runs/Jan09_08-03-38_ip-10-192-12-117/events.out.tfevents.1736409818.ip-10-192-12-117.30903.0 +3 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,139 @@

+{
+  "_name_or_path": "answerdotai/ModernBERT-base",
+  "architectures": [
+    "ModernBertForSequenceClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "1.OA.A.1",
+    "1": "1.OA.A.2",
+    "10": "3.NBT.A.2",
+    "11": "3.OA.A.3",
+    "12": "3.OA.A.4",
+    "13": "3.OA.C.7",
+    "14": "3.OA.D.8",
+    "15": "4.MD.A.2",
+    "16": "4.MD.A.3",
+    "17": "4.NBT.B.4",
+    "18": "4.NBT.B.5",
+    "19": "4.NBT.B.6",
+    "2": "1.OA.D.8",
+    "20": "4.NF.A.2",
+    "21": "4.OA.A.3",
+    "22": "4.OA.B.4",
+    "23": "5.NBT.B.5",
+    "24": "5.NBT.B.6",
+    "25": "5.NBT.B.7",
+    "26": "5.NF.A.1",
+    "27": "5.NF.A.2",
+    "28": "5.NF.B.4",
+    "29": "5.OA.A.1",
+    "3": "2.MD.B.5",
+    "30": "6.EE.A.1",
+    "31": "6.EE.B.7",
+    "32": "6.NS.B.2",
+    "33": "6.NS.B.3",
+    "34": "7.NS.A.1",
+    "35": "7.NS.A.2",
+    "36": "7.NS.A.3",
+    "37": "8.EE.A.2",
+    "38": "8.EE.C.7",
+    "39": "8.EE.C.8",
+    "4": "2.MD.C.8",
+    "40": "K.CC.C.7",
+    "41": "K.NBT.A.1",
+    "42": "K.OA.A.4",
+    "43": "K.OA.A.5",
+    "5": "2.NBT.B.5",
+    "6": "2.NBT.B.6",
+    "7": "2.NBT.B.7",
+    "8": "2.OA.A.1",
+    "9": "3.MD.D.8"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "1.OA.A.1": "0",
+    "1.OA.A.2": "1",
+    "1.OA.D.8": "2",
+    "2.MD.B.5": "3",
+    "2.MD.C.8": "4",
+    "2.NBT.B.5": "5",
+    "2.NBT.B.6": "6",
+    "2.NBT.B.7": "7",
+    "2.OA.A.1": "8",
+    "3.MD.D.8": "9",
+    "3.NBT.A.2": "10",
+    "3.OA.A.3": "11",
+    "3.OA.A.4": "12",
+    "3.OA.C.7": "13",
+    "3.OA.D.8": "14",
+    "4.MD.A.2": "15",
+    "4.MD.A.3": "16",
+    "4.NBT.B.4": "17",
+    "4.NBT.B.5": "18",
+    "4.NBT.B.6": "19",
+    "4.NF.A.2": "20",
+    "4.OA.A.3": "21",
+    "4.OA.B.4": "22",
+    "5.NBT.B.5": "23",
+    "5.NBT.B.6": "24",
+    "5.NBT.B.7": "25",
+    "5.NF.A.1": "26",
+    "5.NF.A.2": "27",
+    "5.NF.B.4": "28",
+    "5.OA.A.1": "29",
+    "6.EE.A.1": "30",
+    "6.EE.B.7": "31",
+    "6.NS.B.2": "32",
+    "6.NS.B.3": "33",
+    "7.NS.A.1": "34",
+    "7.NS.A.2": "35",
+    "7.NS.A.3": "36",
+    "8.EE.A.2": "37",
+    "8.EE.C.7": "38",
+    "8.EE.C.8": "39",
+    "K.CC.C.7": "40",
+    "K.NBT.A.1": "41",
+    "K.OA.A.4": "42",
+    "K.OA.A.5": "43"
+  },
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "reference_compile": true,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.48.0.dev0",
+  "vocab_size": 50368
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6d065923597987c530134e22ad2cc6f678d214b2bf37846ca63ed1fbc3c33cc
+size 299291688

runs/Jan09_07-45-57_ip-10-192-12-117/events.out.tfevents.1736408758.ip-10-192-12-117.6654.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed3e1d9cca40a565dc29f64596f34f3d4dad348e93fe3fe3f2d058b0e65e97a7
+size 7725

runs/Jan09_07-48-53_ip-10-192-12-117/events.out.tfevents.1736408934.ip-10-192-12-117.12854.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d26f6b2dc21a2fd32814ad14c0c749dbc0bb35f35434eb0f6c8235701ce7f3a5
+size 7725

runs/Jan09_08-03-12_ip-10-192-12-117/events.out.tfevents.1736409792.ip-10-192-12-117.30120.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d98e0beb19e285e239c4ca9fbb02998d7bf35d75d79301a5c10f393195ccda0b
+size 7725

runs/Jan09_08-03-38_ip-10-192-12-117/events.out.tfevents.1736409818.ip-10-192-12-117.30903.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f55a7c4d0e47c94b8022df9ae41d7d44f78bfd7576fff0334dad570a7a9e41bd
+size 8243

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8c93029b0723ef784cabdbdd7655c3d33bb7ef4720c38b9e410efbdf59e7c32
+size 5432