JuyeopDang
/

KoMiniLLaDA-0.3B-Base

Feature Extraction

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

JuyeopDang commited on Dec 10, 2025

Commit

4ae33ae

·

verified ·

1 Parent(s): 86a4639

Training in progress, step 3

Files changed (3) hide show

config.json +58 -0
model.safetensors +3 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "architectures": [
+    "MiniLLaDA"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "auto_map": {
+    "AutoConfig": "configuration_mini_llada.MiniLLaDAConfig",
+    "AutoModel": "modeling_mini_llada.MiniLLaDA"
+  },
+  "backbone_config": {
+    "_name_or_path": "klue/roberta-large",
+    "architectures": [
+      "RobertaForMaskedLM"
+    ],
+    "attention_probs_dropout_prob": 0.1,
+    "classifier_dropout": null,
+    "gradient_checkpointing": false,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 1024,
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "layer_norm_eps": 1e-05,
+    "max_position_embeddings": 514,
+    "model_type": "roberta",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "position_embedding_type": "absolute",
+    "tokenizer_class": "BertTokenizer",
+    "type_vocab_size": 1,
+    "use_cache": true,
+    "vocab_size": 32000
+  },
+  "backbone_model_name": "klue/roberta-large",
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "mask_token_id": 4,
+  "max_position_embeddings": 514,
+  "model_type": "mini-llada",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "tokenizer_class": "BertTokenizer",
+  "transformers_version": "4.57.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 32000
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c567fc208b02e0dad57794d83a5b8eed8ac5a65778736de4aa45125c55c9390b
+size 1346813136

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:972bcc8c4c27622b5142a675dc52fe8df6194e9ead424d64814dec9e580f0d7d
+size 5969