Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

.gitattributes +1 -0
README.md +49 -0
config.json +41 -0
mergekit_config.yml +18 -0
model-00001-of-00005.safetensors +3 -0
model-00002-of-00005.safetensors +3 -0
model-00003-of-00005.safetensors +3 -0
model-00004-of-00005.safetensors +3 -0
model-00005-of-00005.safetensors +3 -0
model.safetensors.index.json +1 -0
tokenizer.json +3 -0
tokenizer_config.json +21 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,49 @@

+---
+base_model:
+- UmbrellaInc/Executer-Virus-3.2-1B
+- Rumiii/Llama-3.2-1B-Instruct-ThinkDoc-RS1
+library_name: transformers
+tags:
+- mergekit
+- merge
+---
+# merge
+This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
+## Merge Details
+### Merge Method
+This model was merged using the [SLERP](https://en.wikipedia.org/wiki/Slerp) merge method.
+### Models Merged
+The following models were included in the merge:
+* [UmbrellaInc/Executer-Virus-3.2-1B](https://huggingface.co/UmbrellaInc/Executer-Virus-3.2-1B)
+* [Rumiii/Llama-3.2-1B-Instruct-ThinkDoc-RS1](https://huggingface.co/Rumiii/Llama-3.2-1B-Instruct-ThinkDoc-RS1)
+### Configuration
+The following YAML configuration was used to produce this model:
+```yaml
+base_model: Rumiii/Llama-3.2-1B-Instruct-ThinkDoc-RS1
+merge_method: slerp
+dtype: float32
+parameters:
+  t: 0.7
+# Configuración para estabilidad en hardware limitado
+memory_efficient: true  # Procesa capas secuencialmente
+low_cpu_mem_usage: true  # Reduce uso de RAM durante merge
+models:
+  - model: Rumiii/Llama-3.2-1B-Instruct-ThinkDoc-RS1
+    # Forzar precisión por modelo si es necesario
+    dtype: float32
+  - model: UmbrellaInc/Executer-Virus-3.2-1B
+    dtype: float32
+```

config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "dtype": "float32",
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_parameters": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_theta": 500000.0,
+    "rope_type": "llama3"
+  },
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.1",
+  "use_cache": true,
+  "vocab_size": 128256
+}

mergekit_config.yml ADDED Viewed

	@@ -0,0 +1,18 @@

+base_model: Rumiii/Llama-3.2-1B-Instruct-ThinkDoc-RS1
+merge_method: slerp
+dtype: float32
+parameters:
+  t: 0.7
+# Configuración para estabilidad en hardware limitado
+memory_efficient: true  # Procesa capas secuencialmente
+low_cpu_mem_usage: true  # Reduce uso de RAM durante merge
+models:
+  - model: Rumiii/Llama-3.2-1B-Instruct-ThinkDoc-RS1
+    # Forzar precisión por modelo si es necesario
+    dtype: float32
+  - model: UmbrellaInc/Executer-Virus-3.2-1B
+    dtype: float32

model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2d2980b529deab092669dd7deb4f74837444c2d907af5e27ee37c9f39d5bf07
+size 1050673288

model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d0ebe22974b2b31ff3cc93b272962b412d4ab5655bdb3207e158ff263484ed7
+size 973156448

model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e27140442b8fd42eeabd5abd8870ee947dc3f22973e63debaa08cee143b0b101
+size 973148176

model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d0ee9d4228e3770f1df56b7513ff60486ac188fb4cf29ac30b38bc0361f5837
+size 973148136

model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53dea854e362f085bdaa9b49bdd86274cef430327741c71a96aaabae80223ef4
+size 973148120

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"metadata": {"mergekit_version": "0.1.3"}, "weight_map": {"model.embed_tokens.weight": "model-00001-of-00005.safetensors", "model.layers.0.input_layernorm.weight": "model-00002-of-00005.safetensors", "model.layers.0.mlp.down_proj.weight": "model-00002-of-00005.safetensors", "model.layers.0.mlp.gate_proj.weight": "model-00002-of-00005.safetensors", "model.layers.0.mlp.up_proj.weight": "model-00002-of-00005.safetensors", "model.layers.0.post_attention_layernorm.weight": "model-00002-of-00005.safetensors", "model.layers.0.self_attn.k_proj.weight": "model-00002-of-00005.safetensors", "model.layers.0.self_attn.o_proj.weight": "model-00002-of-00005.safetensors", "model.layers.0.self_attn.q_proj.weight": "model-00002-of-00005.safetensors", "model.layers.0.self_attn.v_proj.weight": "model-00002-of-00005.safetensors", "model.layers.1.input_layernorm.weight": "model-00002-of-00005.safetensors", "model.layers.1.mlp.down_proj.weight": "model-00002-of-00005.safetensors", "model.layers.1.mlp.gate_proj.weight": "model-00002-of-00005.safetensors", "model.layers.1.mlp.up_proj.weight": "model-00002-of-00005.safetensors", "model.layers.1.post_attention_layernorm.weight": "model-00002-of-00005.safetensors", "model.layers.1.self_attn.k_proj.weight": "model-00002-of-00005.safetensors", "model.layers.1.self_attn.o_proj.weight": "model-00002-of-00005.safetensors", "model.layers.1.self_attn.q_proj.weight": "model-00002-of-00005.safetensors", "model.layers.1.self_attn.v_proj.weight": "model-00002-of-00005.safetensors", "model.layers.10.input_layernorm.weight": "model-00002-of-00005.safetensors", "model.layers.10.mlp.down_proj.weight": "model-00002-of-00005.safetensors", "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00005.safetensors", "model.layers.10.mlp.up_proj.weight": "model-00002-of-00005.safetensors", "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00005.safetensors", "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00005.safetensors", "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00005.safetensors", "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00005.safetensors", "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00005.safetensors", "model.layers.11.input_layernorm.weight": "model-00002-of-00005.safetensors", "model.layers.11.mlp.down_proj.weight": "model-00002-of-00005.safetensors", "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00005.safetensors", "model.layers.11.mlp.up_proj.weight": "model-00002-of-00005.safetensors", "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00005.safetensors", "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00005.safetensors", "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00005.safetensors", "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00005.safetensors", "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00005.safetensors", "model.layers.12.input_layernorm.weight": "model-00002-of-00005.safetensors", "model.layers.12.mlp.down_proj.weight": "model-00003-of-00005.safetensors", "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00005.safetensors", "model.layers.12.mlp.up_proj.weight": "model-00003-of-00005.safetensors", "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00005.safetensors", "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00005.safetensors", "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00005.safetensors", "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00005.safetensors", "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00005.safetensors", "model.layers.13.input_layernorm.weight": "model-00003-of-00005.safetensors", "model.layers.13.mlp.down_proj.weight": "model-00003-of-00005.safetensors", "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00005.safetensors", "model.layers.13.mlp.up_proj.weight": "model-00003-of-00005.safetensors", "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00005.safetensors", "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00005.safetensors", "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00005.safetensors", "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00005.safetensors", "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00005.safetensors", "model.layers.14.input_layernorm.weight": "model-00003-of-00005.safetensors", "model.layers.14.mlp.down_proj.weight": "model-00003-of-00005.safetensors", "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00005.safetensors", "model.layers.14.mlp.up_proj.weight": "model-00003-of-00005.safetensors", "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00005.safetensors", "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00005.safetensors", "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00005.safetensors", "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00005.safetensors", "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00005.safetensors", "model.layers.15.input_layernorm.weight": "model-00003-of-00005.safetensors", "model.layers.15.mlp.down_proj.weight": "model-00003-of-00005.safetensors", "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00005.safetensors", "model.layers.15.mlp.up_proj.weight": "model-00003-of-00005.safetensors", "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00005.safetensors", "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00005.safetensors", "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00005.safetensors", "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00005.safetensors", "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00005.safetensors", "model.layers.2.input_layernorm.weight": "model-00003-of-00005.safetensors", "model.layers.2.mlp.down_proj.weight": "model-00004-of-00005.safetensors", "model.layers.2.mlp.gate_proj.weight": "model-00004-of-00005.safetensors", "model.layers.2.mlp.up_proj.weight": "model-00004-of-00005.safetensors", "model.layers.2.post_attention_layernorm.weight": "model-00004-of-00005.safetensors", "model.layers.2.self_attn.k_proj.weight": "model-00004-of-00005.safetensors", "model.layers.2.self_attn.o_proj.weight": "model-00004-of-00005.safetensors", "model.layers.2.self_attn.q_proj.weight": "model-00004-of-00005.safetensors", "model.layers.2.self_attn.v_proj.weight": "model-00004-of-00005.safetensors", "model.layers.3.input_layernorm.weight": "model-00004-of-00005.safetensors", "model.layers.3.mlp.down_proj.weight": "model-00004-of-00005.safetensors", "model.layers.3.mlp.gate_proj.weight": "model-00004-of-00005.safetensors", "model.layers.3.mlp.up_proj.weight": "model-00004-of-00005.safetensors", "model.layers.3.post_attention_layernorm.weight": "model-00004-of-00005.safetensors", "model.layers.3.self_attn.k_proj.weight": "model-00004-of-00005.safetensors", "model.layers.3.self_attn.o_proj.weight": "model-00004-of-00005.safetensors", "model.layers.3.self_attn.q_proj.weight": "model-00004-of-00005.safetensors", "model.layers.3.self_attn.v_proj.weight": "model-00004-of-00005.safetensors", "model.layers.4.input_layernorm.weight": "model-00004-of-00005.safetensors", "model.layers.4.mlp.down_proj.weight": "model-00004-of-00005.safetensors", "model.layers.4.mlp.gate_proj.weight": "model-00004-of-00005.safetensors", "model.layers.4.mlp.up_proj.weight": "model-00004-of-00005.safetensors", "model.layers.4.post_attention_layernorm.weight": "model-00004-of-00005.safetensors", "model.layers.4.self_attn.k_proj.weight": "model-00004-of-00005.safetensors", "model.layers.4.self_attn.o_proj.weight": "model-00004-of-00005.safetensors", "model.layers.4.self_attn.q_proj.weight": "model-00004-of-00005.safetensors", "model.layers.4.self_attn.v_proj.weight": "model-00004-of-00005.safetensors", "model.layers.5.input_layernorm.weight": "model-00004-of-00005.safetensors", "model.layers.5.mlp.down_proj.weight": "model-00004-of-00005.safetensors", "model.layers.5.mlp.gate_proj.weight": "model-00004-of-00005.safetensors", "model.layers.5.mlp.up_proj.weight": "model-00004-of-00005.safetensors", "model.layers.5.post_attention_layernorm.weight": "model-00004-of-00005.safetensors", "model.layers.5.self_attn.k_proj.weight": "model-00004-of-00005.safetensors", "model.layers.5.self_attn.o_proj.weight": "model-00004-of-00005.safetensors", "model.layers.5.self_attn.q_proj.weight": "model-00004-of-00005.safetensors", "model.layers.5.self_attn.v_proj.weight": "model-00004-of-00005.safetensors", "model.layers.6.input_layernorm.weight": "model-00004-of-00005.safetensors", "model.layers.6.mlp.down_proj.weight": "model-00005-of-00005.safetensors", "model.layers.6.mlp.gate_proj.weight": "model-00005-of-00005.safetensors", "model.layers.6.mlp.up_proj.weight": "model-00005-of-00005.safetensors", "model.layers.6.post_attention_layernorm.weight": "model-00005-of-00005.safetensors", "model.layers.6.self_attn.k_proj.weight": "model-00005-of-00005.safetensors", "model.layers.6.self_attn.o_proj.weight": "model-00005-of-00005.safetensors", "model.layers.6.self_attn.q_proj.weight": "model-00005-of-00005.safetensors", "model.layers.6.self_attn.v_proj.weight": "model-00005-of-00005.safetensors", "model.layers.7.input_layernorm.weight": "model-00005-of-00005.safetensors", "model.layers.7.mlp.down_proj.weight": "model-00005-of-00005.safetensors", "model.layers.7.mlp.gate_proj.weight": "model-00005-of-00005.safetensors", "model.layers.7.mlp.up_proj.weight": "model-00005-of-00005.safetensors", "model.layers.7.post_attention_layernorm.weight": "model-00005-of-00005.safetensors", "model.layers.7.self_attn.k_proj.weight": "model-00005-of-00005.safetensors", "model.layers.7.self_attn.o_proj.weight": "model-00005-of-00005.safetensors", "model.layers.7.self_attn.q_proj.weight": "model-00005-of-00005.safetensors", "model.layers.7.self_attn.v_proj.weight": "model-00005-of-00005.safetensors", "model.layers.8.input_layernorm.weight": "model-00005-of-00005.safetensors", "model.layers.8.mlp.down_proj.weight": "model-00005-of-00005.safetensors", "model.layers.8.mlp.gate_proj.weight": "model-00005-of-00005.safetensors", "model.layers.8.mlp.up_proj.weight": "model-00005-of-00005.safetensors", "model.layers.8.post_attention_layernorm.weight": "model-00005-of-00005.safetensors", "model.layers.8.self_attn.k_proj.weight": "model-00005-of-00005.safetensors", "model.layers.8.self_attn.o_proj.weight": "model-00005-of-00005.safetensors", "model.layers.8.self_attn.q_proj.weight": "model-00005-of-00005.safetensors", "model.layers.8.self_attn.v_proj.weight": "model-00005-of-00005.safetensors", "model.layers.9.input_layernorm.weight": "model-00005-of-00005.safetensors", "model.layers.9.mlp.down_proj.weight": "model-00005-of-00005.safetensors", "model.layers.9.mlp.gate_proj.weight": "model-00005-of-00005.safetensors", "model.layers.9.mlp.up_proj.weight": "model-00005-of-00005.safetensors", "model.layers.9.post_attention_layernorm.weight": "model-00005-of-00005.safetensors", "model.layers.9.self_attn.k_proj.weight": "model-00005-of-00005.safetensors", "model.layers.9.self_attn.o_proj.weight": "model-00005-of-00005.safetensors", "model.layers.9.self_attn.q_proj.weight": "model-00005-of-00005.safetensors", "model.layers.9.self_attn.v_proj.weight": "model-00005-of-00005.safetensors", "model.norm.weight": "model-00005-of-00005.safetensors"}}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90883524dbec2e8c465564ac46b4e5298235668a5cf8523690f06f45f51646fe
+size 17210197

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "backend": "tokenizers",
+  "bos_token": "<|begin_of_text|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|eot_id|>",
+  "is_local": true,
+  "max_length": 1024,
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 131072,
+  "pad_to_multiple_of": null,
+  "pad_token": "<|eot_id|>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "stride": 0,
+  "tokenizer_class": "TokenizersBackend",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first"
+}