Upload 5 files

Browse files

Files changed (5) hide show

added_tokens.json +24 -0
config.json +33 -0
configuration_jiutian.py +62 -0
generation_config.json +6 -0
merges.txt +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "/root/work/filestorage/LLM/LLaMA-Factory/model/JIUTIAN/LLM_8B/Jiutian-Coder-8B-Instruct-HF",
+  "architectures": [
+    "JiutianForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_jiutian.JiutianConfig",
+    "AutoModel": "modeling_jiutian.JiutianForCausalLM",
+    "AutoModelForCausalLM": "modeling_jiutian.JiutianForCausalLM"
+  },
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 13312,
+  "max_position_embeddings": 8192,
+  "model_type": "jiutian",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151645,
+  "pretraining_tp": 1,
+  "qkv_bias": true,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.43.4",
+  "use_cache": false,
+  "vocab_size": 152064
+}

configuration_jiutian.py ADDED Viewed

	@@ -0,0 +1,62 @@

+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+logger = logging.get_logger(__name__)
+CM_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
+class JiutianConfig(PretrainedConfig):
+    model_type = "jiutian"
+    keys_to_ignore_at_inference = ["past_key_values"]
+    def __init__(
+        self,
+        vocab_size=152064,
+        hidden_size=8192,
+        intermediate_size=13312,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=8,
+        hidden_act="silu",
+        max_position_embeddings=8192,
+        initializer_range=0.02,
+        rms_norm_eps=1e-6,
+        use_cache=True,
+        pad_token_id=151645,
+        bos_token_id=None,
+        eos_token_id=151645,
+        pretraining_tp=1,
+        tie_word_embeddings=False,
+        rope_theta=500000,
+        rope_scaling=None,
+        qkv_bias=True,
+        attention_dropout=0.0,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.pretraining_tp = pretraining_tp
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = None
+        self.qkv_bias = qkv_bias
+        self.attention_dropout = attention_dropout
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+        self.num_key_value_heads = num_key_value_heads
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "eos_token_id": 151645,
+  "pad_token_id": 151645,
+  "transformers_version": "4.43.4"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff