Tele-AI
/

telechat-7B

Text Generation

Model card Files Files and versions

liuxz0801 commited on Jan 10, 2024

Commit

7aed995

·

1 Parent(s): 3c9da2a

7B更新config

Files changed (2) hide show

config.json +5 -9
modeling_telechat.py +1 -2

config.json CHANGED Viewed

@@ -7,12 +7,12 @@
     "AutoConfig": "configuration_telechat.TelechatConfig",
     "AutoModelForCausalLM": "modeling_telechat.TelechatForCausalLM"
   },
-  "attention_dropout": 0.0,
   "attention_softmax_in_fp32": true,
   "bias_dropout_fusion": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "hidden_dropout": 0.0,
   "hidden_size": 4096,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
@@ -21,21 +21,17 @@
   "n_head": 32,
   "n_inner": null,
   "n_layer": 30,
-  "offset_alibi": 100,
   "pad_token_id": 3,
-  "pretraining_tp": 2,
   "seq_length": 8192,
   "skip_bias_add": true,
   "skip_bias_add_qkv": false,
   "slow_but_exact": false,
-  "transformers_version": "4.24.0",
   "unk_token_id": 0,
   "use_cache": true,
   "vocab_size": 160256,
   "ffn_hidden_size": 12288,
   "flash_attn":true,
-  "training_seqlen":4096,
-  "logn":false,
   "embed_layernorm":false
-}

     "AutoConfig": "configuration_telechat.TelechatConfig",
     "AutoModelForCausalLM": "modeling_telechat.TelechatForCausalLM"
   },
+  "attention_dropout": 0.1,
   "attention_softmax_in_fp32": true,
   "bias_dropout_fusion": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "hidden_dropout": 0.1,
   "hidden_size": 4096,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "n_head": 32,
   "n_inner": null,
   "n_layer": 30,
   "pad_token_id": 3,
   "seq_length": 8192,
   "skip_bias_add": true,
   "skip_bias_add_qkv": false,
   "slow_but_exact": false,
+  "transformers_version": "4.30.0",
   "unk_token_id": 0,
   "use_cache": true,
   "vocab_size": 160256,
   "ffn_hidden_size": 12288,
   "flash_attn":true,
+  "training_seqlen":8192,
   "embed_layernorm":false
+}

modeling_telechat.py CHANGED Viewed

@@ -105,8 +105,7 @@ class RotaryEmbedding(torch.nn.Module):
         return ntk_alpha
     def forward(self, x, seq_dim=0, seq_len=None):
-        if seq_len is None:
-            seq_len = x.shape[seq_dim]
         seq_len = max(seq_len, self.config.training_seqlen)
         ntk_alpha = self.get_ntk_alpha(seq_len)
         self.mscale = float(self.get_mscale(seq_len / self.config.training_seqlen))

         return ntk_alpha
     def forward(self, x, seq_dim=0, seq_len=None):
+        seq_len = x.shape[seq_dim]
         seq_len = max(seq_len, self.config.training_seqlen)
         ntk_alpha = self.get_ntk_alpha(seq_len)
         self.mscale = float(self.get_mscale(seq_len / self.config.training_seqlen))