Caiyun-AI
/

DCFormer-2.8B

Text Generation

Model card Files Files and versions

mqyqlx commited on May 12, 2024

Commit

83ee88b

·

1 Parent(s): d8e070e

match config class

Files changed (2) hide show

generation_demo.py +1 -1
modeling_dcformer.py +1 -0

generation_demo.py CHANGED Viewed

@@ -7,7 +7,7 @@ os.environ['TOKENIZERS_PARALLELISM'] = 'false'
 tokenizer = AutoTokenizer.from_pretrained("Caiyun-AI/DCFormer-2.8B")
 model = AutoModelForCausalLM.from_pretrained("Caiyun-AI/DCFormer-2.8B", trust_remote_code=True)
-device = torch.device('cuda')
 MAX_BATCH_SIZE = 1
 MAX_SEQ_LENGTH = 2048
 NUM_TOKENS_TO_GENERATE = 100

 tokenizer = AutoTokenizer.from_pretrained("Caiyun-AI/DCFormer-2.8B")
 model = AutoModelForCausalLM.from_pretrained("Caiyun-AI/DCFormer-2.8B", trust_remote_code=True)
+device = torch.device('cuda:1')
 MAX_BATCH_SIZE = 1
 MAX_SEQ_LENGTH = 2048
 NUM_TOKENS_TO_GENERATE = 100

modeling_dcformer.py CHANGED Viewed

@@ -70,6 +70,7 @@ class KVKWCache(nn.Module):
         return k_out, v_out, kw_out
 class DCFormer(PreTrainedModel):
     '''
     DCFormer's implementation is adapted from https://github.com/pytorch-labs/gpt-fast/blob/main/model.py#L89
     '''

         return k_out, v_out, kw_out
 class DCFormer(PreTrainedModel):
+    config_class=DCFormerConfig
     '''
     DCFormer's implementation is adapted from https://github.com/pytorch-labs/gpt-fast/blob/main/model.py#L89
     '''