ajyl
/

sft_seed_1423

Text Generation

Model card Files Files and versions

ajyl commited on Apr 10, 2025

Commit

781749e

·

verified ·

1 Parent(s): 6d34ae6

Upload CubeLM

Files changed (2) hide show

CubeConfig.py +4 -10
CubeLM.py +3 -2

CubeConfig.py CHANGED Viewed

@@ -1,8 +1,4 @@
-#from transformers import PretrainedConfig
 from transformers import GPT2Config
-from cubeLM.tokenizer import vocab
-vocab_size = len(vocab)
 class CubeConfig(GPT2Config):
@@ -10,10 +6,10 @@ class CubeConfig(GPT2Config):
     def __init__(
         self,
-        vocab_size=vocab_size,
-        bos_token_id=vocab_size - 1,
-        eos_token_id=vocab_size - 1,
-        pad_token_id=vocab_size - 1,
         n_positions=40,
         n_embd=512,
         n_layer=8,
@@ -29,5 +25,3 @@ class CubeConfig(GPT2Config):
         self.bos_token_id = bos_token_id
         self.eos_token_id = eos_token_id
         self.pad_token_id = pad_token_id

 from transformers import GPT2Config
 class CubeConfig(GPT2Config):
     def __init__(
         self,
+        vocab_size=16,
+        bos_token_id=15,
+        eos_token_id=15,
+        pad_token_id=15,
         n_positions=40,
         n_embd=512,
         n_layer=8,
         self.bos_token_id = bos_token_id
         self.eos_token_id = eos_token_id
         self.pad_token_id = pad_token_id

CubeLM.py CHANGED Viewed

@@ -7,10 +7,11 @@ from transformers import (
     GPT2Model,
     GenerationMixin,
     GPT2PreTrainedModel,
-    PreTrainedModel
 )
 from transformers.utils import ModelOutput
-from train_scripts.utils import IGNORE_INDEX
 @dataclass

     GPT2Model,
     GenerationMixin,
     GPT2PreTrainedModel,
+    PreTrainedModel,
 )
 from transformers.utils import ModelOutput
+IGNORE_INDEX = -100
 @dataclass