ammarnasr
/

t5mimo-config

text2text-generation

Model card Files Files and versions

ammarnasr commited on Aug 27, 2024

Commit

511eea5

·

verified ·

1 Parent(s): 187267c

Upload config

Files changed (2) hide show

config.json +2 -1
configuration_t5mimo.py +4 -0

config.json CHANGED Viewed

@@ -4,7 +4,6 @@
   ],
   "auto_map": {
     "AutoConfig": "configuration_t5mimo.T5MIMOConfig",
-    "AutoModel": "modeling_t5mimo.T5MIMOModel",
     "AutoModelForSeq2SeqLM": "modeling_t5mimo.T5MIMOForConditionalGeneration"
   },
   "classifier_dropout": 0.0,
@@ -22,8 +21,10 @@
   "layer_norm_epsilon": 1e-06,
   "model_type": "t5",
   "num_decoder_layers": 4,
   "num_heads": 4,
   "num_layers": 4,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,

   ],
   "auto_map": {
     "AutoConfig": "configuration_t5mimo.T5MIMOConfig",
     "AutoModelForSeq2SeqLM": "modeling_t5mimo.T5MIMOForConditionalGeneration"
   },
   "classifier_dropout": 0.0,
   "layer_norm_epsilon": 1e-06,
   "model_type": "t5",
   "num_decoder_layers": 4,
+  "num_filters": 64,
   "num_heads": 4,
   "num_layers": 4,
+  "num_seqs": 3,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,

configuration_t5mimo.py CHANGED Viewed

@@ -79,6 +79,8 @@ class T5MIMOConfig(PretrainedConfig):
         eos_token_id=1,
         decoder_start_token_id = 0,
         classifier_dropout=0.0,
         **kwargs,
     ):
         self.vocab_size = vocab_size
@@ -98,6 +100,8 @@ class T5MIMOConfig(PretrainedConfig):
         self.initializer_factor = initializer_factor
         self.feed_forward_proj = feed_forward_proj
         self.use_cache = use_cache
         act_info = self.feed_forward_proj.split("-")
         self.dense_act_fn = act_info[-1]

         eos_token_id=1,
         decoder_start_token_id = 0,
         classifier_dropout=0.0,
+        num_seqs=3,
+        num_filters=64,
         **kwargs,
     ):
         self.vocab_size = vocab_size
         self.initializer_factor = initializer_factor
         self.feed_forward_proj = feed_forward_proj
         self.use_cache = use_cache
+        self.num_seqs = num_seqs
+        self.num_filters = num_filters
         act_info = self.feed_forward_proj.split("-")
         self.dense_act_fn = act_info[-1]