yujiepan
/

mamba-tiny-random

@@ -13,9 +13,11 @@ Note the model is in float16.
 Codes:
 ```python
-import transformers
-import torch
 import os
 from huggingface_hub import create_repo, upload_folder
 source_model_id = 'state-spaces/mamba-2.8b-hf'
@@ -25,32 +27,40 @@ repo_id = f'yujiepan/{tiny_random_name}'
 config = transformers.AutoConfig.from_pretrained(
     source_model_id, trust_remote_code=True)
-config.hidden_size = 4
-config.intermediate_size = 6
-# config.num_attention_heads = 4
-# config.num_key_value_heads = 2
 config.num_hidden_layers = 2
 config.n_layer = 2
-config.torch_dtype = torch.float16
 model = transformers.AutoModelForCausalLM.from_config(
-    config, trust_remote_code=True, torch_dtype=torch.float16)
-model = model.half()
 tokenizer = transformers.AutoTokenizer.from_pretrained(
     source_model_id, trust_remote_code=True)
 result = transformers.pipelines.pipeline(
     'text-generation',
     model=model, tokenizer=tokenizer,
-    device=0,
     max_new_tokens=16,
 )('Hello')
 print(result)
-# model = model.cuda()
-# response, history = model.chat(tokenizer, "Hi", history=[], max_length=32)
-# print(response)
 model.save_pretrained(save_path)
 tokenizer.save_pretrained(save_path)

 Codes:
 ```python
 import os
+import torch
+import transformers
 from huggingface_hub import create_repo, upload_folder
 source_model_id = 'state-spaces/mamba-2.8b-hf'
 config = transformers.AutoConfig.from_pretrained(
     source_model_id, trust_remote_code=True)
+config.hidden_size = 8
+config.expand = 4
+config.intermediate_size = 32
+config.state_size = 8
 config.num_hidden_layers = 2
 config.n_layer = 2
+config.torch_dtype = torch.bfloat16
 model = transformers.AutoModelForCausalLM.from_config(
+    config, torch_dtype=torch.bfloat16,
+    trust_remote_code=True,
+)
+model.generation_config = transformers.GenerationConfig.from_pretrained(
+    source_model_id,
+    trust_remote_code=True,
+)
+transformers.set_seed(42)
+with torch.no_grad():
+    for name, p in sorted(model.named_parameters()):
+        print(name, p.shape)
+        torch.nn.init.uniform_(p, -0.5, 0.5)
+model.save_pretrained(save_path)
 tokenizer = transformers.AutoTokenizer.from_pretrained(
     source_model_id, trust_remote_code=True)
 result = transformers.pipelines.pipeline(
     'text-generation',
     model=model, tokenizer=tokenizer,
+    device='cuda',
     max_new_tokens=16,
 )('Hello')
 print(result)
 model.save_pretrained(save_path)
 tokenizer.save_pretrained(save_path)