iamrahulreddy
/

Keiro

@@ -21,6 +21,7 @@ pipeline_tag: text-generation
 A Top-2 dynamic router activates 2 of 8 LoRA experts per transformer block — expanding effective capacity while keeping active compute identical to the dense baseline
 [![License](https://img.shields.io/badge/License-Apache_2.0-blue.svg)](https://opensource.org/licenses/Apache-2.0)
 [![Base Model](https://img.shields.io/badge/Base-Qwen2.5--3B-orange)](https://huggingface.co/Qwen/Qwen2.5-3B)
 [![Architecture](https://img.shields.io/badge/Architecture-Sparse_MoE-purple)](https://huggingface.co/iamrahulreddy/Keiro)
@@ -179,7 +180,7 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 tokenizer  = AutoTokenizer.from_pretrained(REPO_ID)
 base_model = AutoModelForCausalLM.from_pretrained(
     "Qwen/Qwen2.5-3B",
-    torch_dtype=torch.bfloat16,
     device_map=device,
 )
 ```

 A Top-2 dynamic router activates 2 of 8 LoRA experts per transformer block — expanding effective capacity while keeping active compute identical to the dense baseline
+[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/171reT1vWXN3-YIzKgvEY3j70rtNiRo_1)
 [![License](https://img.shields.io/badge/License-Apache_2.0-blue.svg)](https://opensource.org/licenses/Apache-2.0)
 [![Base Model](https://img.shields.io/badge/Base-Qwen2.5--3B-orange)](https://huggingface.co/Qwen/Qwen2.5-3B)
 [![Architecture](https://img.shields.io/badge/Architecture-Sparse_MoE-purple)](https://huggingface.co/iamrahulreddy/Keiro)
 tokenizer  = AutoTokenizer.from_pretrained(REPO_ID)
 base_model = AutoModelForCausalLM.from_pretrained(
     "Qwen/Qwen2.5-3B",
+    dtype=torch.bfloat16,
     device_map=device,
 )
 ```