Spaces:

Muhammadidrees
/

MoizChatDoctor

Paused

Muhammadidrees commited on Oct 15, 2025

Commit

99c1f78

verified ·

1 Parent(s): a1ad673

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,14 @@ import torch
 from accelerate import Accelerator
 import accelerate
 import time
 model = None
 tokenizer = None
@@ -23,7 +31,7 @@ def load_model(model_name, eight_bit=0, device_map="auto"):
     gpu_count = torch.cuda.device_count()
     print('gpu_count', gpu_count)
-    tokenizer = transformers.LlamaTokenizer.from_pretrained(model_name)
     model = transformers.LlamaForCausalLM.from_pretrained(
         model_name,
         #device_map=device_map,
@@ -33,7 +41,8 @@ def load_model(model_name, eight_bit=0, device_map="auto"):
         #load_in_8bit=eight_bit,
         low_cpu_mem_usage=True,
         load_in_8bit=False,
-        cache_dir="cache"
     ).cuda()
     generator = model.generate

 from accelerate import Accelerator
 import accelerate
 import time
+from huggingface_hub import login
+# 🟢 (Option 2 - recommended for Render/Colab)
+# Save your token as an environment variable called HUGGINGFACE_HUB_TOKEN
+# Then this will automatically pick it up:
+hf_token = os.getenv("HUGGINGFACE_HUB_TOKEN")
 model = None
 tokenizer = None
     gpu_count = torch.cuda.device_count()
     print('gpu_count', gpu_count)
+    tokenizer = transformers.LlamaTokenizer.from_pretrained(model_name, use_auth_token=hf_token)
     model = transformers.LlamaForCausalLM.from_pretrained(
         model_name,
         #device_map=device_map,
         #load_in_8bit=eight_bit,
         low_cpu_mem_usage=True,
         load_in_8bit=False,
+        cache_dir="cache",
+        use_auth_token=hf_token
     ).cuda()
     generator = model.generate