Spaces:

ninjals
/

Nutrition-Chatbot

Sleeping

ninjals commited on Mar 23, 2025

Commit

5c22f83

1 Parent(s): 465426d

Add lazy LLM loading to fix ZeroGPU startup

Files changed (1) hide show

model.py CHANGED Viewed

@@ -2,7 +2,7 @@ import torch
 import numpy as np
 import pandas as pd
 from sentence_transformers import SentenceTransformer, util
-from transformers import AutoTokenizer, AutoModelForCausalLM
 import os
 # Load saved embeddings
@@ -15,17 +15,19 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"[INFO] Using device: {device}")
 # Load embedding model
-embedding_model = SentenceTransformer("all-mpnet-base-v2", device=device)
 # Lazy-load the LLM model
 llm_model = None
 tokenizer = None
-HF_TOKEN = os.getenv("HF_TOKEN")
-model_id = "google/gemma-2-2b-it"
 def load_llm():
     global llm_model, tokenizer
     if llm_model is None or tokenizer is None:
         print("[INFO] Loading LLM model:", model_id)
         tokenizer = AutoTokenizer.from_pretrained(model_id, token=HF_TOKEN)
         llm_model = AutoModelForCausalLM.from_pretrained(

 import numpy as np
 import pandas as pd
 from sentence_transformers import SentenceTransformer, util
 import os
 # Load saved embeddings
 print(f"[INFO] Using device: {device}")
 # Load embedding model
+embedding_model = SentenceTransformer("sentence-transformers/all-mpnet-base-v2", device=device)
 # Lazy-load the LLM model
 llm_model = None
 tokenizer = None
 def load_llm():
     global llm_model, tokenizer
     if llm_model is None or tokenizer is None:
+        from transformers import AutoTokenizer, AutoModelForCausalLM
+        HF_TOKEN = os.getenv("HF_TOKEN")
+        model_id = "google/gemma-2-2b-it"
         print("[INFO] Loading LLM model:", model_id)
         tokenizer = AutoTokenizer.from_pretrained(model_id, token=HF_TOKEN)
         llm_model = AutoModelForCausalLM.from_pretrained(