Spaces:

Suguru1846
/

TalkToMe

Sleeping

Suguru1846 commited on Mar 7, 2025

Commit

9628182

verified ·

1 Parent(s): 3a5fc2a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import os
 import torch
 from fastapi import FastAPI
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 # Set environment variables
 os.environ["TRITON_DISABLE"] = "1"
@@ -18,8 +18,8 @@ os.environ["TORCH_HOME"] = "/tmp/hf_cache"
 # FastAPI app
 app = FastAPI()
-# Try loading a completely different model
-model_name = "facebook/opt-350m"  # Much smaller, more compatible model
 tokenizer = AutoTokenizer.from_pretrained(model_name, cache_dir="/tmp/hf_cache")
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
@@ -31,7 +31,10 @@ model = AutoModelForCausalLM.from_pretrained(
 @app.post("/generate")
 async def generate_text(prompt: str, max_tokens: int = 50):
     try:
-        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
         outputs = model.generate(
             **inputs,
             max_new_tokens=max_tokens,
@@ -48,4 +51,4 @@ async def generate_text(prompt: str, max_tokens: int = 50):
 @app.get("/")
 async def root():
-    return {"message": "Model is Running"}

 import os
 import torch
 from fastapi import FastAPI
+from transformers import AutoModelForCausalLM, AutoTokenizer
 # Set environment variables
 os.environ["TRITON_DISABLE"] = "1"
 # FastAPI app
 app = FastAPI()
+# Load your merged model
+model_name = "Suguru1846/counseling_model_merged"  # Your merged model
 tokenizer = AutoTokenizer.from_pretrained(model_name, cache_dir="/tmp/hf_cache")
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
 @app.post("/generate")
 async def generate_text(prompt: str, max_tokens: int = 50):
     try:
+        # Format prompt for Llama models
+        formatted_prompt = f"<s>[INST] {prompt} [/INST]"
+        inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
         outputs = model.generate(
             **inputs,
             max_new_tokens=max_tokens,
 @app.get("/")
 async def root():
+    return {"message": "Your Custom Counseling Model is Running"}