Spaces:

mayankpuvvala
/

pytorch_issues_deployment

Sleeping

App Files Files Community

mayankpuvvala commited on May 15, 2025

Commit

8534bdb

verified ·

1 Parent(s): 1fc5ab9

Create app.py

Browse files

Files changed (1) hide show

app.py +65 -0

app.py ADDED Viewed

	@@ -0,0 +1,65 @@

+from fastapi import FastAPI
+from pydantic import BaseModel
+import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+import gradio as gr
+import requests
+# ========== FASTAPI BACKEND ==========
+app = FastAPI()
+model_name = "mayankpuvvala/peft_lora_t5_merged_model_pytorch_issues"
+try:
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+    tokenizer = AutoTokenizer.from_pretrained("t5-small")  # match your model's base
+    model.eval()
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    model.to(device)
+    print("✅ Model loaded successfully.")
+except Exception as e:
+    print("❌ Model loading error:", e)
+    model = None
+class PromptInput(BaseModel):
+    prompt: str
+@app.post("/generate")
+async def generate_text(data: PromptInput):
+    if model is None:
+        return {"error": "Model not loaded properly."}
+    prompt = data.prompt.strip()
+    if not prompt:
+        return {"error": "Empty prompt."}
+    if len(prompt.split()) > 150:
+        return {"error": "Prompt too long. Limit to ~150 words."}
+    try:
+        inputs = tokenizer(prompt, return_tensors="pt").to(device)
+        with torch.no_grad():
+            outputs = model.generate(
+                **inputs,
+                max_new_tokens=200,
+                do_sample=True,
+                temperature=0.95,
+                eos_token_id=tokenizer.eos_token_id
+            )
+        result = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        return {"generated_text": result}
+    except torch.cuda.OutOfMemoryError:
+        torch.cuda.empty_cache()
+        return {"error": "CUDA out of memory. Try shorter input."}
+    except Exception as e:
+        return {"error": f"Unexpected error: {str(e)}"}
+# ========== GRADIO FRONTEND ==========
+def generate_response(prompt):
+    # Since app is deployed in same Space, use relative URL
+    response = requests.post("http://localhost:8000/generate", json={"prompt": prompt})
+    if response.status_code == 200:
+        return response.json().get("generated_text", "No output returned.")
+    else:
+        return response.json().get("error", "Error occurred.")
+gr.Interface(fn=generate_response, inputs="text", outputs="text").launch()