Spaces:

hydffgg
/

H-1

Sleeping

hydffgg commited on Jan 9

Commit

585b80d

verified ·

1 Parent(s): ece78af

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,19 +1,40 @@
-from fastapi import FastAPI
 from transformers import AutoTokenizer, AutoModelForCausalLM
-app = FastAPI()
-MODEL_ID = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
-tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-model = AutoModelForCausalLM.from_pretrained(MODEL_ID)
-@app.post("/chat")
-def chat(prompt: str):
     inputs = tokenizer(prompt, return_tensors="pt")
     outputs = model.generate(
         **inputs,
-        max_new_tokens=200
     )
-    reply = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return {"reply": reply}

+import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+import os
+MODEL_ID = "google/gemma-3-270m-it"
+HF_TOKEN = os.getenv("HF_TOKEN")
+tokenizer = None
+model = None
+def load_model():
+    global tokenizer, model
+    if tokenizer is None or model is None:
+        tokenizer = AutoTokenizer.from_pretrained(
+            MODEL_ID,
+            token=HF_TOKEN
+        )
+        model = AutoModelForCausalLM.from_pretrained(
+            MODEL_ID,
+            token=HF_TOKEN,
+            torch_dtype=torch.float32,
+            low_cpu_mem_usage=True
+        )
+def chat(prompt):
+    load_model()
     inputs = tokenizer(prompt, return_tensors="pt")
     outputs = model.generate(
         **inputs,
+        max_new_tokens=128
     )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+gr.Interface(
+    fn=chat,
+    inputs="textbox",
+    outputs="textbox",
+    title="Gemma3 270M Cloud"
+).launch(server_name="0.0.0.0")