Spaces:

serenichron
/

opencode-zerogpu

Sleeping

serenichron commited on 15 days ago

Commit

e8b5e4c

1 Parent(s): 2b8f58e

Make gradio_chat a non-generator GPU function for ZeroGPU detection

- Add @spaces.GPU(duration=120) decorator to gradio_chat
- Change from generator (yield) to regular function (return)
- Use generate_text instead of zerogpu_generate_stream
- This ensures ZeroGPU detects GPU usage at startup

Files changed (1) hide show

app.py +9 -12

app.py CHANGED Viewed

@@ -204,6 +204,7 @@ async def serverless_generate(
 # --- Gradio Interface ---
 def gradio_chat(
     message: str,
     history: list[list[str]],
@@ -211,11 +212,10 @@ def gradio_chat(
     temperature: float,
     max_tokens: int,
 ):
-    """Gradio chat interface handler."""
     # Validate model_id
     if not model_id:
-        yield "Please select a model first."
-        return
     # Build messages from history
     messages = []
@@ -229,24 +229,21 @@ def gradio_chat(
     try:
         prompt = apply_chat_template(model_id, messages)
     except Exception as e:
-        yield f"Error loading model: {str(e)}"
-        return
-    # Generate response (streaming)
-    response = ""
     try:
-        for token in zerogpu_generate_stream(
             model_id=model_id,
             prompt=prompt,
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=0.95,
             stop_sequences=None,
-        ):
-            response += token
-            yield response
     except Exception as e:
-        yield f"Error generating response: {str(e)}"
 # --- FastAPI app for OpenAI-compatible routes ---

 # --- Gradio Interface ---
+@spaces.GPU(duration=120)
 def gradio_chat(
     message: str,
     history: list[list[str]],
     temperature: float,
     max_tokens: int,
 ):
+    """Gradio chat interface handler - GPU decorated for ZeroGPU."""
     # Validate model_id
     if not model_id:
+        return "Please select a model first."
     # Build messages from history
     messages = []
     try:
         prompt = apply_chat_template(model_id, messages)
     except Exception as e:
+        return f"Error loading model: {str(e)}"
+    # Generate response (non-streaming for simplicity with ZeroGPU)
     try:
+        response = generate_text(
             model_id=model_id,
             prompt=prompt,
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=0.95,
             stop_sequences=None,
+        )
+        return response
     except Exception as e:
+        return f"Error generating response: {str(e)}"
 # --- FastAPI app for OpenAI-compatible routes ---