Spaces:

Mbanksbey
/

TEQUMSA-Inference-Node

Running on Zero

App Files Files Community

Mbanksbey commited on 12 days ago

Commit

082db39

verified ·

1 Parent(s): 5db4c96

Refactor for ZeroGPU: lazy loading, @spaces.GPU decorator

Browse files

Files changed (1) hide show

app.py +54 -19

app.py CHANGED Viewed

@@ -2,28 +2,48 @@ import gradio as gr
 import os
 import json
 from pathlib import Path
-# TEQUMSA Space Kernel
-try:
-    from tequmsa_space_kernel import TEQUMSAInferenceNode
-    INFERENCE_NODE = TEQUMSAInferenceNode()
-except ImportError:
-    INFERENCE_NODE = None
-# Inference Router
-try:
-    from inference_router import InferenceRouter
-    ROUTER = InferenceRouter()
-except ImportError:
-    ROUTER = None
 def process_request(prompt: str, model_selection: str, mode: str):
-    """Process inference request through TEQUMSA orchestration."""
     if not prompt or not prompt.strip():
         return "Please enter a prompt."
-    if INFERENCE_NODE:
-        result = INFERENCE_NODE.process(
             prompt=prompt,
             model_selection=model_selection,
             mode=mode
@@ -39,15 +59,23 @@ def process_request(prompt: str, model_selection: str, mode: str):
         }, indent=2)
 def route_inference(prompt: str, target_model: str):
-    """Route inference through the router."""
-    if ROUTER:
-        route = ROUTER.route(prompt, target_model)
         return json.dumps(route, indent=2)
     return json.dumps({"status": "router_unavailable"}, indent=2)
 with gr.Blocks(title="TEQUMSA Inference Node") as demo:
     gr.Markdown("# TEQUMSA Symbiotic Orchestrator - Inference Node")
     gr.Markdown("Autonomous multi-agent inference routing and execution.")
     with gr.Tab("Inference"):
         prompt_input = gr.Textbox(
@@ -55,6 +83,7 @@ with gr.Blocks(title="TEQUMSA Inference Node") as demo:
             placeholder="Enter your prompt here...",
             lines=5
         )
         with gr.Row():
             model_dropdown = gr.Dropdown(
                 choices=["claude", "gpt", "gemini", "perplexity", "auto"],
@@ -66,8 +95,10 @@ with gr.Blocks(title="TEQUMSA Inference Node") as demo:
                 value="standard",
                 label="Execution Mode"
             )
         process_btn = gr.Button("Process Request", variant="primary")
         output = gr.Textbox(label="Inference Output", lines=10)
         process_btn.click(
             fn=process_request,
             inputs=[prompt_input, model_dropdown, mode_dropdown],
@@ -83,8 +114,12 @@ with gr.Blocks(title="TEQUMSA Inference Node") as demo:
         router_model = gr.Textbox(label="Target Model", value="auto")
         route_btn = gr.Button("Analyze Route", variant="secondary")
         route_output = gr.Textbox(label="Route Analysis", lines=8)
         route_btn.click(
             fn=route_inference,
             inputs=[router_prompt, router_model],
             outputs=route_output
-        )

 import os
 import json
 from pathlib import Path
+import spaces
+# TEQUMSA Space Kernel - Lazy loading pattern
+INFERENCE_NODE = None
+ROUTER = None
+def get_inference_node():
+    """Lazy-load inference node only when needed."""
+    global INFERENCE_NODE
+    if INFERENCE_NODE is None:
+        try:
+            from tequmsa_space_kernel import TEQUMSAInferenceNode
+            INFERENCE_NODE = TEQUMSAInferenceNode()
+        except ImportError:
+            pass
+    return INFERENCE_NODE
+def get_router():
+    """Lazy-load router only when needed."""
+    global ROUTER
+    if ROUTER is None:
+        try:
+            from inference_router import InferenceRouter
+            ROUTER = InferenceRouter()
+        except ImportError:
+            pass
+    return ROUTER
+@spaces.GPU
 def process_request(prompt: str, model_selection: str, mode: str):
+    """Process inference request through TEQUMSA orchestration.
+    ZeroGPU decorator ensures GPU is allocated only when this function runs.
+    """
     if not prompt or not prompt.strip():
         return "Please enter a prompt."
+    # Get inference node lazily
+    inference_node = get_inference_node()
+    if inference_node:
+        result = inference_node.process(
             prompt=prompt,
             model_selection=model_selection,
             mode=mode
         }, indent=2)
 def route_inference(prompt: str, target_model: str):
+    """Route inference through the router.
+    This is CPU-only routing logic, no GPU needed.
+    """
+    # Get router lazily
+    router = get_router()
+    if router:
+        route = router.route(prompt, target_model)
         return json.dumps(route, indent=2)
     return json.dumps({"status": "router_unavailable"}, indent=2)
+# Gradio UI - lightweight setup, no heavy models loaded at startup
 with gr.Blocks(title="TEQUMSA Inference Node") as demo:
     gr.Markdown("# TEQUMSA Symbiotic Orchestrator - Inference Node")
     gr.Markdown("Autonomous multi-agent inference routing and execution.")
+    gr.Markdown("*Powered by ZeroGPU (NVIDIA H200) - GPU allocated on-demand*")
     with gr.Tab("Inference"):
         prompt_input = gr.Textbox(
             placeholder="Enter your prompt here...",
             lines=5
         )
         with gr.Row():
             model_dropdown = gr.Dropdown(
                 choices=["claude", "gpt", "gemini", "perplexity", "auto"],
                 value="standard",
                 label="Execution Mode"
             )
         process_btn = gr.Button("Process Request", variant="primary")
         output = gr.Textbox(label="Inference Output", lines=10)
         process_btn.click(
             fn=process_request,
             inputs=[prompt_input, model_dropdown, mode_dropdown],
         router_model = gr.Textbox(label="Target Model", value="auto")
         route_btn = gr.Button("Analyze Route", variant="secondary")
         route_output = gr.Textbox(label="Route Analysis", lines=8)
         route_btn.click(
             fn=route_inference,
             inputs=[router_prompt, router_model],
             outputs=route_output
+        )
+if __name__ == "__main__":
+    demo.launch()