Spaces:

vivekchakraverty
/

gdscript-assistant

Running on Zero

vivekchakraverty commited on 2 days ago

Commit

5ff14e5

1 Parent(s): 8df32ec

diag: log cuda availability + model device + gen timing; force model.to(cuda) in fn

Files changed (1) hide show

generate.py CHANGED Viewed

@@ -91,18 +91,31 @@ def generate(messages: list[dict], max_new_tokens: int = 512,
             "\"ui_up\", \"ui_down\")\n\tvelocity = dir * speed\n"
             "\tmove_and_slide()\n```\n"
         )
-    import torch
     _load()  # no-op once resident
     tok = _TOKENIZER
     model = _MODEL
     text = _render(messages, tok)
-    inputs = tok([text], return_tensors="pt").to(_DEVICE)
     with torch.no_grad():
         out = model.generate(
             **inputs, max_new_tokens=max_new_tokens,
             do_sample=temperature > 0, temperature=max(temperature, 1e-4),
             top_p=0.95, pad_token_id=tok.eos_token_id,
         )
     gen = out[0][inputs["input_ids"].shape[1]:]
     return tok.decode(gen, skip_special_tokens=True).strip()

             "\"ui_up\", \"ui_down\")\n\tvelocity = dir * speed\n"
             "\tmove_and_slide()\n```\n"
         )
+    import torch, time
     _load()  # no-op once resident
     tok = _TOKENIZER
     model = _MODEL
+    avail = torch.cuda.is_available()
+    before = str(next(model.parameters()).device)
+    # Inside @spaces.GPU the GPU is allocated for this call. Force the model
+    # onto it (no-op if already there); print device + timing so we can see in
+    # the logs whether generation actually ran on CUDA.
+    if avail:
+        model = model.to("cuda")
+    dev = "cuda" if avail else "cpu"
+    after = str(next(model.parameters()).device)
+    print(f"[gen] cuda_avail={avail} dev={dev} model_before={before} model_after={after}", flush=True)
     text = _render(messages, tok)
+    inputs = tok([text], return_tensors="pt").to(dev)
+    t0 = time.time()
     with torch.no_grad():
         out = model.generate(
             **inputs, max_new_tokens=max_new_tokens,
             do_sample=temperature > 0, temperature=max(temperature, 1e-4),
             top_p=0.95, pad_token_id=tok.eos_token_id,
         )
+    n_new = int(out.shape[-1] - inputs["input_ids"].shape[1])
+    print(f"[gen] generated {n_new} tokens in {time.time()-t0:.1f}s on {dev}", flush=True)
     gen = out[0][inputs["input_ids"].shape[1]:]
     return tok.decode(gen, skip_special_tokens=True).strip()