Spaces:

vivekchakraverty
/

gdscript-assistant

Running on Zero

vivekchakraverty commited on 1 day ago

Commit

6246295

1 Parent(s): 2709f63

Restore max_new_tokens to 512 (4-bit gen is fast: ~25 tok/s on GPU)

Files changed (1) hide show

generate.py CHANGED Viewed

@@ -71,7 +71,7 @@ def _render(messages, tok) -> str:
 @GPU(duration=180)
-def generate(messages: list[dict], max_new_tokens: int = 256,
              temperature: float = 0.2) -> str:
     """Generate an assistant reply for chat-format ``messages``."""
     if STUB:

 @GPU(duration=180)
+def generate(messages: list[dict], max_new_tokens: int = 512,
              temperature: float = 0.2) -> str:
     """Generate an assistant reply for chat-format ``messages``."""
     if STUB: