Spaces:

twarner
/

dcode

Running on Zero

App Files Files Community

twarner commited on 19 days ago

Commit

6dbfa53

1 Parent(s): 9f5b647

Match BLIP caption style, add seed, improve defaults

Browse files

Files changed (1) hide show

app.py +38 -19

app.py CHANGED Viewed

@@ -457,22 +457,33 @@ def gcode_to_svg(gcode: str) -> str:
 # ============================================================================
 def enhance_prompt(prompt: str) -> str:
-    """Enhance prompt for better SD line drawing generation."""
     prompt = prompt.strip().lower()
-    # Skip if already detailed
-    if any(x in prompt for x in ["drawing", "sketch", "line", "illustration"]):
         enhanced = prompt
     else:
-        enhanced = f"a simple line drawing of {prompt}"
-    # Add style suffixes for better SD output
-    enhanced += ", black ink on white paper, single continuous line, minimalist sketch, vector art style"
     return enhanced
 @spaces.GPU
-def generate(prompt: str, temperature: float, max_tokens: int, num_steps: int, guidance: float):
     """Generate gcode from text prompt."""
     if not prompt or not prompt.strip():
         return "Enter a prompt to generate gcode", gcode_to_svg("")
@@ -490,6 +501,12 @@ def generate(prompt: str, temperature: float, max_tokens: int, num_steps: int, g
         enhanced = enhance_prompt(prompt)
         print(f"Enhanced prompt: {enhanced}")
         # Text -> Latent via SD diffusion
         with torch.no_grad():
             # Use negative prompt to avoid unwanted styles
@@ -499,6 +516,7 @@ def generate(prompt: str, temperature: float, max_tokens: int, num_steps: int, g
                 num_inference_steps=num_steps,
                 guidance_scale=guidance,
                 output_type="latent",
             )
             latent = result.images.to(dtype)
             print(f"Latent shape: {latent.shape}, dtype: {latent.dtype}")
@@ -705,21 +723,22 @@ with gr.Blocks(css=css, theme=gr.themes.Base()) as demo:
             )
             with gr.Accordion("settings", open=False):
-                temperature = gr.Slider(0.3, 1.2, value=0.6, label="temperature", step=0.1)
-                max_tokens = gr.Slider(256, 2048, value=1536, step=256, label="max tokens")
-                num_steps = gr.Slider(20, 50, value=30, step=5, label="diffusion steps")
-                guidance = gr.Slider(5.0, 20.0, value=12.0, step=0.5, label="guidance")
             generate_btn = gr.Button("generate", variant="secondary")
             gr.Examples(
                 examples=[
-                    ["horse"],
-                    ["cat face"],
-                    ["spiral"],
-                    ["star"],
-                    ["tree"],
-                    ["flower"],
                 ],
                 inputs=prompt,
                 label=None,
@@ -735,8 +754,8 @@ with gr.Blocks(css=css, theme=gr.themes.Base()) as demo:
     gr.Markdown("---")
     gr.Markdown("machine: 841×1189mm / pen servo 40-90° / [github](https://github.com/Twarner491/dcode) / [model](https://huggingface.co/twarner/dcode-sd-gcode-v3) / mit")
-    generate_btn.click(generate, [prompt, temperature, max_tokens, num_steps, guidance], [gcode_output, preview])
-    prompt.submit(generate, [prompt, temperature, max_tokens, num_steps, guidance], [gcode_output, preview])
 if __name__ == "__main__":
     demo.launch()

 # ============================================================================
 def enhance_prompt(prompt: str) -> str:
+    """Enhance prompt to match BLIP caption style from training data.
+    BLIP generates captions like:
+    - "a drawing of a horse"
+    - "a sketch of a cat"
+    - "a black and white drawing"
+    - "an illustration of a flower"
+    """
     prompt = prompt.strip().lower()
+    # Already in BLIP style
+    if prompt.startswith(("a ", "an ", "the ")):
         enhanced = prompt
+    # Has style keyword
+    elif any(x in prompt for x in ["drawing", "sketch", "illustration", "image"]):
+        enhanced = f"a {prompt}"
+    # Simple noun - wrap in BLIP style
     else:
+        enhanced = f"a drawing of a {prompt}"
+    # Add subtle style hints (BLIP often includes these)
+    enhanced += ", black and white, simple lines, sketch style"
     return enhanced
 @spaces.GPU
+def generate(prompt: str, temperature: float, max_tokens: int, num_steps: int, guidance: float, seed: int = -1):
     """Generate gcode from text prompt."""
     if not prompt or not prompt.strip():
         return "Enter a prompt to generate gcode", gcode_to_svg("")
         enhanced = enhance_prompt(prompt)
         print(f"Enhanced prompt: {enhanced}")
+        # Set seed for reproducibility
+        generator = None
+        if seed >= 0:
+            generator = torch.Generator(device=device).manual_seed(int(seed))
+            print(f"Using seed: {seed}")
         # Text -> Latent via SD diffusion
         with torch.no_grad():
             # Use negative prompt to avoid unwanted styles
                 num_inference_steps=num_steps,
                 guidance_scale=guidance,
                 output_type="latent",
+                generator=generator,
             )
             latent = result.images.to(dtype)
             print(f"Latent shape: {latent.shape}, dtype: {latent.dtype}")
             )
             with gr.Accordion("settings", open=False):
+                temperature = gr.Slider(0.3, 1.2, value=0.5, label="temperature", step=0.1)
+                max_tokens = gr.Slider(256, 2048, value=2048, step=256, label="max tokens")
+                num_steps = gr.Slider(20, 50, value=35, step=5, label="diffusion steps")
+                guidance = gr.Slider(5.0, 20.0, value=10.0, step=0.5, label="guidance")
+                seed = gr.Number(value=-1, label="seed (-1 = random)", precision=0)
             generate_btn = gr.Button("generate", variant="secondary")
             gr.Examples(
                 examples=[
+                    ["a drawing of a horse"],
+                    ["a sketch of a cat"],
+                    ["a simple flower drawing"],
+                    ["a drawing of a tree"],
+                    ["abstract lines"],
+                    ["a portrait sketch"],
                 ],
                 inputs=prompt,
                 label=None,
     gr.Markdown("---")
     gr.Markdown("machine: 841×1189mm / pen servo 40-90° / [github](https://github.com/Twarner491/dcode) / [model](https://huggingface.co/twarner/dcode-sd-gcode-v3) / mit")
+    generate_btn.click(generate, [prompt, temperature, max_tokens, num_steps, guidance, seed], [gcode_output, preview])
+    prompt.submit(generate, [prompt, temperature, max_tokens, num_steps, guidance, seed], [gcode_output, preview])
 if __name__ == "__main__":
     demo.launch()