Spaces:

CreativeEngineer
/

vliw-optimizer

Sleeping

App Files Files Community

CreativeEngineer commited on Jan 25

Commit

b03b587

1 Parent(s): 77e3392

Simplified version without simulator

Browse files

Files changed (1) hide show

app.py +42 -112

app.py CHANGED Viewed

@@ -7,7 +7,6 @@ import sys
 import re
 import threading
 import time
-import random
 from datetime import datetime
 import gradio as gr
@@ -15,27 +14,17 @@ import gradio as gr
 # Thread lock for safe state access
 training_state_lock = threading.Lock()
-# Add simulator path
-SCRIPT_DIR = os.path.dirname(os.path.abspath(__file__))
-PERF_TAKEHOME_PATH = os.path.join(SCRIPT_DIR, "original_performance_takehome")
-if os.path.exists(PERF_TAKEHOME_PATH):
-    sys.path.insert(0, PERF_TAKEHOME_PATH)
 # Constants
 BASELINE_CYCLES = 147734
 TARGET_CYCLES = 1363
-SCORE_SCALE = 3000.0
 # Training state
 training_state = {
     "running": False,
-    "step": 0,
-    "total_steps": 0,
     "best_cycles": BASELINE_CYCLES,
     "best_code": None,
     "log": [],
     "start_time": None,
-    "results": [],
 }
 SYSTEM_PROMPT = '''Write optimized VLIW/SIMD kernel. OUTPUT ONLY ONE ```python CODE BLOCK.
@@ -51,6 +40,8 @@ API:
 ALGORITHM: 16 rounds x 256 items, hash tree traversal.
 OPTIMIZATION: Use vload/vstore (8 elements), pack 6 VALU ops/cycle, unroll loops.
 '''
@@ -67,68 +58,25 @@ def extract_code_block(text: str) -> str:
     return text.strip()
-def verify_code(code: str) -> dict:
-    """Verify kernel code and return metrics."""
-    try:
-        if not code or "def run" not in code:
-            return {"score": 0.0, "correctness": 0.0, "cycles": None, "msg": "Invalid code"}
-        if "OptimizedKernelBuilder" not in code:
-            return {"score": 0.0, "correctness": 0.0, "cycles": None, "msg": "No OptimizedKernelBuilder"}
-        exec_globals = {"FOREST_HEIGHT": 10, "ROUNDS": 16, "BATCH_SIZE": 256}
-        setup_code = f'''
-import sys
-sys.path.insert(0, "{PERF_TAKEHOME_PATH}")
-from problem import Machine, Tree, Input, build_mem_image, N_CORES, reference_kernel2
-from perf_takehome import KernelBuilder, HASH_STAGES, BASELINE
-import random
-'''
-        full_code = setup_code + "\n" + code
-        exec(full_code, exec_globals)
-        if "OptimizedKernelBuilder" not in exec_globals:
-            return {"score": 0.0, "correctness": 0.0, "cycles": None, "msg": "Class not defined"}
-        random.seed(123)
-        from problem import Tree, Input, Machine, build_mem_image, N_CORES, reference_kernel2
-        forest = Tree.generate(10)
-        inp = Input.generate(forest, 256, 16)
-        mem = build_mem_image(forest, inp)
-        ref_mem = None
-        for ref_mem in reference_kernel2(list(mem)):
-            pass
-        if ref_mem is None:
-            return {"score": 0.0, "correctness": 0.0, "cycles": None, "msg": "Reference failed"}
-        kb = exec_globals["OptimizedKernelBuilder"]()
-        kb.build_kernel(10, len(forest.values), 256, 16)
-        machine = Machine(list(mem), kb.instrs, kb.debug_info(), n_cores=N_CORES)
-        machine.enable_pause = False
-        machine.enable_debug = False
-        machine.run()
-        cycles = machine.cycle
-        if cycles <= 100 or cycles > 200000:
-            return {"score": 0.0, "correctness": 0.0, "cycles": cycles, "msg": f"Bad cycles: {cycles}"}
-        inp_values_p = ref_mem[6]
-        expected = ref_mem[inp_values_p : inp_values_p + len(inp.values)]
-        actual = machine.mem[inp_values_p : inp_values_p + len(inp.values)]
-        if expected != actual:
-            return {"score": 0.0, "correctness": 0.0, "cycles": cycles, "msg": "Wrong output"}
-        score = SCORE_SCALE / cycles
-        return {"score": score, "correctness": 1.0, "cycles": cycles, "msg": f"OK: {cycles} cycles"}
-    except Exception as e:
-        return {"score": 0.0, "correctness": 0.0, "cycles": None, "msg": f"Error: {str(e)[:100]}"}
 def log(msg: str):
@@ -146,25 +94,17 @@ def reward_function(completions: list[str], **kwargs) -> list[float]:
     for completion in completions:
         try:
             code = extract_code_block(completion)
-            result = verify_code(code)
             reward = result["score"]
-            if result["correctness"] > 0:
-                reward += 1.0
-                cycles = result.get("cycles")
-                if cycles:
-                    with training_state_lock:
-                        training_state["results"].append({"cycles": cycles, "time": time.time()})
-                        if cycles < training_state["best_cycles"]:
-                            training_state["best_cycles"] = cycles
-                            training_state["best_code"] = code
-                            log(f"NEW BEST: {cycles:,} cycles ({BASELINE_CYCLES/cycles:.2f}x)")
             rewards.append(reward)
         except Exception as e:
-            log(f"Reward error: {str(e)[:50]}")
             rewards.append(0.0)
     return rewards
@@ -172,12 +112,9 @@ def run_training(model_name: str, num_steps: int, batch_size: int, lr: float, lo
     """Main training loop."""
     with training_state_lock:
         training_state["running"] = True
-        training_state["step"] = 0
-        training_state["total_steps"] = num_steps
         training_state["best_cycles"] = BASELINE_CYCLES
         training_state["best_code"] = None
         training_state["log"] = []
-        training_state["results"] = []
         training_state["start_time"] = time.time()
     log(f"Starting: {model_name}")
@@ -201,7 +138,7 @@ def run_training(model_name: str, num_steps: int, batch_size: int, lr: float, lo
             tokenizer.pad_token = tokenizer.eos_token
         prompt = f"{SYSTEM_PROMPT}\n\nCURRENT: {BASELINE_CYCLES} cycles. TARGET: <{TARGET_CYCLES}."
-        dataset = Dataset.from_dict({"prompt": [prompt] * 32})
         peft_config = LoraConfig(
             r=lora_rank,
@@ -222,9 +159,9 @@ def run_training(model_name: str, num_steps: int, batch_size: int, lr: float, lo
             learning_rate=lr,
             logging_steps=1,
             save_steps=max(1, num_steps // 5),
-            max_completion_length=2048,
             temperature=0.7,
-            num_generations=4,
             beta=0.1,
             bf16=True,
             report_to="none",
@@ -283,8 +220,7 @@ def run_training(model_name: str, num_steps: int, batch_size: int, lr: float, lo
         with training_state_lock:
             training_state["running"] = False
             elapsed = time.time() - (training_state["start_time"] or time.time())
-            best = training_state["best_cycles"]
-        log(f"Time: {elapsed/60:.1f} min, Best: {best:,} cycles")
 def start_training(model_name, num_steps, batch_size, lr, lora_rank):
@@ -308,21 +244,15 @@ def stop_training():
 def get_status():
     with training_state_lock:
         if not training_state["start_time"]:
-            return "### Not started"
         elapsed = time.time() - training_state["start_time"]
-        best = max(training_state["best_cycles"], 1)
         is_running = training_state["running"]
-        logs = training_state["log"][-20:]
-    speedup = BASELINE_CYCLES / best
     return f"""### {'Running' if is_running else 'Stopped'}
-| Metric | Value |
-|--------|-------|
-| Time | {elapsed/60:.1f} min |
-| Best | **{best:,}** cycles |
-| Speedup | **{speedup:.2f}x** |
-| Target | {TARGET_CYCLES:,} |
 ```
 {chr(10).join(logs)}
 ```"""
@@ -336,25 +266,25 @@ def get_best_code():
 # UI
 with gr.Blocks(title="VLIW Optimizer") as demo:
     gr.Markdown("# VLIW Kernel Optimizer via RL")
-    gr.Markdown(f"**Baseline:** {BASELINE_CYCLES:,} | **Target:** {TARGET_CYCLES:,} (108x speedup)")
     with gr.Row():
         with gr.Column():
             model = gr.Dropdown(
-                ["Qwen/Qwen2.5-Coder-7B-Instruct", "Qwen/Qwen2.5-Coder-3B-Instruct"],
                 value="Qwen/Qwen2.5-Coder-3B-Instruct",
                 label="Model"
             )
-            steps = gr.Slider(1, 100, value=50, step=1, label="Steps")
-            batch = gr.Slider(1, 8, value=4, step=1, label="Batch")
             lr = gr.Number(value=2e-4, label="LR")
-            lora = gr.Slider(8, 64, value=32, step=8, label="LoRA Rank")
             with gr.Row():
                 start_btn = gr.Button("Start", variant="primary")
                 stop_btn = gr.Button("Stop", variant="stop")
         with gr.Column():
-            status = gr.Markdown("### Not started")
             refresh = gr.Button("Refresh")
     with gr.Row():

 import re
 import threading
 import time
 from datetime import datetime
 import gradio as gr
 # Thread lock for safe state access
 training_state_lock = threading.Lock()
 # Constants
 BASELINE_CYCLES = 147734
 TARGET_CYCLES = 1363
 # Training state
 training_state = {
     "running": False,
     "best_cycles": BASELINE_CYCLES,
     "best_code": None,
     "log": [],
     "start_time": None,
 }
 SYSTEM_PROMPT = '''Write optimized VLIW/SIMD kernel. OUTPUT ONLY ONE ```python CODE BLOCK.
 ALGORITHM: 16 rounds x 256 items, hash tree traversal.
 OPTIMIZATION: Use vload/vstore (8 elements), pack 6 VALU ops/cycle, unroll loops.
+Write complete code with OptimizedKernelBuilder class and run() function.
 '''
     return text.strip()
+def simple_verify(code: str) -> dict:
+    """Simple verification without simulator."""
+    if not code:
+        return {"score": 0.0, "correctness": 0.0, "msg": "Empty"}
+    if "def run" not in code:
+        return {"score": 0.0, "correctness": 0.0, "msg": "No run()"}
+    if "OptimizedKernelBuilder" not in code:
+        return {"score": 0.0, "correctness": 0.0, "msg": "No class"}
+    if "build_kernel" not in code:
+        return {"score": 0.0, "correctness": 0.0, "msg": "No build_kernel"}
+    if "self.add" not in code:
+        return {"score": 0.1, "correctness": 0.5, "msg": "Structural OK"}
+    # Bonus for using vector ops
+    score = 0.2
+    if "vload" in code or "vstore" in code:
+        score += 0.3
+    if "valu" in code:
+        score += 0.3
+    return {"score": score, "correctness": 1.0, "msg": "Good structure"}
 def log(msg: str):
     for completion in completions:
         try:
             code = extract_code_block(completion)
+            result = simple_verify(code)
             reward = result["score"]
+            if result["correctness"] > 0.5:
+                reward += 0.5
+                with training_state_lock:
+                    if not training_state["best_code"] or len(code) > len(training_state["best_code"] or ""):
+                        training_state["best_code"] = code
+                        log(f"New best code (score: {reward:.2f})")
             rewards.append(reward)
         except Exception as e:
             rewards.append(0.0)
     return rewards
     """Main training loop."""
     with training_state_lock:
         training_state["running"] = True
         training_state["best_cycles"] = BASELINE_CYCLES
         training_state["best_code"] = None
         training_state["log"] = []
         training_state["start_time"] = time.time()
     log(f"Starting: {model_name}")
             tokenizer.pad_token = tokenizer.eos_token
         prompt = f"{SYSTEM_PROMPT}\n\nCURRENT: {BASELINE_CYCLES} cycles. TARGET: <{TARGET_CYCLES}."
+        dataset = Dataset.from_dict({"prompt": [prompt] * 16})
         peft_config = LoraConfig(
             r=lora_rank,
             learning_rate=lr,
             logging_steps=1,
             save_steps=max(1, num_steps // 5),
+            max_completion_length=1024,
             temperature=0.7,
+            num_generations=2,
             beta=0.1,
             bf16=True,
             report_to="none",
         with training_state_lock:
             training_state["running"] = False
             elapsed = time.time() - (training_state["start_time"] or time.time())
+        log(f"Time: {elapsed/60:.1f} min")
 def start_training(model_name, num_steps, batch_size, lr, lora_rank):
 def get_status():
     with training_state_lock:
         if not training_state["start_time"]:
+            return "### Not started\nClick Start to begin training."
         elapsed = time.time() - training_state["start_time"]
         is_running = training_state["running"]
+        logs = training_state["log"][-25:]
     return f"""### {'Running' if is_running else 'Stopped'}
+**Time:** {elapsed/60:.1f} min
+**Log:**
 ```
 {chr(10).join(logs)}
 ```"""
 # UI
 with gr.Blocks(title="VLIW Optimizer") as demo:
     gr.Markdown("# VLIW Kernel Optimizer via RL")
+    gr.Markdown(f"**Baseline:** {BASELINE_CYCLES:,} | **Target:** {TARGET_CYCLES:,}")
     with gr.Row():
         with gr.Column():
             model = gr.Dropdown(
+                ["Qwen/Qwen2.5-Coder-3B-Instruct", "Qwen/Qwen2.5-Coder-1.5B-Instruct"],
                 value="Qwen/Qwen2.5-Coder-3B-Instruct",
                 label="Model"
             )
+            steps = gr.Slider(1, 50, value=10, step=1, label="Steps")
+            batch = gr.Slider(1, 4, value=2, step=1, label="Batch")
             lr = gr.Number(value=2e-4, label="LR")
+            lora = gr.Slider(8, 32, value=16, step=8, label="LoRA Rank")
             with gr.Row():
                 start_btn = gr.Button("Start", variant="primary")
                 stop_btn = gr.Button("Stop", variant="stop")
         with gr.Column():
+            status = gr.Markdown("### Not started\nClick Start to begin training.")
             refresh = gr.Button("Refresh")
     with gr.Row():