diff --git "a/Roadmap.html" "b/Roadmap.html"
deleted file mode 100644--- "a/Roadmap.html"
+++ /dev/null
@@ -1,2140 +0,0 @@
-<!DOCTYPE html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>AgentOrg CodeReview — OpenEnv Roadmap</title>
-<link href="https://fonts.googleapis.com/css2?family=Space+Mono:ital,wght@0,400;0,700;1,400&family=Syne:wght@400;600;700;800&display=swap" rel="stylesheet">
-<style>
-  :root {
-    --bg: #0a0a0f;
-    --bg2: #0f0f18;
-    --bg3: #141420;
-    --surface: #1a1a28;
-    --surface2: #20202f;
-    --border: #2a2a3f;
-    --border2: #353550;
-    --text: #e8e8f0;
-    --muted: #8888aa;
-    --dim: #555570;
-    --purple: #7c6bff;
-    --purple-soft: #a89cff;
-    --teal: #2dd4bf;
-    --teal-soft: #5eead4;
-    --coral: #ff6b6b;
-    --amber: #fbbf24;
-    --green: #34d399;
-    --blue: #60a5fa;
-    --pink: #f472b6;
-    --mono: 'Space Mono', monospace;
-    --display: 'Syne', sans-serif;
-  }
-
-  * { margin: 0; padding: 0; box-sizing: border-box; }
-
-  body {
-    background: var(--bg);
-    color: var(--text);
-    font-family: var(--mono);
-    font-size: 13px;
-    line-height: 1.7;
-    overflow-x: hidden;
-  }
-
-  /* ─── NAV ─── */
-  nav {
-    position: sticky;
-    top: 0;
-    z-index: 100;
-    background: rgba(10,10,15,0.92);
-    backdrop-filter: blur(12px);
-    border-bottom: 1px solid var(--border);
-    padding: 0 2rem;
-    display: flex;
-    align-items: center;
-    justify-content: space-between;
-    height: 52px;
-  }
-
-  .nav-brand {
-    font-family: var(--display);
-    font-weight: 800;
-    font-size: 15px;
-    color: var(--text);
-    letter-spacing: -0.02em;
-  }
-
-  .nav-brand span { color: var(--purple); }
-
-  .nav-links {
-    display: flex;
-    gap: 2px;
-    list-style: none;
-  }
-
-  .nav-links a {
-    color: var(--muted);
-    text-decoration: none;
-    font-size: 11px;
-    padding: 6px 10px;
-    border-radius: 4px;
-    transition: color 0.15s, background 0.15s;
-    letter-spacing: 0.05em;
-  }
-
-  .nav-links a:hover { color: var(--text); background: var(--surface); }
-
-  /* ─── HERO ─── */
-  .hero {
-    padding: 6rem 2rem 4rem;
-    max-width: 900px;
-    margin: 0 auto;
-    position: relative;
-  }
-
-  .hero-tag {
-    display: inline-flex;
-    align-items: center;
-    gap: 6px;
-    font-size: 11px;
-    letter-spacing: 0.1em;
-    color: var(--purple-soft);
-    border: 1px solid rgba(124,107,255,0.3);
-    padding: 4px 12px;
-    border-radius: 2px;
-    margin-bottom: 1.5rem;
-    text-transform: uppercase;
-  }
-
-  .hero-tag::before {
-    content: '';
-    width: 6px; height: 6px;
-    border-radius: 50%;
-    background: var(--purple);
-    animation: pulse 2s ease-in-out infinite;
-  }
-
-  @keyframes pulse { 0%,100%{opacity:1} 50%{opacity:0.4} }
-
-  h1 {
-    font-family: var(--display);
-    font-size: clamp(2.2rem, 5vw, 3.8rem);
-    font-weight: 800;
-    line-height: 1.05;
-    letter-spacing: -0.04em;
-    margin-bottom: 1.5rem;
-    color: var(--text);
-  }
-
-  h1 .accent { color: var(--purple); }
-  h1 .accent2 { color: var(--teal); }
-
-  .hero-sub {
-    font-size: 14px;
-    color: var(--muted);
-    max-width: 620px;
-    line-height: 1.8;
-    margin-bottom: 2.5rem;
-  }
-
-  .hero-meta {
-    display: flex;
-    gap: 2rem;
-    flex-wrap: wrap;
-  }
-
-  .meta-item {
-    display: flex;
-    flex-direction: column;
-    gap: 2px;
-  }
-
-  .meta-label { font-size: 10px; color: var(--dim); letter-spacing: 0.1em; text-transform: uppercase; }
-  .meta-value { font-size: 13px; color: var(--text); font-weight: 700; }
-  .meta-value.purple { color: var(--purple-soft); }
-  .meta-value.teal { color: var(--teal-soft); }
-  .meta-value.green { color: var(--green); }
-
-  /* ─── SECTION WRAPPER ─── */
-  .section {
-    max-width: 900px;
-    margin: 0 auto;
-    padding: 3rem 2rem;
-    border-top: 1px solid var(--border);
-  }
-
-  .section-header {
-    display: flex;
-    align-items: baseline;
-    gap: 1rem;
-    margin-bottom: 2rem;
-  }
-
-  .section-num {
-    font-size: 11px;
-    color: var(--dim);
-    letter-spacing: 0.1em;
-    min-width: 28px;
-  }
-
-  .section-title {
-    font-family: var(--display);
-    font-size: 1.5rem;
-    font-weight: 700;
-    letter-spacing: -0.03em;
-    color: var(--text);
-  }
-
-  .section-title .tag {
-    font-family: var(--mono);
-    font-size: 11px;
-    font-weight: 400;
-    color: var(--muted);
-    margin-left: 10px;
-    letter-spacing: 0.05em;
-  }
-
-  /* ─── REPO ANALYSIS CARDS ─── */
-  .repo-grid {
-    display: grid;
-    grid-template-columns: repeat(auto-fit, minmax(380px, 1fr));
-    gap: 1px;
-    background: var(--border);
-    border: 1px solid var(--border);
-    border-radius: 8px;
-    overflow: hidden;
-  }
-
-  .repo-card {
-    background: var(--surface);
-    padding: 1.5rem;
-  }
-
-  .repo-card:hover { background: var(--surface2); }
-
-  .repo-name {
-    font-family: var(--display);
-    font-weight: 700;
-    font-size: 14px;
-    margin-bottom: 0.4rem;
-    display: flex;
-    align-items: center;
-    gap: 8px;
-  }
-
-  .repo-badge {
-    font-family: var(--mono);
-    font-size: 9px;
-    padding: 2px 7px;
-    border-radius: 2px;
-    letter-spacing: 0.08em;
-    text-transform: uppercase;
-    font-weight: 400;
-  }
-
-  .badge-purple { background: rgba(124,107,255,0.15); color: var(--purple-soft); border: 1px solid rgba(124,107,255,0.2); }
-  .badge-teal   { background: rgba(45,212,191,0.12); color: var(--teal-soft); border: 1px solid rgba(45,212,191,0.2); }
-  .badge-coral  { background: rgba(255,107,107,0.12); color: #ff9999; border: 1px solid rgba(255,107,107,0.2); }
-  .badge-amber  { background: rgba(251,191,36,0.12); color: var(--amber); border: 1px solid rgba(251,191,36,0.2); }
-
-  .repo-desc { color: var(--muted); font-size: 12px; margin-bottom: 1rem; line-height: 1.6; }
-
-  .tech-list {
-    display: flex;
-    flex-wrap: wrap;
-    gap: 5px;
-    margin-bottom: 1rem;
-  }
-
-  .tech-tag {
-    font-size: 10px;
-    padding: 2px 8px;
-    border: 1px solid var(--border2);
-    border-radius: 2px;
-    color: var(--dim);
-    letter-spacing: 0.05em;
-  }
-
-  .insight-list {
-    list-style: none;
-    display: flex;
-    flex-direction: column;
-    gap: 5px;
-  }
-
-  .insight-list li {
-    font-size: 11px;
-    color: var(--muted);
-    padding-left: 14px;
-    position: relative;
-    line-height: 1.5;
-  }
-
-  .insight-list li::before {
-    content: '→';
-    position: absolute;
-    left: 0;
-    color: var(--purple);
-  }
-
-  /* ─── ENVIRONMENT CONCEPT ─── */
-  .concept-box {
-    border: 1px solid var(--border2);
-    border-left: 3px solid var(--purple);
-    border-radius: 4px;
-    padding: 1.5rem;
-    background: var(--surface);
-    margin-bottom: 1.5rem;
-  }
-
-  .concept-box h3 {
-    font-family: var(--display);
-    font-size: 1rem;
-    font-weight: 700;
-    color: var(--purple-soft);
-    margin-bottom: 0.75rem;
-    letter-spacing: -0.02em;
-  }
-
-  .concept-box p { color: var(--muted); font-size: 12px; line-height: 1.8; }
-
-  /* ─── FILE TREE ─── */
-  .file-tree {
-    background: var(--bg2);
-    border: 1px solid var(--border);
-    border-radius: 6px;
-    padding: 1.5rem;
-    font-family: var(--mono);
-    font-size: 12px;
-    overflow-x: auto;
-  }
-
-  .file-tree .tree-line {
-    display: flex;
-    align-items: center;
-    gap: 8px;
-    padding: 2px 0;
-    color: var(--muted);
-    cursor: pointer;
-    border-radius: 3px;
-    padding: 3px 6px;
-    transition: background 0.1s;
-  }
-
-  .file-tree .tree-line:hover { background: var(--surface); }
-
-  .tree-line .indent { color: var(--border2); }
-  .tree-line .fname { color: var(--text); }
-  .tree-line .fname.dir { color: var(--blue); }
-  .tree-line .fname.yaml { color: var(--amber); }
-  .tree-line .fname.py { color: var(--teal-soft); }
-  .tree-line .fname.docker { color: var(--coral); }
-  .tree-line .fname.md { color: var(--purple-soft); }
-  .tree-line .fname.txt { color: var(--muted); }
-  .tree-line .comment { color: var(--dim); font-size: 11px; margin-left: auto; }
-
-  /* ─── TASK CARDS ─── */
-  .tasks-grid {
-    display: grid;
-    grid-template-columns: repeat(3, 1fr);
-    gap: 1px;
-    background: var(--border);
-    border: 1px solid var(--border);
-    border-radius: 8px;
-    overflow: hidden;
-  }
-
-  @media (max-width: 700px) { .tasks-grid { grid-template-columns: 1fr; } }
-
-  .task-card {
-    background: var(--surface);
-    padding: 1.5rem;
-  }
-
-  .task-difficulty {
-    font-size: 10px;
-    letter-spacing: 0.12em;
-    text-transform: uppercase;
-    margin-bottom: 0.5rem;
-  }
-
-  .diff-easy { color: var(--green); }
-  .diff-medium { color: var(--amber); }
-  .diff-hard { color: var(--coral); }
-
-  .task-name {
-    font-family: var(--display);
-    font-weight: 700;
-    font-size: 1.1rem;
-    letter-spacing: -0.02em;
-    margin-bottom: 0.75rem;
-  }
-
-  .task-detail {
-    font-size: 11px;
-    color: var(--muted);
-    line-height: 1.7;
-    margin-bottom: 1rem;
-  }
-
-  .task-findings {
-    display: flex;
-    flex-direction: column;
-    gap: 4px;
-  }
-
-  .finding {
-    font-size: 10px;
-    padding: 3px 8px;
-    border-radius: 2px;
-    letter-spacing: 0.04em;
-    display: flex;
-    align-items: center;
-    gap: 6px;
-  }
-
-  .finding-crit { background: rgba(255,107,107,0.1); color: #ff9999; border: 1px solid rgba(255,107,107,0.15); }
-  .finding-high { background: rgba(251,191,36,0.1); color: var(--amber); border: 1px solid rgba(251,191,36,0.15); }
-  .finding-med  { background: rgba(96,165,250,0.1); color: var(--blue); border: 1px solid rgba(96,165,250,0.15); }
-  .finding-low  { background: rgba(136,136,170,0.1); color: var(--muted); border: 1px solid var(--border); }
-
-  /* ─── REWARD FUNCTION ─── */
-  .reward-formula {
-    background: var(--bg2);
-    border: 1px solid var(--border);
-    border-radius: 6px;
-    padding: 1.5rem;
-    margin-bottom: 1.5rem;
-    overflow-x: auto;
-  }
-
-  .reward-formula pre {
-    font-family: var(--mono);
-    font-size: 12px;
-    color: var(--text);
-    line-height: 2;
-  }
-
-  .rf-comment { color: var(--dim); }
-  .rf-var { color: var(--teal-soft); }
-  .rf-op { color: var(--purple-soft); }
-  .rf-num { color: var(--amber); }
-  .rf-fn { color: var(--blue); }
-  .rf-key { color: var(--coral); }
-
-  /* ─── TIMELINE / BUILD ORDER ─── */
-  .timeline {
-    position: relative;
-    padding-left: 2rem;
-  }
-
-  .timeline::before {
-    content: '';
-    position: absolute;
-    left: 7px;
-    top: 8px;
-    bottom: 8px;
-    width: 1px;
-    background: var(--border2);
-  }
-
-  .timeline-item {
-    position: relative;
-    margin-bottom: 2rem;
-  }
-
-  .timeline-item::before {
-    content: '';
-    position: absolute;
-    left: -1.75rem;
-    top: 7px;
-    width: 8px; height: 8px;
-    border-radius: 50%;
-    background: var(--bg);
-    border: 1.5px solid var(--border2);
-  }
-
-  .timeline-item.active::before {
-    border-color: var(--purple);
-    background: var(--purple);
-    box-shadow: 0 0 0 3px rgba(124,107,255,0.15);
-  }
-
-  .day-label {
-    font-size: 10px;
-    letter-spacing: 0.12em;
-    text-transform: uppercase;
-    color: var(--purple-soft);
-    margin-bottom: 4px;
-  }
-
-  .timeline-title {
-    font-family: var(--display);
-    font-weight: 700;
-    font-size: 1rem;
-    letter-spacing: -0.02em;
-    margin-bottom: 0.5rem;
-  }
-
-  .timeline-tasks {
-    display: flex;
-    flex-direction: column;
-    gap: 3px;
-  }
-
-  .timeline-task {
-    font-size: 11px;
-    color: var(--muted);
-    display: flex;
-    gap: 8px;
-    align-items: flex-start;
-    line-height: 1.5;
-  }
-
-  .timeline-task::before {
-    content: '─';
-    color: var(--dim);
-    flex-shrink: 0;
-  }
-
-  /* ─── LAYER CARDS ─── */
-  .layers {
-    display: flex;
-    flex-direction: column;
-    gap: 1px;
-    background: var(--border);
-    border: 1px solid var(--border);
-    border-radius: 8px;
-    overflow: hidden;
-  }
-
-  .layer-card {
-    background: var(--surface);
-    padding: 0;
-    overflow: hidden;
-  }
-
-  .layer-header {
-    padding: 1rem 1.5rem;
-    display: flex;
-    align-items: center;
-    gap: 1rem;
-    cursor: pointer;
-    transition: background 0.1s;
-  }
-
-  .layer-header:hover { background: var(--surface2); }
-
-  .layer-num {
-    width: 28px; height: 28px;
-    border-radius: 4px;
-    display: flex;
-    align-items: center;
-    justify-content: center;
-    font-size: 11px;
-    font-weight: 700;
-    flex-shrink: 0;
-  }
-
-  .ln-purple { background: rgba(124,107,255,0.15); color: var(--purple-soft); }
-  .ln-teal   { background: rgba(45,212,191,0.12); color: var(--teal-soft); }
-  .ln-coral  { background: rgba(255,107,107,0.12); color: #ff9999; }
-  .ln-amber  { background: rgba(251,191,36,0.12); color: var(--amber); }
-  .ln-green  { background: rgba(52,211,153,0.12); color: var(--green); }
-  .ln-blue   { background: rgba(96,165,250,0.12); color: var(--blue); }
-  .ln-pink   { background: rgba(244,114,182,0.12); color: var(--pink); }
-
-  .layer-title-wrap { flex: 1; }
-  .layer-title { font-family: var(--display); font-weight: 700; font-size: 14px; letter-spacing: -0.02em; }
-  .layer-file { font-size: 10px; color: var(--dim); font-family: var(--mono); margin-top: 1px; }
-  .layer-toggle { color: var(--dim); font-size: 12px; transition: transform 0.2s; }
-  .layer-toggle.open { transform: rotate(90deg); }
-
-  .layer-body {
-    max-height: 0;
-    overflow: hidden;
-    transition: max-height 0.3s ease;
-  }
-
-  .layer-body.open { max-height: 2000px; }
-
-  .layer-content {
-    padding: 0 1.5rem 1.5rem;
-    border-top: 1px solid var(--border);
-  }
-
-  .layer-content h4 {
-    font-family: var(--display);
-    font-size: 12px;
-    font-weight: 600;
-    color: var(--muted);
-    letter-spacing: 0.05em;
-    text-transform: uppercase;
-    margin: 1rem 0 0.5rem;
-  }
-
-  .layer-content p {
-    font-size: 12px;
-    color: var(--muted);
-    line-height: 1.8;
-    margin-bottom: 0.75rem;
-  }
-
-  .layer-content ul {
-    list-style: none;
-    display: flex;
-    flex-direction: column;
-    gap: 4px;
-    margin-bottom: 0.75rem;
-  }
-
-  .layer-content ul li {
-    font-size: 11px;
-    color: var(--muted);
-    padding-left: 14px;
-    position: relative;
-    line-height: 1.6;
-  }
-
-  .layer-content ul li::before {
-    content: '·';
-    position: absolute;
-    left: 4px;
-    color: var(--purple);
-  }
-
-  /* ─── CODE BLOCKS ─── */
-  .code-block {
-    background: var(--bg);
-    border: 1px solid var(--border);
-    border-radius: 4px;
-    padding: 1rem;
-    overflow-x: auto;
-    margin: 0.75rem 0;
-  }
-
-  .code-block pre {
-    font-family: var(--mono);
-    font-size: 11px;
-    line-height: 1.8;
-    color: var(--text);
-    white-space: pre;
-  }
-
-  .c-kw  { color: var(--purple-soft); }
-  .c-str { color: var(--teal-soft); }
-  .c-fn  { color: var(--blue); }
-  .c-cm  { color: var(--dim); font-style: italic; }
-  .c-num { color: var(--amber); }
-  .c-cls { color: var(--pink); }
-  .c-dec { color: var(--coral); }
-
-  /* ─── SCORING RUBRIC ─── */
-  .rubric-grid {
-    display: grid;
-    grid-template-columns: repeat(auto-fit, minmax(240px, 1fr));
-    gap: 1px;
-    background: var(--border);
-    border: 1px solid var(--border);
-    border-radius: 8px;
-    overflow: hidden;
-    margin-bottom: 1.5rem;
-  }
-
-  .rubric-item {
-    background: var(--surface);
-    padding: 1.25rem;
-  }
-
-  .rubric-weight {
-    font-family: var(--display);
-    font-weight: 800;
-    font-size: 2rem;
-    line-height: 1;
-    margin-bottom: 0.4rem;
-    letter-spacing: -0.04em;
-  }
-
-  .rw-purple { color: var(--purple); }
-  .rw-teal   { color: var(--teal); }
-  .rw-coral  { color: var(--coral); }
-  .rw-amber  { color: var(--amber); }
-  .rw-green  { color: var(--green); }
-
-  .rubric-cat {
-    font-size: 11px;
-    font-weight: 700;
-    letter-spacing: 0.05em;
-    color: var(--text);
-    text-transform: uppercase;
-    margin-bottom: 0.5rem;
-  }
-
-  .rubric-desc { font-size: 11px; color: var(--muted); line-height: 1.6; }
-
-  /* ─── INNOVATION CARDS ─── */
-  .innovations {
-    display: grid;
-    grid-template-columns: repeat(auto-fit, minmax(260px, 1fr));
-    gap: 1px;
-    background: var(--border);
-    border: 1px solid var(--border);
-    border-radius: 8px;
-    overflow: hidden;
-  }
-
-  .innov-card {
-    background: var(--surface);
-    padding: 1.5rem;
-    position: relative;
-    overflow: hidden;
-  }
-
-  .innov-card::before {
-    content: attr(data-num);
-    position: absolute;
-    right: 1rem;
-    top: 0.75rem;
-    font-family: var(--display);
-    font-size: 3rem;
-    font-weight: 800;
-    color: var(--border);
-    line-height: 1;
-    pointer-events: none;
-  }
-
-  .innov-source {
-    font-size: 10px;
-    letter-spacing: 0.08em;
-    text-transform: uppercase;
-    color: var(--dim);
-    margin-bottom: 0.5rem;
-    display: flex;
-    align-items: center;
-    gap: 5px;
-  }
-
-  .innov-source::before { content: 'FROM'; }
-  .innov-source span { color: var(--purple-soft); }
-
-  .innov-name {
-    font-family: var(--display);
-    font-weight: 700;
-    font-size: 1rem;
-    letter-spacing: -0.02em;
-    margin-bottom: 0.5rem;
-  }
-
-  .innov-desc { font-size: 11px; color: var(--muted); line-height: 1.7; }
-
-  /* ─── CHECKLIST ─── */
-  .checklist {
-    display: flex;
-    flex-direction: column;
-    gap: 2px;
-  }
-
-  .check-item {
-    display: flex;
-    align-items: flex-start;
-    gap: 10px;
-    padding: 8px 12px;
-    border-radius: 4px;
-    border: 1px solid transparent;
-    cursor: pointer;
-    transition: background 0.1s, border-color 0.1s;
-  }
-
-  .check-item:hover { background: var(--surface); border-color: var(--border); }
-
-  .check-item.done { opacity: 0.5; }
-
-  .check-box {
-    width: 16px; height: 16px;
-    border: 1px solid var(--border2);
-    border-radius: 2px;
-    flex-shrink: 0;
-    margin-top: 2px;
-    display: flex;
-    align-items: center;
-    justify-content: center;
-    transition: background 0.15s, border-color 0.15s;
-  }
-
-  .check-item.done .check-box {
-    background: var(--green);
-    border-color: var(--green);
-    color: var(--bg);
-    font-size: 10px;
-  }
-
-  .check-text { font-size: 12px; color: var(--muted); line-height: 1.5; }
-  .check-text strong { color: var(--text); font-weight: 700; }
-  .check-item.done .check-text { text-decoration: line-through; color: var(--dim); }
-
-  /* ─── DIVIDER ─── */
-  .rule { border: none; border-top: 1px solid var(--border); margin: 0; }
-
-  /* ─── SCROLL PROGRESS ─── */
-  #progress-bar {
-    position: fixed;
-    top: 52px;
-    left: 0;
-    height: 2px;
-    background: var(--purple);
-    width: 0%;
-    z-index: 99;
-    transition: width 0.1s linear;
-  }
-
-  /* ─── FOOTER ─── */
-  footer {
-    max-width: 900px;
-    margin: 0 auto;
-    padding: 2rem;
-    border-top: 1px solid var(--border);
-    display: flex;
-    align-items: center;
-    justify-content: space-between;
-    flex-wrap: wrap;
-    gap: 1rem;
-  }
-
-  .footer-brand {
-    font-family: var(--display);
-    font-size: 13px;
-    font-weight: 700;
-    color: var(--muted);
-    letter-spacing: -0.02em;
-  }
-
-  .footer-note { font-size: 11px; color: var(--dim); }
-
-  /* ─── TOOLTIP ─── */
-  [data-tip] {
-    position: relative;
-    cursor: help;
-    border-bottom: 1px dashed var(--border2);
-  }
-
-  [data-tip]:hover::after {
-    content: attr(data-tip);
-    position: absolute;
-    bottom: 100%;
-    left: 50%;
-    transform: translateX(-50%);
-    background: var(--surface2);
-    border: 1px solid var(--border2);
-    padding: 4px 10px;
-    border-radius: 4px;
-    font-size: 10px;
-    color: var(--text);
-    white-space: nowrap;
-    z-index: 200;
-    margin-bottom: 4px;
-    pointer-events: none;
-  }
-
-  /* ─── ANIMATIONS ─── */
-  .fade-in {
-    opacity: 0;
-    transform: translateY(16px);
-    transition: opacity 0.4s ease, transform 0.4s ease;
-  }
-  .fade-in.visible { opacity: 1; transform: none; }
-
-  /* ─── BASELINE TABLE ─── */
-  .baseline-table {
-    width: 100%;
-    border-collapse: collapse;
-    font-size: 12px;
-    margin-top: 1rem;
-  }
-
-  .baseline-table th {
-    text-align: left;
-    padding: 8px 12px;
-    font-size: 10px;
-    letter-spacing: 0.08em;
-    text-transform: uppercase;
-    color: var(--dim);
-    border-bottom: 1px solid var(--border);
-  }
-
-  .baseline-table td {
-    padding: 8px 12px;
-    border-bottom: 1px solid var(--border);
-    color: var(--muted);
-  }
-
-  .baseline-table tr:last-child td { border-bottom: none; }
-  .baseline-table tr:hover td { background: var(--surface); }
-
-  .score-bar-wrap { display: flex; align-items: center; gap: 8px; }
-
-  .score-bar {
-    height: 4px;
-    border-radius: 2px;
-    background: var(--border);
-    flex: 1;
-    overflow: hidden;
-  }
-
-  .score-bar-fill { height: 100%; border-radius: 2px; }
-
-  .warn-box {
-    background: rgba(251,191,36,0.06);
-    border: 1px solid rgba(251,191,36,0.2);
-    border-left: 3px solid var(--amber);
-    border-radius: 4px;
-    padding: 1rem 1.25rem;
-    font-size: 12px;
-    color: var(--muted);
-    line-height: 1.7;
-    margin-top: 1rem;
-  }
-
-  .warn-box strong { color: var(--amber); }
-</style>
-</head>
-<body>
-
-<div id="progress-bar"></div>
-
-<!-- NAV -->
-<nav>
-  <div class="nav-brand"><span>AgentOrg</span> · CodeReview · OpenEnv</div>
-  <ul class="nav-links">
-    <li><a href="#repos">Repo Analysis</a></li>
-    <li><a href="#concept">Concept</a></li>
-    <li><a href="#structure">Structure</a></li>
-    <li><a href="#layers">Layers</a></li>
-    <li><a href="#tasks">Tasks</a></li>
-    <li><a href="#scoring">Scoring</a></li>
-    <li><a href="#timeline">Timeline</a></li>
-    <li><a href="#innovations">Innovations</a></li>
-    <li><a href="#checklist">Checklist</a></li>
-  </ul>
-</nav>
-
-<!-- HERO -->
-<div class="hero fade-in">
-  <div class="hero-tag">OpenEnv Hackathon Submission · v1.0</div>
-  <h1>
-    The Complete<br>
-    <span class="accent">Build Roadmap</span><br>
-    <span class="accent2">AgentOrg · CodeReview</span>
-  </h1>
-  <p class="hero-sub">
-    A production-grade OpenEnv environment where AI agents act as senior code reviewers inside a software organization. Built from your actual architecture patterns — MoE routing, DAG orchestration, event-driven agents, Kafka messaging. Every design decision traced back to your repos.
-  </p>
-  <div class="hero-meta">
-    <div class="meta-item">
-      <span class="meta-label">Domain</span>
-      <span class="meta-value purple">Code Review</span>
-    </div>
-    <div class="meta-item">
-      <span class="meta-label">Tasks</span>
-      <span class="meta-value teal">3 (Easy → Hard)</span>
-    </div>
-    <div class="meta-item">
-      <span class="meta-label">Reward</span>
-      <span class="meta-value">Partial Credit 0.0–1.0</span>
-    </div>
-    <div class="meta-item">
-      <span class="meta-label">Deploy</span>
-      <span class="meta-value green">HF Spaces · Docker</span>
-    </div>
-    <div class="meta-item">
-      <span class="meta-label">Build Time</span>
-      <span class="meta-value">4 Days</span>
-    </div>
-  </div>
-</div>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ REPO ANALYSIS ═══ -->
-<section class="section fade-in" id="repos">
-  <div class="section-header">
-    <span class="section-num">01</span>
-    <h2 class="section-title">Repository Deep Analysis <span class="tag">// what we learned from your code</span></h2>
-  </div>
-
-  <div class="repo-grid">
-
-    <div class="repo-card">
-      <div class="repo-name">
-        Autonomous-Multi-Agent-AI-Organization
-        <span class="repo-badge badge-purple">primary</span>
-      </div>
-      <div class="repo-desc">
-        Production-grade event-driven multi-agent system for the Amazon Nova hackathon. 7 specialized agents (CEO, CTO, FE, BE, QA, DevOps, Finance) running asynchronously over Apache Kafka, coordinated via a Go gRPC DAG engine.
-      </div>
-      <div class="tech-list">
-        <span class="tech-tag">Go 1.22 · Fiber</span>
-        <span class="tech-tag">gRPC</span>
-        <span class="tech-tag">Apache Kafka</span>
-        <span class="tech-tag">Python 3.11</span>
-        <span class="tech-tag">Amazon Bedrock</span>
-        <span class="tech-tag">Rust MoE</span>
-        <span class="tech-tag">Next.js 14</span>
-        <span class="tech-tag">PostgreSQL 15</span>
-        <span class="tech-tag">Redis</span>
-        <span class="tech-tag">Helm + Terraform</span>
-        <span class="tech-tag">AES-256-GCM</span>
-        <span class="tech-tag">RS256 JWT</span>
-      </div>
-      <ul class="insight-list">
-        <li>MoE (Mixture of Experts) Rust scorer does sub-millisecond model routing — directly inspires the grader's confidence-weighted scoring</li>
-        <li>Finance Agent enforces per-agent token budgets — inspires the noise_budget mechanic that kills episodes with too many false positives</li>
-        <li>DAG engine plans tasks with dependencies — same structure for episode action sequencing</li>
-        <li>Per-agent LLM provider switching (Bedrock / OpenAI / Anthropic) — inspires observation_format parameter to test agents under different input modes</li>
-        <li>WS-Hub for live dashboard events — directly port as /ws/events WebSocket in FastAPI</li>
-        <li>run_demo.py — direct template for baseline.py</li>
-        <li>docker-compose.local.yml pattern — clean local mode without auth overhead, mirrors Dockerfile approach</li>
-      </ul>
-    </div>
-
-    <div class="repo-card">
-      <div class="repo-name">
-        moltbot / OpenClaw
-        <span class="repo-badge badge-teal">gateway patterns</span>
-      </div>
-      <div class="repo-desc">
-        Multi-channel personal AI assistant bridging WhatsApp, Telegram, Slack, Discord, Signal, and iMessage through a unified gateway/daemon architecture with a plugin/skill system and MCP server integration.
-      </div>
-      <div class="tech-list">
-        <span class="tech-tag">Cloudflare Workers</span>
-        <span class="tech-tag">MCP protocol</span>
-        <span class="tech-tag">Plugin/Skill system</span>
-        <span class="tech-tag">Channel abstraction</span>
-        <span class="tech-tag">Device pairing</span>
-        <span class="tech-tag">Gateway/daemon</span>
-      </div>
-      <ul class="insight-list">
-        <li>Channel abstraction layer — inspires the observation_format parameter (diff_only / full_pr / structured) as a channel-level concern</li>
-        <li>Plugin/skill system — the 3 task modules follow this exact pattern: each task is a pluggable module with a defined interface</li>
-        <li>Gateway/daemon split — mirrors app.py (thin gateway) + env.py (daemon with state) architecture</li>
-        <li>MCP server integration — the /ws/events endpoint is the same concept: a live event stream that tools can subscribe to</li>
-        <li>Unified input routing despite heterogeneous sources — the Action discriminator union type reflects this</li>
-      </ul>
-    </div>
-
-    <div class="repo-card">
-      <div class="repo-name">
-        cli repo
-        <span class="repo-badge badge-coral">tooling patterns</span>
-      </div>
-      <div class="repo-desc">
-        Command-line orchestration layer that wraps agent workflows, enabling scripted interaction patterns for developer tooling, CI/CD hooks, and automated test runners.
-      </div>
-      <div class="tech-list">
-        <span class="tech-tag">CLI design</span>
-        <span class="tech-tag">Agent workflows</span>
-        <span class="tech-tag">Scripted interaction</span>
-        <span class="tech-tag">Test automation</span>
-      </div>
-      <ul class="insight-list">
-        <li>CLI-first interaction pattern — baseline.py follows CLI conventions: --url, --seeds, --task flags with clean tabular output</li>
-        <li>Workflow scripting approach — validate.py is built as a CI-style script with exit codes, same pattern</li>
-        <li>Automated test runner design — test_api.py follows the same philosophy: call endpoints, assert contracts</li>
-        <li>Structured output for machine consumption — StepResult and EpisodeResult designed to be parseable by shell scripts</li>
-      </ul>
-    </div>
-
-    <div class="repo-card">
-      <div class="repo-name">
-        hive
-        <span class="repo-badge badge-amber">agent architecture</span>
-      </div>
-      <div class="repo-desc">
-        Outcome-driven agent development framework with goal-defined graphs, per-agent/team budget controls, LiteLLM-compatible model routing, and MCP server tool connectivity. Focuses on agent evaluation and repeatability.
-      </div>
-      <div class="tech-list">
-        <span class="tech-tag">Goal-defined graphs</span>
-        <span class="tech-tag">Budget controls</span>
-        <span class="tech-tag">LiteLLM routing</span>
-        <span class="tech-tag">MCP tools</span>
-        <span class="tech-tag">Agent evaluation</span>
-        <span class="tech-tag">Reproducibility</span>
-      </div>
-      <ul class="insight-list">
-        <li>Goal-defined graphs — directly maps to the episode structure: each episode is a goal graph where finding all issues = success</li>
-        <li>Budget controls per agent — confirms the noise_budget mechanic is the right abstraction, not just clever but architecturally coherent</li>
-        <li>Repeatability focus — seeded scenario generation (scenario_bank.py) is the direct implementation of this principle</li>
-        <li>LiteLLM-compatible model routing — baseline.py should be provider-agnostic, same as hive's model routing layer</li>
-        <li>Outcome-driven evaluation — the grader returns episode_result with issues_found, issues_missed, false_positives: outcome-oriented, not step-oriented</li>
-      </ul>
-    </div>
-
-  </div>
-</section>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ CONCEPT ═══ -->
-<section class="section fade-in" id="concept">
-  <div class="section-header">
-    <span class="section-num">02</span>
-    <h2 class="section-title">Environment Concept <span class="tag">// the what and why</span></h2>
-  </div>
-
-  <div class="concept-box">
-    <h3>What is AgentOrg CodeReview Env?</h3>
-    <p>
-      A simulation of the QA/Reviewer agent role inside your Autonomous-Multi-Agent-AI-Organization. The agent under evaluation receives a synthetic pull request — exactly like what the Backend Engineer agent would produce — and must act as a senior code reviewer: identifying bugs, security vulnerabilities, and architectural problems, then deciding whether to approve or request changes.
-    </p>
-  </div>
-
-  <div class="concept-box" style="border-left-color: var(--teal);">
-    <h3 style="color: var(--teal-soft);">Why this domain wins on real-world utility (30% of score)</h3>
-    <p>
-      Every software company does code review. It's a bottleneck — senior engineers spend 3–5 hours per week reviewing code. An agent that can reliably catch 80% of security vulnerabilities and architectural problems before human review would be immediately deployable. This is the exact use case companies pay for. The graders are deterministic (no LLM calls) and reproducible. The difficulty progression from "spot the null dereference" to "evaluate service-level architectural tradeoffs" is genuine — it mirrors how human engineers progress from junior to senior.
-    </p>
-  </div>
-
-  <div class="concept-box" style="border-left-color: var(--coral);">
-    <h3 style="color: #ff9999;">Why it hasn't been done in OpenEnv yet</h3>
-    <p>
-      Most agent environments test information retrieval, math reasoning, or game-playing. Code review requires multi-step reasoning over structured text with domain-specific knowledge, precise output format requirements, severity calibration, and a terminal verdict — a unique combination that no existing OpenEnv environment covers.
-    </p>
-  </div>
-</section>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ STRUCTURE ═══ -->
-<section class="section fade-in" id="structure">
-  <div class="section-header">
-    <span class="section-num">03</span>
-    <h2 class="section-title">Project Structure <span class="tag">// every file, every role</span></h2>
-  </div>
-
-  <div class="file-tree">
-    <div class="tree-line"><span class="fname dir">agentorg-codereview-env/</span></div>
-    <div class="tree-line"><span class="indent">│</span></div>
-    <div class="tree-line"><span class="indent">├── </span><span class="fname yaml">openenv.yaml</span><span class="comment">spec: name, version, tasks, obs/action schema, endpoints</span></div>
-    <div class="tree-line"><span class="indent">├── </span><span class="fname docker">Dockerfile</span><span class="comment">python:3.11-slim · port 7860 · uvicorn · HEALTHCHECK</span></div>
-    <div class="tree-line"><span class="indent">├── </span><span class="fname txt">requirements.txt</span><span class="comment">fastapi · uvicorn[standard] · pydantic>=2.0 · httpx</span></div>
-    <div class="tree-line"><span class="indent">├── </span><span class="fname md">README.md</span><span class="comment">HF Space header + full docs: obs/action spaces + baseline scores</span></div>
-    <div class="tree-line"><span class="indent">│</span></div>
-    <div class="tree-line"><span class="indent">├── </span><span class="fname py">app.py</span><span class="comment">FastAPI: /reset /step /state /health + WS /ws/events</span></div>
-    <div class="tree-line"><span class="indent">│</span></div>
-    <div class="tree-line"><span class="indent">├── </span><span class="fname dir">codereview_env/</span></div>
-    <div class="tree-line"><span class="indent">│   ├── </span><span class="fname py">__init__.py</span></div>
-    <div class="tree-line"><span class="indent">│   ├── </span><span class="fname py">models.py</span><span class="comment">ALL Pydantic types — zero logic, pure schemas</span></div>
-    <div class="tree-line"><span class="indent">│   ├── </span><span class="fname py">env.py</span><span class="comment">episode state machine — reset/step/state methods</span></div>
-    <div class="tree-line"><span class="indent">│   ├── </span><span class="fname py">scenario_bank.py</span><span class="comment">30+ synthetic PR scenarios, seeded + deterministic</span></div>
-    <div class="tree-line"><span class="indent">│   │</span></div>
-    <div class="tree-line"><span class="indent">│   ├── </span><span class="fname dir">tasks/</span></div>
-    <div class="tree-line"><span class="indent">│   │   ├── </span><span class="fname py">__init__.py</span></div>
-    <div class="tree-line"><span class="indent">│   │   ├── </span><span class="fname py">task_easy.py</span><span class="comment">bug_detection — single-file Python diffs, 1–3 bugs</span></div>
-    <div class="tree-line"><span class="indent">│   │   ├── </span><span class="fname py">task_medium.py</span><span class="comment">security_audit — multi-file, severity-weighted</span></div>
-    <div class="tree-line"><span class="indent">│   │   └── </span><span class="fname py">task_hard.py</span><span class="comment">architectural_review — cross-service, verdict required</span></div>
-    <div class="tree-line"><span class="indent">│   │</span></div>
-    <div class="tree-line"><span class="indent">│   └── </span><span class="fname dir">graders/</span></div>
-    <div class="tree-line"><span class="indent">│       ├── </span><span class="fname py">__init__.py</span></div>
-    <div class="tree-line"><span class="indent">│       ├── </span><span class="fname py">bug_grader.py</span><span class="comment">precision + recall + false-positive penalty</span></div>
-    <div class="tree-line"><span class="indent">│       ├── </span><span class="fname py">security_grader.py</span><span class="comment">severity multipliers: critical=0.4, high=0.25...</span></div>
-    <div class="tree-line"><span class="indent">│       ├── </span><span class="fname py">arch_grader.py</span><span class="comment">issue score + verdict bonus + explanation quality</span></div>
-    <div class="tree-line"><span class="indent">│       └── </span><span class="fname py">grader_utils.py</span><span class="comment">fuzzy_match() · keyword_overlap() · confidence scorer</span></div>
-    <div class="tree-line"><span class="indent">│</span></div>
-    <div class="tree-line"><span class="indent">├── </span><span class="fname dir">scripts/</span></div>
-    <div class="tree-line"><span class="indent">│   ├── </span><span class="fname py">baseline.py</span><span class="comment">naive keyword agent · seeds 0–9 · tabular output</span></div>
-    <div class="tree-line"><span class="indent">│   └── </span><span class="fname py">validate.py</span><span class="comment">openenv validate-compatible smoke test · CI exit codes</span></div>
-    <div class="tree-line"><span class="indent">│</span></div>
-    <div class="tree-line"><span class="indent">└── </span><span class="fname dir">tests/</span></div>
-    <div class="tree-line"><span class="indent">    ├── </span><span class="fname py">test_env.py</span><span class="comment">reset() clean state · done=True fires · step count limits</span></div>
-    <div class="tree-line"><span class="indent">    ├── </span><span class="fname py">test_graders.py</span><span class="comment">10 grader unit tests · score always in [0.0, 1.0]</span></div>
-    <div class="tree-line"><span class="indent">    └── </span><span class="fname py">test_api.py</span><span class="comment">full HTTP contract tests via httpx · schema validation</span></div>
-  </div>
-</section>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ LAYERS ═══ -->
-<section class="section fade-in" id="layers">
-  <div class="section-header">
-    <span class="section-num">04</span>
-    <h2 class="section-title">Implementation Layers <span class="tag">// click to expand each layer</span></h2>
-  </div>
-
-  <div class="layers">
-
-    <!-- LAYER 1 -->
-    <div class="layer-card">
-      <div class="layer-header" onclick="toggleLayer(this)">
-        <div class="layer-num ln-purple">1</div>
-        <div class="layer-title-wrap">
-          <div class="layer-title">models.py — all typed schemas</div>
-          <div class="layer-file">codereview_env/models.py · write this FIRST, nothing else until done</div>
-        </div>
-        <div class="layer-toggle">▶</div>
-      </div>
-      <div class="layer-body">
-        <div class="layer-content">
-          <p>Every piece of data that flows through the system lives here. Zero imports from logic files. This forces you to finalize the contract before anything depends on it — the same discipline your multi-agent repo applied to Kafka message schemas.</p>
-
-          <h4>Enums (define all values explicitly)</h4>
-          <ul>
-            <li><strong>TaskId</strong>: bug_detection | security_audit | architectural_review</li>
-            <li><strong>ActionType</strong>: comment | flag_issue | request_changes | approve | ask_question</li>
-            <li><strong>Severity</strong>: low | medium | high | critical — feeds the reward multiplier directly</li>
-            <li><strong>Category</strong>: bug | security | style | performance | architecture | design</li>
-            <li><strong>Verdict</strong>: LGTM | REQUEST_CHANGES | NEEDS_DISCUSSION — required for hard task terminal action</li>
-          </ul>
-
-          <h4>Core Models</h4>
-          <ul>
-            <li><strong>FileChange</strong>: filename: str, patch: str, additions: int, deletions: int</li>
-            <li><strong>GroundTruthIssue</strong>: category, severity, filename, line_number, description, keywords: list[str], required_verdict: Optional[Verdict]</li>
-            <li><strong>Observation</strong>: task_id, pr_title, pr_description, diff: str, files_changed: list[FileChange], step_count: int, max_steps: int, history: list[ActionRecord], noise_budget: int</li>
-            <li><strong>Action</strong>: action_type, body, filename, line_number, severity, category, verdict — add @model_validator that raises if flag_issue is sent without severity + category</li>
-            <li><strong>StepResult</strong>: observation: Observation, reward: float, done: bool, info: dict — info carries issues_found_so_far, issues_total, score_so_far, noise_budget_remaining</li>
-            <li><strong>ResetResult</strong>: observation: Observation, task_id: TaskId, seed: int, scenario_hash: str</li>
-            <li><strong>EpisodeResult</strong>: task_id, seed, total_steps, final_score: float, issues_found: list, issues_missed: list, false_positives: list, verdict_correct: Optional[bool]</li>
-          </ul>
-
-          <div class="code-block"><pre><span class="c-cm"># critical: Action validator</span>
-<span class="c-dec">@model_validator</span>(mode=<span class="c-str">'after'</span>)
-<span class="c-kw">def</span> <span class="c-fn">validate_flag_issue</span>(self):
-    <span class="c-kw">if</span> self.action_type == ActionType.FLAG_ISSUE:
-        <span class="c-kw">if not</span> self.severity <span class="c-kw">or not</span> self.category:
-            <span class="c-kw">raise</span> ValueError(
-                <span class="c-str">"flag_issue requires severity and category"</span>
-            )
-    <span class="c-kw">if</span> self.action_type <span class="c-kw">in</span> (ActionType.APPROVE, ActionType.REQUEST_CHANGES):
-        <span class="c-kw">if not</span> self.verdict:
-            <span class="c-kw">raise</span> ValueError(
-                <span class="c-str">"approve/request_changes requires verdict"</span>
-            )
-    <span class="c-kw">return</span> self</pre></div>
-        </div>
-      </div>
-    </div>
-
-    <!-- LAYER 2 -->
-    <div class="layer-card">
-      <div class="layer-header" onclick="toggleLayer(this)">
-        <div class="layer-num ln-teal">2</div>
-        <div class="layer-title-wrap">
-          <div class="layer-title">scenario_bank.py — the heart of the environment</div>
-          <div class="layer-file">codereview_env/scenario_bank.py · 30+ scenarios, seed-deterministic</div>
-        </div>
-        <div class="layer-toggle">▶</div>
-      </div>
-      <div class="layer-body">
-        <div class="layer-content">
-          <p>This is what makes the environment actually useful for benchmarking. Inspired by how your orchestrator generates task configs from a project idea — here you generate synthetic PR scenarios from a seed. Every scenario must be realistic enough that a human engineer would recognize it as a real PR.</p>
-
-          <h4>Scenario structure</h4>
-          <ul>
-            <li>Each scenario is a dataclass: pr_title, pr_description, files: list[FileChange], ground_truth_issues: list[GroundTruthIssue]</li>
-            <li>Each GroundTruthIssue has a keywords list — 8-15 domain-specific words that a good review body should contain for full credit</li>
-            <li>scenario_hash: md5 of the scenario content — lets validate.py confirm determinism across runs</li>
-          </ul>
-
-          <h4>Task 1 — Bug Detection scenarios (10 minimum)</h4>
-          <ul>
-            <li>Scenario 1: Python function with off-by-one error on list slice (range(len(x)) vs range(len(x)-1)). Keywords: off-by-one, index, out of range, slice, boundary</li>
-            <li>Scenario 2: None dereference — dict.get() result used directly without null check. Keywords: None, null check, KeyError, AttributeError, guard clause</li>
-            <li>Scenario 3: Wrong comparison operator — assignment in a conditional (if x = 5 in pseudo). Keywords: assignment, comparison, conditional, operator, typo</li>
-            <li>Scenario 4: Mutable default argument in Python (def fn(items=[])). Keywords: mutable, default, argument, shared state, closure, persistent</li>
-            <li>Scenario 5: Integer overflow in loop counter — counter never resets, wraps around. Keywords: overflow, counter, integer, reset, boundary, infinite</li>
-            <li>Scenario 6: Race condition — two reads of same variable without lock. Keywords: race condition, thread, concurrent, lock, atomic, synchronization</li>
-            <li>Scenario 7: Wrong exception type caught (catches Exception instead of specific type). Keywords: exception, broad, catch-all, specific, silent, swallow</li>
-            <li>Scenario 8: Float equality comparison (if x == 0.1). Keywords: float, equality, precision, epsilon, comparison, IEEE 754</li>
-            <li>Scenario 9: Return inside finally block overrides exception. Keywords: finally, return, exception, control flow, override, suppress</li>
-            <li>Scenario 10: Type coercion bug — string compared to int returns always False. Keywords: type, coercion, comparison, string, integer, implicit</li>
-          </ul>
-
-          <h4>Task 2 — Security Audit scenarios (10 minimum)</h4>
-          <ul>
-            <li>Scenario 1: SQL injection via f-string in a Django view. Files: views.py + models.py. Keywords: SQL injection, parameterized, f-string, user input, ORM, raw query</li>
-            <li>Scenario 2: Hardcoded secret — SECRET_KEY = "dev-secret-123" in settings.py. Keywords: hardcoded, secret, environment variable, .env, credential, exposure</li>
-            <li>Scenario 3: JWT decoded without verify=True (algorithms=["none"] vulnerability). Keywords: JWT, signature, verification, algorithm, none, bypass</li>
-            <li>Scenario 4: XSS via unescaped template variable — mark_safe() on user content. Keywords: XSS, cross-site scripting, mark_safe, escape, sanitize, inject</li>
-            <li>Scenario 5: Path traversal — open(base_path + user_input) without normalization. Keywords: path traversal, directory, normalization, join, sanitize, escape</li>
-            <li>Scenario 6: Insecure deserialization — pickle.loads() on user-provided data. Keywords: deserialization, pickle, arbitrary code, RCE, untrusted, injection</li>
-            <li>Scenario 7: Broken auth — CORS wildcard (*) on sensitive API endpoint. Keywords: CORS, wildcard, origin, cross-origin, authentication, header</li>
-            <li>Scenario 8: Timing attack in password comparison (== instead of hmac.compare_digest). Keywords: timing attack, constant time, hmac, comparison, side channel</li>
-            <li>Scenario 9: Missing rate limiting on login endpoint. Keywords: rate limit, brute force, throttle, attempt, lockout, login</li>
-            <li>Scenario 10: Exposed debug endpoint in production (DEBUG=True in settings). Keywords: debug, production, sensitive, stack trace, information disclosure</li>
-          </ul>
-
-          <h4>Task 3 — Architectural Review scenarios (10 minimum)</h4>
-          <ul>
-            <li>Scenario 1: Frontend service calling database directly (bypassing API layer). Required verdict: REQUEST_CHANGES. Keywords: direct access, coupling, separation of concerns, API gateway, data layer</li>
-            <li>Scenario 2: Synchronous HTTP call inside Kafka message handler (blocks event loop). Required verdict: REQUEST_CHANGES. Keywords: synchronous, blocking, event loop, async, non-blocking, timeout</li>
-            <li>Scenario 3: Missing retry logic on external API call — no circuit breaker. Required verdict: REQUEST_CHANGES. Keywords: retry, circuit breaker, resilience, idempotent, backoff, failure</li>
-            <li>Scenario 4: God object — one class handles auth, billing, and user management. Required verdict: REQUEST_CHANGES. Keywords: single responsibility, god object, cohesion, separation, refactor</li>
-            <li>Scenario 5: N+1 query problem — loop inside a loop hitting the database. Required verdict: REQUEST_CHANGES. Keywords: N+1, query, loop, batch, eager load, select_related</li>
-            <li>Scenario 6: Missing pagination on endpoint that returns all records. Required verdict: REQUEST_CHANGES. Keywords: pagination, limit, offset, memory, unbounded, cursor</li>
-            <li>Scenario 7: Synchronous file upload blocking the request thread. Required verdict: REQUEST_CHANGES. Keywords: async, upload, background task, streaming, thread, non-blocking</li>
-            <li>Scenario 8: Missing idempotency key on payment mutation endpoint. Required verdict: REQUEST_CHANGES. Keywords: idempotency, duplicate, payment, retry, key, mutation</li>
-            <li>Scenario 9: Shared mutable state between microservices via direct DB write. Required verdict: REQUEST_CHANGES. Keywords: shared state, microservice, event, eventual consistency, ownership, coupling</li>
-            <li>Scenario 10: Clean architecture violation — domain logic in HTTP handler. Required verdict: REQUEST_CHANGES. Keywords: clean architecture, domain, handler, concern, presentation, business logic</li>
-          </ul>
-
-          <div class="code-block"><pre><span class="c-kw">def</span> <span class="c-fn">get_scenario</span>(task_id: <span class="c-cls">TaskId</span>, seed: <span class="c-num">int</span>) -> <span class="c-cls">Scenario</span>:
-    rng = random.Random(seed)
-    bank = SCENARIOS[task_id]               <span class="c-cm"># list of Scenario</span>
-    idx = rng.randint(<span class="c-num">0</span>, len(bank) - <span class="c-num">1</span>)
-    scenario = bank[idx]
-    <span class="c-cm"># optionally shuffle distractor issues using rng</span>
-    <span class="c-kw">return</span> scenario</pre></div>
-        </div>
-      </div>
-    </div>
-
-    <!-- LAYER 3 -->
-    <div class="layer-card">
-      <div class="layer-header" onclick="toggleLayer(this)">
-        <div class="layer-num ln-coral">3</div>
-        <div class="layer-title-wrap">
-          <div class="layer-title">env.py — the episode state machine</div>
-          <div class="layer-file">codereview_env/env.py · all transitions explicit, all state logged</div>
-        </div>
-        <div class="layer-toggle">▶</div>
-      </div>
-      <div class="layer-body">
-        <div class="layer-content">
-          <p>The environment class holds all episode state. Borrowing the pattern from your DAG orchestrator — state transitions are explicit and every transition is logged to history. The done condition mirrors your agent task lifecycle: episodes end on a terminal action OR max_steps exceeded.</p>
-
-          <h4>State machine rules</h4>
-          <ul>
-            <li>done=True fires on: approve action, request_changes action, OR step_count >= max_steps</li>
-            <li>history stores every action taken this episode — the agent can read back what it already flagged</li>
-            <li>noise_budget starts at 5 — decremented per false positive flag_issue. At 0: done=True, score capped at current value (no further credit possible)</li>
-            <li>step_count increments on every /step call including non-flag actions (questions count toward budget)</li>
-            <li>reset() always clears all state — no carryover between episodes</li>
-          </ul>
-
-          <h4>Intermediate reward logic</h4>
-          <ul>
-            <li>On flag_issue: immediately call grader. If matches a ground truth issue: add partial credit to running_score. If false positive: decrement noise_budget.</li>
-            <li>On approve/request_changes: finalize episode. Add verdict bonus (hard task only). Return done=True.</li>
-            <li>On ask_question, comment: no reward change — these are neutral actions for multi-turn reasoning</li>
-            <li>Reward at each step = (running_score / max_possible_score) rounded to 4 decimals</li>
-          </ul>
-
-          <div class="code-block"><pre><span class="c-kw">class</span> <span class="c-cls">CodeReviewEnv</span>:
-    TASK_MAX_STEPS = {
-        <span class="c-str">"bug_detection"</span>: <span class="c-num">10</span>,
-        <span class="c-str">"security_audit"</span>: <span class="c-num">15</span>,
-        <span class="c-str">"architectural_review"</span>: <span class="c-num">20</span>,
-    }
-
-    <span class="c-kw">def</span> <span class="c-fn">reset</span>(self, task_id: str, seed: <span class="c-num">int</span> = <span class="c-num">42</span>) -> <span class="c-cls">ResetResult</span>:
-        scenario = get_scenario(task_id, seed)
-        self._state = <span class="c-cls">EpisodeState</span>(
-            task_id=task_id, seed=seed, scenario=scenario,
-            step_count=<span class="c-num">0</span>, noise_budget=<span class="c-num">5</span>,
-            max_steps=self.TASK_MAX_STEPS[task_id],
-            actions_taken=[], running_score=<span class="c-num">0.0</span>, done=<span class="c-kw">False</span>,
-        )
-        <span class="c-kw">return</span> <span class="c-cls">ResetResult</span>(
-            observation=self._build_obs(),
-            task_id=task_id, seed=seed,
-            scenario_hash=scenario.hash
-        )
-
-    <span class="c-kw">def</span> <span class="c-fn">step</span>(self, action: <span class="c-cls">Action</span>) -> <span class="c-cls">StepResult</span>:
-        s = self._state
-        <span class="c-kw">if</span> s.done:
-            <span class="c-kw">raise</span> RuntimeError(<span class="c-str">"episode is done, call reset()"</span>)
-        s.step_count += <span class="c-num">1</span>
-        s.actions_taken.append(action)
-        reward = <span class="c-fn">_apply_action</span>(s, action)   <span class="c-cm"># calls grader</span>
-        s.done = (
-            action.action_type <span class="c-kw">in</span> (APPROVE, REQUEST_CHANGES)
-            <span class="c-kw">or</span> s.step_count >= s.max_steps
-            <span class="c-kw">or</span> s.noise_budget <= <span class="c-num">0</span>
-        )
-        <span class="c-kw">return</span> <span class="c-cls">StepResult</span>(
-            observation=self._build_obs(),
-            reward=reward, done=s.done,
-            info={<span class="c-str">"step"</span>: s.step_count, <span class="c-str">"score"</span>: s.running_score,
-                  <span class="c-str">"noise_budget"</span>: s.noise_budget}
-        )</pre></div>
-        </div>
-      </div>
-    </div>
-
-    <!-- LAYER 4 -->
-    <div class="layer-card">
-      <div class="layer-header" onclick="toggleLayer(this)">
-        <div class="layer-num ln-amber">4</div>
-        <div class="layer-title-wrap">
-          <div class="layer-title">graders/ — the scoring intelligence</div>
-          <div class="layer-file">codereview_env/graders/ · pure functions, deterministic, no LLM calls</div>
-        </div>
-        <div class="layer-toggle">▶</div>
-      </div>
-      <div class="layer-body">
-        <div class="layer-content">
-          <p>Graders are pure functions — same input always produces same output. They never call an LLM. Inspired by your Rust MoE scorer which assigns confidence values to expert routing decisions: here each matched issue gets a confidence_score based on keyword overlap between the agent's body text and the ground truth keyword list.</p>
-
-          <h4>bug_grader.py</h4>
-          <div class="code-block"><pre><span class="c-kw">def</span> <span class="c-fn">grade_bug</span>(actions: list[<span class="c-cls">Action</span>], ground_truth: list[<span class="c-cls">GroundTruthIssue</span>]) -> float:
-    tp, fp = <span class="c-num">0</span>, <span class="c-num">0</span>
-    matched = set()
-    <span class="c-kw">for</span> action <span class="c-kw">in</span> actions:
-        <span class="c-kw">if</span> action.action_type != FLAG_ISSUE: <span class="c-kw">continue</span>
-        match = <span class="c-fn">find_best_match</span>(action, ground_truth, matched)
-        <span class="c-kw">if</span> match:
-            confidence = <span class="c-fn">keyword_overlap</span>(action.body, match.keywords)
-            tp += confidence      <span class="c-cm"># partial credit on confidence</span>
-            matched.add(match.id)
-        <span class="c-kw">else</span>:
-            fp += <span class="c-num">1</span>
-    recall = tp / len(ground_truth) <span class="c-kw">if</span> ground_truth <span class="c-kw">else</span> <span class="c-num">0</span>
-    precision = tp / (tp + fp) <span class="c-kw">if</span> (tp + fp) > <span class="c-num">0</span> <span class="c-kw">else</span> <span class="c-num">0</span>
-    score = <span class="c-num">0.7</span> * recall + <span class="c-num">0.3</span> * precision
-    <span class="c-kw">return</span> <span class="c-fn">round</span>(<span class="c-fn">min</span>(<span class="c-num">1.0</span>, <span class="c-fn">max</span>(<span class="c-num">0.0</span>, score)), <span class="c-num">4</span>)</pre></div>
-
-          <h4>security_grader.py — severity multipliers</h4>
-          <ul>
-            <li>CRITICAL issue found = +0.40 of episode score</li>
-            <li>HIGH issue found = +0.25</li>
-            <li>MEDIUM issue found = +0.15</li>
-            <li>LOW issue found = +0.05</li>
-            <li>False alarm on CRITICAL = -0.15 (heavy penalty — false security alerts are dangerous)</li>
-            <li>Total normalizes to 1.0 regardless of how many issues exist in the scenario</li>
-          </ul>
-
-          <h4>arch_grader.py — three components</h4>
-          <ul>
-            <li>Issue detection score (0.6 weight): same as security grader but for architecture categories</li>
-            <li>Verdict correctness (0.2 weight): 0.2 bonus if verdict == scenario.required_verdict, 0.0 if wrong or missing</li>
-            <li>Explanation quality (0.2 weight): for each architectural issue flagged correctly, +0.05 if body length > 80 chars (good architects explain the tradeoff, not just name the problem)</li>
-          </ul>
-
-          <h4>grader_utils.py — shared helpers</h4>
-          <div class="code-block"><pre><span class="c-kw">def</span> <span class="c-fn">keyword_overlap</span>(body: str, keywords: list[str]) -> float:
-    <span class="c-str">"""Returns 0.0–1.0 confidence score based on keyword coverage."""</span>
-    <span class="c-kw">if not</span> body <span class="c-kw">or not</span> keywords: <span class="c-kw">return</span> <span class="c-num">0.5</span>  <span class="c-cm"># missing body = half credit</span>
-    body_lower = body.lower()
-    hits = <span class="c-fn">sum</span>(<span class="c-num">1</span> <span class="c-kw">for</span> kw <span class="c-kw">in</span> keywords <span class="c-kw">if</span> kw.lower() <span class="c-kw">in</span> body_lower)
-    <span class="c-kw">return</span> <span class="c-fn">min</span>(<span class="c-num">1.0</span>, hits / <span class="c-fn">max</span>(<span class="c-num">4</span>, len(keywords) * <span class="c-num">0.6</span>))
-
-<span class="c-kw">def</span> <span class="c-fn">find_best_match</span>(action, ground_truth, already_matched):
-    <span class="c-str">"""Line-number match (exact) OR category+file fuzzy match."""</span>
-    <span class="c-kw">for</span> gt <span class="c-kw">in</span> ground_truth:
-        <span class="c-kw">if</span> gt.id <span class="c-kw">in</span> already_matched: <span class="c-kw">continue</span>
-        line_match = (action.line_number <span class="c-kw">and</span>
-                      <span class="c-fn">abs</span>(action.line_number - gt.line_number) <= <span class="c-num">3</span>)
-        cat_match = (action.category == gt.category <span class="c-kw">and</span>
-                     action.filename == gt.filename)
-        <span class="c-kw">if</span> line_match <span class="c-kw">or</span> cat_match: <span class="c-kw">return</span> gt
-    <span class="c-kw">return None</span></pre></div>
-        </div>
-      </div>
-    </div>
-
-    <!-- LAYER 5 -->
-    <div class="layer-card">
-      <div class="layer-header" onclick="toggleLayer(this)">
-        <div class="layer-num ln-green">5</div>
-        <div class="layer-title-wrap">
-          <div class="layer-title">app.py — thin FastAPI gateway</div>
-          <div class="layer-file">app.py · no business logic · serialize/deserialize only</div>
-        </div>
-        <div class="layer-toggle">▶</div>
-      </div>
-      <div class="layer-body">
-        <div class="layer-content">
-          <p>Directly inspired by your Go gateway pattern (Fiber HTTP in the multi-agent repo) — the API layer does nothing except serialize and deserialize. All logic lives in env.py. Single global env instance per process. No session management needed for the hackathon.</p>
-
-          <h4>Required routes</h4>
-          <ul>
-            <li>POST /reset → body: {task_id: str, seed: int} → returns ResetResult</li>
-            <li>POST /step → body: Action → returns StepResult</li>
-            <li>GET /state → returns current Observation (no body required)</li>
-            <li>GET /health → returns {status: "ok", version: "1.0.0", env_ready: bool}</li>
-          </ul>
-
-          <h4>Bonus routes (10% creativity score)</h4>
-          <ul>
-            <li>GET /ws/events — WebSocket that emits step events as JSON in real time (mirrors your WS-Hub)</li>
-            <li>GET /leaderboard — top 5 episode scores per task, stored in memory</li>
-            <li>POST /submit — agent posts {agent_name, task_id, score, seed} to appear on leaderboard</li>
-          </ul>
-
-          <div class="code-block"><pre><span class="c-dec">@app.post</span>(<span class="c-str">"/reset"</span>)
-<span class="c-kw">async def</span> <span class="c-fn">reset_env</span>(req: <span class="c-cls">ResetRequest</span>) -> <span class="c-cls">ResetResult</span>:
-    <span class="c-kw">return</span> env.<span class="c-fn">reset</span>(req.task_id, req.seed)
-
-<span class="c-dec">@app.post</span>(<span class="c-str">"/step"</span>)
-<span class="c-kw">async def</span> <span class="c-fn">step_env</span>(action: <span class="c-cls">Action</span>) -> <span class="c-cls">StepResult</span>:
-    result = env.<span class="c-fn">step</span>(action)
-    <span class="c-kw">await</span> <span class="c-fn">broadcast_event</span>(result)  <span class="c-cm"># → /ws/events</span>
-    <span class="c-kw">return</span> result
-
-<span class="c-dec">@app.websocket</span>(<span class="c-str">"/ws/events"</span>)
-<span class="c-kw">async def</span> <span class="c-fn">ws_events</span>(ws: <span class="c-cls">WebSocket</span>):
-    <span class="c-kw">await</span> ws.<span class="c-fn">accept</span>()
-    clients.<span class="c-fn">add</span>(ws)
-    <span class="c-kw">try</span>:
-        <span class="c-kw">while True</span>: <span class="c-kw">await</span> ws.<span class="c-fn">receive_text</span>()
-    <span class="c-kw">finally</span>: clients.<span class="c-fn">discard</span>(ws)</pre></div>
-        </div>
-      </div>
-    </div>
-
-    <!-- LAYER 6 -->
-    <div class="layer-card">
-      <div class="layer-header" onclick="toggleLayer(this)">
-        <div class="layer-num ln-blue">6</div>
-        <div class="layer-title-wrap">
-          <div class="layer-title">Dockerfile + HF Space deployment</div>
-          <div class="layer-file">Dockerfile · README.md · port 7860</div>
-        </div>
-        <div class="layer-toggle">▶</div>
-      </div>
-      <div class="layer-body">
-        <div class="layer-content">
-          <h4>Dockerfile (exact)</h4>
-          <div class="code-block"><pre>FROM python:<span class="c-num">3.11</span>-slim
-WORKDIR /app
-COPY requirements.txt .
-RUN pip install --no-cache-dir -r requirements.txt
-COPY . .
-EXPOSE <span class="c-num">7860</span>
-HEALTHCHECK --interval=<span class="c-num">30</span>s --timeout=<span class="c-num">10</span>s --retries=<span class="c-num">3</span> \
-  CMD curl -f http://localhost:<span class="c-num">7860</span>/health || exit <span class="c-num">1</span>
-CMD [<span class="c-str">"uvicorn"</span>, <span class="c-str">"app:app"</span>, \
-     <span class="c-str">"--host"</span>, <span class="c-str">"0.0.0.0"</span>, \
-     <span class="c-str">"--port"</span>, <span class="c-str">"7860"</span>, \
-     <span class="c-str">"--workers"</span>, <span class="c-str">"1"</span>]</pre></div>
-
-          <h4>requirements.txt (keep it minimal — fast HF build)</h4>
-          <div class="code-block"><pre>fastapi==<span class="c-num">0.110.0</span>
-uvicorn[standard]==<span class="c-num">0.27.0</span>
-pydantic>=<span class="c-num">2.0</span>
-websockets==<span class="c-num">12.0</span></pre></div>
-
-          <h4>README.md HF Space header</h4>
-          <div class="code-block"><pre>---
-title: AgentOrg CodeReview Env
-emoji: 🔍
-colorFrom: purple
-colorTo: teal
-sdk: docker
-pinned: <span class="c-kw">false</span>
-tags:
-  - openenv
-  - code-review
-  - agent-evaluation
-  - reinforcement-learning
----</pre></div>
-
-          <h4>Critical build failure points to watch</h4>
-          <ul>
-            <li>Missing entry in requirements.txt — test docker build from zero, not from cached layers</li>
-            <li>Relative imports breaking inside Docker — use absolute imports throughout or add __init__.py everywhere</li>
-            <li>PORT mismatch — HF Spaces hard-requires port 7860. uvicorn must bind to 0.0.0.0:7860</li>
-            <li>HEALTHCHECK must pass before HF marks the Space as running — test curl locally first</li>
-          </ul>
-        </div>
-      </div>
-    </div>
-
-    <!-- LAYER 7 -->
-    <div class="layer-card">
-      <div class="layer-header" onclick="toggleLayer(this)">
-        <div class="layer-num ln-pink">7</div>
-        <div class="layer-title-wrap">
-          <div class="layer-title">scripts/baseline.py — reproducible agent scores</div>
-          <div class="layer-file">scripts/baseline.py · mirrors run_demo.py · seeds 0–9</div>
-        </div>
-        <div class="layer-toggle">▶</div>
-      </div>
-      <div class="layer-body">
-        <div class="layer-content">
-          <p>Directly mirrors your run_demo.py. A naive agent that uses only keyword matching — no LLM, no reasoning. Its low scores anchor the scale: a strong LLM agent should score 3–5× higher. Run with --url to point at your live HF Space for judge verification.</p>
-
-          <h4>Naive agent strategy</h4>
-          <ul>
-            <li>Read the full diff from the observation</li>
-            <li>Apply a keyword dictionary: if "eval(" in diff → flag security/high, if "None" in diff without "is not None" → flag bug/medium, if "SELECT" with "%" or "+" → flag security/critical, etc.</li>
-            <li>After flagging, send request_changes with verdict=REQUEST_CHANGES to terminate episode</li>
-            <li>This scores ~0.25–0.35 easy, ~0.15–0.20 medium, ~0.05–0.12 hard</li>
-          </ul>
-
-          <div class="code-block"><pre><span class="c-cm"># scripts/baseline.py</span>
-<span class="c-kw">def</span> <span class="c-fn">run_episode</span>(url: str, task_id: str, seed: <span class="c-num">int</span>) -> float:
-    reset = requests.<span class="c-fn">post</span>(f<span class="c-str">"{url}/reset"</span>,
-                            json={<span class="c-str">"task_id"</span>: task_id, <span class="c-str">"seed"</span>: seed})
-    obs = reset.json()[<span class="c-str">"observation"</span>]
-    diff = obs[<span class="c-str">"diff"</span>]
-
-    <span class="c-kw">for</span> pattern, cat, sev <span class="c-kw">in</span> KEYWORD_RULES:
-        <span class="c-kw">if</span> <span class="c-fn">re.search</span>(pattern, diff, re.IGNORECASE):
-            requests.<span class="c-fn">post</span>(f<span class="c-str">"{url}/step"</span>, json={
-                <span class="c-str">"action_type"</span>: <span class="c-str">"flag_issue"</span>,
-                <span class="c-str">"category"</span>: cat, <span class="c-str">"severity"</span>: sev,
-                <span class="c-str">"body"</span>: f<span class="c-str">"Detected {cat} pattern: {pattern}"</span>
-            })
-
-    final = requests.<span class="c-fn">post</span>(f<span class="c-str">"{url}/step"</span>, json={
-        <span class="c-str">"action_type"</span>: <span class="c-str">"request_changes"</span>,
-        <span class="c-str">"verdict"</span>: <span class="c-str">"REQUEST_CHANGES"</span>,
-        <span class="c-str">"body"</span>: <span class="c-str">"Baseline review complete"</span>
-    })
-    <span class="c-kw">return</span> final.json()[<span class="c-str">"reward"</span>]</pre></div>
-        </div>
-      </div>
-    </div>
-
-  </div>
-</section>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ TASKS ═══ -->
-<section class="section fade-in" id="tasks">
-  <div class="section-header">
-    <span class="section-num">05</span>
-    <h2 class="section-title">Task Specifications <span class="tag">// what the agent faces</span></h2>
-  </div>
-
-  <div class="tasks-grid">
-    <div class="task-card">
-      <div class="task-difficulty diff-easy">● EASY</div>
-      <div class="task-name">Bug Detection</div>
-      <div class="task-detail">
-        Single-file Python diffs, 30–80 lines. Agent must identify functional bugs: off-by-one errors, null dereferences, type mismatches, wrong operators, mutable defaults. No security knowledge required.
-      </div>
-      <div style="font-size:10px; color: var(--dim); margin-bottom: 8px; letter-spacing: 0.06em; text-transform: uppercase;">task config</div>
-      <div class="task-findings">
-        <div class="finding finding-high">max_steps: 10</div>
-        <div class="finding finding-med">ground truth: 2–3 bugs per scenario</div>
-        <div class="finding finding-low">no verdict required</div>
-        <div class="finding finding-low">noise_budget: 5 false positives</div>
-      </div>
-    </div>
-    <div class="task-card">
-      <div class="task-difficulty diff-medium">◆ MEDIUM</div>
-      <div class="task-name">Security Audit</div>
-      <div class="task-detail">
-        Multi-file PRs spanning 2–4 files. Requires domain knowledge: SQL injection, XSS, JWT flaws, hardcoded secrets, insecure deserialization. Severity weighting — missing a CRITICAL is harshly penalized.
-      </div>
-      <div style="font-size:10px; color: var(--dim); margin-bottom: 8px; letter-spacing: 0.06em; text-transform: uppercase;">task config</div>
-      <div class="task-findings">
-        <div class="finding finding-crit">critical finding = 0.40 score</div>
-        <div class="finding finding-high">high finding = 0.25 score</div>
-        <div class="finding finding-med">medium = 0.15, low = 0.05</div>
-        <div class="finding finding-low">max_steps: 15</div>
-      </div>
-    </div>
-    <div class="task-card">
-      <div class="task-difficulty diff-hard">■ HARD</div>
-      <div class="task-name">Architectural Review</div>
-      <div class="task-detail">
-        Cross-service PRs, 3–6 files. Requires synthesizing tradeoffs: SOLID violations, coupling, scalability bottlenecks, missing resilience patterns. Must produce LGTM or REQUEST_CHANGES verdict. Explanation quality scored.
-      </div>
-      <div style="font-size:10px; color: var(--dim); margin-bottom: 8px; letter-spacing: 0.06em; text-transform: uppercase;">task config</div>
-      <div class="task-findings">
-        <div class="finding finding-crit">verdict required (0.2 bonus)</div>
-        <div class="finding finding-high">explanation quality scored (0.2)</div>
-        <div class="finding finding-med">max_steps: 20</div>
-        <div class="finding finding-low">body > 80 chars for full credit</div>
-      </div>
-    </div>
-  </div>
-</section>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ SCORING ═══ -->
-<section class="section fade-in" id="scoring">
-  <div class="section-header">
-    <span class="section-num">06</span>
-    <h2 class="section-title">Scoring & Reward <span class="tag">// how 0.0–1.0 is computed</span></h2>
-  </div>
-
-  <div class="reward-formula">
-    <pre><span class="rf-comment"># ── TASK 1: Bug Detection ──────────────────────────────────────────────</span>
-<span class="rf-var">score</span> = (<span class="rf-num">0.7</span> × recall) + (<span class="rf-num">0.3</span> × precision)
-<span class="rf-var">recall</span>    = true_positives / total_ground_truth_bugs
-<span class="rf-var">precision</span> = true_positives / (true_positives + false_positives)
-<span class="rf-comment"># confidence modifier per match: keyword_overlap(agent.body, gt.keywords)</span>
-
-<span class="rf-comment"># ── TASK 2: Security Audit ─────────────────────────────────────────────</span>
-<span class="rf-var">weights</span> = {critical: <span class="rf-num">0.40</span>, high: <span class="rf-num">0.25</span>, medium: <span class="rf-num">0.15</span>, low: <span class="rf-num">0.05</span>}
-<span class="rf-var">score</span> = Σ(weight[sev] × confidence) / max_possible
-<span class="rf-var">penalty</span> = false_critical_alarms × <span class="rf-num">0.15</span>  <span class="rf-comment"># dangerous false alarm = heavy cost</span>
-<span class="rf-var">score</span> = <span class="rf-fn">max</span>(<span class="rf-num">0.0</span>, score - penalty)
-
-<span class="rf-comment"># ── TASK 3: Architectural Review ───────────────────────────────────────</span>
-<span class="rf-var">issue_score</span>    = <span class="rf-num">0.60</span> × (weighted issue detection, same as task 2)
-<span class="rf-var">verdict_score</span>  = <span class="rf-num">0.20</span> × (1 if verdict == required_verdict else 0)
-<span class="rf-var">quality_score</span>  = <span class="rf-num">0.20</span> × (proportion of correctly flagged issues where len(body) > 80)
-<span class="rf-var">score</span> = issue_score + verdict_score + quality_score
-
-<span class="rf-comment"># ── NOISE BUDGET (all tasks) ───────────────────────────────────────────</span>
-<span class="rf-key">noise_budget</span> starts at <span class="rf-num">5</span>
-each false_positive flag_issue:  budget -= <span class="rf-num">1</span>
-budget == <span class="rf-num">0</span>:  done = True, score = current running_score (no further credit)</pre>
-  </div>
-
-  <div style="font-family: var(--display); font-size: 1rem; font-weight: 700; letter-spacing: -0.02em; margin-bottom: 1rem;">Hackathon scoring rubric</div>
-
-  <div class="rubric-grid">
-    <div class="rubric-item">
-      <div class="rubric-weight rw-purple">30%</div>
-      <div class="rubric-cat">Real-world utility</div>
-      <div class="rubric-desc">Does this model a task someone would actually automate? Code review: yes. Every software company pays for this.</div>
-    </div>
-    <div class="rubric-item">
-      <div class="rubric-weight rw-teal">25%</div>
-      <div class="rubric-cat">Task & grader quality</div>
-      <div class="rubric-desc">3 tasks with genuine difficulty range. Graders are deterministic, score varies across inputs, hard task challenges frontier models.</div>
-    </div>
-    <div class="rubric-item">
-      <div class="rubric-weight rw-coral">20%</div>
-      <div class="rubric-cat">Environment design</div>
-      <div class="rubric-desc">Clean state machine, noise_budget mechanic, partial credit at every step, sensible done conditions, typed action space.</div>
-    </div>
-    <div class="rubric-item">
-      <div class="rubric-weight rw-amber">15%</div>
-      <div class="rubric-cat">Code quality & spec compliance</div>
-      <div class="rubric-desc">openenv validate passes, docker build works, HF Space deploys, baseline reproduces, full typing.</div>
-    </div>
-    <div class="rubric-item">
-      <div class="rubric-weight rw-green">10%</div>
-      <div class="rubric-cat">Creativity & novelty</div>
-      <div class="rubric-desc">noise_budget mechanic, MoE-inspired confidence scoring, multi-format observations, WebSocket event stream, leaderboard.</div>
-    </div>
-  </div>
-
-  <div style="font-family: var(--display); font-size: 1rem; font-weight: 700; letter-spacing: -0.02em; margin-bottom: 1rem; margin-top: 2rem;">Expected baseline scores (seed=0 through seed=9 average)</div>
-
-  <table class="baseline-table">
-    <thead>
-      <tr>
-        <th>Task</th>
-        <th>Naive Baseline</th>
-        <th>Expected Strong LLM</th>
-        <th>Score Spread</th>
-      </tr>
-    </thead>
-    <tbody>
-      <tr>
-        <td style="color: var(--green);">bug_detection</td>
-        <td>
-          <div class="score-bar-wrap">
-            <div class="score-bar"><div class="score-bar-fill" style="width:31%;background:var(--green);"></div></div>
-            <span>0.31</span>
-          </div>
-        </td>
-        <td>
-          <div class="score-bar-wrap">
-            <div class="score-bar"><div class="score-bar-fill" style="width:82%;background:var(--teal);"></div></div>
-            <span>0.82</span>
-          </div>
-        </td>
-        <td style="color: var(--muted);">0.03 – 0.35</td>
-      </tr>
-      <tr>
-        <td style="color: var(--amber);">security_audit</td>
-        <td>
-          <div class="score-bar-wrap">
-            <div class="score-bar"><div class="score-bar-fill" style="width:18%;background:var(--amber);"></div></div>
-            <span>0.18</span>
-          </div>
-        </td>
-        <td>
-          <div class="score-bar-wrap">
-            <div class="score-bar"><div class="score-bar-fill" style="width:71%;background:var(--teal);"></div></div>
-            <span>0.71</span>
-          </div>
-        </td>
-        <td style="color: var(--muted);">0.10 – 0.25</td>
-      </tr>
-      <tr>
-        <td style="color: var(--coral);">architectural_review</td>
-        <td>
-          <div class="score-bar-wrap">
-            <div class="score-bar"><div class="score-bar-fill" style="width:9%;background:var(--coral);"></div></div>
-            <span>0.09</span>
-          </div>
-        </td>
-        <td>
-          <div class="score-bar-wrap">
-            <div class="score-bar"><div class="score-bar-fill" style="width:58%;background:var(--teal);"></div></div>
-            <span>0.58</span>
-          </div>
-        </td>
-        <td style="color: var(--muted);">0.04 – 0.15</td>
-      </tr>
-    </tbody>
-  </table>
-
-  <div class="warn-box">
-    <strong>Critical grader requirement:</strong> Run each grader with 20 different random inputs and verify the score distribution is NOT flat. At least 4 distinct score buckets must appear. A grader that always returns 0.0 or always returns 1.0 is an immediate disqualification.
-  </div>
-</section>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ TIMELINE ═══ -->
-<section class="section fade-in" id="timeline">
-  <div class="section-header">
-    <span class="section-num">07</span>
-    <h2 class="section-title">4-Day Build Order <span class="tag">// no step skipped, no order changed</span></h2>
-  </div>
-
-  <div class="timeline">
-
-    <div class="timeline-item active">
-      <div class="day-label">DAY 1 — MORNING</div>
-      <div class="timeline-title">Lock all types in models.py</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Define all 5 enums: TaskId, ActionType, Severity, Category, Verdict</div>
-        <div class="timeline-task">Define all 8 Pydantic models: FileChange, GroundTruthIssue, Observation, Action, StepResult, ResetResult, EpisodeResult, EpisodeState</div>
-        <div class="timeline-task">Add @model_validator on Action (flag_issue requires severity+category, approve/request_changes requires verdict)</div>
-        <div class="timeline-task">Write 10 isinstance assertions in a __main__ block to verify all models parse correctly</div>
-        <div class="timeline-task">Commit. Do not move on until all models are correct and type-checked with mypy or pyright</div>
-      </div>
-    </div>
-
-    <div class="timeline-item active">
-      <div class="day-label">DAY 1 — AFTERNOON</div>
-      <div class="timeline-title">Write 10 Task 1 scenarios in scenario_bank.py</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Create the Scenario dataclass and GroundTruthIssue dataclass (separate from Pydantic models — plain Python dataclasses are fine here for speed)</div>
-        <div class="timeline-task">Write all 10 bug detection scenarios with realistic Python diffs and full keyword lists (8–15 keywords per issue)</div>
-        <div class="timeline-task">Write get_scenario(task_id, seed) using random.Random(seed) for determinism</div>
-        <div class="timeline-task">Add scenario_hash as md5 of json(scenario.dict()) — used later by validate.py</div>
-        <div class="timeline-task">Test: get_scenario("bug_detection", 0) == get_scenario("bug_detection", 0) across 100 calls. Must be identical every time.</div>
-      </div>
-    </div>
-
-    <div class="timeline-item active">
-      <div class="day-label">DAY 1 — EVENING</div>
-      <div class="timeline-title">grader_utils.py + bug_grader.py — fully tested</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Write keyword_overlap() with unit tests: empty body returns 0.5, all keywords hit returns 1.0, zero keywords returns 0.0</div>
-        <div class="timeline-task">Write find_best_match() — line number ±3 OR (category + filename match)</div>
-        <div class="timeline-task">Write grade_bug() with the 0.7×recall + 0.3×precision formula</div>
-        <div class="timeline-task">Write 5 test cases in tests/test_graders.py: perfect agent gets 1.0, empty agent gets 0.0, half-correct gets ~0.5, all false positives gets near 0.0</div>
-        <div class="timeline-task">Verify score is ALWAYS in [0.0, 1.0] — add a clamp just in case</div>
-      </div>
-    </div>
-
-    <div class="timeline-item">
-      <div class="day-label">DAY 2 — MORNING</div>
-      <div class="timeline-title">env.py — Task 1 end-to-end working</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Write EpisodeState as a plain dataclass (not Pydantic — internal state doesn't need serialization)</div>
-        <div class="timeline-task">Write reset() — constructs EpisodeState, returns ResetResult with clean observation</div>
-        <div class="timeline-task">Write step() — validates action, increments step_count, calls _apply_action(), checks done condition</div>
-        <div class="timeline-task">Write _apply_action() — calls bug_grader for flag_issue, updates running_score and noise_budget</div>
-        <div class="timeline-task">Write state() — builds and returns current Observation from EpisodeState</div>
-        <div class="timeline-task">Write tests/test_env.py: reset returns step_count=0, step increments it, done=True on max_steps, done=True on approve action</div>
-      </div>
-    </div>
-
-    <div class="timeline-item">
-      <div class="day-label">DAY 2 — AFTERNOON</div>
-      <div class="timeline-title">app.py — FastAPI wrapper running</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Write the 4 required routes: /reset, /step, /state, /health</div>
-        <div class="timeline-task">Add single global env = CodeReviewEnv() instance</div>
-        <div class="timeline-task">Test every route with curl — do not proceed until all 4 return correct JSON</div>
-        <div class="timeline-task">Add /ws/events WebSocket endpoint with simple broadcast to connected clients</div>
-        <div class="timeline-task">Run tests/test_api.py via httpx.AsyncClient against the running server</div>
-      </div>
-    </div>
-
-    <div class="timeline-item">
-      <div class="day-label">DAY 2 — EVENING</div>
-      <div class="timeline-title">Dockerfile — local container confirmed working</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Write Dockerfile (exactly as specified in Layer 6)</div>
-        <div class="timeline-task">docker build -t codereview-env . — must complete with zero errors</div>
-        <div class="timeline-task">docker run -p 7860:7860 codereview-env — must start cleanly</div>
-        <div class="timeline-task">curl http://localhost:7860/health — must return {"status":"ok"}</div>
-        <div class="timeline-task">Run full curl sequence: /reset → /step × 3 → /state. Verify JSON at each step.</div>
-        <div class="timeline-task">COMMIT with message "day 2: task 1 end-to-end working in container"</div>
-      </div>
-    </div>
-
-    <div class="timeline-item">
-      <div class="day-label">DAY 3 — MORNING</div>
-      <div class="timeline-title">Task 2 + 3 scenarios and graders</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Write all 10 security_audit scenarios with multi-file diffs and severity labels</div>
-        <div class="timeline-task">Write security_grader.py with severity multipliers and false-alarm penalty</div>
-        <div class="timeline-task">Write all 10 architectural_review scenarios with required_verdict field</div>
-        <div class="timeline-task">Write arch_grader.py with issue_score + verdict_score + quality_score components</div>
-        <div class="timeline-task">Extend env.py to dispatch to the correct grader based on task_id in EpisodeState</div>
-        <div class="timeline-task">Run all grader tests — verify scores vary across 20 random inputs for each grader</div>
-      </div>
-    </div>
-
-    <div class="timeline-item">
-      <div class="day-label">DAY 3 — AFTERNOON</div>
-      <div class="timeline-title">scripts/baseline.py — capture reproducible scores</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Write the naive keyword-matching agent (see Layer 7)</div>
-        <div class="timeline-task">Run against all 3 tasks, seeds 0–9, URL pointing at local container</div>
-        <div class="timeline-task">Record every score in a table. Confirm seed=42 always gives same score across 3 independent runs.</div>
-        <div class="timeline-task">Copy scores into README.md baseline table</div>
-        <div class="timeline-task">Add --url flag so judges can point baseline.py at the live HF Space</div>
-      </div>
-    </div>
-
-    <div class="timeline-item">
-      <div class="day-label">DAY 3 — EVENING</div>
-      <div class="timeline-title">openenv.yaml + validate.py</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Write openenv.yaml — name, version, tasks (3), observation_space (typed), action_space (typed), endpoints</div>
-        <div class="timeline-task">Write scripts/validate.py — calls /health, /reset × 3 tasks, /step × 1, /state, asserts all schemas match openenv.yaml</div>
-        <div class="timeline-task">Run openenv validate (if CLI available) OR python scripts/validate.py locally — must exit 0</div>
-        <div class="timeline-task">Rebuild Docker container and run validate.py against it — must still exit 0</div>
-      </div>
-    </div>
-
-    <div class="timeline-item">
-      <div class="day-label">DAY 4 — ALL DAY</div>
-      <div class="timeline-title">README.md + HF Space + final smoke test</div>
-      <div class="timeline-tasks">
-        <div class="timeline-task">Write full README.md: HF header, environment description (3 paragraphs), observation space table, action space table, task descriptions with baseline scores, setup instructions for local + Docker, baseline scores table</div>
-        <div class="timeline-task">Create HF Space at huggingface.co/new-space, SDK: Docker</div>
-        <div class="timeline-task">Push repository to HF Space — watch build log, fix any import or port errors</div>
-        <div class="timeline-task">Once live: curl https://your-space.hf.space/health — must return 200</div>
-        <div class="timeline-task">Run scripts/validate.py --url https://your-space.hf.space — must exit 0</div>
-        <div class="timeline-task">Run scripts/baseline.py --url https://your-space.hf.space — must produce same scores as local</div>
-        <div class="timeline-task">Final commit: "submission ready — HF Space live, baseline reproducible"</div>
-      </div>
-    </div>
-
-  </div>
-</section>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ INNOVATIONS ═══ -->
-<section class="section fade-in" id="innovations">
-  <div class="section-header">
-    <span class="section-num">08</span>
-    <h2 class="section-title">5 Innovations From Your Repos <span class="tag">// what makes this unique</span></h2>
-  </div>
-
-  <div class="innovations">
-
-    <div class="innov-card" data-num="1">
-      <div class="innov-source"><span>MoE-Scoring Rust Module</span></div>
-      <div class="innov-name">Confidence-Weighted Matching</div>
-      <div class="innov-desc">
-        Your Rust MoE module routes to experts based on a confidence score. In the grader, each matched issue earns a confidence score (0.0–1.0) based on keyword overlap between the agent's body text and the ground truth keyword list. A match with 10+ keyword hits = 1.0 credit. A match with 2 hits = 0.3 credit. This creates a smooth gradient reward instead of binary hit/miss — agents learn to write better explanations over time.
-      </div>
-    </div>
-
-    <div class="innov-card" data-num="2">
-      <div class="innov-source"><span>Finance Agent Budget Enforcement</span></div>
-      <div class="innov-name">Noise Budget Mechanic</div>
-      <div class="innov-desc">
-        Your Finance Agent kills tasks that exceed token budgets. The noise_budget starts at 5 per episode. Every false positive flag_issue costs 1 from the budget. When budget hits 0, the episode ends immediately and the agent receives no further credit. This prevents the "dump every possible issue" strategy that would otherwise game the precision component of the grader. No other OpenEnv environment has this.
-      </div>
-    </div>
-
-    <div class="innov-card" data-num="3">
-      <div class="innov-source"><span>moltbot Channel Abstraction</span></div>
-      <div class="innov-name">Multi-Format Observations</div>
-      <div class="innov-desc">
-        Your moltbot abstracts over input channels. reset() accepts observation_format: "diff_only" | "full_pr" | "structured". Structured mode parses the diff into a JSON tree of added/removed/context lines with file names, line numbers, and change types. This makes the environment immediately useful as a research tool: test whether structured vs unstructured input changes agent score across models.
-      </div>
-    </div>
-
-    <div class="innov-card" data-num="4">
-      <div class="innov-source"><span>WS-Hub Go Service</span></div>
-      <div class="innov-name">WebSocket Event Stream</div>
-      <div class="innov-desc">
-        Your Go WS-Hub broadcasts agent events to the Next.js dashboard in real time. Mirrored as /ws/events — every step() call broadcasts the StepResult as JSON to all connected WebSocket clients. This enables live monitoring during judge evaluation runs, makes the HF Space feel alive rather than static, and is a direct demonstration of your architectural thinking.
-      </div>
-    </div>
-
-    <div class="innov-card" data-num="5">
-      <div class="innov-source"><span>hive Repeatability Focus</span></div>
-      <div class="innov-name">Scenario Hash + Leaderboard</div>
-      <div class="innov-desc">
-        Your hive repo emphasizes repeatability and outcome tracking. Every scenario has a deterministic hash. validate.py compares the hash returned by /reset with the expected hash for that (task_id, seed) pair — proving the scenario generator is deterministic across deployments. The /leaderboard endpoint stores top-5 scores per task in memory, giving the HF Space a live competitive dimension.
-      </div>
-    </div>
-
-  </div>
-</section>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ DISQUALIFICATION ═══ -->
-<section class="section fade-in">
-  <div class="section-header">
-    <span class="section-num">09</span>
-    <h2 class="section-title">Disqualification Traps <span class="tag">// common failures that kill submissions</span></h2>
-  </div>
-
-  <div style="display: grid; grid-template-columns: repeat(auto-fit, minmax(350px,1fr)); gap: 1px; background: var(--border); border: 1px solid var(--border); border-radius: 8px; overflow: hidden;">
-
-    <div style="background: var(--surface); padding: 1.25rem; border-left: 3px solid var(--coral);">
-      <div style="font-family: var(--display); font-weight: 700; font-size: 13px; color: #ff9999; margin-bottom: 0.5rem;">Flat grader scores</div>
-      <div style="font-size: 11px; color: var(--muted); line-height: 1.7;">Run each grader with 20 different random inputs. If the output distribution has fewer than 4 distinct buckets, your grader is broken. Check: does a perfect agent score 1.0? Does an empty agent score 0.0? Does a partial agent score ~0.5?</div>
-    </div>
-
-    <div style="background: var(--surface); padding: 1.25rem; border-left: 3px solid var(--coral);">
-      <div style="font-family: var(--display); font-weight: 700; font-size: 13px; color: #ff9999; margin-bottom: 0.5rem;">done=True never fires</div>
-      <div style="font-size: 11px; color: var(--muted); line-height: 1.7;">Trace your done condition explicitly. Three ways it must fire: approve/request_changes action, step_count >= max_steps, noise_budget <= 0. If done never fires, the /step endpoint loops forever and the agentic eval hangs.</div>
-    </div>
-
-    <div style="background: var(--surface); padding: 1.25rem; border-left: 3px solid var(--amber);">
-      <div style="font-family: var(--display); font-weight: 700; font-size: 13px; color: var(--amber); margin-bottom: 0.5rem;">Non-reproducible baseline</div>
-      <div style="font-size: 11px; color: var(--muted); line-height: 1.7;">Run baseline.py with seed=42 three times from a fresh process. All three runs must produce byte-for-byte identical score tables. If they differ, your scenario_bank.py is not deterministic. Use random.Random(seed) not global random.</div>
-    </div>
-
-    <div style="background: var(--surface); padding: 1.25rem; border-left: 3px solid var(--amber);">
-      <div style="font-family: var(--display); font-weight: 700; font-size: 13px; color: var(--amber); margin-bottom: 0.5rem;">openenv.yaml schema drift</div>
-      <div style="font-size: 11px; color: var(--muted); line-height: 1.7;">If the YAML says action.severity is a string enum but the API accepts bare integers, validate.py will fail. Write the YAML after the models are final, not before. Copy enum values directly from models.py into the YAML.</div>
-    </div>
-
-    <div style="background: var(--surface); padding: 1.25rem; border-left: 3px solid var(--border2);">
-      <div style="font-family: var(--display); font-weight: 700; font-size: 13px; color: var(--muted); margin-bottom: 0.5rem;">Docker port mismatch</div>
-      <div style="font-size: 11px; color: var(--muted); line-height: 1.7;">HF Spaces requires port 7860. Verify: EXPOSE 7860 in Dockerfile, uvicorn --port 7860, and HEALTHCHECK hitting port 7860. All three must match. A common failure is uvicorn defaulting to 8000.</div>
-    </div>
-
-    <div style="background: var(--surface); padding: 1.25rem; border-left: 3px solid var(--border2);">
-      <div style="font-family: var(--display); font-weight: 700; font-size: 13px; color: var(--muted); margin-bottom: 0.5rem;">Relative imports in Docker</div>
-      <div style="font-size: 11px; color: var(--muted); line-height: 1.7;">from .models import Action works when running locally but fails in Docker if the WORKDIR setup is wrong. Use absolute imports throughout: from codereview_env.models import Action. Add an empty __init__.py to every package directory.</div>
-    </div>
-
-  </div>
-</section>
-
-<hr class="rule">
-
-<!-- ═══════════════════════════════════ CHECKLIST ═══ -->
-<section class="section fade-in" id="checklist">
-  <div class="section-header">
-    <span class="section-num">10</span>
-    <h2 class="section-title">Final Submission Checklist <span class="tag">// click to mark complete</span></h2>
-  </div>
-
-  <div style="font-size: 11px; color: var(--dim); margin-bottom: 1rem; letter-spacing: 0.04em;">Click items to mark as done. State is saved in this browser.</div>
-
-  <div class="checklist" id="checklist">
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>models.py</strong> — all 5 enums, all 8 Pydantic models, @model_validator on Action, mypy clean</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>scenario_bank.py</strong> — 30 scenarios (10 per task), keywords per issue, seed determinism verified</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>grader_utils.py</strong> — keyword_overlap(), find_best_match(), unit tested</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>bug_grader.py</strong> — grade_bug(), score varies across 20 inputs, always [0.0, 1.0]</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>security_grader.py</strong> — severity multipliers, false-alarm penalty, normalized to 1.0</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>arch_grader.py</strong> — issue + verdict + quality components, all three tasks dispatch correctly</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>env.py</strong> — reset/step/state, noise_budget, 3 done conditions, clean reset between episodes</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>app.py</strong> — 4 required routes + /ws/events + /leaderboard, all return correct JSON</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>tests/</strong> — test_env.py + test_graders.py + test_api.py, all pytest green</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>Dockerfile</strong> — docker build succeeds, docker run starts, /health returns 200, HEALTHCHECK passes</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>openenv.yaml</strong> — name, version, 3 tasks, observation_space, action_space, endpoints all filled</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>scripts/baseline.py</strong> — runs all 3 tasks, seeds 0–9, tabular output, seed=42 reproducible across 3 runs</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>scripts/validate.py</strong> — calls /health /reset /step /state, asserts schemas, exits 0</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>README.md</strong> — HF Space header, environment description, obs/action tables, task descriptions, baseline scores, setup instructions</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>HF Space</strong> — deployed, live URL responds, /health returns 200, sdk: docker tag visible</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>Live smoke test</strong> — validate.py --url [HF URL] exits 0, baseline.py --url [HF URL] matches local scores</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>Grader distribution check</strong> — each grader produces 4+ distinct score buckets across 20 random inputs</div></div>
-    <div class="check-item" onclick="toggleCheck(this)"><div class="check-box"></div><div class="check-text"><strong>Hard task challenge check</strong> — frontier model (GPT-4 or Claude) scores &lt; 0.75 on architectural_review (it should be genuinely hard)</div></div>
-  </div>
-
-  <div id="checklist-progress" style="margin-top: 1.5rem; padding: 1rem; background: var(--surface); border: 1px solid var(--border); border-radius: 6px; display: flex; align-items: center; gap: 1rem;">
-    <div style="flex: 1;">
-      <div style="font-size: 11px; color: var(--dim); margin-bottom: 6px; letter-spacing: 0.06em; text-transform: uppercase;">Completion</div>
-      <div style="height: 4px; background: var(--border); border-radius: 2px; overflow: hidden;">
-        <div id="progress-fill" style="height: 100%; background: var(--purple); border-radius: 2px; width: 0%; transition: width 0.3s;"></div>
-      </div>
-    </div>
-    <div id="progress-text" style="font-family: var(--display); font-size: 1.5rem; font-weight: 800; color: var(--purple); letter-spacing: -0.04em; min-width: 60px; text-align: right;">0 / 18</div>
-  </div>
-</section>
-
-<hr class="rule">
-
-<footer>
-  <div class="footer-brand">AgentOrg · CodeReview · OpenEnv Roadmap</div>
-  <div class="footer-note">Built from deep analysis of 4 repos · Follows hackathon spec exactly · v1.0</div>
-</footer>
-
-<script>
-// ─── SCROLL PROGRESS ───
-window.addEventListener('scroll', () => {
-  const total = document.body.scrollHeight - window.innerHeight;
-  const pct = (window.scrollY / total) * 100;
-  document.getElementById('progress-bar').style.width = pct + '%';
-});
-
-// ─── LAYER ACCORDION ───
-function toggleLayer(header) {
-  const body = header.nextElementSibling;
-  const toggle = header.querySelector('.layer-toggle');
-  const isOpen = body.classList.contains('open');
-  body.classList.toggle('open', !isOpen);
-  toggle.classList.toggle('open', !isOpen);
-}
-
-// ─── CHECKLIST ───
-function toggleCheck(item) {
-  item.classList.toggle('done');
-  const box = item.querySelector('.check-box');
-  box.textContent = item.classList.contains('done') ? '✓' : '';
-  updateProgress();
-  saveChecklist();
-}
-
-function updateProgress() {
-  const items = document.querySelectorAll('.check-item');
-  const done = document.querySelectorAll('.check-item.done').length;
-  const total = items.length;
-  const pct = (done / total) * 100;
-  document.getElementById('progress-fill').style.width = pct + '%';
-  document.getElementById('progress-text').textContent = `${done} / ${total}`;
-  const fill = document.getElementById('progress-fill');
-  if (pct >= 100) fill.style.background = 'var(--green)';
-  else if (pct >= 50) fill.style.background = 'var(--teal)';
-  else fill.style.background = 'var(--purple)';
-}
-
-function saveChecklist() {
-  const items = document.querySelectorAll('.check-item');
-  const state = Array.from(items).map(i => i.classList.contains('done'));
-  try { localStorage.setItem('roadmap-checklist', JSON.stringify(state)); } catch(e) {}
-}
-
-function loadChecklist() {
-  try {
-    const saved = JSON.parse(localStorage.getItem('roadmap-checklist') || '[]');
-    const items = document.querySelectorAll('.check-item');
-    items.forEach((item, i) => {
-      if (saved[i]) {
-        item.classList.add('done');
-        item.querySelector('.check-box').textContent = '✓';
-      }
-    });
-    updateProgress();
-  } catch(e) {}
-}
-
-// ─── FADE IN OBSERVER ───
-const observer = new IntersectionObserver((entries) => {
-  entries.forEach(e => { if (e.isIntersecting) e.target.classList.add('visible'); });
-}, { threshold: 0.05 });
-
-document.querySelectorAll('.fade-in').forEach(el => observer.observe(el));
-
-// ─── INIT ───
-document.addEventListener('DOMContentLoaded', () => {
-  loadChecklist();
-});
-</script>
-
-</body>
-</html>
\ No newline at end of file

Task	Naive Baseline	Expected Strong LLM	Score Spread
bug_detection	- - - 0.31 - -	- - - 0.82 - -	0.03 – 0.35
security_audit	- - - 0.18 - -	- - - 0.71 - -	0.10 – 0.25
architectural_review	- - - 0.09 - -	- - - 0.58 - -	0.04 – 0.15