EXAM-FINALBENCH2

Sleeping

App Files Files Community

seawolf2357 commited on Mar 9

Commit

e40a043

verified ·

1 Parent(s): f7e6776

Update app.py

Browse files

Files changed (1) hide show

app.py +377 -396

app.py CHANGED Viewed

@@ -1,464 +1,445 @@
 """
-FINAL Bench Auto-Evaluator v1.0
-================================
-FINAL Bench 100문제 x HF Inference API -> GPT-5.2 Judge -> final_scores.json
-- 시험 문제: FINAL-Bench/Metacognitive (HuggingFace Dataset)
-- 시험 응시자: ALL Bench 등재 HF Inference API 모델
-- 심판: GPT-5.2 (os.getenv("OPENAI_API_KEY"))
-- 출력: final_scores.json -> ALL Bench Metacog 컬럼 자동 반영
-Author: Ginigen AI · FINAL-Bench · Apache 2.0
 """
-import json, os, time, csv, io, re, hashlib, sqlite3, threading
 from datetime import datetime
-from dataclasses import dataclass, field, asdict
-from typing import Dict, Optional
-from concurrent.futures import ThreadPoolExecutor
-import requests
-import numpy as np
-import gradio as gr
-PILLAR_INFO = {
-    "P1_Emergence":         {"name": "창발성",   "icon": "✦", "color": "#FF6B35", "weight": 0.20},
-    "P2_Metacognition":     {"name": "메타인지", "icon": "◉", "color": "#7B2FF7", "weight": 0.25},
-    "P3_SelfEvolution":     {"name": "자가진화", "icon": "◈", "color": "#00B4D8", "weight": 0.15},
-    "P4_Orchestration":     {"name": "다중지능", "icon": "◬", "color": "#2EC4B6", "weight": 0.15},
-    "P5_SynergyAntagonism": {"name": "상생상극", "icon": "☯", "color": "#E63946", "weight": 0.25},
-}
 @dataclass
-class EvalTask:
-    task_id: str; pillar: str; sub_dimension: str; difficulty: str
-    prompt: str; context: Optional[str] = None; expected_behavior: Optional[str] = None
-    scoring_rubric: Dict = field(default_factory=dict); metadata: Dict = field(default_factory=dict)
-# ══ FINAL Bench 100문제 로드 ══
 def load_tasks():
-    """FINAL-Bench/Metacognitive HF Dataset에서 100문제 로드"""
     try:
         from datasets import load_dataset
-        ds = load_dataset("FINAL-Bench/Metacognitive", split="train")
-        tasks = []
-        for row in ds:
-            rubric = row.get("scoring_rubric", {})
-            if isinstance(rubric, str):
-                try: rubric = json.loads(rubric)
-                except: rubric = {}
-            meta = row.get("metadata") or {}
-            if isinstance(meta, str):
-                try: meta = json.loads(meta)
-                except: meta = {}
-            tasks.append(EvalTask(
-                task_id=row["task_id"], pillar=row["pillar"],
-                sub_dimension=row["sub_dimension"], difficulty=row["difficulty"],
-                prompt=row["prompt"], context=row.get("context"),
-                expected_behavior=row.get("expected_behavior"),
-                scoring_rubric=rubric, metadata=meta))
-        print(f"✅ FINAL Bench: {len(tasks)}문제 로드 (HF Dataset)")
         return tasks
     except Exception as e:
-        print(f"⚠️ HF Dataset 실패: {e}, parquet 폴백...")
-        try:
-            import pandas as pd
-            df = pd.read_parquet("full_v2.parquet")
-            tasks = []
-            for _, row in df.iterrows():
-                rubric = row["scoring_rubric"]
-                if isinstance(rubric, str): rubric = json.loads(rubric)
-                tasks.append(EvalTask(
-                    task_id=row["task_id"], pillar=row["pillar"],
-                    sub_dimension=row["sub_dimension"], difficulty=row["difficulty"],
-                    prompt=row["prompt"], context=row.get("context"),
-                    expected_behavior=row.get("expected_behavior"),
-                    scoring_rubric=rubric, metadata={}))
-            print(f"✅ Parquet 폴백: {len(tasks)}문제")
-            return tasks
-        except Exception as e2:
-            print(f"❌ 로드 실패: {e2}")
-            return []
-ALL_TASKS = load_tasks()
-# ══ ALL Bench 등재 HF Inference API 모델 ══
-HF_MODELS = {
-    "Qwen3.5-397B":     "Qwen/Qwen3.5-397B-A17B",
-    "Qwen3.5-122B":     "Qwen/Qwen3.5-122B-A10B",
-    "Qwen3.5-27B":      "Qwen/Qwen3.5-27B",
-    "Qwen3.5-35B":      "Qwen/Qwen3.5-35B-A3B",
-    "Qwen3.5-9B":       "Qwen/Qwen3.5-9B",
-    "Qwen3.5-4B":       "Qwen/Qwen3.5-4B",
-    "Qwen3-Next-80B":   "Qwen/Qwen3-Next-80B-A3B-Thinking",
-    "DeepSeek V3.2":    "deepseek-ai/DeepSeek-V3-0324",
-    "DeepSeek R1":      "deepseek-ai/DeepSeek-R1",
-    "Llama 4 Scout":    "meta-llama/Llama-4-Scout-17B-16E-Instruct",
-    "Llama 4 Maverick": "meta-llama/Llama-4-Maverick-17B-128E-Instruct",
-    "Phi-4":            "microsoft/phi-4",
-    "Mistral Large 3":  "mistralai/Mistral-Large-Instruct-2501",
 }
-# ══ LLM 호출: HF Inference API ══
-def _strip(text):
-    if not text: return text
-    for t in ['think','thinking','reasoning','reflection']:
-        text = re.sub(rf'<{t}>.*?</{t}>', '', text, flags=re.DOTALL)
-    return text.strip()
-def call_model(prompt, system="", model_id="Qwen/Qwen3.5-397B-A17B", max_tokens=4096, temperature=0.6):
-    hf_token = os.getenv("HF_TOKEN", "")
-    if not hf_token: return "[API_ERROR] HF_TOKEN 미설정"
-    msgs = []
-    if system: msgs.append({"role":"system","content":system})
     msgs.append({"role":"user","content":prompt})
-    headers = {"Content-Type":"application/json","Authorization":f"Bearer {hf_token}"}
-    payload = {"model":model_id,"messages":msgs,"max_tokens":max_tokens,"temperature":temperature,"stream":False}
-    for attempt in range(3):
         try:
-            r = requests.post(f"https://router.huggingface.co/hf-inference/models/{model_id}/v1/chat/completions",
-                              headers=headers, json=payload, timeout=180)
-            if r.status_code in (429, 503):
-                time.sleep(10*(attempt+1)); continue
             r.raise_for_status()
             return _strip(r.json()["choices"][0]["message"]["content"])
         except Exception as e:
-            if attempt < 2: time.sleep(5*(attempt+1))
-            else: return f"[API_ERROR] {e}"
-# ══ Judge: GPT-5.2 (OPENAI_API_KEY) ══
-JUDGE_SYS = """You are a FINAL Bench scoring judge. Score each rubric item using ONLY: 0.0, 0.25, 0.5, 0.75, 1.0.
-1.0=Excellent 0.75=Good 0.5=Average 0.25=Below 0.0=Fails
-Output JSON: {"scores":{...}, "comment":"한줄평가"}. Every rubric key MUST appear."""
-def call_judge(prompt, rubric_keys):
-    api_key = os.getenv("OPENAI_API_KEY", "")
-    if not api_key: return None
-    props = {k:{"type":"number","enum":[0.0,0.25,0.5,0.75,1.0]} for k in rubric_keys}
-    schema = {"type":"object","properties":{"scores":{"type":"object","properties":props,
-              "required":list(rubric_keys),"additionalProperties":False},
-              "comment":{"type":"string"}},"required":["scores","comment"],"additionalProperties":False}
-    payload = {"model":"gpt-5.2","max_completion_tokens":4096,"temperature":0.1,
-               "messages":[{"role":"system","content":JUDGE_SYS},{"role":"user","content":prompt}],
-               "response_format":{"type":"json_schema","json_schema":{"name":"JudgeResult","strict":True,"schema":schema}}}
-    headers = {"Content-Type":"application/json","Authorization":f"Bearer {api_key}"}
-    for attempt in range(3):
         try:
-            r = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload, timeout=180)
-            if r.status_code == 429: time.sleep(8*(attempt+1)); continue
             r.raise_for_status()
-            content = _strip(r.json()["choices"][0]["message"]["content"])
-            if not content:
-                if attempt < 2: time.sleep(3); continue
                 return None
-            data = json.loads(content)
-            if "scores" in data:
-                for k in rubric_keys:
-                    if k not in data["scores"]: data["scores"][k] = 0.5
-                return data
-        except:
-            if attempt < 2: time.sleep(5*(attempt+1)); continue
-            return None
     return None
-def judge_prompt(task, response):
-    keys = list(task.scoring_rubric.keys())
-    skel = ", ".join([f'\"{k}\": ___' for k in keys])
-    rubric = "\n".join([f'  \"{k}\": {v["desc"]}' for k,v in task.scoring_rubric.items()])
-    return f"Task: {task.task_id} | {task.pillar} | {task.difficulty}\nPrompt: {task.prompt[:800]}\nExpected: {(task.expected_behavior or 'N/A')[:300]}\nResponse: {response[:8000]}\n\nRubric:\n{rubric}\n\nOutput JSON: {{\"scores\": {{{skel}}}, \"comment\": \"한줄평가\"}}"
-def score(scores, rubric):
-    return round(sum(scores.get(k,0.5)*v["weight"] for k,v in rubric.items())*100, 2)
-# ══ 다중 라운드 과제 ══
-def _mutual(topic, mid):
-    r1 = call_model(f"[R1] \'{topic}\' 500단어 분석.", model_id=mid)
-    r2 = call_model(f"[R2] 비판하라.\n---\n{r1[:2000]}", model_id=mid)
-    r3 = call_model(f"[R3] 수정하라.\n--- 원문 ---\n{r1[:1500]}\n--- 비판 ---\n{r2[:1500]}", model_id=mid)
-    r4 = call_model(f"[R4] 메타분석.\n--- R1 ---\n{r1[:800]}\n--- R2 ---\n{r2[:800]}\n--- R3 ---\n{r3[:800]}", model_id=mid)
-    return f"[R1]\n{r1}\n\n[R2]\n{r2}\n\n[R3]\n{r3}\n\n[R4]\n{r4}"
-def _feedback(pj, mid):
-    try: data = json.loads(pj)
-    except: return call_model(pj, model_id=mid)
-    topic, specs = data.get("topic",""), data.get("rounds",[])
-    outs, prev = [], ""
-    for i, rd in enumerate(specs):
-        inst, fb = rd.get("instruction",""), rd.get("feedback")
-        if i==0: p = f"\'{topic}\' - {inst}."
-        elif fb: p = f"피드백 반영: {inst}.\n--- 이전 ---\n{prev[:2000]}\n--- 피드백 ---\n{fb}"
-        else: p = f"{inst}.\n--- 최종 ---\n{prev[:2500]}"
-        resp = call_model(p, model_id=mid); outs.append(f"[R{i+1}]\n{resp}"); prev = resp
-    return "\n\n".join(outs)
-def run_task(task, mid):
-    if task.sub_dimension == "mutual_verification":
-        return _mutual(task.prompt.replace("[상생-상극 사이클] ","").split("\n")[0], mid)
-    elif task.sub_dimension == "feedback_incorporation":
-        return _feedback(task.prompt, mid)
-    return call_model(task.prompt, model_id=mid)
-# ══ DB 체크포인트 ══
-DB = "final_bench.db"
-def _initdb():
-    c = sqlite3.connect(DB)
-    c.execute("CREATE TABLE IF NOT EXISTS r (rid TEXT,tid TEXT,resp TEXT,judge TEXT,score REAL,ts REAL,PRIMARY KEY(rid,tid))")
-    c.commit(); c.close()
-def _rid(m): return hashlib.md5(m.encode()).hexdigest()[:12]
-def _sv(rid,tid,resp,jdg,sc):
-    c=sqlite3.connect(DB); c.execute("INSERT OR REPLACE INTO r VALUES(?,?,?,?,?,?)",(rid,tid,resp,jdg,sc,time.time())); c.commit(); c.close()
-def _loadall(rid):
-    c=sqlite3.connect(DB); rows=c.execute("SELECT tid,resp,judge,score FROM r WHERE rid=?", (rid,)).fetchall(); c.close()
-    return {r[0]:{"response":r[1],"judge":r[2],"score":r[3]} for r in rows}
-def _clr(rid):
-    c=sqlite3.connect(DB); c.execute("DELETE FROM r WHERE rid=?",(rid,)); c.commit(); c.close()
-_initdb()
-# ══ Scores 저장 + HF 업로드 ══
-SF = "final_scores.json"
-def load_sf():
     try:
-        with open(SF) as f: return json.load(f)
-    except: return {"version":"1.0","updated":"","models":{}}
-def save_sf(mn, ps, fs, total, done):
-    d = load_sf(); d["updated"]=datetime.now().isoformat()
-    d["models"][mn]={"final_score":fs,"pillar_scores":{p:round(s,2) for p,s in ps.items()},
-                     "total_tasks":total,"completed":done,"evaluated_at":datetime.now().isoformat()}
-    with open(SF,"w") as f: json.dump(d,f,indent=2,ensure_ascii=False)
     return d
-def upload_sf(d):
-    tk = os.getenv("HF_TOKEN","")
-    if not tk: return "⚠️ HF_TOKEN 미설정"
     try:
         from huggingface_hub import HfApi
-        api = HfApi(token=tk)
         api.upload_file(path_or_fileobj=json.dumps(d,indent=2,ensure_ascii=False).encode("utf-8"),
-                        path_in_repo="final_scores.json", repo_id="FINAL-Bench/ALL-Bench-Leaderboard",
-                        repo_type="dataset", commit_message=f"FINAL Score {datetime.now().strftime('%m-%d %H:%M')}")
-        return "✅ HF Dataset 업로드 완료"
-    except Exception as e: return f"❌ {e}"
-# ══ 평가 워커 ══
-def _eval1(task, rid, mid, st):
     try:
-        resp = run_task(task, mid)
         if resp.startswith("[API_ERROR"):
-            _sv(rid,task.task_id,resp,"{}",0)
-            with st["lock"]: st["done"]+=1; st["err"].append(task.task_id)
-            return task.task_id, {"response":resp,"judge":"{}","score":0}
-        rk = list(task.scoring_rubric.keys())
-        jp = judge_prompt(task, resp)
-        jd = call_judge(jp, rk)
         if jd is None:
-            _sv(rid,task.task_id,resp,'{"failed":true}',-1)
-            with st["lock"]: st["done"]+=1; st["jf"]+=1
-            return task.task_id, {"response":resp,"judge":'{"failed":true}',"score":-1}
-        sc = score(jd["scores"], task.scoring_rubric)
-        jj = json.dumps(jd, ensure_ascii=False)
-        _sv(rid,task.task_id,resp,jj,sc)
-        with st["lock"]:
-            st["done"]+=1; st["jok"]+=1
-            info = PILLAR_INFO.get(task.pillar,{})
-            st["rec"].append(f'{info.get("icon","")} {task.task_id} → {sc:.0f}')
-            if len(st["rec"])>8: st["rec"]=st["rec"][-8:]
-        return task.task_id, {"response":resp,"judge":jj,"score":sc}
     except Exception as e:
-        _sv(rid,task.task_id,f"[ERR]{e}","{}",0)
-        with st["lock"]: st["done"]+=1; st["err"].append(f"{task.task_id}:{str(e)[:40]}")
-        return task.task_id, {"response":f"[ERR]{e}","judge":"{}","score":0}
-# ══ 글로벌 상태 + 백그라운드 ══
-_S = {"running":False,"stop":False,"finished":False,"model":"","rid":"",
-      "done":0,"total":0,"cached":0,"err":[],"rec":[],"jok":0,"jf":0,
-      "t0":0,"results":{},"tasks":[],"lock":threading.Lock(),"msg":"","csv":None,"hf":""}
 def _rst():
-    with _S["lock"]:
-        _S.update({"running":False,"stop":False,"finished":False,"done":0,"cached":0,
-                   "err":[],"rec":[],"jok":0,"jf":0,"t0":0,"results":{},"tasks":[],"msg":"","csv":None,"hf":""})
-def _bg(mn, mid, tasks, rid, wk):
     try:
-        cached = _loadall(rid)
-        pending = [t for t in tasks if t.task_id not in cached]
-        with _S["lock"]: _S["results"]=cached; _S["cached"]=len(cached); _S["total"]=len(tasks); _S["t0"]=time.time()
-        if not pending:
-            with _S["lock"]: _S["msg"]=f"💾 캐시 완료 ({len(cached)}개)"
-            _fin(tasks,cached,mn); return
-        with _S["lock"]: _S["msg"]=f"⚡ {len(pending)}문제 · {wk}워커"
-        with ThreadPoolExecutor(max_workers=wk) as ex:
-            futs = {ex.submit(_eval1,t,rid,mid,_S):t for t in pending if not _S["stop"]}
-            done_set = set()
-            while len(done_set)<len(futs):
-                if _S["stop"]:
-                    with _S["lock"]: _S["msg"]="⏹️ 중단"; _S["running"]=False; _S["finished"]=True
                     return
                 for f in list(futs):
-                    if f in done_set: continue
                     if f.done():
-                        done_set.add(f)
                         try:
-                            tid,data = f.result()
-                            with _S["lock"]: _S["results"][tid]=data
-                        except: pass
                 time.sleep(0.5)
-        with _S["lock"]: results=dict(_S["results"])
-        _fin(tasks,results,mn)
     except Exception as e:
-        with _S["lock"]: _S["msg"]=f"❌ {str(e)[:100]}"; _S["running"]=False; _S["finished"]=True
-def _fin(tasks, results, mn):
-    ps = {}
-    for p in PILLAR_INFO:
-        valid = [results[t.task_id]["score"] for t in tasks if t.pillar==p and t.task_id in results and results[t.task_id]["score"]>=0]
-        if valid: ps[p] = np.mean(valid)
-    wts = {p:info["weight"] for p,info in PILLAR_INFO.items()}
-    fs = round(sum(ps.get(p,0)*w for p,w in wts.items()), 2)
-    done = sum(1 for t in tasks if t.task_id in results and results[t.task_id]["score"]>=0)
-    sd = save_sf(mn, ps, fs, len(tasks), done)
-    hf = upload_sf(sd)
-    el = int(time.time()-_S["t0"]) if _S["t0"] else 0
-    with _S["lock"]:
-        _S["hf"]=hf; _S["msg"]=f"🏁 FINAL Score = {fs:.1f} ({el}초)"
-        _S["running"]=False; _S["finished"]=True
-def _start(mc, mt, wk, fresh):
-    if _S["running"]: return "⚠️ 진행 중"
-    if not os.getenv("HF_TOKEN"): return "❌ HF_TOKEN (Secrets)"
-    if not os.getenv("OPENAI_API_KEY"): return "❌ OPENAI_API_KEY (Secrets)"
-    if not ALL_TASKS: return "❌ 과제 로드 실패"
-    mid = HF_MODELS.get(mc, mc)
-    tasks = ALL_TASKS[:int(mt)]
-    rid = _rid(mid)
-    if fresh: _clr(rid)
-    _rst()
-    with _S["lock"]:
-        _S.update({"running":True,"rid":rid,"model":mc,"tasks":tasks,"total":len(tasks),"msg":"🔄 준비..."})
-    threading.Thread(target=_bg, args=(mc,mid,tasks,rid,int(wk)), daemon=True).start()
-    return f"⚡ {mc} 평가 시작 ({len(tasks)}문제, {int(wk)}워커)"
-def _stop():
-    if _S["running"]: _S["stop"]=True; return "⏹️ 중단 요청"
-    return "ℹ️ 실행 중 아님"
-# ══ UI 빌더 ══
-CSS = """<style>
-.score-bar{background:#e0e0e0;border-radius:8px;height:18px;overflow:hidden;min-width:80px}
-.score-fill{height:100%;border-radius:8px}
-.summary-card{background:linear-gradient(135deg,#1a1a2e,#16213e);border-radius:14px;padding:24px;color:#fff}
-.pillar-row{display:flex;align-items:center;gap:10px;margin:6px 0}
-.pillar-bar{flex:1;background:#333;border-radius:6px;height:16px;overflow:hidden}
-.pillar-fill{height:100%;border-radius:6px}
-.pbar{background:#e0e0e0;border-radius:8px;height:22px;overflow:hidden}
-.pfill{height:100%;border-radius:8px;background:linear-gradient(90deg,#6366f1,#10b981)}
-</style>"""
-def _c(s): return "#4caf50" if s>=80 else ("#ff9800" if s>=60 else "#f44336")
 def _poll():
-    with _S["lock"]:
-        run,fin = _S["running"],_S["finished"]
-        tasks,res = _S.get("tasks",[]),dict(_S.get("results",{}))
-        msg = _S.get("msg","")
     if not run and not fin and not res:
-        return ("ℹ️ 모델 선택 → ▶️ 시작", "", "", None)
-    # Progress
     if run:
-        d,tot = _S["done"],max(_S.get("total",1),1)
-        pct = min(int(d/tot*100),100)
-        el = int(time.time()-_S.get("t0",time.time()))
-        eta = int((el/max(d,1))*(tot-d)) if d>0 else 0
-        tags = " ".join([f'<span style="background:#e8eaf6;padding:2px 8px;border-radius:4px;font-size:.8em">{r}</span>' for r in _S.get("rec",[])[-6:]])
-        prog = f'{CSS}<div><div style="display:flex;justify-content:space-between;margin-bottom:4px"><span>⚡ {d}/{tot} | {el}초 | ~{eta}초</span><span style="font-weight:700">{pct}%</span></div><div class="pbar"><div class="pfill" style="width:{pct}%"></div></div><div style="margin-top:6px">{tags}</div><div style="margin-top:4px;font-size:.85em">⚖️ ✅{_S.get("jok",0)} ❌{_S.get("jf",0)}</div></div>'
     elif fin:
-        prog = f'<div style="background:#e8f5e9;padding:14px;border-radius:8px;font-weight:700">{msg}</div>'
-    else: prog = msg
-    # Table
-    tbl = ""
     if tasks:
-        rows = ""
         for t in tasks:
-            info = PILLAR_INFO.get(t.pillar,{})
             if t.task_id in res:
-                s = res[t.task_id]["score"]
-                if s<0: rows += f'<tr style="background:#fff3e0"><td>{t.task_id}</td><td>{info.get("icon","")} {info.get("name","")}</td><td>{t.difficulty}</td><td style="color:#ff9800">❌</td><td>—</td></tr>'
                 else:
-                    c = _c(s)
-                    rows += f'<tr><td>{t.task_id}</td><td>{info.get("icon","")} {info.get("name","")}</td><td>{t.difficulty}</td><td><div class="score-bar"><div class="score-fill" style="width:{min(s,100)}%;background:{c}"></div></div></td><td style="color:{c};font-weight:700">{s:.1f}</td></tr>'
-            else: rows += f'<tr style="opacity:.35"><td>{t.task_id}</td><td>{info.get("icon","")}</td><td>{t.difficulty}</td><td>⏳</td><td>—</td></tr>'
-        tbl = f'{CSS}<table style="width:100%;border-collapse:collapse;font-size:.85em"><thead><tr><th style="background:#f0f4f8;padding:8px;text-align:left;border-bottom:2px solid #ccc">ID</th><th style="background:#f0f4f8;padding:8px">기둥</th><th style="background:#f0f4f8;padding:8px">난이도</th><th style="background:#f0f4f8;padding:8px">점수</th><th style="background:#f0f4f8;padding:8px">값</th></tr></thead><tbody>{rows}</tbody></table>'
-    # Summary
-    summ = ""
     if fin and tasks:
-        ps = {}
-        for p in PILLAR_INFO:
-            valid = [res[t.task_id]["score"] for t in tasks if t.pillar==p and t.task_id in res and res[t.task_id]["score"]>=0]
-            if valid: ps[p]=np.mean(valid)
-        wts = {p:info["weight"] for p,info in PILLAR_INFO.items()}
-        fs = round(sum(ps.get(p,0)*w for p,w in wts.items()),2)
-        g = "A" if fs>=80 else ("B+" if fs>=70 else ("B" if fs>=60 else "C"))
-        ph = ""
-        for p,info in PILLAR_INFO.items():
-            s=ps.get(p,0); c=_c(s); w=int(info["weight"]*100)
-            ph += f'<div class="pillar-row"><span style="width:140px">{info["icon"]} {info["name"]} ({w}%)</span><div class="pillar-bar"><div class="pillar-fill" style="width:{min(s,100)}%;background:{c}"></div></div><span style="width:55px;text-align:right;font-weight:700;color:{c}">{s:.1f}</span></div>'
-        summ = f'{CSS}<div class="summary-card"><h2 style="margin:0;font-size:1.8em;text-align:center">🧬 FINAL Score: {fs:.1f}/100</h2><h3 style="text-align:center;color:#aaa">{g} | {_S.get("model","")}</h3><hr style="border-color:#333;margin:16px 0">{ph}<hr style="border-color:#333;margin:16px 0"><p style="font-size:.85em;color:#888">{_S.get("hf","")}</p></div>'
-    return (prog, tbl, summ, None)
-# ══ Gradio App ══
-HEADER = """<div style="text-align:center;padding:20px 0">
-<h1 style="margin:0;font-size:2em">🧬 FINAL Bench Auto-Evaluator</h1>
-<p style="color:#666;max-width:700px;margin:10px auto;line-height:1.7">
-<b>FINAL Bench 100문제</b> × ALL Bench 등재 모델 자동 평가<br>
-📡 HF Inference API · ⚖️ GPT-5.2 Judge · 📊 → ALL Bench Metacog 자동 반영
-</p></div>"""
 def create_app():
-    with gr.Blocks(title="FINAL Bench Auto-Evaluator", theme=gr.themes.Soft(),
-                   css=".gradio-container{max-width:1100px !important}") as app:
         gr.HTML(HEADER)
         with gr.Row():
-            mdd = gr.Dropdown(list(HF_MODELS.keys()), value=list(HF_MODELS.keys())[0],
-                              label="🤖 평가 대상 모델", scale=4)
-            mt = gr.Slider(1, len(ALL_TASKS) if ALL_TASKS else 100,
-                           value=len(ALL_TASKS) if ALL_TASKS else 100, step=1, label="과제 수", scale=2)
-            wk = gr.Slider(1, 15, value=8, step=1, label="⚡ 워커", scale=1)
         with gr.Row():
-            sb = gr.Button("▶️ 이어하기", variant="primary", size="lg", scale=2)
-            fb = gr.Button("🚀 새로 시작", variant="secondary", size="lg", scale=2)
-            xb = gr.Button("⏹️ 중단", variant="stop", size="lg", scale=1)
-        st = gr.Textbox(label="상태", interactive=False, max_lines=1)
-        with gr.Accordion("📊 기존 결과", open=False):
-            gr.JSON(label="final_scores.json", value=load_sf())
         with gr.Tabs():
-            with gr.Tab("📊 진행"): p1=gr.HTML()
-            with gr.Tab("📋 결과표"): p2=gr.HTML()
-            with gr.Tab("🏆 최종"): p3=gr.HTML()
-            with gr.Tab("💾 CSV"): p4=gr.File(label="CSV")
-        timer = gr.Timer(value=2, active=True)
-        timer.tick(fn=_poll, outputs=[p1,p2,p3,p4])
-        sb.click(fn=lambda m,t,w: _start(m,t,w,False), inputs=[mdd,mt,wk], outputs=[st])
-        fb.click(fn=lambda m,t,w: _start(m,t,w,True), inputs=[mdd,mt,wk], outputs=[st])
-        xb.click(fn=_stop, outputs=[st])
-        gr.Markdown(f"---\n<center>FINAL Bench v1.0 · {len(ALL_TASKS)}문제 · Ginigen AI · Apache 2.0</center>")
     return app
-if __name__ == "__main__":
-    stats = {}
-    for t in ALL_TASKS: stats[t.pillar]=stats.get(t.pillar,0)+1
-    print(f"🧬 FINAL Bench Auto-Evaluator: {len(ALL_TASKS)} tasks")
-    for p,n in stats.items():
-        info=PILLAR_INFO[p]; print(f"  {info['icon']} {info['name']}: {n}")
-    print(f"  📡 HF Models: {len(HF_MODELS)} | ⚖️ Judge: GPT-5.2")
-    print(f"  🔑 HF_TOKEN: {'✅' if os.getenv('HF_TOKEN') else '❌'} | OPENAI_API_KEY: {'✅' if os.getenv('OPENAI_API_KEY') else '❌'}")
-    app = create_app()
     app.queue(default_concurrency_limit=2)
-    app.launch(server_name="0.0.0.0", server_port=7860, ssr_mode=False)

 """
+FINAL Bench Auto-Evaluator v1.0 — ALL Bench Metacog 자동 측정
+=============================================================
+FINAL-Bench/Metacognitive 100문제 x HF Inference API x GPT Judge
+-> final_scores.json -> ALL Bench Leaderboard 자동 연동
+TICOS 채점: T=Trap I=Insight C=Confidence O=Self-Correction S=Synthesis
+Author: Ginigen AI · FINAL-Bench · License: Apache 2.0
 """
+import json,os,time,csv,io,re,html,hashlib,sqlite3,threading
 from datetime import datetime
+from dataclasses import dataclass
+from typing import Optional
+import requests, numpy as np, gradio as gr
 @dataclass
+class FinalTask:
+    task_id:str; domain:str; grade:str; ticos_type:str; difficulty:str
+    lens:str; title:str; prompt:str; expected_behavior:str
+    hidden_trap:Optional[str]=None; ticos_required:str=""; ticos_optional:str=""
 def load_tasks():
     try:
         from datasets import load_dataset
+        ds=load_dataset("FINAL-Bench/Metacognitive",split="train")
+        tasks=[FinalTask(task_id=r["task_id"],domain=r["domain"],grade=r["grade"],
+            ticos_type=r["ticos_type"],difficulty=r["difficulty"],lens=r.get("lens",""),
+            title=r["title"],prompt=r["prompt"],expected_behavior=r["expected_behavior"],
+            hidden_trap=r.get("hidden_trap"),ticos_required=r.get("ticos_required",""),
+            ticos_optional=r.get("ticos_optional","")) for r in ds]
+        print(f"FINAL Bench: {len(tasks)} tasks loaded (HF Dataset)")
         return tasks
     except Exception as e:
+        print(f"HF load failed: {e}"); return []
+ALL_TASKS=load_tasks()
+TICOS_INFO={
+    "E_SelfCorrecting":{"name":"자기수정","icon":"🔄"},
+    "A_TrapEscape":{"name":"함정탈출","icon":"🪤"},
+    "B_ContradictionResolution":{"name":"모순해결","icon":"⚡"},
+    "C_ProgressiveDiscovery":{"name":"점진발견","icon":"🔬"},
+    "D_MultiConstraint":{"name":"다중제약","icon":"🎯"},
+    "F_ExpertPanel":{"name":"전문가토론","icon":"👥"},
+    "G_PivotDetection":{"name":"전환감지","icon":"🔀"},
+    "H_ConfidenceCalibration":{"name":"확신도보정","icon":"📊"},
 }
+RUBRIC_KEYS=["trap_detection","insight_depth","confidence_calibration","self_correction","synthesis_quality"]
+RUBRIC_W={"trap_detection":0.20,"insight_depth":0.20,"confidence_calibration":0.25,"self_correction":0.20,"synthesis_quality":0.15}
+RUBRIC_D={"trap_detection":"숨겨진 함정/오류 감지","insight_depth":"통찰 깊이와 정확성",
+    "confidence_calibration":"확신도-정확도 일치 (과대확신 감점)","self_correction":"오류 인지 후 수정 실행",
+    "synthesis_quality":"종합의 일관성과 완결성"}
+def final_score(scores):
+    return round(sum(scores.get(k,0.5)*w for k,w in RUBRIC_W.items())*100,2)
+def _strip(t):
+    if not t:return t
+    t=re.sub(r'<think>.*?</think>','',t,flags=re.DOTALL)
+    t=re.sub(r'<thinking>.*?</thinking>','',t,flags=re.DOTALL)
+    return t.strip()
+def call_hf(prompt,sys="",key="",mid="Qwen/Qwen3.5-397B-A17B",mt=4096,temp=0.6):
+    msgs=[]
+    if sys:msgs.append({"role":"system","content":sys})
+    msgs.append({"role":"user","content":prompt})
+    h={"Content-Type":"application/json","Authorization":f"Bearer {key}"}
+    p={"model":mid,"messages":msgs,"max_tokens":mt,"temperature":temp,"stream":False}
+    for a in range(3):
+        try:
+            r=requests.post(f"https://router.huggingface.co/hf-inference/models/{mid}/v1/chat/completions",headers=h,json=p,timeout=120)
+            if r.status_code in(429,503):time.sleep(5*(a+1));continue
+            r.raise_for_status()
+            return _strip(r.json()["choices"][0]["message"]["content"])
+        except Exception as e:
+            if a<2:time.sleep(3*(a+1))
+            else:return f"[API_ERROR] {e}"
+def call_oai(prompt,sys="",key="",model="gpt-5.2",mt=4096,temp=0.6):
+    msgs=[]
+    if sys:msgs.append({"role":"system","content":sys})
     msgs.append({"role":"user","content":prompt})
+    h={"Content-Type":"application/json","Authorization":f"Bearer {key}"}
+    p={"model":model,"messages":msgs,"max_tokens":mt,"temperature":temp}
+    for a in range(2):
         try:
+            r=requests.post("https://api.openai.com/v1/chat/completions",headers=h,json=p,timeout=120)
+            if r.status_code==429:time.sleep(5*(a+1));continue
             r.raise_for_status()
             return _strip(r.json()["choices"][0]["message"]["content"])
         except Exception as e:
+            if a<1:time.sleep(3)
+            else:return f"[API_ERROR] {e}"
+def call_model(prompt,sys="",key="",mid="",at="hf",mt=4096,temp=0.6):
+    if at=="openai":return call_oai(prompt,sys,key,mid,mt,temp)
+    return call_hf(prompt,sys,key,mid,mt,temp)
+HF_MODELS={
+    "Qwen3.5-397B":"Qwen/Qwen3.5-397B-A17B","Qwen3.5-122B":"Qwen/Qwen3.5-122B-A10B",
+    "Qwen3.5-27B":"Qwen/Qwen3.5-27B","Qwen3.5-35B":"Qwen/Qwen3.5-35B-A3B",
+    "Qwen3.5-9B":"Qwen/Qwen3.5-9B","Qwen3.5-4B":"Qwen/Qwen3.5-4B",
+    "DeepSeek V3.2":"deepseek-ai/DeepSeek-V3-0324","DeepSeek R1":"deepseek-ai/DeepSeek-R1",
+    "Llama 4 Scout":"meta-llama/Llama-4-Scout-17B-16E-Instruct",
+    "Llama 4 Maverick":"meta-llama/Llama-4-Maverick-17B-128E-Instruct",
+    "Phi-4":"microsoft/phi-4","Mistral Large 3":"mistralai/Mistral-Large-Instruct-2501",
+}
+OAI_MODELS={"GPT-5.2":"gpt-5.2","GPT-5.4":"gpt-5.4","GPT-5.1":"gpt-5.1"}
+JUDGE_SYS="""You are a FINAL Bench Metacognition Judge. Score each TICOS dimension using ONLY 0.0/0.25/0.5/0.75/1.0:
+1. trap_detection (T): Did model detect hidden traps/false premises?
+   1.0=all traps found, 0.5=some missed, 0.0=fell into traps
+2. insight_depth (I): Genuine deep understanding?
+   1.0=novel insights, 0.5=correct but shallow, 0.0=wrong
+3. confidence_calibration (C): Confidence matches accuracy?
+   1.0=well-calibrated, 0.5=inconsistent, 0.0=overconfident on wrong answers
+   CRITICAL: Overconfidence is WORSE than underconfidence.
+4. self_correction (O): Caught and fixed own errors?
+   1.0=explicit backtrack+correct, 0.5=acknowledged not fixed, 0.0=no correction
+5. synthesis_quality (S): Final synthesis coherent and complete?
+   1.0=unified nuanced conclusion, 0.5=partial, 0.0=fragmented
+Output JSON: {"scores":{"trap_detection":X,"insight_depth":X,"confidence_calibration":X,"self_correction":X,"synthesis_quality":X},"comment":"한줄 평가"}"""
+def build_jprompt(task,resp):
+    rl="\n".join([f'  "{k}": {d}' for k,d in RUBRIC_D.items()])
+    sk=", ".join([f'"{k}": ___' for k in RUBRIC_KEYS])
+    ht=f"\nHidden trap: {task.hidden_trap}" if task.hidden_trap else ""
+    return f"""[FINAL Bench Metacognition Evaluation]
+Task: {task.task_id} | {task.domain} | Grade {task.grade} | {task.ticos_type} | {task.difficulty}
+Title: {task.title}
+Prompt: {task.prompt[:1200]}
+Expected: {task.expected_behavior[:500]}{ht}
+=== RESPONSE ===
+{resp[:8000]}
+=== END ===
+Score TICOS (0.0/0.25/0.5/0.75/1.0):
+{rl}
+Output ONLY: {{"scores": {{{sk}}}, "comment": "한줄 평가"}}"""
+def call_judge(prompt,key,model="gpt-5.2"):
+    schema={"type":"object","properties":{"scores":{"type":"object",
+        "properties":{k:{"type":"number","enum":[0.0,0.25,0.5,0.75,1.0]} for k in RUBRIC_KEYS},
+        "required":RUBRIC_KEYS,"additionalProperties":False},
+        "comment":{"type":"string"}},"required":["scores","comment"],"additionalProperties":False}
+    msgs=[{"role":"system","content":JUDGE_SYS},{"role":"user","content":prompt}]
+    p={"model":model,"max_completion_tokens":4096,"temperature":0.1,"messages":msgs,
+       "response_format":{"type":"json_schema","json_schema":{"name":"FINALResult","strict":True,"schema":schema}}}
+    h={"Content-Type":"application/json","Authorization":f"Bearer {key}"}
+    for a in range(3):
         try:
+            r=requests.post("https://api.openai.com/v1/chat/completions",headers=h,json=p,timeout=180)
+            if r.status_code==429:time.sleep(5*(a+1));continue
             r.raise_for_status()
+            c=r.json()["choices"][0]["message"]["content"]
+            if not c:
+                if a<2:time.sleep(2);continue
                 return None
+            d=json.loads(_strip(c))
+            if "scores" in d:
+                for k in RUBRIC_KEYS:
+                    if k not in d["scores"]:d["scores"][k]=0.5
+                return d
+        except:
+            if a<2:time.sleep(3*(a+1))
     return None
+DB="final_bench.db"
+def _idb():
+    c=sqlite3.connect(DB)
+    c.execute("CREATE TABLE IF NOT EXISTS r(rid TEXT,tid TEXT,resp TEXT,judge TEXT,score REAL,ts REAL,PRIMARY KEY(rid,tid))")
+    c.commit();c.close()
+def _rid(m):return hashlib.md5(f"FB_{m}".encode()).hexdigest()[:12]
+def _sv(rid,tid,resp,jj,sc):
+    c=sqlite3.connect(DB);c.execute("INSERT OR REPLACE INTO r VALUES(?,?,?,?,?,?)",(rid,tid,resp,jj,sc,time.time()));c.commit();c.close()
+def _la(rid):
+    c=sqlite3.connect(DB);cur=c.execute("SELECT tid,resp,judge,score FROM r WHERE rid=?", (rid,));rows=cur.fetchall();c.close()
+    return{r[0]:{"response":r[1],"judge":r[2],"score":r[3]} for r in rows}
+def _clr(rid):c=sqlite3.connect(DB);c.execute("DELETE FROM r WHERE rid=?",(rid,));c.commit();c.close()
+_idb()
+SF="final_scores.json"
+def _lsf():
     try:
+        with open(SF) as f:return json.load(f)
+    except:return{"version":"1.0","bench":"FINAL-Bench/Metacognitive","updated":"","models":{}}
+def _ssf(mn,sc,ds,ts,nt,nc):
+    d=_lsf();d["updated"]=datetime.now().isoformat()
+    d["models"][mn]={"final_score":sc,"domain_scores":ds,"ticos_scores":ts,
+        "tasks_total":nt,"tasks_completed":nc,"evaluated_at":datetime.now().isoformat()}
+    with open(SF,"w") as f:json.dump(d,f,indent=2,ensure_ascii=False)
     return d
+def _uhf(d):
+    tk=os.getenv("HF_TOKEN","")
+    if not tk:return "HF_TOKEN 미설정"
     try:
         from huggingface_hub import HfApi
+        api=HfApi(token=tk)
         api.upload_file(path_or_fileobj=json.dumps(d,indent=2,ensure_ascii=False).encode("utf-8"),
+            path_in_repo="final_scores.json",repo_id="FINAL-Bench/ALL-Bench-Leaderboard",
+            repo_type="dataset",commit_message=f"FINAL Score {datetime.now().strftime('%Y-%m-%d %H:%M')}")
+        return "HF upload OK"
+    except Exception as e:return f"Upload fail: {e}"
+from concurrent.futures import ThreadPoolExecutor
+def _e1(t,rid,key,jk,mid,jm,at,st):
     try:
+        resp=call_model(t.prompt,key=key,mid=mid,at=at)
         if resp.startswith("[API_ERROR"):
+            _sv(rid,t.task_id,resp,"{}",0)
+            with st["lk"]:st["dn"]+=1;st["er"].append(t.task_id)
+            return t.task_id,{"response":resp,"judge":"{}","score":0}
+        jp=build_jprompt(t,resp)
+        jd=call_judge(jp,jk,jm)
         if jd is None:
+            jd={"scores":{k:0.0 for k in RUBRIC_KEYS},"comment":"judge_failed","failed":True}
+        if jd.get("failed"):sc=-1.0
+        else:sc=final_score(jd["scores"]);
+        with st["lk"]:
+            if not jd.get("failed"):st["jok"]+=1
+        jj=json.dumps(jd,ensure_ascii=False)
+        _sv(rid,t.task_id,resp,jj,sc)
+        with st["lk"]:
+            st["dn"]+=1;ic=TICOS_INFO.get(t.ticos_type,{})
+            st["ac"].append(f'{ic.get("icon","")}{t.task_id}');
+            if len(st["ac"])>10:st["ac"]=st["ac"][-10:]
+        return t.task_id,{"response":resp,"judge":jj,"score":sc}
     except Exception as e:
+        _sv(rid,t.task_id,f"[ERR]{e}","{}",0)
+        with st["lk"]:st["dn"]+=1;st["er"].append(f"{t.task_id}:{str(e)[:40]}")
+        return t.task_id,{"response":f"[ERR]{e}","judge":"{}","score":0}
+_S={"run":False,"stp":False,"fin":False,"rid":"","mdl":"","dn":0,"tot":0,"cch":0,
+    "er":[],"ac":[],"jok":0,"t0":0,"res":{},"tsk":[],"lk":threading.Lock(),
+    "msg":"","csv":None,"hfs":""}
 def _rst():
+    global _S
+    with _S["lk"]:
+        _S.update({"run":False,"stp":False,"fin":False,"dn":0,"cch":0,"er":[],"ac":[],"jok":0,
+            "t0":0,"res":{},"tsk":[],"msg":"","csv":None,"hfs":""})
+def _bgev(key,jk,mid,mn,jm,at,tasks,rid,wk):
+    global _S
     try:
+        res=dict(_la(rid));cch=sum(1 for t in tasks if t.task_id in res)
+        pend=[t for t in tasks if t.task_id not in res]
+        with _S["lk"]:_S["res"]=res;_S["cch"]=cch;_S["tot"]=len(tasks);_S["t0"]=time.time()
+        if not pend:
+            with _S["lk"]:_S["msg"]=f"Cache: {cch}"
+            _fin(tasks,res,mn);return
+        with _S["lk"]:_S["msg"]=f"{len(pend)} tasks, {wk} workers"
+        with ThreadPoolExecutor(max_workers=wk) as exe:
+            futs={exe.submit(_e1,t,rid,key,jk,mid,jm,at,_S):t for t in pend if not _S["stp"]}
+            done=set()
+            while len(done)<len(futs):
+                if _S["stp"]:
+                    with _S["lk"]:_S["msg"]="Stopped";_S["run"]=False;_S["fin"]=True
                     return
                 for f in list(futs):
+                    if f in done:continue
                     if f.done():
+                        done.add(f)
                         try:
+                            tid,d=f.result()
+                            with _S["lk"]:_S["res"][tid]=d
+                        except:pass
                 time.sleep(0.5)
+        with _S["lk"]:res=dict(_S["res"])
+        _fin(tasks,res,mn)
     except Exception as e:
+        with _S["lk"]:_S["msg"]=f"ERR:{str(e)[:80]}";_S["run"]=False;_S["fin"]=True
+def _fin(tasks,res,mn):
+    global _S
+    ds={};ts={}
+    for dom in set(t.domain for t in tasks):
+        v=[res[t.task_id]["score"] for t in tasks if t.domain==dom and t.task_id in res and res[t.task_id]["score"]>=0]
+        if v:ds[dom]=round(np.mean(v),2)
+    for tt in set(t.ticos_type for t in tasks):
+        v=[res[t.task_id]["score"] for t in tasks if t.ticos_type==tt and t.task_id in res and res[t.task_id]["score"]>=0]
+        if v:ts[tt]=round(np.mean(v),2)
+    av=[res[t.task_id]["score"] for t in tasks if t.task_id in res and res[t.task_id]["score"]>=0]
+    fs=round(np.mean(av),2) if av else 0
+    sd=_ssf(mn,fs,ds,ts,len(tasks),len(av))
+    rid=_S["rid"]
+    cp=f"/tmp/fb_{rid}.csv"
+    with open(cp,"w",encoding="utf-8") as f:
+        w=csv.writer(f);w.writerow(["task_id","domain","grade","ticos_type","difficulty","title","score","comment","ts"])
+        tm={t.task_id:t for t in tasks}
+        for tid,d in sorted(res.items()):
+            t=tm.get(tid)
+            if not t:continue
+            jd={}
+            try:jd=json.loads(d["judge"]) if isinstance(d["judge"],str) else {}
+            except:pass
+            w.writerow([tid,t.domain,t.grade,t.ticos_type,t.difficulty,t.title,d["score"],
+                (jd.get("comment","") if isinstance(jd,dict) else "")[:200],datetime.now().isoformat()])
+    hfs=_uhf(sd)
+    el=int(time.time()-_S["t0"]) if _S["t0"] else 0
+    with _S["lk"]:
+        _S["csv"]=cp;_S["hfs"]=hfs
+        _S["msg"]=f"FINAL Score = {fs} ({el}s, {len(av)}/{len(tasks)})"
+        _S["run"]=False;_S["fin"]=True
+CSS='<style>.et{width:100%;border-collapse:collapse;font-size:.85em}.et th{background:#f0f4f8;padding:8px;text-align:left;border-bottom:2px solid #ccc}.et td{padding:6px 8px;border-bottom:1px solid #eee}.sb{background:#e0e0e0;border-radius:8px;height:18px;overflow:hidden;min-width:80px}.sf{height:100%;border-radius:8px}.sc{background:linear-gradient(135deg,#1a1a2e,#16213e);border-radius:14px;padding:20px;color:#fff;margin:8px 0}.pb{background:#e0e0e0;border-radius:8px;height:22px;margin:12px 0;overflow:hidden}.pf{height:100%;border-radius:8px;background:linear-gradient(90deg,#7c3aed,#6366f1)}</style>'
+def _clr2(s):
+    if s>=80:return"#4caf50"
+    if s>=60:return"#ff9800"
+    return"#f44336"
 def _poll():
+    global _S
+    with _S["lk"]:
+        run=_S["run"];fin=_S["fin"];tasks=_S.get("tsk",[]);res=dict(_S.get("res",{}))
+        msg=_S.get("msg","");csvp=_S.get("csv")
     if not run and not fin and not res:
+        return("Select model and press Start.","","",None)
     if run:
+        dn=_S["dn"];tot=_S.get("tot",1);pct=min(int(dn/max(tot,1)*100),100)
+        el=int(time.time()-_S.get("t0",time.time()));eta=int((el/max(dn,1))*(tot-dn)) if dn>0 else 0
+        ac=_S.get("ac",[]);jok=_S.get("jok",0)
+        tg=" ".join([f'<span style="background:#ede9fe;padding:2px 6px;border-radius:4px;font-size:.78em">{a}</span>' for a in ac[-8:]])
+        prog=f'{CSS}<div><div style="display:flex;justify-content:space-between;margin-bottom:4px"><span>🧬 {dn}/{tot} · {el}s · ETA {eta}s · Judge✅{jok}</span><span style="font-weight:700;color:#7c3aed">{pct}%</span></div><div class="pb"><div class="pf" style="width:{pct}%"></div></div><div style="margin-top:6px">{tg}</div></div>'
     elif fin:
+        prog=f'<div style="background:#f0fdf4;padding:14px;border-radius:8px;font-weight:700;border-left:4px solid #16a34a">🏁 {msg}</div>'
+    else:prog=msg
+    tbl=""
     if tasks:
+        rows=""
         for t in tasks:
+            ic=TICOS_INFO.get(t.ticos_type,{})
             if t.task_id in res:
+                s=res[t.task_id]["score"]
+                if s<0:rows+=f'<tr style="background:#fff3e0"><td>{t.task_id}</td><td>{ic.get("icon","")}</td><td>{t.domain}</td><td>{t.ticos_type}</td><td>{t.difficulty}</td><td style="color:#ff9800">❌</td></tr>'
                 else:
+                    c=_clr2(s);rows+=f'<tr><td>{t.task_id}</td><td>{ic.get("icon","")}</td><td>{t.domain}</td><td>{t.ticos_type}</td><td>{t.difficulty}</td><td><div class="sb"><div class="sf" style="width:{min(s,100)}%;background:{c}"></div></div><span style="color:{c};font-weight:700">{s:.1f}</span></td></tr>'
+            else:rows+=f'<tr style="opacity:.4"><td>{t.task_id}</td><td>{ic.get("icon","")}</td><td>{t.domain}</td><td>-</td><td>-</td><td>⏳</td></tr>'
+        tbl=f'{CSS}<table class="et"><thead><tr><th>ID</th><th></th><th>Domain</th><th>TICOS</th><th>Diff</th><th>Score</th></tr></thead><tbody>{rows}</tbody></table>'
+    sm=""
     if fin and tasks:
+        av=[res[t.task_id]["score"] for t in tasks if t.task_id in res and res[t.task_id]["score"]>=0]
+        fs=round(np.mean(av),2) if av else 0
+        gr2="A" if fs>=80 else("B+" if fs>=70 else("B" if fs>=60 else "C"))
+        dh=""
+        for dom in sorted(set(t.domain for t in tasks)):
+            v=[res[t.task_id]["score"] for t in tasks if t.domain==dom and t.task_id in res and res[t.task_id]["score"]>=0]
+            if v:a=np.mean(v);c=_clr2(a);dh+=f'<div style="display:flex;align-items:center;gap:8px;margin:3px 0"><span style="width:180px;font-size:.85em">{dom}</span><div style="flex:1;background:#333;border-radius:6px;height:14px;overflow:hidden"><div style="width:{min(a,100)}%;height:100%;background:{c};border-radius:6px"></div></div><span style="width:50px;text-align:right;font-weight:700;color:{c}">{a:.1f}</span></div>'
+        th=""
+        for tt,info in TICOS_INFO.items():
+            v=[res[t.task_id]["score"] for t in tasks if t.ticos_type==tt and t.task_id in res and res[t.task_id]["score"]>=0]
+            if v:a=np.mean(v);c=_clr2(a);th+=f'<div style="display:flex;align-items:center;gap:8px;margin:3px 0"><span style="width:150px;font-size:.85em">{info["icon"]} {info["name"]}</span><div style="flex:1;background:#333;border-radius:6px;height:14px;overflow:hidden"><div style="width:{min(a,100)}%;height:100%;background:{c};border-radius:6px"></div></div><span style="width:50px;text-align:right;font-weight:700;color:{c}">{a:.1f}</span></div>'
+        jf=sum(1 for t in tasks if t.task_id in res and res[t.task_id]["score"]<0)
+        sm=f'{CSS}<div class="sc"><h2 style="margin:0;font-size:1.6em;text-align:center">🧬 FINAL Score: {fs} / 100</h2><h3 style="margin:4px 0;text-align:center;color:#aaa">Grade {gr2} · {_S.get("mdl","")}</h3><p style="text-align:center;color:#888;font-size:.9em">{len(av)}문제{f" · ❌{jf}" if jf else ""}</p><hr style="border-color:#333;margin:12px 0"><h4 style="color:#aaa">📚 도메인별</h4>{dh}<hr style="border-color:#333;margin:12px 0"><h4 style="color:#aaa">🧬 TICOS별</h4>{th}<hr style="border-color:#333;margin:12px 0"><p style="font-size:.85em;color:#aaa">{_S.get("hfs","")}</p></div>'
+    return(prog,tbl,sm,csvp)
+def _start(mc,at,ek,jk,jm,df,mt,nw,fresh):
+    global _S
+    if _S["run"]:return"Already running"
+    ek=(ek or"").strip() or os.getenv("HF_TOKEN","")
+    jk=(jk or"").strip() or os.getenv("OPENAI_API_KEY","")
+    if not ek:return"Need API key"
+    if not jk:return"Need Judge key"
+    if at=="HuggingFace Inference":mid=HF_MODELS.get(mc,mc);a="hf"
+    else:mid=OAI_MODELS.get(mc,mc);a="openai"
+    tasks=ALL_TASKS[:]
+    if df!="전체":tasks=[t for t in tasks if t.difficulty==df]
+    tasks=tasks[:int(mt)]
+    rid=_rid(mid)
+    if fresh:_clr(rid)
+    _rst()
+    with _S["lk"]:_S["run"]=True;_S["rid"]=rid;_S["mdl"]=mc;_S["tsk"]=tasks;_S["tot"]=len(tasks)
+    threading.Thread(target=_bgev,args=(ek,jk,mid,mc,jm,a,tasks,rid,int(nw)),daemon=True).start()
+    return f"🧬 {mc} FINAL Bench ({len(tasks)} tasks, {int(nw)} workers)"
+def _stop():
+    global _S
+    if _S["run"]:_S["stp"]=True;return"Stopping..."
+    return"Not running"
+def _um(at):
+    if at=="HuggingFace Inference":return gr.update(choices=list(HF_MODELS.keys()),value=list(HF_MODELS.keys())[0])
+    return gr.update(choices=list(OAI_MODELS.keys()),value=list(OAI_MODELS.keys())[0])
+HEADER="""<div style="text-align:center;padding:16px 0">
+<h1 style="margin:0;font-size:1.8em">🧬 FINAL Bench Auto-Evaluator v1.0</h1>
+<h2 style="margin:4px 0;color:#555;font-size:1.05em">Metacognitive Intelligence · 100 Tasks · TICOS Scoring</h2>
+<p style="color:#888;font-size:.88em;max-width:700px;margin:8px auto">
+📊 <b>FINAL-Bench/Metacognitive</b> · 100문제 · 15도메인 · 8 TICOS유형<br>
+🧬 TICOS: Trap · Insight · Confidence · Self-Correction · Synthesis<br>
+📡 HF Inference (오픈소스) + 🔑 OpenAI (클로즈드) → ⚖️ GPT-5.2 Judge<br>
+📊 → <code>final_scores.json</code> → ALL Bench Metacog 자동 반영</p></div>"""
 def create_app():
+    with gr.Blocks(title="FINAL Bench Evaluator",theme=gr.themes.Soft(),
+                   css=".gradio-container{max-width:1100px!important}") as app:
         gr.HTML(HEADER)
         with gr.Row():
+            at=gr.Radio(["HuggingFace Inference","OpenAI Compatible"],value="HuggingFace Inference",label="📡 API",scale=2)
+            md=gr.Dropdown(list(HF_MODELS.keys()),value=list(HF_MODELS.keys())[0],label="🤖 Model",scale=3,allow_custom_value=True)
+        at.change(_um,[at],[md])
+        with gr.Row():
+            ek=gr.Textbox(label="🔑 Eval Key",type="password",placeholder="hf_... or sk-...",value=os.getenv("HF_TOKEN",""),scale=3)
+            jk=gr.Textbox(label="⚖️ Judge Key",type="password",placeholder="sk-...",value=os.getenv("OPENAI_API_KEY",""),scale=3)
+        with gr.Row():
+            jm=gr.Textbox(label="⚖️ Judge",value="gpt-5.2",scale=2)
+            df=gr.Dropdown(["전체","expert","frontier"],value="전체",label="Difficulty",scale=1)
+            mt=gr.Slider(1,100,value=100,step=1,label="Tasks",scale=2)
+            nw=gr.Slider(1,20,value=10,step=1,label="Workers",scale=1)
         with gr.Row():
+            sb=gr.Button("▶️ Start",variant="primary",size="lg",scale=2)
+            fb=gr.Button("🚀 Fresh",variant="secondary",size="lg",scale=2)
+            xb=gr.Button("⏹️ Stop",variant="stop",size="lg",scale=1)
+        st=gr.Textbox(label="Status",interactive=False,max_lines=1)
+        with gr.Accordion("📊 Existing Scores",open=False):
+            gr.JSON(value=_lsf(),label="final_scores.json")
         with gr.Tabs():
+            with gr.Tab("📊 Progress"):p=gr.HTML()
+            with gr.Tab("📋 Results"):t=gr.HTML()
+            with gr.Tab("🏆 Summary"):s=gr.HTML()
+            with gr.Tab("💾 CSV"):c=gr.File(label="CSV")
+        timer=gr.Timer(value=2,active=True)
+        timer.tick(fn=_poll,outputs=[p,t,s,c])
+        ins=[md,at,ek,jk,jm,df,mt,nw]
+        sb.click(fn=lambda *a:_start(*a,fresh=False),inputs=ins,outputs=[st])
+        fb.click(fn=lambda *a:_start(*a,fresh=True),inputs=ins,outputs=[st])
+        xb.click(fn=_stop,outputs=[st])
+        gr.Markdown(f"---\n<center>🧬 FINAL Bench v1.0 · Apache 2.0 · Ginigen AI<br>Data: FINAL-Bench/Metacognitive · {len(ALL_TASKS)} tasks · TICOS</center>")
     return app
+if __name__=="__main__":
+    st={}
+    for t in ALL_TASKS:st[t.ticos_type]=st.get(t.ticos_type,0)+1
+    print(f"FINAL Bench Evaluator: {len(ALL_TASKS)} tasks")
+    for tt,n in sorted(st.items()):i=TICOS_INFO.get(tt,{});print(f"  {i.get('icon','')} {tt}: {n}")
+    app=create_app()
     app.queue(default_concurrency_limit=2)
+    app.launch(server_name="0.0.0.0",server_port=7860,ssr_mode=False)