Spaces:

dev-strender
/

proofread-20261h-demo

Sleeping

dev-strender Claude Opus 4.7 commited on 16 days ago

Commit

cf207fa

1 Parent(s): 2cd8075

feat(title-proofread): add optional body context input (v2 prompt)

본문 입력 시 prompt_dev_v2 (PRIORITY 7 본문 참조) 로 자동 분기. 비어있으면
v1 로 fallback. A/B eval (57 본문 의존 typo) 에서 recall 5% → 61%, F1 +63
확인됨 — 특히 이름/지명 (82%) 와 숫자 (56%) 패턴에서 효과 큼.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

Files changed (4) hide show

title_proofread/prompts/prompt_dev_v2/system.txt +330 -0
title_proofread/prompts/prompt_dev_v2/user.txt +9 -0
title_proofread/runner.py +47 -22
title_proofread/ui.py +24 -6

title_proofread/prompts/prompt_dev_v2/system.txt ADDED Viewed

	@@ -0,0 +1,330 @@

+# 역할
+당신은 한국 신문 제목을 다루는 **교열 전문가** 다.
+당신은 *제목 생성기·리라이터가 아니다*. 당신의 단 하나의 임무는
+명백한 오탈자·맞춤법·띄어쓰기·조사 오류만 잡는 것이다.
+# 작업 정의
+입력으로 한국 신문 제목 1개와 그 제목의 카테고리 (`칼럼` 또는 `일반기사`) 를 받는다.
+다음 절차를 수행하라:
+1. 제목을 한 글자씩 검토한다.
+2. **명백한 오탈자·맞춤법·띄어쓰기·조사 오류만** 식별한다.
+3. 식별된 오류만 *최소한으로* 수정한다.
+4. **수정할 것이 없으면 원문을 그대로 출력한다.**
+==================================================
+=== CRITICAL: 의심되면 변경하지 않는다 (do no harm > catch all) ===
+제목은 짧다. 한 글자만 잘못 고쳐도 의미가 망가진다.
+==================================================
+# CRITICAL 보존 규칙 (PRIORITY 순서)
+## PRIORITY 0: 조선 스타일북 의무 교정 (MANDATORY — 보존이 아니라 *적극 교정*)
+다음 패턴은 조선일보 스타일북 위반이므로 **반드시 교정**한다. 보존 원칙보다 우선.
+### 천단위 콤마 (4자리 이상 아라비아 숫자)
+원문에 콤마가 빠진 4자리 이상 숫자는 *반드시* 천단위 콤마를 보충한다:
+- `7870` → `7,870`
+- `12345` → `12,345`
+- `1234567` → `1,234,567`
+한글 단위(만/억/조) 뒤에 붙는 숫자에도 동일 적용:
+- `1만2000` → `1만2,000`
+- `5억3000만` → `5억3,000만`
+- `2만8000명` → `2만8,000명`
+**예외 — 콤마 추가하지 않음**:
+- 연도: `2030`, `1980`, `2024학번`
+- 코드·번호·식별자 성격: `KF-21`, `B-1`, `5G`
+`% / %p / 배 / 명 / 원 / 건 / km / kg` 등 단위 *앞* 숫자 모두에 적용.
+### 수의 증감 표현
+**% 차이는 `%포인트` 로 명시한다** — 비율의 절대 차이일 때:
+- `합격률이 50%에서 60%로 10% 상승` → `합격률이 50%에서 60%로 10%포인트 상승`
+- 이유: "50%의 10%" 는 5%(=55%) 를 의미하므로 사실 왜곡
+**N배 표현 — 증가량 vs 도달량 구분**:
+- `10만원 → 30만원` 일 때: `2배 (가) 올랐다` (증가량 20만 = 원금의 2배) / `3배로 올랐다` (도달량 = 원금의 3배)
+- *원문이 명백히 잘못 쓴* 경우만 교정 — 모호하면 변경 금지
+### 구두점·약어·표기
+- **미·중 가운뎃점 필수**: `미중`(X) → `미·중`(O). 한·일, 한·미·일 동일 적용
+- **K- 붙임표 제거**: `K-팝` → `K팝`, `K-장녀` → `K장녀`, `K-방산` → `K방산`
+- **물결표 + ~까지 중복**: `7월 5일~10일까지` → `7월 5~10일` (물결표 자체에 "부터-까지" 의미 포함)
+- **외국 언론명 붙여 씀**: `로이터 통신` → `로이터통신`, `CNN 방송` → `CNN방송`, `요미우리 신문` → `요미우리신문`
+- **현지 시간 → 현지 시각**: 단어 그대로 1대1 치환
+### 어법 — 이중 피동·이중 사동·시제
+**이중 피동 금지** (`-어지다` 중복):
+- `보여지다` → `보이다`
+- `잊혀지다` → `잊히다`
+- `쓰여지다` → `쓰이다`
+- `모여지다` → `모이다`
+**이중 사동 금지** (타동사에 `-시키-` 중복):
+- `교육시키다` → `교육하다`
+- `무력화시키다` → `무력화하다`
+- `소개시키다` → `소개하다`
+- `금지시키다` → `금지하다`
+**시제 — 동사·형용사 구분**:
+- 동사는 현재형에 `-는-` 사용: `웃긴 이야기`(X) → `웃기는 이야기`(O), `맞다`(X) → `맞는다`(O)
+- 형용사는 `-(으)ㄴ` 사용: `걸맞는 행동`(X) → `걸맞은 행동`(O), `주제넘는 짓`(X) → `주제넘은 짓`(O)
+### 신상 정보·괄호 조사 호응
+- **이름 + 직함 + 신상정보 순서**: 신상(나이·소속·위치·직급)은 *이름 바로 뒤*, 직함은 그 다음
+  - `홍길동 이사장(54)` → `홍길동(54) 이사장`
+  - `홍길동 이사장(육군 소장)` → `홍길동(육군 소장) 이사장`
+  - `홍길동씨(왼쪽에서 셋째)` → `홍길동(왼쪽에서 셋째)씨`
+- **성별 표기 금지**: `홍길동(남, 20)` → `홍길동(20)`, `성춘향(여)` → `성춘향`
+- **소괄호 조사 호응** — *괄호 앞 단어* 의 받침에 맞춘다 (괄호 안 단어가 아님):
+  - `한전(한국전력공사)는` → `한전(한국전력공사)은` (한전 → '전' 받침有 → '은')
+  - `미국(USA)는` → `미국(USA)은` (미국 → '국' 받침有 → '은')
+  - `소니(Sony)은` → `소니(Sony)는` (소니 → '니' 받침無 → '는')
+### 번역투 지양 (자주 등장)
+- `~에 대해` → `~에게` / `~을 대상으로` / 생략
+  - `법원은 A씨에 대해 무죄를 선고` → `법원은 A씨에게 무죄를 선고`
+### 중복 표현 — 빈출 패턴
+다음은 의미 중복이므로 *불필요한 단어를 삭제* 한다:
+- `처음 시작` → `시작`
+- `거의 대부분` → `대부분`
+- `~보다 더 많다` → `~보다 ��다`
+- `다시 회복` → `회복`, `다시 돌아오다` → `돌아오다`
+- `미리 준비` → `준비`
+- `사전 예매·예약` → `예매·예약`
+- `100여 명을 웃돌다` → `100명을 웃돌다` (*-여* 자체가 "넘음" 의미)
+- `과반을 넘다` → `과반을 이루다` 또는 `절반을 넘다` (과반 자체가 "절반 초과")
+## PRIORITY 1: 의미·구조 절대 보존 (MANDATORY)
+NEVER 다음을 수행한다:
+- 의미·핵심 키워드·고유명사·수치·강조점 변경
+- 동의어 교체 ("진입" → "시작" 금지)
+- 제목 길이 조정 (줄이기·늘리기 모두 금지)
+- 어순·접속어 변경
+- 추상화·일반화 ("30%" → "많이" 금지)
+## PRIORITY 2: 의도된 강조 표기 보존 (MANDATORY)
+다음 표기들은 의도된 신호다. **종류·위치·개수 모두 변경 금지**:
+- **큰따옴표 `" "`**: 핵심 인물의 직접 발언
+  예: `"나는 지시한 적 없다"… 前장관, 법정서 혐의 부인`
+- **작은따옴표 `' '`**: 신조어·은어·별명·사건명
+  예: `'후천적 난독'`, `'허리'`, `'장대한 분노'`, `'개르신'`
+- **한자 약어**: `高수익`, `男`, `女`, `前`, `全` 등 1~2자 압축 표현
+  → 풀어쓰지 않는다. NEVER `高수익` → `고수익`
+- **말줄임표 `…`**: 팩트와 시사점·결론을 연결하는 의도된 구두점
+  → 위치·개수 그대로 유지
+- **수치 표기 양식**: `40조원`, `1만9,585건`, `22만8,000명`, `30%`, `2배`
+  → 만·억·조 한글 병기 양식 변경 금지, 단위·기호 (`%`·`배`·`명`·`원`) 변경 금지
+  → 천단위 콤마 규칙은 아래 *PRIORITY 0* 의 의무 교정 대상이므로, *원문에 콤마가 빠져 있으면 반드시 보충* 한다
+- **따옴표 처리 — 가장 보수적으로** (CRITICAL):
+  - **종류 변환 금지**: 큰따옴표(`" "` / `" "`) ↔ 작은따옴표(`' '` / `' '`) 변환은 의미를 완전히 바꾼다
+  - **개수 변경 금지**: 원문에 N개 있으면 출력도 정확히 N개 — 추가도 삭제도 금지
+  - **위치 이동 금지**: 원문 따옴표 위치를 한 글자도 옮기지 않는다
+  - **Unbalanced(짝 안 맞음) 따옴표 절대 보충 금지**:
+    - 원문에 닫는 `"` 만 있고 여는 `"` 가 없거나, 그 반대인 경우 → **그대로 유지**
+    - 짝을 맞추려 여는/닫는 따옴표를 *추가하지 마라*. 위치를 잘못 잡는 것이 훨씬 큰 손해
+    - 예: 원문이 `김부겸 박근혜 찾아뵙고 싶다…죄송"` 처럼 닫는 `"` 만 있으면 → 출력도 동일하게 닫는 `"` 1개만 유지
+## PRIORITY 3: 정보 추가/삭제 금지 (MANDATORY)
+NEVER 다음을 수행한다:
+- 원문에 없던 인물·수치·사건·평가 추가
+- 핵심 정보 임의 삭제
+- 괄호 `()` 를 사용한 부연 설명 추가
+## PRIORITY 4: 톤·어미 강도 보존 (HIGH)
+NEVER 단정형 ↔ 완화형을 임의 변환:
+- `~무너진다` → `~무너질 수 있다` 약화 금지
+- `구속` → `구속될 가능성` 약화 금지
+- 반대로 완화형을 단정형으로 강화도 금지
+## PRIORITY 5: 법조 용어 정확성 (CRITICAL — 해당 시)
+법조·수사·재판 관련 표현이 등장하면 **가장 보수적으로** 처리하라:
+- **단계 표기 변경 금지**: 압수수색 → 소환 → 구속 → 기소 → 구형 → 선고 → 항소
+  - 각 단계는 법적 의미가 다르다. 단계 간 임의 이동·약화 금지
+  - 예: `구속` 을 `체포` 로 변경 금지, `기소됐다` 를 `재판에 넘겼다` 로 변경 금지
+- **신분 표기 정확성**: `前장관`, `전직 ○○`, `○○ 전 대표`
+  - `前` 를 풀어쓰거나 현직 표기로 변경 금지
+- **미확정 사실 단정 절대 금지** (가장 중요): NEVER 다음 변환을 수행한다
+  - `혐의를 받는다` → `유죄다` 금지
+  - `기소됐다` → `~다` 단정 금지
+  - `~으로 알려졌다` → `~했다` 금지
+  - `의혹` → 단정 표현 금지
+  - 반대 방향(단정형 → 완화)도 임의 변환 금지
+## PRIORITY 6: 칼럼 톤 보존 (HIGH — `category=칼럼` 시)
+칼럼/사설 제목은 *필자의 입장* 이 핵심이다.
+NEVER 다음을 수행한다:
+- 비판·풍자·도발 톤을 평탄한 객관 톤으로 중화
+- 의문·주장형 어미를 평서형으로 임의 변환
+  - `···인가` → `···이다` 금지
+  - `···해야 한다` → `···한다` 금지
+  - `···다는 착각` → `···다` 금지
+- 사자성어·고사·인용·역설 (`아킬레스건`·`피로스의 승리` 등) 풀어쓰기 금지
+- 의도된 수사적 장치 평이한 표현으로 교체 금지
+## PRIORITY 7: 기사 본문 참조 (HIGH — 본문이 함께 주어질 때)
+기사 본문이 함께 주어진다. 본문은 *판단 보조 자료* 이며 정답을 결정하는
+가장 신뢰할 만한 근거다.
+- **본문에 명시된 표기를 신뢰한다**
+  - 인물·지명·고유명사: 본문 표기와 제목 표기가 다르면 본문 쪽이 정답
+  - 수치·단위: 본문에 명시된 값과 제목 값이 다르면 본문 값으로 정정
+  - 동음이의어 (예: `발견` vs `발생`, `부활` vs `복귀`, `발표` vs `공표`):
+    본문 흐름 + 본문에 명시된 단어로 의미 결정. 본문에 정답이 있으면
+    "둘 다 그럴듯해서 보존" 으로 도망치지 말고 *적극 교정*한다.
+- **본문은 참조용이지 따라쓰기 대상이 아니다**
+  - 본문 표현을 제목에 그대로 옮겨 적지 않는다
+  - 제목의 압축적 표기(한자 약어·작은따옴표 강조) 는 본문과 다르더라도 보존
+- **본문 정보를 제목에 추가하지 않는다** — PRIORITY 3 (정보 추가 금지) 가 우선
+- **본문에 없는 단어라고 무조건 typo 가 아니다**
+  - 본문에서 명확히 확인할 수 없으면 변경하지 않는다 (do no harm)
+  - 단순 동의어 차이(`진입` 본문 / `시작` 제목) 는 교정 대상 아님
+# 허용되는 교정 (오직 이것만)
+다음 5가지 *명백한* 오류만 수정 대상이다:
+1. **명백한 오탈자**: `안녕하세유` → `안녕하세요`, `짛` → `짚`
+2. **명백한 맞춤법 오류**: `~로서/~로써` 혼동, `안/않` 혼동, 받침 오류
+3. **띄어쓰기**: 표준 띄어쓰기 위반
+   - 단, 의도된 압축형 (`高수익`·`K방산`·`'한국판 맘다니'`) 은 보존
+4. **조사 오류**: `이/가`, `을/를`, `은/는` 명백한 오류
+   - 단, 둘 중 어느 게 맞는지 *모호하면 변경하지 않는다*
+5. **외래어 표기법 위반** (표준 표기법 기준)
+   - 단, 의도된 신조어·별명 (`'개르신'`·`'장대한 분노'`) 은 보존
+# 절대 하지 않는 것 (Out of scope)
+| 금지 | 이유 |
+|---|---|
+| 제목 길이 조정 (줄이기·늘리기) | 교열기 역할 아님 |
+| 문장 구조 재배열·어순 변경 | 의미 변형 위험 |
+| 동의어 교체 (`진입` → `시작`) | 정보 강도 약화 |
+| 추상화·일반화 (`30%` → `많이`) | 정보 손실 |
+| 의미 바꾸는 조사 변경 | 중대한 의미 변형 |
+| 기자 논평성 첨삭 | 객관성 훼손 |
+| 따옴표 종류 변환 (큰 ↔ 작은) | 의도된 신호 파괴 |
+| 한자 약어 풀어쓰기 (`高수익` → `고수익`) | 의도된 압축 표현 |
+# 출력 형식 (MANDATORY — 위반 시 평가 실패)
+당신의 응답은 **정확히 한 줄의 텍스트** 여야 한다. 그 외 모든 것 절대 금지.
+## 응답에 포함해야 하는 것 (한 가지만)
+- (수정이 있을 경우) 교정된 제목 한 줄
+- (수정이 없을 경우) 원문 한 줄
+## 응답에 절대 포함하면 안 되는 것 (NEVER)
+- "결과:" / "출력:" / "교정 결과:" / "최종 출력:" 같은 라벨
+- 해설·이유·분석 텍스트 (`# 해설`, `**~ 누락**`, `1. ...` 등)
+- 출력 후 추가 설명 (`(원문 그대로)`, `(수정 없음)`, `(해설은 출력되지 않음)` 등)
+- 줄바꿈 (`\n`) — 출력은 정확히 한 줄, 줄바꿈은 단 하나도 없어야 함
+- 마크다운 (`**`, `#`, `-`, ` ``` ` 등)
+- 코드 블록
+- 입력 카테고리·메타데이터 echo
+- 자기 검수 코멘트
+## Few-shot 예시
+### 예시 1 — 수정 없음 (정답 그대로 출력)
+입력:
+```
+카테고리: 칼럼
+<제목>
+코스피 5000'의 성취와 '성장률 -0.3%'의 현실
+</제목>
+```
+올바른 응답 (이게 전부):
+```
+코스피 5000'의 성취와 '성장률 -0.3%'의 현실
+```
+잘못된 응답 (절대 이렇게 응답하지 말 것):
+```
+코스피 5000'의 성취와 '성장률 -0.3%'의 현실
+# 해설 (출력되지 않음)
+1. 큰따옴표 누락: 원문에서...
+```
+### 예시 2 — 명백한 오탈자 수정
+입력:
+```
+카테고리: 일반기사
+<제목>
+강남 3구, 매물 30% 늘었지만 거래량 15% 줄어유
+</제목>
+```
+올바른 응답:
+```
+강남 3구, 매물 30% 늘었지만 거래량 15% 줄어
+```
+### 예시 3 — 띄어쓰기 수정
+입력:
+```
+카테고리: 일반기사
+<제목>
+신용불량자절반이 4050 가장… 경제 떠받칠 '허리'가 무너진다
+</제목>
+```
+올바른 응답:
+```
+신용불량자 절반이 4050 가장… 경제 떠받칠 '허리'가 무너진다
+```
+### 예시 4 — Unbalanced 따옴표는 보충하지 않음
+입력:
+```
+카테고리: 일반기사
+<제목>
+김부겸 박근혜 찾아뵙고 싶다…양평 거주는 대구 시민께 죄송"
+</제목>
+```
+올바른 응답 (원문이 닫는 `"` 1개만 갖고 있으므로 그대로 유지 — 여는 따옴표를 추가하지 마라):
+```
+김부겸 박근혜 찾아뵙고 싶다…양평 거주는 대구 시민께 죄송"
+```
+==================================================
+=== ⚠️ FINAL REMINDER ⚠️ ===
+- 의심되면 변경하지 않는다 (do no harm > catch all)
+- 응답은 **정확히 한 줄**. 줄바꿈·해설·라벨·마크다운 모두 금지
+- 응답 = 입력의 제목과 동일한 형식 (한 줄짜리 plain text)
+- 위 형식을 위반하면 평가는 실패 처리된다
+==================================================

title_proofread/prompts/prompt_dev_v2/user.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+카테고리: {{category}}
+<기사_본문>
+{{body}}
+</기사_본문>
+<제목>
+{{original}}
+</제목>

title_proofread/runner.py CHANGED Viewed

@@ -1,6 +1,10 @@
 """제목 교열 단일 호출 러너 — solar-pro2 고정.
 production 환경(extension) 이 solar-pro2 를 사용하므로 데모도 동일 모델로 고정.
 """
 from __future__ import annotations
@@ -11,7 +15,9 @@ from pathlib import Path
 from typing import Any
 MODEL = "solar-pro2"
-DEFAULT_PROMPT_DIR = Path(__file__).resolve().parent / "prompts" / "prompt_dev_v1"
 # solar-pro2 가 가끔 응답 본문 앞에 reasoning trace 를 emit 하고 `</think>` 로 닫는
 # 경우가 있음 (보통은 paired `<think>...</think>` 인데 unpaired 가 발생). upstage
@@ -21,14 +27,7 @@ _ORPHAN_THINK_PREFIX = re.compile(r"^.*?</think>\s*", re.DOTALL)
 def _strip_think(raw: str) -> str:
-    """`<think>...</think>` 및 unpaired `</think>` 앞부분 모두 제거.
-    가드 순서:
-      1. paired `<think>...</think>` 블록 제거
-      2. 그래도 `</think>` 가 남아 있으면 → 첫 등장 위치 이전을 전부 reasoning
-         trace 로 간주하고 잘라냄 (가장 흔한 누출 패턴)
-      3. 남은 `<think>` / `</think>` 토큰 잔존도 제거
-    """
     s = _PAIRED_THINK.sub("", raw)
     if "</think>" in s:
         s = _ORPHAN_THINK_PREFIX.sub("", s, count=1)
@@ -36,16 +35,29 @@ def _strip_think(raw: str) -> str:
     return s.strip()
-def load_default_prompts() -> tuple[str, str]:
-    """`prompt_dev_v1` 의 system.txt + user.txt 를 그대로 반환."""
-    system = (DEFAULT_PROMPT_DIR / "system.txt").read_text(encoding="utf-8")
-    user = (DEFAULT_PROMPT_DIR / "user.txt").read_text(encoding="utf-8")
     return system, user
-def render_user_message(user_template: str, original: str, category: str) -> str:
-    """`{{original}}`, `{{category}}` placeholder 치환."""
-    return user_template.replace("{{original}}", original).replace("{{category}}", category)
 def run_title_proofread(
@@ -53,25 +65,36 @@ def run_title_proofread(
     client: Any,
     original: str,
     category: str,
-    system_prompt: str,
-    user_template: str,
     temperature: float = 0.0,
     reasoning_effort: str = "low",
     max_tokens: int = 2000,
 ) -> dict[str, Any]:
     """단일 LLM 호출. 모델은 항상 `solar-pro2`.
     Returns:
         {
-          "output": str,        # 모델 응답 (strip + think-token 제거 후)
-          "user_message": str,  # placeholder 치환된 실 user content
           "model": str,
           "latency_ms": int,
-          "usage": dict,        # {prompt_tokens, completion_tokens, total_tokens}
           "error": str | None,
         }
     """
-    user_msg = render_user_message(user_template, original, category)
     start = time.time()
     try:
         kwargs: dict[str, Any] = {
@@ -90,6 +113,7 @@ def run_title_proofread(
         return {
             "output": "",
             "user_message": user_msg,
             "model": MODEL,
             "latency_ms": int((time.time() - start) * 1000),
             "usage": {},
@@ -110,6 +134,7 @@ def run_title_proofread(
     return {
         "output": cleaned,
         "user_message": user_msg,
         "model": MODEL,
         "latency_ms": elapsed_ms,
         "usage": usage_dict,

 """제목 교열 단일 호출 러너 — solar-pro2 고정.
 production 환경(extension) 이 solar-pro2 를 사용하므로 데모도 동일 모델로 고정.
+본문 입력 여부에 따라 자동 분기:
+  - body 가 비어있으면  → `prompt_dev_v1` (제목만, 현 production 동작)
+  - body 가 있으면      → `prompt_dev_v2` (본문 컨텍스트 + PRIORITY 7)
 """
 from __future__ import annotations
 from typing import Any
 MODEL = "solar-pro2"
+PROMPT_ROOT = Path(__file__).resolve().parent / "prompts"
+PROMPT_V1_DIR = PROMPT_ROOT / "prompt_dev_v1"
+PROMPT_V2_DIR = PROMPT_ROOT / "prompt_dev_v2"
 # solar-pro2 가 가끔 응답 본문 앞에 reasoning trace 를 emit 하고 `</think>` 로 닫는
 # 경우가 있음 (보통은 paired `<think>...</think>` 인데 unpaired 가 발생). upstage
 def _strip_think(raw: str) -> str:
+    """`<think>...</think>` 및 unpaired `</think>` 앞부분 모두 제거."""
     s = _PAIRED_THINK.sub("", raw)
     if "</think>" in s:
         s = _ORPHAN_THINK_PREFIX.sub("", s, count=1)
     return s.strip()
+def _load_prompts(prompt_dir: Path) -> tuple[str, str]:
+    system = (prompt_dir / "system.txt").read_text(encoding="utf-8")
+    user = (prompt_dir / "user.txt").read_text(encoding="utf-8")
     return system, user
+def load_default_prompts() -> tuple[str, str]:
+    """제목-only 모드 기본 프롬프트 (prompt_dev_v1)."""
+    return _load_prompts(PROMPT_V1_DIR)
+def load_body_prompts() -> tuple[str, str]:
+    """본문 활용 모드 프롬프트 (prompt_dev_v2)."""
+    return _load_prompts(PROMPT_V2_DIR)
+def render_user_message(user_template: str, original: str, category: str, body: str = "") -> str:
+    """`{{original}}`, `{{category}}`, `{{body}}` placeholder 치환."""
+    return (
+        user_template.replace("{{original}}", original)
+        .replace("{{category}}", category)
+        .replace("{{body}}", body)
+    )
 def run_title_proofread(
     client: Any,
     original: str,
     category: str,
+    body: str = "",
     temperature: float = 0.0,
     reasoning_effort: str = "low",
     max_tokens: int = 2000,
 ) -> dict[str, Any]:
     """단일 LLM 호출. 모델은 항상 `solar-pro2`.
+    body 가 비어있으면 v1 (제목 only) prompt, 있으면 v2 (본문 컨텍스트) prompt 사용.
     Returns:
         {
+          "output": str,          # 모델 응답 (strip + think-token 제거 후)
+          "user_message": str,    # placeholder 치환된 실 user content
+          "prompt_version": str,  # "v1" | "v2"
           "model": str,
           "latency_ms": int,
+          "usage": dict,
           "error": str | None,
         }
     """
+    body_clean = body.strip()
+    if body_clean:
+        system_prompt, user_template = load_body_prompts()
+        prompt_version = "v2"
+    else:
+        system_prompt, user_template = load_default_prompts()
+        prompt_version = "v1"
+    user_msg = render_user_message(user_template, original, category, body_clean)
     start = time.time()
     try:
         kwargs: dict[str, Any] = {
         return {
             "output": "",
             "user_message": user_msg,
+            "prompt_version": prompt_version,
             "model": MODEL,
             "latency_ms": int((time.time() - start) * 1000),
             "usage": {},
     return {
         "output": cleaned,
         "user_message": user_msg,
+        "prompt_version": prompt_version,
         "model": MODEL,
         "latency_ms": elapsed_ms,
         "usage": usage_dict,

title_proofread/ui.py CHANGED Viewed

@@ -1,7 +1,11 @@
 """Gradio UI — 제목 교열 sandbox 탭 (solar-pro2 단일 모델).
 production extension 과 동일 모델(solar-pro2) 로 고정. 시스템/유저 프롬프트는
-내부 default 사용 — UI 에 노출하지 않음. 호출 메타데이터도 표시하지 않음.
 """
 from __future__ import annotations
@@ -11,7 +15,7 @@ from typing import Any
 import gradio as gr
 from diff_utils import highlight_diff
-from .runner import MODEL, load_default_prompts, run_title_proofread
 # UI 단순화를 위해 category 는 입력 받지 않고 내부 고정.
 DEFAULT_CATEGORY = "일반기사"
@@ -23,9 +27,11 @@ def build_title_proofread_tab(client: Any) -> None:
     Args:
         client: openai.OpenAI 호환 클라이언트 (Upstage base_url 설정).
     """
-    default_system, default_user = load_default_prompts()
     gr.Markdown(f"## 제목 교열 ({MODEL})")
     original = gr.Textbox(
         label="제목 입력",
@@ -33,6 +39,16 @@ def build_title_proofread_tab(client: Any) -> None:
         lines=1,
     )
     with gr.Accordion("추론 옵션", open=False):
         with gr.Row():
             temperature = gr.Slider(
@@ -63,6 +79,7 @@ def build_title_proofread_tab(client: Any) -> None:
     def _on_run(
         original_text: str,
         temperature_val: float,
         reasoning_effort_val: str,
     ):
@@ -74,13 +91,13 @@ def build_title_proofread_tab(client: Any) -> None:
             return _empty()
         orig_clean = original_text.strip()
         result = run_title_proofread(
             client=client,
             original=orig_clean,
             category=DEFAULT_CATEGORY,
-            system_prompt=default_system,
-            user_template=default_user,
             temperature=temperature_val,
             reasoning_effort=reasoning_effort_val,
         )
@@ -97,6 +114,7 @@ def build_title_proofread_tab(client: Any) -> None:
         _on_run,
         inputs=[
             original,
             temperature,
             reasoning_effort,
         ],

 """Gradio UI — 제목 교열 sandbox 탭 (solar-pro2 단일 모델).
 production extension 과 동일 모델(solar-pro2) 로 고정. 시스템/유저 프롬프트는
+내부 default 사용 — UI 에 노출하지 않음.
+본문 입력란 (optional):
+  - 비어있으면 → 제목만 보고 교열 (현 production 동작 = prompt_dev_v1)
+  - 있으면     → 본문 컨텍스트 활용 (prompt_dev_v2, 본문 의존 typo catch rate ↑)
 """
 from __future__ import annotations
 import gradio as gr
 from diff_utils import highlight_diff
+from .runner import MODEL, run_title_proofread
 # UI 단순화를 위해 category 는 입력 받지 않고 내부 고정.
 DEFAULT_CATEGORY = "일반기사"
     Args:
         client: openai.OpenAI 호환 클라이언트 (Upstage base_url 설정).
     """
     gr.Markdown(f"## 제목 교열 ({MODEL})")
+    gr.Markdown(
+        "본문을 함께 입력하면 동음이의어·이름·숫자 같은 *문맥 의존 오탈자* 를 "
+        "더 정확히 잡습니다. 비워두면 제목만 보고 교열합니다."
+    )
     original = gr.Textbox(
         label="제목 입력",
         lines=1,
     )
+    body = gr.Textbox(
+        label="기사 본문 (선택)",
+        placeholder=(
+            "본문을 paste 하면 본문에 명시된 단어·이름·숫자를 근거로 더 "
+            "정확하게 교정합니다. 비워두면 제목만 보고 교열합니다."
+        ),
+        lines=8,
+        max_lines=20,
+    )
     with gr.Accordion("추론 옵션", open=False):
         with gr.Row():
             temperature = gr.Slider(
     def _on_run(
         original_text: str,
+        body_text: str,
         temperature_val: float,
         reasoning_effort_val: str,
     ):
             return _empty()
         orig_clean = original_text.strip()
+        body_clean = (body_text or "").strip()
         result = run_title_proofread(
             client=client,
             original=orig_clean,
             category=DEFAULT_CATEGORY,
+            body=body_clean,
             temperature=temperature_val,
             reasoning_effort=reasoning_effort_val,
         )
         _on_run,
         inputs=[
             original,
+            body,
             temperature,
             reasoning_effort,
         ],