Spaces:

maxmunzy
/

schoolbridge

Sleeping

File size: 23,903 Bytes

7f105c8

"""
auto_label_from_new_data_20260504.py
=====================================
담당: 경이 (kyeongyi)
작성일: 2026-05-04
브랜치: feature/kyeongyi-classification

목적:
    윤정님이 새로 추가한 대용량 데이터(5,560행)에는 'is_todo' 정보만 있고
    '일정/준비물/제출/비용/건강·안전/기타' 라벨이 없다.
    이 스크립트는 키워드 규칙과 슬롯(amount, due_date, action_hint)을 이용해
    자동으로 카테고리를 부여하고, 기존 v3.csv와 합쳐 v4 학습 데이터를 생성한다.

왜 '자동 라벨링'을 썼나?
    1. 새 데이터 5,560행을 사람이 수작업으로 라벨링하면 수십 시간 걸림.
    2. 기존 라벨 데이터(v3.csv, 142행)만으로는 KcELECTRA 파인튜닝이 부족
       (BERT 계열은 최소 클래스당 50~100개, 전체 300~1000개 이상 필요).
    3. 키워드 기반 자동 라벨링 → 대량 데이터 확보 → KcELECTRA 재학습 → 성능 역전.

검증 방법:
    - 기존 라벨이 있는 v3.csv를 이 규칙으로 다시 분류 → 규칙 정확도 확인.
    - 규칙 정확도가 75% 이상이면 자동 라벨 데이터를 신뢰할 수 있다고 판단.

실행:
    cd model/classification
    python scripts/auto_label_from_new_data_20260504.py
"""

import json
import re
import csv
import random
from pathlib import Path
from collections import Counter

random.seed(42)   # 재현성 보장 — 누가 실행해도 동일한 분할·샘플 순서


# ──────────────────────────────────────────────────────────────────
# 1. 경로 설정
# ──────────────────────────────────────────────────────────────────
# 이 파일의 위치: model/classification/scripts/
# _BASE → model/classification/
_BASE = Path(__file__).parent.parent

DATA_DIR     = _BASE / "data"
EXTRACT_BASE = _BASE.parent.parent / "model" / "extraction"  # 윤정님 모델 폴더

# 입력 파일 (윤정님이 추가한 새 데이터)
SRC_TEST_DATA   = EXTRACT_BASE / "data" / "train" / "test_data.jsonl"
SRC_PREDICT_OUT = EXTRACT_BASE / "data" / "processed" / "predict_output_testset.jsonl"

# 기존 경이님 라벨 데이터
SRC_V3_CSV = DATA_DIR / "notice_sample_v3.csv"

# 출력 파일
OUT_CSV = DATA_DIR / "notice_sample_v4_20260504.csv"

# 6가지 분류 카테고리
LABELS = ["일정", "준비물", "제출", "비용", "건강·안전", "기타"]


# ──────────────────────────────────────────────────────────────────
# 2. 카테고리별 키워드 규칙
# ──────────────────────────────────────────────────────────────────
# 설계 원칙:
#   (a) 우선순위 순서로 검사 — 먼저 매칭된 카테고리를 반환하고 중단.
#   (b) 각 카테고리에서 가장 '강한' 신호(오탐 없는 단어)를 선택.
#   (c) 한국어는 조사·어미 변형이 많으므로 어근만 사용 (예: "납부" → "납부해", "납부하여" 모두 포함).
#   (d) 숫자 패턴은 정규표현식 사용 (예: "20,000원", "3만원" 등 다양한 금액 표현).
#
# 왜 이 순서인가?
#   비용 > 준비물 > 제출 > 건강·안전 > 일정 > 기타
#   → "3만 원을 5월 15일까지 납부" 같은 문장은 '비용'이 더 강한 신호.
#   → '일정'은 날짜 표현이 많아 오탐 위험이 있어 후순위.
#   → '기타'는 규칙 없이 나머지를 다 받는 쓰레기통 역할.

RULES: list[tuple[str, list[str]]] = [
    # ── 비용 ──
    # 금액·납부 관련 표현이 명확하게 있는 경우.
    # r"\d[\d,]*\s*원" : "65,000원", "3만원"은 이 정규식으로 포착.
    ("비용", [
        "납부",            # "납부해 주세요", "납부하여"
        "입금",            # "계좌로 입금"
        "계좌이체",        # "계좌이체해 주세요"
        "급식비",
        "참가비",
        "수강료",
        "교재비",
        "버스비",
        "이용료",
        "수업료",
        "구입비",
        "지원금",
        "면제",            # "급식비 면제 신청"
        "선납",            # "선납해 주세요"
        r"\d[\d,]*\s*원",  # 숫자+원 (20,000원, 3만원 등)
    ]),

    # ── 준비물 ──
    # 챙겨야 할 물건·복장 관련.
    # "마스크를" 처럼 뒤에 조사가 붙는 경우도 어근으로 포착.
    ("준비물", [
        "지참",            # "지참하시기 바랍니다"
        "챙겨",            # "챙겨주시기 바랍니다"
        "챙기",            # "챙기시기 바랍니다"
        "준비해",          # "준비해 주세요"
        "준비물",          # "학습 준비물"
        "가져오",          # "가져오세요"
        "착용",            # "착용하여 등교"
        "신고 오",         # "운동화를 신고 오세요"
        "복장",
        "도시락",
        "우산",
        "수영복",
        "실내화",
        "방한",            # "방한용품"
        "앞치마",
        "고무장갑",
        "배낭",
        "여벌",            # "여벌 옷"
        "스케치북",
        "색연필",
    ]),

    # ── 제출 ──
    # 서류·동의서·설문 등 무언가를 학교에 내야 하는 경우.
    ("제출", [
        "제출",            # "제출해 주세요", "제출하여"
        "동의서",          # "현장체험학습 동의서"
        "신청서",          # "급식 신청서"
        "설문",            # "온라인 설문에 응답"
        "서류를",
        "작성하여",        # "작성하여 제출"
        "응답해",          # "설문에 응답해 주세요"
        "기재",            # "기재해 주세요"
        "접수",
        "첨부",
        "등록",            # "회원 등록"
        "신청해",          # "신청해 주세요"
        "기한 내 신청",
        "아이 편에",       # "아이 편에 보내주시기"
        "담임선생님께 보내",
    ]),

    # ── 건강·안전 ──
    # 신체 관련, 안전사고 예방, 감염병 관련.
    ("건강·안전", [
        "발열",
        "기침",
        "증상",
        "예방접종",
        "백신",
        "감염",
        "방역",
        "소독",
        "위생",
        "자가진단",
        "결석",
        "질병",
        "코로나",
        "독감",
        "알레르기",
        "안전사고",
        "교통안전",
        "헬멧",
        "안전벨트",
        "온열",            # "온열 질환"
        "응급",
        "선별진료",
        "PCR",
        "진단키트",
        "확진",
        "수분 보충",
    ]),

    # ── 일정 ──
    # 날짜·시간·행사 관련. 비용/준비물/제출 보다 후순위인 이유:
    #   "3만 원을 5월 15일까지 납부" → 날짜가 있어도 '비용'이 정답.
    #   날짜 패턴은 오탐이 많아 '강한' 단어와 함께 쓸 때만 신뢰.
    ("일정", [
        r"\d+월\s*\d+일",      # "5월 20일", "3 월 7 일"
        r"\d{4}\.\s*\d+\.\s*\d+",  # "2025.05.20"
        r"\d+\.\s*\d+\.\s*\([월화수목금토일]\)",  # "5.20.(화)"
        "오전",                # "오전 9시"
        "오후",
        "~까지",               # "3월 20일~까지"
        "부터 ",               # "3월부터 "
        "기간",
        "주간",
        "방학",
        "개학",
        "졸업식",
        "입학식",
        "운동회",
        "수학여행",
        "체험학습",
        "현장학습",
        "학부모 총회",
        "공개수업",
        "학예발표",
        "체육대회",
        "생태체험",
        "시작합니다",
        "출발합니다",
        "진행됩니다",
        "실시됩니다",
        "열립니다",
        "개최됩니다",
    ]),
]
# RULES에 없는 문장 → "기타"로 분류


# ──────────────────────────────────────────────────────────────────
# 3. 정규표현식 여부 판별 헬퍼
# ──────────────────────────────────────────────────────────────────
def _is_regex(pattern: str) -> bool:
    """문자열 안에 정규표현식 특수문자가 있으면 True."""
    # \d, ^, $, |, ?, *, +, (, ), [, ], {, } 중 하나라도 있으면 regex
    regex_chars = r"\d^$.|?*+()[]{}".replace(".", r"\.")
    return bool(re.search(r"[\\^$.|?*+()\[\]{}]|\\d", pattern))


# ──────────────────────────────────────────────────────────────────
# 4. 핵심 분류 함수 (규칙 기반)
# ──────────────────────────────────────────────────────────────────
def label_by_keywords(text: str) -> str | None:
    """
    텍스트에 키워드·패턴이 포함되면 해당 카테고리를 반환.
    RULES 리스트 순서대로 검사 — 첫 매칭에서 즉시 반환.
    없으면 None 반환 (→ 슬롯 기반 분류로 넘어감).
    """
    for category, patterns in RULES:
        for pat in patterns:
            if _is_regex(pat):
                if re.search(pat, text):
                    return category
            else:
                if pat in text:
                    return category
    return None


def label_by_slots(
    action_hint: str | None,
    amount: str | None,
    due_date: str | None,
) -> str | None:
    """
    윤정님 추출 모델이 뽑은 슬롯 정보를 이용한 보조 분류.
    키워드 규칙이 None을 반환했을 때만 호출.

    논리:
      - amount 있음  → 비용 관련 문장일 가능성이 높다
      - action_hint = "제출"/"신청" → 제출 카테고리
      - action_hint = "준비"/"지참" → 준비물 카테고리
      - due_date 있음 + 비용/제출 키워드 없음 → 일정 관련
    """
    if amount:
        return "비용"
    if action_hint in ("제출", "신청", "작성"):
        return "제출"
    if action_hint in ("준비", "지참", "착용"):
        return "준비물"
    if due_date:
        # 날짜가 있으나 다른 강한 신호가 없으면 일정
        return "일정"
    return None


def classify(
    text: str,
    action_hint: str | None = None,
    amount: str | None = None,
    due_date: str | None = None,
) -> str | None:
    """
    최종 분류 함수.
    1단계: 키워드 규칙 (빠르고 명확)
    2단계: 슬롯 기반 (윤정님 추출 정보 활용)
    모두 실패하면 None → 이 문장은 학습 데이터에서 제외 (노이즈 방지).

    '기타'를 일부러 규칙에 넣지 않은 이유:
      규칙으로 잡히지 않는 문장이 전부 기타가 되면 기타 데이터가
      너무 많아지고, 오탐(실제론 일정인데 기타로 잡힌 것)도 섞임.
      → 기타는 별도 limit을 두지 않고 "나머지"로만 수집.
    """
    label = label_by_keywords(text)
    if label:
        return label
    label = label_by_slots(action_hint, amount, due_date)
    if label:
        return label
    return None   # 애매한 문장은 버린다


# ──────────────────────────────────────────────────────────────────
# 5. 데이터 로드 함수
# ──────────────────────────────────────────────────────────────────
def load_test_data() -> list[dict]:
    """
    test_data.jsonl : {text, is_todo}
    is_todo = True인 행만 사용.
    이유: False인 행은 학교 공지 중 '할 일이 없는' 순수 안내 문장.
    분류 모델의 목적(학부모가 해야 할 행동 분류)에 맞지 않아 제외.
    """
    rows = []
    with open(SRC_TEST_DATA, encoding="utf-8") as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            d = json.loads(line)
            if d.get("is_todo") is True:
                rows.append({
                    "text":        d["text"],
                    "action_hint": None,   # 이 파일엔 슬롯 정보 없음
                    "amount":      None,
                    "due_date":    None,
                })
    return rows


def load_predict_output() -> list[dict]:
    """
    predict_output_testset.jsonl : {text, source, due_date, amount,
                                     confidence, action_hint, true_is_todo}

    필터 기준:
      - true_is_todo = True  : 명확하게 할 일인 문장
      - confidence >= 0.7    : 윤정님 모델이 확신하는 문장
    이 두 조건 중 하나라도 만족하면 사용.
    슬롯(amount, due_date, action_hint)은 자동 라벨링 2단계(label_by_slots)에 활용.
    """
    rows = []
    with open(SRC_PREDICT_OUT, encoding="utf-8") as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            d = json.loads(line)
            is_todo   = d.get("true_is_todo") is True
            high_conf = d.get("confidence", 0) >= 0.7
            if is_todo or high_conf:
                rows.append({
                    "text":        d["text"],
                    "action_hint": d.get("action_hint"),
                    "amount":      d.get("amount"),
                    "due_date":    d.get("due_date"),
                })
    return rows


def load_v3_csv() -> list[tuple[str, str]]:
    """
    기존에 경이님이 직접 라벨링한 notice_sample_v3.csv 로드.
    컬럼: text, category
    """
    rows = []
    with open(SRC_V3_CSV, encoding="utf-8-sig", newline="") as f:
        reader = csv.DictReader(f)
        for row in reader:
            text = row.get("text", "").strip()
            cat  = row.get("category", "").strip()
            if text and cat in LABELS:
                rows.append((text, cat))
    return rows


# ──────────────────────────────────────────────────────────────────
# 6. 규칙 검증 함수 — 기존 라벨 데이터로 규칙 정확도 측정
# ──────────────────────────────────────────────────────────────────
def validate_rules(v3_rows: list[tuple[str, str]]) -> float:
    """
    v3.csv는 경이님이 직접 라벨링한 '정답 데이터'다.
    이 정답 데이터에 자동 라벨링 규칙을 적용해 몇 %나 맞히는지 확인.

    목표: 75% 이상 → 자동 라벨 데이터를 신뢰할 수 있다고 판단.
    낮으면 규칙을 수정해야 함.
    """
    correct = 0
    total   = 0
    errors  = []

    for text, true_cat in v3_rows:
        pred = classify(text)
        if pred is None:
            pred = "기타"   # 규칙 미매칭 → 기타로 간주
        total += 1
        if pred == true_cat:
            correct += 1
        else:
            errors.append((text[:40], true_cat, pred))

    accuracy = correct / total if total > 0 else 0.0

    print("\n[규칙 검증] v3.csv 기준 자동 라벨링 정확도")
    print(f"  정답: {correct}/{total} = {accuracy:.1%}")

    if errors:
        print(f"  오분류 예시 (상위 10개):")
        for txt, true, pred in errors[:10]:
            print(f"    [{true}→{pred}] {txt}")

    if accuracy >= 0.75:
        print("  [OK] 규칙 신뢰도 충분 (75% 이상) -> 자동 라벨 데이터 채택")
    else:
        print("  [경고] 규칙 신뢰도 부족 -- 규칙을 추가/수정할 것을 권장")

    return accuracy


# ──────────────────────────────────────────────────────────────────
# 7. 라벨링 + 필터링
# ──────────────────────────────────────────────────────────────────
MIN_TEXT_LEN = 10   # 10글자 미만 단편 문장은 노이즈 가능성이 높아 제외


def label_all(rows: list[dict]) -> list[tuple[str, str]]:
    """
    rows 각각에 classify()를 적용해 (text, category) 쌍 반환.
    - MIN_TEXT_LEN 미만 → 제외
    - classify() 결과가 None → 제외 (애매한 문장)
    """
    labeled: list[tuple[str, str]] = []
    for r in rows:
        text = r["text"].strip()
        if len(text) < MIN_TEXT_LEN:
            continue
        cat = classify(text, r.get("action_hint"), r.get("amount"), r.get("due_date"))
        if cat:
            labeled.append((text, cat))
        else:
            # 규칙·슬롯 미매칭 문장은 '기타'로 넣되, 별도 카운터로 제한
            labeled.append((text, "기타"))
    return labeled


MAX_NEW_PER_LABEL = 120   # 새 데이터에서 카테고리당 최대 수집 수
# 이유: 너무 많으면 노이즈가 늘어나고, 클래스 불균형도 발생.
# 기존 v3(약 25/카테고리) + 신규(최대 120/카테고리) → 전체 약 900개 목표.


def balance_new_data(
    labeled: list[tuple[str, str]],
    max_per: int,
) -> list[tuple[str, str]]:
    """
    카테고리별로 max_per 개까지만 샘플링.
    random.shuffle(seed=42)로 무작위 선택 → 재현 가능.

    왜 균형이 필요한가?
      KcELECTRA 파인튜닝 시 특정 클래스 데이터가 너무 많으면
      모델이 그 클래스로 편향됨 (기존 문제와 동일한 class collapse 현상).
    """
    buckets: dict[str, list[str]] = {l: [] for l in LABELS}
    for text, cat in labeled:
        if cat in buckets:
            buckets[cat].append(text)

    result: list[tuple[str, str]] = []
    for cat, texts in buckets.items():
        random.shuffle(texts)
        for t in texts[:max_per]:
            result.append((t, cat))
    return result


# ──────────────────────────────────────────────────────────────────
# 8. 중복 제거
# ──────────────────────────────────────────────────────────────────
def remove_duplicates(rows: list[tuple[str, str]]) -> list[tuple[str, str]]:
    """
    동일 텍스트가 두 번 이상 나타나면 첫 번째만 유지.
    왜 필요한가?
      test_data.jsonl과 predict_output_testset.jsonl이 같은 원본에서
      파생됐기 때문에 중복 문장이 존재할 수 있음.
      중복이 있으면 test 세트에도 같은 문장이 들어가 평가가 부풀려짐.
    """
    seen: set[str] = set()
    out: list[tuple[str, str]] = []
    for text, cat in rows:
        if text not in seen:
            seen.add(text)
            out.append((text, cat))
    return out


# ──────────────────────────────────────────────────────────────────
# 9. 저장
# ──────────────────────────────────────────────────────────────────
def save_csv(rows: list[tuple[str, str]], path: Path) -> None:
    path.parent.mkdir(parents=True, exist_ok=True)
    with open(path, "w", encoding="utf-8-sig", newline="") as f:
        # quoting=QUOTE_ALL : 쉼표·줄바꿈 포함 텍스트도 안전하게 저장
        writer = csv.writer(f, quoting=csv.QUOTE_ALL)
        writer.writerow(["text", "category"])
        for text, cat in rows:
            writer.writerow([text, cat])
    print(f"\n[저장] {path}  ({len(rows)}행)")


# ──────────────────────────────────────────────────────────────────
# 10. 메인 실행
# ──────────────────────────────────────────────────────────────────
def main() -> None:
    print("=" * 60)
    print("  자동 라벨링 파이프라인 시작  (2026-05-04)")
    print("=" * 60)

    # Step A: 기존 라벨 데이터 로드
    v3_rows = load_v3_csv()
    print(f"\n[A] 기존 v3.csv: {len(v3_rows)}개")
    cnt_v3 = Counter(cat for _, cat in v3_rows)
    for l in LABELS:
        print(f"     {l}: {cnt_v3.get(l, 0)}개")

    # Step B: 규칙 검증 (v3.csv 기준)
    rule_acc = validate_rules(v3_rows)

    # Step C: 새 데이터 로드
    print("\n[C] 새 데이터 로드")
    test_rows    = load_test_data()
    predict_rows = load_predict_output()
    print(f"  test_data.jsonl  (is_todo=True): {len(test_rows):,}개")
    print(f"  predict_output   (필터 후):       {len(predict_rows):,}개")

    # Step D: 자동 라벨링
    print("\n[D] 자동 라벨링 중...")
    labeled_test    = label_all(test_rows)
    labeled_predict = label_all(predict_rows)
    all_new = labeled_test + labeled_predict
    print(f"  라벨링 완료: {len(all_new):,}개")
    cnt_new = Counter(cat for _, cat in all_new)
    for l in LABELS:
        print(f"  {l}: {cnt_new.get(l, 0)}개")

    # Step E: 균형 조정 (카테고리당 최대 MAX_NEW_PER_LABEL개)
    balanced = balance_new_data(all_new, MAX_NEW_PER_LABEL)
    print(f"\n[E] 균형 조정 후: {len(balanced)}개")
    cnt_bal = Counter(cat for _, cat in balanced)
    for l in LABELS:
        print(f"  {l}: {cnt_bal.get(l, 0)}개")

    # Step F: 기존 v3 + 새 데이터 병합 → 중복 제거
    combined = v3_rows + balanced
    combined = remove_duplicates(combined)
    random.shuffle(combined)   # 파일 내 순서 무작위화
    print(f"\n[F] 최종 병합 (중복 제거 후): {len(combined)}개")
    cnt_final = Counter(cat for _, cat in combined)
    for l in LABELS:
        print(f"  {l}: {cnt_final.get(l, 0)}개")

    # Step G: 저장
    save_csv(combined, OUT_CSV)

    # 최종 요약
    print("\n" + "=" * 60)
    print("  완료 요약")
    print("=" * 60)
    print(f"  기존 v3.csv:          {len(v3_rows):>4}개")
    print(f"  새 데이터 (균형 후):  {len(balanced):>4}개")
    print(f"  최종 v4 (중복 제거):  {len(combined):>4}개")
    print(f"  규칙 정확도:          {rule_acc:.1%}")
    print(f"  출력: {OUT_CSV}")
    print()
    print("다음 단계:")
    print("  python scripts/split_dataset.py --data v4_20260504 --force")
    print("  python src/classifier_simple.py   (베이스라인 재학습)")
    print("  Colab에서 notebooks/03_train_kcelectra_v2_20260504.ipynb 실행")


if __name__ == "__main__":
    main()