Spaces:

orgoflu
/

moro_text_4

Sleeping

App Files Files Community

orgoflu commited on Sep 11, 2025

Commit

3c8bf47

verified ·

1 Parent(s): eebc78a

Update app.py

Browse files

Files changed (1) hide show

app.py +227 -67

app.py CHANGED Viewed

@@ -1,100 +1,260 @@
-import nltk
-nltk.download("punkt")
 import gradio as gr
-import trafilatura, requests, re
 from markdownify import markdownify as md
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
-# ===== 모델 목록 =====
 MODEL_OPTIONS = {
     "Qwen2.5-1.5B-Instruct": "Qwen/Qwen2.5-1.5B-Instruct",
-    "CLOVA-Text(대체)": "skt/kogpt2-base-v2"  # 허가 없이 사용 가능
 }
-# ===== 텍스트 모델 로드 =====
-def load_text_model(model_choice):
     model_name = MODEL_OPTIONS[model_choice]
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    model = AutoModelForCausalLM.from_pretrained(model_name).to("cpu")
-    return pipeline("text-generation", model=model, tokenizer=tokenizer, device=-1)
-# ===== 텍스트 전처리 =====
-def clean_text(text):
-    return re.sub(r'\s+', ' ', text).strip()
-# ===== 텍스트 분할 =====
-def chunk_text(text, chunk_size=500):
-    text = clean_text(text)
-    return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
-# ===== LLM 요약 =====
-def llm_summary(text, model_choice):
-    llm = load_text_model(model_choice)
-    prompt = f"다음 글을 3문장 이내로 요약:\n{text}"
-    out = llm(prompt, max_new_tokens=150, do_sample=False, temperature=0.7,
-              repetition_penalty=1.2, no_repeat_ngram_size=3)
-    return out[0]["generated_text"].replace(prompt, "").strip()
-# ===== 분할 요약 → 통합 요약 =====
-def multi_stage_summary(text, model_choice):
-    chunks = chunk_text(text)
-    partial_summaries = [llm_summary(chunk, model_choice) for chunk in chunks]
-    combined_summary = " ".join(partial_summaries)
-    return llm_summary(combined_summary, model_choice)
-# ===== 재작성 =====
-def rewrite_with_llm(text, model_choice):
     llm = load_text_model(model_choice)
-    prompt = f"""다음 문장을 의미는 유지하되, 원문에 없는 내용은 절대 추가하지 말고,
-반복 없이 간결하고 매끄럽게 바꿔주세요.
-문장:
-{text}
-"""
-    out = llm(prompt, max_new_tokens=200, do_sample=False, temperature=0.7,
-              repetition_penalty=1.2, no_repeat_ngram_size=3)
-    return out[0]["generated_text"].replace(prompt, "").strip()
-# ===== URL 처리 =====
-def process_url(url, model_choice):
     try:
-        r = requests.get(url, headers={"User-Agent": "Mozilla/5.0"}, timeout=10)
         r.raise_for_status()
-        # 원문 추출
-        plain_text = trafilatura.extract(r.text, output_format="txt", include_tables=False, favor_recall=True) or ""
-        html_content = trafilatura.extract(r.text, output_format="html", include_tables=False, favor_recall=True)
         markdown_text = md(html_content or r.text, heading_style="ATX")
-        # 첫 줄 툴팁
-        first_line = plain_text.strip().split("\n")[0].strip()
-        link_html = f'<a href="{url}" title="{first_line}" target="_blank">원문 보기</a>'
-        # 분할 요약 → 통합 요약
-        final_summary = multi_stage_summary(plain_text, model_choice)
-        # 재작성
-        paraphrased_text = rewrite_with_llm(final_summary, model_choice)
-        return link_html + "<br><br>" + markdown_text, final_summary, paraphrased_text
     except Exception as e:
-        return f"에러 발생: {e}", "요약 없음", "재작성 없음"
-# ===== Gradio UI =====
 iface = gr.Interface(
     fn=process_url,
     inputs=[
-        gr.Textbox(label="URL 입력", placeholder="https://example.com"),
-        gr.Dropdown(choices=list(MODEL_OPTIONS.keys()), value="Qwen2.5-1.5B-Instruct", label="재작성 모델 선택")
     ],
     outputs=[
-        gr.HTML(label="원문 링크 + 추출된 본문"),
-        gr.Textbox(label="자동 요약", lines=5),
-        gr.Textbox(label="자동 재작성 (LLM)", lines=5)
     ],
-    title="한국어 본문 추출 + 분할 요약 + LLM 재작성",
-    description="긴 원문도 분할 요약 후 통합 재작성으로 품질 유지"
 )
 if __name__ == "__main__":

+# app.py
+# 한국어 기사 추출 → 선택 압축(비분할) → LLM 요약 → LLM 재작성
+# 모델: Qwen2.5-1.5B-Instruct, skt/kogpt2-base-v2 (둘 다 유지)
+# 헛소리/반복 억제: 전처리, 디코딩 제약, 결과 검증(폴백) 적용
+import re
+import time
+import uuid
+import json
+import requests
 import gradio as gr
+import trafilatura
 from markdownify import markdownify as md
+# 선택 압축(문맥 보존형 문장 선택)
+from sumy.parsers.plaintext import PlaintextParser
+from sumy.nlp.tokenizers import Tokenizer
+from sumy.summarizers.text_rank import TextRankSummarizer
+# Hugging Face
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
+# =========================
+# 모델 프리셋/로더
+# =========================
 MODEL_OPTIONS = {
     "Qwen2.5-1.5B-Instruct": "Qwen/Qwen2.5-1.5B-Instruct",
+    "CLOVA-Text(대체)":      "skt/kogpt2-base-v2"
+}
+PRESETS = {
+    "Qwen2.5-1.5B-Instruct": dict(do_sample=False, temperature=0.2, top_p=0.9,
+                                  repetition_penalty=1.2, no_repeat_ngram_size=3),
+    "CLOVA-Text(대체)":      dict(do_sample=False, temperature=0.2, top_p=0.9,
+                                  repetition_penalty=1.25, no_repeat_ngram_size=4),
 }
+# 간단 캐시(세션 중 중복 로딩 방지)
+_PIPELINES = {}
+def load_text_model(model_choice: str):
+    if model_choice in _PIPELINES:
+        return _PIPELINES[model_choice]
     model_name = MODEL_OPTIONS[model_choice]
+    tok = AutoTokenizer.from_pretrained(model_name)
+    mdl = AutoModelForCausalLM.from_pretrained(model_name)
+    pl = pipeline("text-generation", model=mdl, tokenizer=tok, device=-1)  # CPU
+    _PIPELINES[model_choice] = pl
+    return pl
+def llm_generate(llm, prompt: str, model_choice: str, max_new_tokens: int):
+    kw = PRESETS.get(model_choice, PRESETS["Qwen2.5-1.5B-Instruct"]).copy()
+    out = llm(prompt, max_new_tokens=max_new_tokens, **kw)[0]["generated_text"]
+    return out
+# =========================
+# 전처리 / 선택 압축 / 가드레일
+# =========================
+def dedup_lines(text: str) -> str:
+    seen, out = set(), []
+    for line in text.splitlines():
+        s = line.strip()
+        if s and s not in seen:
+            seen.add(s)
+            out.append(s)
+    return " ".join(out)
+def compress_repeated_phrases(text: str) -> str:
+    # 4회 이상 반복되는 2~20자 구절을 3회로 축약
+    return re.sub(r"(\S.{3,20}?)\s+(?:\1\s+){3,}", r"\1 \1 \1 ", text)
+def preprocess(text: str) -> str:
+    t = dedup_lines(text)
+    t = compress_repeated_phrases(t)
+    t = re.sub(r"\s+", " ", t).strip()
+    return t
+def select_key_sentences(text: str, target_chars: int = 1200, k: int = 10) -> str:
+    """
+    비분할 방식: 원문 전체에서 핵심 문장을 고르고 원문 순서를 최대한 보존.
+    target_chars: LLM 입력 컨텍스트 길이(자수 기준).
+    """
+    try:
+        parser = PlaintextParser.from_string(text, Tokenizer("korean"))
+        s = TextRankSummarizer()
+        candidates = [str(x) for x in s(parser.document, k)]
+        # 문장 단위로 원문을 나눠 candidates가 포함된 문장만 순서대로 선택
+        sentences = re.split(r'(?<=[.!?。])\s+', text)
+        ordered = [sent for sent in sentences if any(c in sent for c in candidates)]
+        out, total = [], 0
+        for sent in (ordered or candidates):
+            if not sent.strip():
+                continue
+            if total + len(sent) <= target_chars:
+                out.append(sent)
+                total += len(sent)
+            else:
+                break
+        if out:
+            return " ".join(out)
+        return text[:target_chars]
+    except Exception:
+        # sumy 실패 시 안전 폴백
+        return text[:target_chars]
+def hard_limit(s: str, n: int) -> str:
+    return s[:n].rstrip()
+def jaccard(a: str, b: str) -> float:
+    sa, sb = set(a.split()), set(b.split())
+    if not sa or not sb:
+        return 0.0
+    return len(sa & sb) / len(sa | sb)
+BANNED = ["딸기", "연애", "연예", "커뮤니티"]
+def validate(original: str, summary: str, fallback: str) -> str:
+    # 유사도/금지어 검사 → 실패 시 폴백
+    if jaccard(original, summary) < 0.15:
+        return fallback
+    if any(b in summary for b in BANNED):
+        return fallback
+    return summary
+# =========================
+# 프롬프트
+# =========================
+def build_summary_prompt(context: str) -> str:
+    return f"""역할: 한국어 기사 요약 전문가.
+규칙:
+- 원문에 없는 사실/수치/인용 추가 금지
+- 3문장, 300자 이내
+- 중복 표현 금지
+- 광고/추천 기사/외부 링크 내용 제외
+원문:
+{context}
+요약:"""
+def build_rewrite_prompt(summary: str) -> str:
+    return f"""역할: 한국어 문장 다듬기 전문가.
+규칙:
+- 의미 보존, 사실 추가/삭제 금지
+- 2~3문장, 250자 이내
+- 같은 구절 반복 금지
+- 간결하고 명확하게
+대상:
+{summary}
+개선본:"""
+# =========================
+# 파이프라인
+# =========================
+def run_pipeline(plain_text: str, model_choice: str):
+    t0 = time.time()
+    src = preprocess(plain_text)
+    condensed = select_key_sentences(src, target_chars=1200, k=10)
     llm = load_text_model(model_choice)
+    # 요약
+    sum_prompt = build_summary_prompt(condensed)
+    raw_sum = llm_generate(llm, sum_prompt, model_choice, max_new_tokens=220).replace(sum_prompt, "").strip()
+    summary = hard_limit(raw_sum, 300)
+    extractive_fb = condensed[:300]
+    summary = validate(src, summary, extractive_fb)
+    # 재작성
+    rw_prompt = build_rewrite_prompt(summary)
+    raw_rw = llm_generate(llm, rw_prompt, model_choice, max_new_tokens=200).replace(rw_prompt, "").strip()
+    rewrite = hard_limit(raw_rw, 250)
+    rewrite = validate(src, rewrite, summary)
+    latency_ms = int((time.time() - t0) * 1000)
+    return summary, rewrite, latency_ms, src, condensed
+def process_url(url: str, model_choice: str):
     try:
+        # Fetch
+        r = requests.get(url, headers={"User-Agent": "Mozilla/5.0"}, timeout=12)
         r.raise_for_status()
+        # 본문 추출
+        plain_text = trafilatura.extract(
+            r.text,
+            output_format="txt",
+            include_tables=False,
+            include_comments=False,
+            favor_recall=True
+        ) or ""
+        html_content = trafilatura.extract(
+            r.text,
+            output_format="html",
+            include_tables=False,
+            include_comments=False,
+            favor_recall=True
+        )
         markdown_text = md(html_content or r.text, heading_style="ATX")
+        # 파이프라인 실행
+        summary, rewrite, latency_ms, src, condensed = run_pipeline(plain_text, model_choice)
+        # 링크+원문 미리보기
+        header = plain_text.strip().split("\n")[0].strip() if plain_text else url
+        link_html = f'<a href="{url}" title="{header}" target="_blank">원문 보기</a>'
+        # 로그(콘솔)
+        print(json.dumps({
+            "id": str(uuid.uuid4()),
+            "model": model_choice,
+            "url": url,
+            "len_src": len(src),
+            "len_condensed": len(condensed),
+            "len_sum": len(summary),
+            "len_rw": len(rewrite),
+            "jaccard_sum": jaccard(src, summary),
+            "jaccard_rw": jaccard(src, rewrite),
+            "latency_ms": latency_ms
+        }, ensure_ascii=False))
+        return (
+            link_html + "<br><br>" + markdown_text,
+            summary,
+            rewrite,
+            f"{latency_ms} ms"
+        )
     except Exception as e:
+        return f"<b>에러</b>: {e}", "", "", ""
+# =========================
+# UI
+# =========================
 iface = gr.Interface(
     fn=process_url,
     inputs=[
+        gr.Textbox(label="URL 입력", placeholder="https://n.news.naver.com/..."),
+        gr.Dropdown(choices=list(MODEL_OPTIONS.keys()),
+                    value="Qwen2.5-1.5B-Instruct",
+                    label="모델 선택")
     ],
     outputs=[
+        gr.HTML(label="원문 링크 + 추출된 본문 미리보기"),
+        gr.Textbox(label="자동 요약(3문장/300자 이내)", lines=6),
+        gr.Textbox(label="자동 재작성(2~3문장/250자 이내)", lines=6),
+        gr.Textbox(label="지연 시간", lines=1)
     ],
+    title="한국어 뉴스 요약·재작성 (비분할 컨텍스트)",
+    description="파싱 원문 전체를 선택적으로 압축해 문맥을 유지하고, LLM 요약/재작성에 강한 제약과 폴백을 적용합니다."
 )
 if __name__ == "__main__":