Spaces:

orgoflu
/

moro_text_4

Runtime error

App Files Files Community

orgoflu commited on Sep 11, 2025

Commit

0dc5312

verified ·

1 Parent(s): 629d00c

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -66

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
 # app.py
-# HTML 파싱 → 자동요약(TextRank, 가드) → LLM 재작성
-# Qwen2.5-1.5B-Instruct, skt/kogpt2-base-v2
 import requests
 import trafilatura
@@ -11,34 +10,10 @@ from sumy.parsers.plaintext import PlaintextParser
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.text_rank import TextRankSummarizer
-from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
-# ===== 모델 설정 =====
-MODEL_OPTIONS = {
-    "Qwen2.5-1.5B-Instruct": "Qwen/Qwen2.5-1.5B-Instruct",
-    "CLOVA-Text(대체)":      "skt/kogpt2-base-v2"
-}
-_PIPELINES = {}
-def load_llm(model_choice: str):
-    if model_choice in _PIPELINES:
-        return _PIPELINES[model_choice]
-    model_id = MODEL_OPTIONS[model_choice]
-    tok = AutoTokenizer.from_pretrained(model_id)
-    mdl = AutoModelForCausalLM.from_pretrained(model_id)
-    pl  = pipeline("text-generation", model=mdl, tokenizer=tok, device=-1)
-    _PIPELINES[model_choice] = pl
-    return pl
 # ===== 자동요약(TextRank) =====
 def auto_summarize(text: str, n_sentences: int = 3) -> str:
-    """
-    Sumy TextRank 기반 추출 요약.
-    실패하면 앞 500자 폴백.
-    """
     try:
-        parser     = PlaintextParser.from_string(text, Tokenizer("korean"))
         summarizer = TextRankSummarizer()
         sents = [str(s) for s in summarizer(parser.document, n_sentences)]
         summary = " ".join(sents).strip()
@@ -46,26 +21,10 @@ def auto_summarize(text: str, n_sentences: int = 3) -> str:
     except Exception:
         return text[:500]
-# ===== LLM 재작성 =====
-def rewrite_with_llm(summary: str, model_choice: str) -> str:
-    llm = load_llm(model_choice)
-    prompt = f"다음 요약문을 더 간결하고 매끄럽게 다듬어라:\n{summary}\n"
-    out = llm(
-        prompt,
-        max_new_tokens=150,
-        do_sample=False,
-        temperature=0.2,
-        repetition_penalty=1.2,
-        no_repeat_ngram_size=3
-    )[0]["generated_text"]
-    return out.replace(prompt, "").strip()
 # ===== URL 처리 =====
-def process_url(url: str, model_choice: str):
     # 1) HTML 파싱
-    r = requests.get(url, headers={"User-Agent":"Mozilla/5.0"}, timeout=10)
     r.raise_for_status()
     plain = trafilatura.extract(
         r.text,
@@ -83,39 +42,25 @@ def process_url(url: str, model_choice: str):
     )
     md_preview = md(html or r.text, heading_style="ATX")
-    # 2) 자동요약(TextRank, 폴백 포함)
     auto_sum = auto_summarize(plain, n_sentences=3)
-    # 3) LLM 재작성
-    final = rewrite_with_llm(auto_sum, model_choice)
-    # 4) 결과 리턴
     link_html = f'<a href="{url}" target="_blank">원문 보기</a>'
-    return (
-        link_html + "<br><br>" + md_preview,
-        auto_sum,
-        final
-    )
 # ===== Gradio UI =====
 iface = gr.Interface(
     fn=process_url,
     inputs=[
-        gr.Textbox(label="URL 입력", placeholder="https://n.news.naver.com/..."),
-        gr.Dropdown(
-            choices=list(MODEL_OPTIONS.keys()),
-            value="Qwen2.5-1.5B-Instruct",
-            label="모델 선택"
-        )
     ],
     outputs=[
         gr.HTML(label="원문 링크 + 본문 미리보기"),
-        gr.Textbox(label="자동요약", lines=4),
-        gr.Textbox(label="LLM 재작성", lines=4)
     ],
-    title="HTML 파싱 → 자동요약 → LLM 재작성",
-    description="TextRank 자동요약 후 Qwen/KoGPT2로 다듬습니다. 요약 단계에서 에러 발생 시 앞 500자 폴백."
 )
 if __name__ == "__main__":

 # app.py
+# HTML 파싱 → 자동요약(TextRank)만 수행
 import requests
 import trafilatura
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.text_rank import TextRankSummarizer
 # ===== 자동요약(TextRank) =====
 def auto_summarize(text: str, n_sentences: int = 3) -> str:
     try:
+        parser = PlaintextParser.from_string(text, Tokenizer("korean"))
         summarizer = TextRankSummarizer()
         sents = [str(s) for s in summarizer(parser.document, n_sentences)]
         summary = " ".join(sents).strip()
     except Exception:
         return text[:500]
 # ===== URL 처리 =====
+def process_url(url: str):
     # 1) HTML 파싱
+    r = requests.get(url, headers={"User-Agent": "Mozilla/5.0"}, timeout=10)
     r.raise_for_status()
     plain = trafilatura.extract(
         r.text,
     )
     md_preview = md(html or r.text, heading_style="ATX")
+    # 2) 자동요약
     auto_sum = auto_summarize(plain, n_sentences=3)
+    # 3) 결과 반환
     link_html = f'<a href="{url}" target="_blank">원문 보기</a>'
+    return link_html + "<br><br>" + md_preview, auto_sum
 # ===== Gradio UI =====
 iface = gr.Interface(
     fn=process_url,
     inputs=[
+        gr.Textbox(label="URL 입력", placeholder="https://n.news.naver.com/...")
     ],
     outputs=[
         gr.HTML(label="원문 링크 + 본문 미리보기"),
+        gr.Textbox(label="자동요약", lines=4)
     ],
+    title="HTML 파싱 → 자동요약",
+    description="HTML에서 본문을 추출하고 TextRank로 자동요약만 수행합니다."
 )
 if __name__ == "__main__":