Spaces:

orgoflu
/

moro_text_4

Runtime error

App Files Files Community

orgoflu commited on Sep 11, 2025

Commit

629d00c

verified ·

1 Parent(s): 30f4683

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -23

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 # app.py
-# HTML 파싱 → 자동요약(TextRank) → LLM 재작성
-# 모델: Qwen2.5-1.5B-Instruct, skt/kogpt2-base-v2
 import requests
 import trafilatura
@@ -19,33 +19,38 @@ MODEL_OPTIONS = {
     "Qwen2.5-1.5B-Instruct": "Qwen/Qwen2.5-1.5B-Instruct",
     "CLOVA-Text(대체)":      "skt/kogpt2-base-v2"
 }
 _PIPELINES = {}
 def load_llm(model_choice: str):
     if model_choice in _PIPELINES:
         return _PIPELINES[model_choice]
-    model_name = MODEL_OPTIONS[model_choice]
-    tok = AutoTokenizer.from_pretrained(model_name)
-    mdl = AutoModelForCausalLM.from_pretrained(model_name)
-    pl = pipeline("text-generation", model=mdl, tokenizer=tok, device=-1)
     _PIPELINES[model_choice] = pl
     return pl
 # ===== 자동요약(TextRank) =====
-def auto_summarize(text: str, sentences_count: int = 3) -> str:
-    parser = PlaintextParser.from_string(text, Tokenizer("korean"))
-    summarizer = TextRankSummarizer()
-    sents = [str(s) for s in summarizer(parser.document, sentences_count)]
-    return " ".join(sents).strip()
 # ===== LLM 재작성 =====
 def rewrite_with_llm(summary: str, model_choice: str) -> str:
     llm = load_llm(model_choice)
-    prompt = f"""다음 요약문을 더 간결하고 매끄럽게 다듬어라:
-{summary}
-"""
     out = llm(
         prompt,
         max_new_tokens=150,
@@ -78,13 +83,13 @@ def process_url(url: str, model_choice: str):
     )
     md_preview = md(html or r.text, heading_style="ATX")
-    # 2) 자동요약(TextRank)
-    auto_sum = auto_summarize(plain, sentences_count=3)
     # 3) LLM 재작성
     final = rewrite_with_llm(auto_sum, model_choice)
-    # 4) 결과 반환
     link_html = f'<a href="{url}" target="_blank">원문 보기</a>'
     return (
         link_html + "<br><br>" + md_preview,
@@ -98,17 +103,19 @@ iface = gr.Interface(
     fn=process_url,
     inputs=[
         gr.Textbox(label="URL 입력", placeholder="https://n.news.naver.com/..."),
-        gr.Dropdown(choices=list(MODEL_OPTIONS.keys()),
-                    value="Qwen2.5-1.5B-Instruct",
-                    label="모델 선택")
     ],
     outputs=[
         gr.HTML(label="원문 링크 + 본문 미리보기"),
-        gr.Textbox(label="자동요약 (3문장 TextRank)", lines=4),
         gr.Textbox(label="LLM 재작성", lines=4)
     ],
     title="HTML 파싱 → 자동요약 → LLM 재작성",
-    description="긴 글은 TextRank로 먼저 요약한 뒤, Qwen/KoGPT2로 깔끔하게 다듬습니다."
 )
 if __name__ == "__main__":

 # app.py
+# HTML 파싱 → 자동요약(TextRank, 가드) → LLM 재작성
+# Qwen2.5-1.5B-Instruct, skt/kogpt2-base-v2
 import requests
 import trafilatura
     "Qwen2.5-1.5B-Instruct": "Qwen/Qwen2.5-1.5B-Instruct",
     "CLOVA-Text(대체)":      "skt/kogpt2-base-v2"
 }
 _PIPELINES = {}
 def load_llm(model_choice: str):
     if model_choice in _PIPELINES:
         return _PIPELINES[model_choice]
+    model_id = MODEL_OPTIONS[model_choice]
+    tok = AutoTokenizer.from_pretrained(model_id)
+    mdl = AutoModelForCausalLM.from_pretrained(model_id)
+    pl  = pipeline("text-generation", model=mdl, tokenizer=tok, device=-1)
     _PIPELINES[model_choice] = pl
     return pl
 # ===== 자동요약(TextRank) =====
+def auto_summarize(text: str, n_sentences: int = 3) -> str:
+    """
+    Sumy TextRank 기반 추출 요약.
+    실패하면 앞 500자 폴백.
+    """
+    try:
+        parser     = PlaintextParser.from_string(text, Tokenizer("korean"))
+        summarizer = TextRankSummarizer()
+        sents = [str(s) for s in summarizer(parser.document, n_sentences)]
+        summary = " ".join(sents).strip()
+        return summary or text[:500]
+    except Exception:
+        return text[:500]
 # ===== LLM 재작성 =====
 def rewrite_with_llm(summary: str, model_choice: str) -> str:
     llm = load_llm(model_choice)
+    prompt = f"다음 요약문을 더 간결하고 매끄럽게 다듬어라:\n{summary}\n"
     out = llm(
         prompt,
         max_new_tokens=150,
     )
     md_preview = md(html or r.text, heading_style="ATX")
+    # 2) 자동요약(TextRank, 폴백 포함)
+    auto_sum = auto_summarize(plain, n_sentences=3)
     # 3) LLM 재작성
     final = rewrite_with_llm(auto_sum, model_choice)
+    # 4) 결과 리턴
     link_html = f'<a href="{url}" target="_blank">원문 보기</a>'
     return (
         link_html + "<br><br>" + md_preview,
     fn=process_url,
     inputs=[
         gr.Textbox(label="URL 입력", placeholder="https://n.news.naver.com/..."),
+        gr.Dropdown(
+            choices=list(MODEL_OPTIONS.keys()),
+            value="Qwen2.5-1.5B-Instruct",
+            label="모델 선택"
+        )
     ],
     outputs=[
         gr.HTML(label="원문 링크 + 본문 미리보기"),
+        gr.Textbox(label="자동요약", lines=4),
         gr.Textbox(label="LLM 재작성", lines=4)
     ],
     title="HTML 파싱 → 자동요약 → LLM 재작성",
+    description="TextRank 자동요약 후 Qwen/KoGPT2로 다듬습니다. 요약 단계에서 에러 발생 시 앞 500자 폴백."
 )
 if __name__ == "__main__":