Spaces:

orgoflu
/

moro_text_2

Sleeping

App Files Files Community

orgoflu commited on Sep 10, 2025

Commit

42dfadf

verified ·

1 Parent(s): f7edcfe

app.py

Browse files

Files changed (1) hide show

app.py +113 -0

app.py ADDED Viewed

	@@ -0,0 +1,113 @@

+import nltk
+nltk.download("punkt")
+import gradio as gr
+import trafilatura
+import requests
+from markdownify import markdownify as md
+from sumy.parsers.plaintext import PlaintextParser
+from sumy.nlp.tokenizers import Tokenizer
+from sumy.summarizers.text_rank import TextRankSummarizer
+import re
+# ===== 유틸 =====
+def clean_text(text: str) -> str:
+    text = re.sub(r'\s+', ' ', text).strip()
+    return text
+def remove_duplicates(sentences):
+    seen = set()
+    result = []
+    for s in sentences:
+        s_clean = s.strip()
+        if s_clean and s_clean not in seen:
+            seen.add(s_clean)
+            result.append(s_clean)
+    return result
+# ===== 요약 =====
+def summarize_text(text):
+    text = clean_text(text)
+    length = len(text)
+    # 본문 길이에 따라 문장 수 자동 조절
+    if length < 300:
+        sentence_count = 1
+    elif length < 800:
+        sentence_count = 2
+    elif length < 1500:
+        sentence_count = 3
+    else:
+        sentence_count = 4
+    parser = PlaintextParser.from_string(text, Tokenizer("korean"))
+    summarizer = TextRankSummarizer()
+    summary_sentences = summarizer(parser.document, sentence_count)
+    summary_list = [str(sentence) for sentence in summary_sentences]
+    summary_list = remove_duplicates(summary_list)
+    return summary_list
+# ===== 간단 패러프레이즈 =====
+def paraphrase_text(sentences):
+    replacements = {
+        "노조": "노동조합",
+        "성과급": "성과 보상금",
+        "요구": "요청",
+        "불만": "이의 제기",
+        "합의안": "협상 결과안"
+    }
+    paraphrased = []
+    for s in sentences:
+        new_s = s
+        for k, v in replacements.items():
+            new_s = re.sub(k, v, new_s)
+        # 어순 변경 예시
+        if "는" in new_s:
+            parts = new_s.split("는", 1)
+            if len(parts) == 2 and parts[0] and parts[1]:
+                new_s = f"{parts[1].strip()} — {parts[0].strip()}는"
+        paraphrased.append(new_s)
+    return paraphrased
+# ===== 전체 파이프라인 =====
+def extract_summarize_paraphrase(url):
+    headers = {"User-Agent": "Mozilla/5.0"}
+    try:
+        r = requests.get(url, headers=headers, timeout=10)
+        r.raise_for_status()
+        html_content = trafilatura.extract(
+            r.text,
+            output_format="html",
+            include_tables=False,
+            favor_recall=True
+        )
+        if not html_content:
+            return "본문을 추출할 수 없습니다.", "", ""
+        markdown_text = md(html_content, heading_style="ATX")
+        summary_sentences = summarize_text(markdown_text)
+        paraphrased_sentences = paraphrase_text(summary_sentences)
+        return markdown_text, "\n".join(summary_sentences), "\n".join(paraphrased_sentences)
+    except Exception as e:
+        return f"에러 발생: {e}", "", ""
+# ===== Gradio UI =====
+iface = gr.Interface(
+    fn=extract_summarize_paraphrase,
+    inputs=gr.Textbox(label="URL 입력", placeholder="https://example.com"),
+    outputs=[
+        gr.Markdown(label="추출된 본문"),
+        gr.Textbox(label="자동 요약", lines=5),
+        gr.Textbox(label="자동 재작성", lines=5)
+    ],
+    title="한국어 본문 추출 + 자동 요약 + 자동 재작성",
+    description="웹페이지 URL을 입력하면 본문을 추출하고, 길이에 맞춰 자동으로 문장 수를 조절해 요약하며, 간단한 재작성 결과를 제공합니다."
+)
+if __name__ == "__main__":
+    iface.launch()