Spaces:

orgoflu
/

moro_text_image

Sleeping

App Files Files Community

orgoflu commited on Sep 10, 2025

Commit

e97007d

verified ·

1 Parent(s): 0f64d79

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -19

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import nltk
-# NLTK 토크나이저 리소스 자동 다운로드
 nltk.download("punkt")
 nltk.download("punkt_tab")
@@ -10,21 +9,42 @@ from markdownify import markdownify as md
 from sumy.parsers.plaintext import PlaintextParser
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.text_rank import TextRankSummarizer
 def summarize_text(text, sentence_count=3):
-    # 한국어도 문장 단위로 끊기 위해 english 토크나이저 사용
     parser = PlaintextParser.from_string(text, Tokenizer("english"))
     summarizer = TextRankSummarizer()
     summary_sentences = summarizer(parser.document, sentence_count)
-    return "\n".join(str(sentence) for sentence in summary_sentences)
-def extract_and_summarize(url):
     headers = {"User-Agent": "Mozilla/5.0"}
     try:
         r = requests.get(url, headers=headers, timeout=10)
         r.raise_for_status()
-        # HTML 형태로 본문 추출
         html_content = trafilatura.extract(
             r.text,
             output_format="html",
@@ -33,32 +53,28 @@ def extract_and_summarize(url):
         )
         if not html_content:
-            return "본문을 추출할 수 없습니다.", ""
-        # HTML → Markdown 변환
         markdown_text = md(html_content, heading_style="ATX")
-        # 요약 생성
-        summary = summarize_text(markdown_text, sentence_count=3)
-        return markdown_text, summary
-    except requests.exceptions.Timeout:
-        return "요청이 시간 초과되었습니다.", ""
-    except requests.exceptions.RequestException as e:
-        return f"요청 실패: {e}", ""
     except Exception as e:
-        return f"에러 발생: {e}", ""
 iface = gr.Interface(
-    fn=extract_and_summarize,
     inputs=gr.Textbox(label="URL 입력", placeholder="https://example.com"),
     outputs=[
         gr.Markdown(label="추출된 본문"),
-        gr.Textbox(label="자동 요약", lines=5)
     ],
-    title="본문 추출기 + 자동 요약",
-    description="웹페이지 URL을 입력하면 본문을 추출하고, TextRank 알고리즘으로 3문장 요약을 제공합니다."
 )
 if __name__ == "__main__":

 import nltk
 nltk.download("punkt")
 nltk.download("punkt_tab")
 from sumy.parsers.plaintext import PlaintextParser
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.text_rank import TextRankSummarizer
+import re
 def summarize_text(text, sentence_count=3):
     parser = PlaintextParser.from_string(text, Tokenizer("english"))
     summarizer = TextRankSummarizer()
     summary_sentences = summarizer(parser.document, sentence_count)
+    return [str(sentence) for sentence in summary_sentences]
+def paraphrase_text(sentences):
+    # 간단한 로컬 paraphrase: 동의어 치환 + 문장 구조 변경
+    # (LLM 없이 동작, 품질은 기본 수준)
+    paraphrased = []
+    replacements = {
+        "노조": "노동조합",
+        "성과급": "성과 보상금",
+        "요구": "요청",
+        "불만": "이의 제기",
+        "합의안": "협상 결과안"
+    }
+    for s in sentences:
+        new_s = s
+        for k, v in replacements.items():
+            new_s = re.sub(k, v, new_s)
+        # 어순 살짝 변경 예시
+        if "는" in new_s:
+            parts = new_s.split("는", 1)
+            new_s = f"{parts[1].strip()} — {parts[0].strip()}는"
+        paraphrased.append(new_s)
+    return paraphrased
+def extract_summarize_paraphrase(url):
     headers = {"User-Agent": "Mozilla/5.0"}
     try:
         r = requests.get(url, headers=headers, timeout=10)
         r.raise_for_status()
         html_content = trafilatura.extract(
             r.text,
             output_format="html",
         )
         if not html_content:
+            return "본문을 추출할 수 없습니다.", "", ""
         markdown_text = md(html_content, heading_style="ATX")
+        summary_sentences = summarize_text(markdown_text, sentence_count=3)
+        paraphrased_sentences = paraphrase_text(summary_sentences)
+        return markdown_text, "\n".join(summary_sentences), "\n".join(paraphrased_sentences)
     except Exception as e:
+        return f"에러 발생: {e}", "", ""
 iface = gr.Interface(
+    fn=extract_summarize_paraphrase,
     inputs=gr.Textbox(label="URL 입력", placeholder="https://example.com"),
     outputs=[
         gr.Markdown(label="추출된 본문"),
+        gr.Textbox(label="자동 요약", lines=5),
+        gr.Textbox(label="자동 재작성", lines=5)
     ],
+    title="본문 추출기 + 자동 요약 + 자동 재작성",
+    description="웹페이지 URL을 입력하면 본문을 추출하고, 3문장 요약과 재작성(Paraphrasing) 결과를 제공합니다."
 )
 if __name__ == "__main__":