Spaces:

orgoflu
/

moro_text_image

Sleeping

App Files Files Community

orgoflu commited on Sep 10, 2025

Commit

f6a9bc3

verified ·

1 Parent(s): df6d951

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -23

app.py CHANGED Viewed

@@ -4,8 +4,17 @@ import requests
 from markdownify import markdownify as md
 from bs4 import BeautifulSoup
 from urllib.parse import urljoin
-def extract(url):
     headers = {"User-Agent": "Mozilla/5.0"}
     try:
         r = requests.get(url, headers=headers, timeout=10)
@@ -20,40 +29,32 @@ def extract(url):
         )
         if not html_content:
-            return "본문을 추출할 수 없습니다."
-        # 이미지 절대 경로 변환
-        soup = BeautifulSoup(r.text, "lxml")
-        images = []
-        for img in soup.find_all("img"):
-            src = img.get("src")
-            if src:
-                full_url = urljoin(url, src)  # 상대 경로 → 절대 경로
-                if full_url.startswith("http"):
-                    images.append(f"![이미지]({full_url})")
         # HTML → Markdown 변환
         markdown_text = md(html_content, heading_style="ATX")
-        # 이미지들을 본문 끝에 추가
-        if images:
-            markdown_text += "\n\n---\n\n" + "\n\n".join(images)
-        return markdown_text
     except requests.exceptions.Timeout:
-        return "요청이 시간 초과되었습니다."
     except requests.exceptions.RequestException as e:
-        return f"요청 실패: {e}"
     except Exception as e:
-        return f"에러 발생: {e}"
 iface = gr.Interface(
-    fn=extract,
     inputs=gr.Textbox(label="URL 입력", placeholder="https://example.com"),
-    outputs=gr.Markdown(label="추출된 본문"),
-    title="본문 추출기 (리더모드 + 이미지 포함)",
-    description="웹페이지 URL을 입력하면 리더모드처럼 깔끔하게 마크다운으로 추출하고, 본문 속 이미지도 함께 표시합니다."
 )
 if __name__ == "__main__":

 from markdownify import markdownify as md
 from bs4 import BeautifulSoup
 from urllib.parse import urljoin
+from sumy.parsers.plaintext import PlaintextParser
+from sumy.nlp.tokenizers import Tokenizer
+from sumy.summarizers.text_rank import TextRankSummarizer
+def summarize_text(text, sentence_count=3):
+    parser = PlaintextParser.from_string(text, Tokenizer("korean"))
+    summarizer = TextRankSummarizer()
+    summary_sentences = summarizer(parser.document, sentence_count)
+    return "\n".join(str(sentence) for sentence in summary_sentences)
+def extract_and_summarize(url):
     headers = {"User-Agent": "Mozilla/5.0"}
     try:
         r = requests.get(url, headers=headers, timeout=10)
         )
         if not html_content:
+            return "본문을 추출할 수 없습니다.", ""
         # HTML → Markdown 변환
         markdown_text = md(html_content, heading_style="ATX")
+        # 요약 생성
+        summary = summarize_text(markdown_text, sentence_count=3)
+        return markdown_text, summary
     except requests.exceptions.Timeout:
+        return "요청이 시간 초과되었습니다.", ""
     except requests.exceptions.RequestException as e:
+        return f"요청 실패: {e}", ""
     except Exception as e:
+        return f"에러 발생: {e}", ""
 iface = gr.Interface(
+    fn=extract_and_summarize,
     inputs=gr.Textbox(label="URL 입력", placeholder="https://example.com"),
+    outputs=[
+        gr.Markdown(label="추출된 본문"),
+        gr.Textbox(label="자동 요약", lines=5)
+    ],
+    title="본문 추출기 + 자동 요약",
+    description="웹페이지 URL을 입력하면 본문을 추출하고, TextRank 알고리즘으로 3문장 요약을 제공합니다."
 )
 if __name__ == "__main__":