Spaces:

orgoflu
/

moro_text_image

Sleeping

orgoflu commited on Sep 10, 2025

Commit

b454ab3

verified ·

1 Parent(s): dbf0822

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,3 +1,8 @@
 import gradio as gr
 import trafilatura
 import requests
@@ -7,7 +12,7 @@ from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.text_rank import TextRankSummarizer
 def summarize_text(text, sentence_count=3):
-    # 한국어라도 english 토크나이저로 문장 단위 분리
     parser = PlaintextParser.from_string(text, Tokenizer("english"))
     summarizer = TextRankSummarizer()
     summary_sentences = summarizer(parser.document, sentence_count)
@@ -19,6 +24,7 @@ def extract_and_summarize(url):
         r = requests.get(url, headers=headers, timeout=10)
         r.raise_for_status()
         html_content = trafilatura.extract(
             r.text,
             output_format="html",
@@ -29,11 +35,18 @@ def extract_and_summarize(url):
         if not html_content:
             return "본문을 추출할 수 없습니다.", ""
         markdown_text = md(html_content, heading_style="ATX")
         summary = summarize_text(markdown_text, sentence_count=3)
         return markdown_text, summary
     except Exception as e:
         return f"에러 발생: {e}", ""

+import nltk
+# NLTK 토크나이저 리소스 자동 다운로드
+nltk.download("punkt")
+nltk.download("punkt_tab")
 import gradio as gr
 import trafilatura
 import requests
 from sumy.summarizers.text_rank import TextRankSummarizer
 def summarize_text(text, sentence_count=3):
+    # 한국어도 문장 단위로 끊기 위해 english 토크나이저 사용
     parser = PlaintextParser.from_string(text, Tokenizer("english"))
     summarizer = TextRankSummarizer()
     summary_sentences = summarizer(parser.document, sentence_count)
         r = requests.get(url, headers=headers, timeout=10)
         r.raise_for_status()
+        # HTML 형태로 본문 추출
         html_content = trafilatura.extract(
             r.text,
             output_format="html",
         if not html_content:
             return "본문을 추출할 수 없습니다.", ""
+        # HTML → Markdown 변환
         markdown_text = md(html_content, heading_style="ATX")
+        # 요약 생성
         summary = summarize_text(markdown_text, sentence_count=3)
         return markdown_text, summary
+    except requests.exceptions.Timeout:
+        return "요청이 시간 초과되었습니다.", ""
+    except requests.exceptions.RequestException as e:
+        return f"요청 실패: {e}", ""
     except Exception as e:
         return f"에러 발생: {e}", ""