Spaces:

orgoflu
/

moro_text_image

Sleeping

App Files Files Community

orgoflu commited on Sep 10, 2025

Commit

dbf0822

verified ·

1 Parent(s): 506f767

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -11

app.py CHANGED Viewed

@@ -2,14 +2,13 @@ import gradio as gr
 import trafilatura
 import requests
 from markdownify import markdownify as md
-from bs4 import BeautifulSoup
-from urllib.parse import urljoin
 from sumy.parsers.plaintext import PlaintextParser
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.text_rank import TextRankSummarizer
 def summarize_text(text, sentence_count=3):
-    parser = PlaintextParser.from_string(text, Tokenizer("korean"))
     summarizer = TextRankSummarizer()
     summary_sentences = summarizer(parser.document, sentence_count)
     return "\n".join(str(sentence) for sentence in summary_sentences)
@@ -20,7 +19,6 @@ def extract_and_summarize(url):
         r = requests.get(url, headers=headers, timeout=10)
         r.raise_for_status()
-        # HTML 형태로 본문 추출
         html_content = trafilatura.extract(
             r.text,
             output_format="html",
@@ -31,18 +29,11 @@ def extract_and_summarize(url):
         if not html_content:
             return "본문을 추출할 수 없습니다.", ""
-        # HTML → Markdown 변환
         markdown_text = md(html_content, heading_style="ATX")
-        # 요약 생성
         summary = summarize_text(markdown_text, sentence_count=3)
         return markdown_text, summary
-    except requests.exceptions.Timeout:
-        return "요청이 시간 초과되었습니다.", ""
-    except requests.exceptions.RequestException as e:
-        return f"요청 실패: {e}", ""
     except Exception as e:
         return f"에러 발생: {e}", ""

 import trafilatura
 import requests
 from markdownify import markdownify as md
 from sumy.parsers.plaintext import PlaintextParser
 from sumy.nlp.tokenizers import Tokenizer
 from sumy.summarizers.text_rank import TextRankSummarizer
 def summarize_text(text, sentence_count=3):
+    # 한국어라도 english 토크나이저로 문장 단위 분리
+    parser = PlaintextParser.from_string(text, Tokenizer("english"))
     summarizer = TextRankSummarizer()
     summary_sentences = summarizer(parser.document, sentence_count)
     return "\n".join(str(sentence) for sentence in summary_sentences)
         r = requests.get(url, headers=headers, timeout=10)
         r.raise_for_status()
         html_content = trafilatura.extract(
             r.text,
             output_format="html",
         if not html_content:
             return "본문을 추출할 수 없습니다.", ""
         markdown_text = md(html_content, heading_style="ATX")
         summary = summarize_text(markdown_text, sentence_count=3)
         return markdown_text, summary
     except Exception as e:
         return f"에러 발생: {e}", ""