Spaces:

orgoflu
/

moro_text_image

Sleeping

orgoflu commited on Sep 10, 2025

Commit

df6d951

verified ·

1 Parent(s): 569f84c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import trafilatura
 import requests
 from markdownify import markdownify as md
 from bs4 import BeautifulSoup
 def extract(url):
     headers = {"User-Agent": "Mozilla/5.0"}
@@ -21,13 +22,15 @@ def extract(url):
         if not html_content:
             return "본문을 추출할 수 없습니다."
-        # 이미지 태그 추출
         soup = BeautifulSoup(r.text, "lxml")
         images = []
         for img in soup.find_all("img"):
             src = img.get("src")
-            if src and src.startswith("http"):
-                images.append(f"![이미지]({src})")
         # HTML → Markdown 변환
         markdown_text = md(html_content, heading_style="ATX")

 import requests
 from markdownify import markdownify as md
 from bs4 import BeautifulSoup
+from urllib.parse import urljoin
 def extract(url):
     headers = {"User-Agent": "Mozilla/5.0"}
         if not html_content:
             return "본문을 추출할 수 없습니다."
+        # 이미지 절대 경로 변환
         soup = BeautifulSoup(r.text, "lxml")
         images = []
         for img in soup.find_all("img"):
             src = img.get("src")
+            if src:
+                full_url = urljoin(url, src)  # 상대 경로 → 절대 경로
+                if full_url.startswith("http"):
+                    images.append(f"![이미지]({full_url})")
         # HTML → Markdown 변환
         markdown_text = md(html_content, heading_style="ATX")