Spaces:

Kims12
/

ddd

Sleeping

App Files Files Community

Kims12 commited on Jan 20, 2025

Commit

ddfb11c

verified ·

1 Parent(s): a241c57

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -23

app.py CHANGED Viewed

@@ -23,36 +23,44 @@ def scrape_naver_blog(url):
         soup = BeautifulSoup(response.content, 'html.parser')
         # 제목 추출
-        # 네이버 블로그의 제목은 일반적으로 <h3> 태그 또는 특정 클래스명을 가집니다.
-        # 실제 HTML 구조에 맞게 수정해야 합니다.
-        title_element = soup.find('h3', {'class': 'se_textarea'})  # 예시 클래스명
-        if not title_element:
-            # 다른 가능한 위치 시도
-            title_element = soup.find('span', {'class': 'se-fs- se-ff-'})
-        if not title_element:
             print("제목을 찾을 수 없습니다.")
             title = "제목을 찾을 수 없습니다."
-        else:
-            title = title_element.get_text(strip=True)
-            print(f"추출된 제목: {title}")
         # 내용 텍스트 추출
-        # 네이버 블로그의 내용은 일반적으로 <div> 태그 내에 특정 클래스명을 가집니다.
-        # 실제 HTML 구조에 맞게 수정해야 합니다.
-        content_elements = soup.find_all('span', {'class': 'se-fs- se-ff-'})  # 예시 클래스명
-        if not content_elements:
-            # 다른 가능한 위치 시도
-            content_elements = soup.find_all('div', {'class': 'se-component se-text se-l-default'})
-        if not content_elements:
-            print("내용을 찾을 수 없습니다.")
-            content = "내용을 찾을 수 없습니다."
         else:
-            # 여러 span 태그가 있을 수 있으므로, 필요한 부분을 합칩니다.
-            content = ' '.join([elem.get_text(strip=True) for elem in content_elements])
-            print(f"추출된 내용: {content}")
         # 출력 형식 지정
         output = f"제목: {title}\n\n내용: {content}"

         soup = BeautifulSoup(response.content, 'html.parser')
         # 제목 추출
+        # 실제 HTML 구조에 맞게 클래스명과 태그를 수정해야 합니다.
+        title = None
+        # 예시 1: <h3 class="se_textarea">에 제목이 있는 경우
+        title_element = soup.find('h3', class_='se_textarea')
+        if title_element and title_element.get_text(strip=True):
+            title = title_element.get_text(strip=True)
+            print(f"추출된 제목 (h3.se_textarea): {title}")
+        # 예시 2: meta 태그에서 제목 추출
+        if not title:
+            title_meta = soup.find('meta', property='og:title')
+            if title_meta and title_meta.get('content'):
+                title = title_meta.get('content').strip()
+                print(f"추출된 제목 (meta og:title): {title}")
+        if not title:
             print("제목을 찾을 수 없습니다.")
             title = "제목을 찾을 수 없습니다."
         # 내용 텍스트 추출
+        # 실제 HTML 구조에 맞게 클래스명과 태그를 수정해야 합니다.
+        content = None
+        # 예시 1: <div class="se-main-container"> 내의 모든 텍스트 추출
+        content_container = soup.find('div', class_='se-main-container')
+        if content_container:
+            content = content_container.get_text(separator='\n', strip=True)
+            print(f"추출된 내용 (div.se-main-container): {content[:100]}...")  # 일부만 출력
         else:
+            # 예시 2: 모든 <p> 태그를 합치는 방법
+            p_tags = soup.find_all('p')
+            if p_tags:
+                content = '\n'.join([p.get_text(strip=True) for p in p_tags])
+                print(f"추출된 내용 (p tags): {content[:100]}...")
+            else:
+                print("내용을 찾을 수 없습니다.")
+                content = "내용을 찾을 수 없습니다."
         # 출력 형식 지정
         output = f"제목: {title}\n\n내용: {content}"