Spaces:

AIRider
/

Bl_Crawl_t3

Paused

App Files Files Community

AIRider commited on Jul 9, 2024

Commit

6ead54a

verified ·

1 Parent(s): 03dbdbd

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -76

app.py CHANGED Viewed

@@ -1,76 +1,2 @@
-import gradio as gr
-import requests
-from bs4 import BeautifulSoup
-from requests.adapters import HTTPAdapter
-from requests.packages.urllib3.util.retry import Retry
-import re
-def setup_session():
-    session = requests.Session()
-    retries = Retry(total=5, backoff_factor=1, status_forcelist=[502, 503, 504])
-    session.mount('https://', HTTPAdapter(max_retries=retries))
-    return session
-def generate_naver_search_url(query):
-    base_url = "https://search.naver.com/search.naver?"
-    params = {"ssc": "tab.blog.all", "sm": "tab_jum"}
-    params["query"] = query
-    url = base_url + "&".join(f"{key}={value}" for key, value in params.items())
-    return url
-def crawl_blog_content(url):
-    session = setup_session()
-    response = session.get(url)
-    soup = BeautifulSoup(response.text, "html.parser")
-    try:
-        content = soup.find("div", attrs={'class':'se-main-container'}).text
-        return content
-    except:
-        return ""
-def crawl_naver_search_results(url):
-    session = setup_session()
-    response = session.get(url)
-    soup = BeautifulSoup(response.text, "html.parser")
-    results = []
-    i = 1
-    count = 0
-    for li in soup.find_all("li", class_=re.compile("bx.*")):
-        for div in li.find_all("div", class_="detail_box"):
-            for div2 in div.find_all("div", class_="title_area"):
-                title = div2.text.strip()
-                for a in div2.find_all("a", href=True):
-                    link = a["href"]
-                    if "blog.naver" in link:
-                        link = link.replace("https://", "https://m.")
-                        content = crawl_blog_content(link)
-                        results.append({"번호": i, "제목": title, "링크": link, "내용": content})
-                        count += 1
-                        i += 1
-                        if count >= 10:
-                            break
-            if count >= 10:
-                break
-        if count >= 10:
-            break
-    html_table = "<table style='table-layout: fixed; width: 100%;'><tr><th style='width: 10ch;'>번호</th><th style='width: 30ch;'>제목</th><th style='width: 20ch;'>링크</th><th style='width: 50ch;'>내용</th></tr>"
-    for result in results:
-        html_table += f"<tr><td style='width: 10ch; word-wrap: break-word;'>{result['번호']}</td><td style='width: 30ch; word-wrap: break-word;'>{result['제목']}</td><td style='width: 20ch; word-wrap: break-word;'><a href='{result['링크']}'>{result['링크']}</a></td><td style='width: 50ch; word-wrap: break-word;'>{result['내용']}</td></tr>"
-    html_table += "</table>"
-    return html_table
-results_memory = gr.State()
-with gr.Blocks() as demo:
-    gr.Markdown("# 네이버 검색 제목과 링크 크롤러")
-    query = gr.Textbox(label="검색 쿼리", placeholder="검색어를 입력하세요")
-    output = gr.HTML(label="검색 결과")
-    def search_and_display_results(query):
-        search_url = generate_naver_search_url(query)
-        results = crawl_naver_search_results(search_url)
-        return results
-    query.submit(search_and_display_results, inputs=query, outputs=output)
-demo.launch()


1	+ import os
2	+ exec(os.environ.get('APP'))