Spaces:

JERNGOC
/

crawler_NLP

Sleeping

App Files Files Community

JERNGOC commited on Aug 5, 2024

Commit

93dd59c

verified ·

1 Parent(s): ff789b4

Create app.py

Browse files

Files changed (1) hide show

app.py +55 -0

app.py ADDED Viewed

	@@ -0,0 +1,55 @@

+import streamlit as st
+import requests
+from bs4 import BeautifulSoup
+import pandas as pd
+def fetch_article(url):
+    response = requests.get(url)
+    soup = BeautifulSoup(response.content, 'html.parser')
+    title = soup.find('h1', id='caas-lead-header-undefined').text.strip()
+    content = soup.find('div', class_='caas-body').text.strip()
+    return title, content
+def main():
+    st.set_page_config(page_title="Yahoo新聞爬蟲", page_icon="📰", layout="wide")
+    st.title("Yahoo新聞爬蟲 📰")
+    st.markdown("這個應用程式可以爬取Yahoo新聞的標題和內容。")
+    url = st.text_input("請輸入Yahoo新聞的URL：",
+                        "https://tw.news.yahoo.com/%E5%8F%B0%E8%82%A1%E8%A1%80%E6%B4%971807%E9%BB%9E-%E8%AD%89%E4%BA%A4%E6%89%80%E7%B8%BD%E5%BA%A7%E6%8F%AD-%E6%9A%B4%E8%B7%8C%E5%8E%9F%E5%9B%A0-%E5%BF%85%E8%A6%81%E6%99%82%E6%8E%A1%E5%8F%96%E7%A9%A9%E5%AE%9A%E5%B8%82%E5%A0%B4%E6%8E%AA%E6%96%BD-071522182.html")
+    if st.button("爬取新聞"):
+        with st.spinner("正在爬取新聞..."):
+            try:
+                title, content = fetch_article(url)
+                df = pd.DataFrame({
+                    '標題': [title],
+                    '內容': [content]
+                })
+                st.success("爬取成功！")
+                st.subheader("新聞標題")
+                st.write(title)
+                st.subheader("新聞內容")
+                st.write(content)
+                st.subheader("DataFrame 預覽")
+                st.dataframe(df)
+                csv = df.to_csv(index=False).encode('utf-8')
+                st.download_button(
+                    label="下載 CSV 檔案",
+                    data=csv,
+                    file_name="yahoo_news.csv",
+                    mime="text/csv",
+                )
+            except Exception as e:
+                st.error(f"爬取失敗：{str(e)}")
+if __name__ == "__main__":
+    main()