Spaces:

sidcww
/

yahoookeybert

Sleeping

App Files Files Community

sidcww commited on Aug 5, 2024

Commit

a2ecf7a

verified ·

1 Parent(s): 908f94b

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -36

app.py CHANGED Viewed

@@ -1,12 +1,15 @@
 import requests
 import jieba
 from keybert import KeyBERT
 from sklearn.feature_extraction.text import CountVectorizer
 import streamlit as st
 import matplotlib.pyplot as plt
 from matplotlib.font_manager import FontProperties
-from bs4 import BeautifulSoup
-import pandas as pd
 # 下載字體
 def download_font(url, save_path):
@@ -24,7 +27,16 @@ download_font(font_url, font_path)
 # 設置字體
 font_prop = FontProperties(fname=font_path)
-# 定義斷詞函數
 def jieba_tokenizer(text):
     return jieba.lcut(text)
@@ -41,55 +53,56 @@ def extract_keywords(doc):
 def plot_keywords(keywords, title):
     words = [kw[0] for kw in keywords]
     scores = [kw[1] for kw in keywords]
     plt.figure(figsize=(10, 6))
-    plt.barh(words, scores, color='skyblue')
-    plt.xlabel('分數', fontproperties=font_prop)
-    plt.title(title, fontproperties=font_prop)
-    plt.gca().invert_yaxis()
-    plt.xticks(fontproperties=font_prop)
-    plt.yticks(fontproperties=font_prop)
-    st.pyplot(plt)
-# 從Yahoo News抓取新聞的函數
-def fetch_yahoo_news(url):
-    response = requests.get(url)
-    web_content = response.content
-    soup = BeautifulSoup(web_content, 'html.parser')
-    title = soup.find('h1').text
-    content = soup.find('div', {'class': 'caas-body'}).text
-    return title, content
 # 建立Streamlit網頁應用程式
-st.title("中文關鍵詞提取工具")
-# 選擇輸入方式
-input_method = st.radio("選擇輸入方式", ("手動輸入", "從Yahoo News抓取"))
-if input_method == "手動輸入":
-    doc = st.text_area("請輸入文章：")
-else:
-    url = st.text_input("請輸入Yahoo News文章URL：")
     if url:
-        title, doc = fetch_yahoo_news(url)
-        st.write(f"標題: {title}")
-        st.write("文章內容:")
-        st.write(doc)
-if st.button("提取關鍵詞"):
-    if doc:
-        keywords = extract_keywords(doc)
         st.write("關鍵詞提取結果：")
         for keyword in keywords:
             st.write(f"{keyword[0]}: {keyword[1]:.4f}")
         plot_keywords(keywords, "關鍵詞提取結果")
         kw_model_multilingual = KeyBERT(model='distiluse-base-multilingual-cased-v1')
-        keywords_multilingual = kw_model_multilingual.extract_keywords(doc, vectorizer=vectorizer)
         st.write("多語言模型關鍵詞提取結果：")
         for keyword in keywords_multilingual:
             st.write(f"{keyword[0]}: {keyword[1]:.4f}")
         plot_keywords(keywords_multilingual, "多語言模型關鍵詞提取結果")
     else:
-        st.write("請輸入文章內容或提供有效的Yahoo News URL以進行關鍵詞提取。")

+# -*- coding: utf-8 -*-
+"""keyword_extraction"""
 import requests
+from bs4 import BeautifulSoup
+import pandas as pd
 import jieba
 from keybert import KeyBERT
 from sklearn.feature_extraction.text import CountVectorizer
 import streamlit as st
 import matplotlib.pyplot as plt
 from matplotlib.font_manager import FontProperties
 # 下載字體
 def download_font(url, save_path):
 # 設置字體
 font_prop = FontProperties(fname=font_path)
+# 抓取Yahoo新聞標題和內容
+def fetch_yahoo_news(url):
+    response = requests.get(url)
+    web_content = response.content
+    soup = BeautifulSoup(web_content, 'html.parser')
+    title = soup.find('h1').text
+    content = soup.find('article').text
+    return title, content
+# 斷詞函數
 def jieba_tokenizer(text):
     return jieba.lcut(text)
 def plot_keywords(keywords, title):
     words = [kw[0] for kw in keywords]
     scores = [kw[1] for kw in keywords]
     plt.figure(figsize=(10, 6))
+    bars = plt.barh(words, scores, color='skyblue', edgecolor='black', linewidth=1.2)
+    plt.xlabel('分數', fontproperties=font_prop, fontsize=14)
+    plt.title(title, fontproperties=font_prop, fontsize=16)
+    plt.gca().invert_yaxis()  # 反轉Y軸，使得分數最高的關鍵詞在最上面
+    plt.xticks(fontproperties=font_prop, fontsize=12)
+    plt.yticks(fontproperties=font_prop, fontsize=12)
+    plt.grid(axis='x', linestyle='--', alpha=0.7)
+    # 添加分數標籤
+    for bar in bars:
+        plt.gca().text(bar.get_width() + 0.01, bar.get_y() + bar.get_height() / 2,
+                       f'{bar.get_width():.4f}', va='center', ha='left', fontsize=12, fontproperties=font_prop)
+    st.pyplot(plt)
 # 建立Streamlit網頁應用程式
+st.title("🤙🤙🤙YAHOO新聞關鍵詞提取工具👂👂")
+# 抓取Yahoo新聞的URL輸入框
+url = st.text_input("請輸入Yahoo新聞的URL：")
+if st.button("抓取並提取關鍵詞"):
     if url:
+        title, content = fetch_yahoo_news(url)
+        st.write("新聞標題：", title)
+        st.write("新聞內容：", content)
+        # 將內容轉為DataFrame
+        data = {'Title': [title], 'Content': [content]}
+        df = pd.DataFrame(data)
+        st.write("新聞內容的DataFrame：")
+        st.write(df)
+        # 提取關鍵詞
+        keywords = extract_keywords(content)
         st.write("關鍵詞提取結果：")
         for keyword in keywords:
             st.write(f"{keyword[0]}: {keyword[1]:.4f}")
         plot_keywords(keywords, "關鍵詞提取結果")
+        # 使用另一個模型進行關鍵詞提取
         kw_model_multilingual = KeyBERT(model='distiluse-base-multilingual-cased-v1')
+        keywords_multilingual = kw_model_multilingual.extract_keywords(content, vectorizer=vectorizer)
         st.write("多語言模型關鍵詞提取結果：")
         for keyword in keywords_multilingual:
             st.write(f"{keyword[0]}: {keyword[1]:.4f}")
         plot_keywords(keywords_multilingual, "多語言模型關鍵詞提取結果")
     else:
+        st.write("請輸入有效的Yahoo新聞URL。")