Spaces:

JERNGOC
/

crawler_NLP

Sleeping

App Files Files Community

JERNGOC commited on Aug 5, 2024

Commit

c08903c

verified ·

1 Parent(s): a938177

Update app.py

Browse files

Files changed (1) hide show

app.py +53 -49

app.py CHANGED Viewed

@@ -4,21 +4,12 @@ import jieba
 from keybert import KeyBERT
 from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
 import matplotlib.pyplot as plt
-from matplotlib.font_manager import FontProperties
 import streamlit as st
 from wordcloud import WordCloud
-# Download font
-def download_font(url, save_path):
-    response = requests.get(url)
-    with open(save_path, 'wb') as f:
-        f.write(response.content)
-# Font URL and path
-font_url = 'https://drive.google.com/uc?id=1eGAsTN1HBpJAkeVM57_C7ccp7hbgSz3_&export=download'
-font_path = 'TaipeiSansTCBeta-Regular.ttf'
-download_font(font_url, font_path)
-font_prop = FontProperties(fname=font_path)
 # Tokenizer
 def jieba_tokenizer(text):
@@ -45,13 +36,13 @@ def plot_keywords(keywords, title, filename):
     scores = [kw[1] for kw in keywords]
     plt.figure(figsize=(10, 6))
     plt.barh(words, scores, color='#1f77b4')
-    plt.xlabel('Score', fontproperties=font_prop)
-    plt.title(title, fontproperties=font_prop)
     plt.gca().invert_yaxis()
-    plt.xticks(fontproperties=font_prop)
-    plt.yticks(fontproperties=font_prop)
-    plt.savefig(f'/tmp/{filename}.png')
-    return f'/tmp/{filename}.png'
 # Generate word cloud
 def generate_word_cloud(text):
@@ -59,9 +50,17 @@ def generate_word_cloud(text):
     tfidf_matrix = tfidf_vectorizer.fit_transform([text])
     tfidf_scores = dict(zip(tfidf_vectorizer.get_feature_names_out(), tfidf_matrix.toarray().flatten()))
-    wordcloud = WordCloud(font_path=font_path, background_color='white').generate_from_frequencies(tfidf_scores)
-    wordcloud.to_file('/tmp/wordcloud.png')
-    return '/tmp/wordcloud.png'
 # Function to scrape content and extract keywords
 def scrape_and_extract(url, diversity):
@@ -76,8 +75,8 @@ def scrape_and_extract(url, diversity):
     keywords = extract_keywords(content, diversity)
     keywords_multilingual = extract_multilingual_keywords(content, diversity)
-    keyword_plot_path = plot_keywords(keywords, "Keyword Extraction Results", "keywords_plot")
-    keyword_plot_multilingual_path = plot_keywords(keywords_multilingual, "Multilingual Keyword Extraction Results", "keywords_multilingual_plot")
     wordcloud_path = generate_word_cloud(content)
     return title, content, keywords, keyword_plot_path, keywords_multilingual, keyword_plot_multilingual_path, wordcloud_path
@@ -93,30 +92,35 @@ diversity = st.slider("Adjust Diversity (0.0: Most Relevant, 1.0: Most Diverse)"
 if st.button("Extract Keywords"):
     if url:
-        title, content, keywords, keyword_plot_path, keywords_multilingual, keyword_plot_multilingual_path, wordcloud_path = scrape_and_extract(url, diversity)
-        st.subheader("📄 Article Title")
-        st.write(title)
-        st.subheader("📝 Article Content")
-        st.write(content)
-        st.subheader("🔑 Extracted Keywords")
-        keywords_str = '\n'.join([f"{kw[0]}: {kw[1]:.4f}" for kw in keywords])
-        st.text(keywords_str)
-        st.subheader("📊 Keywords Bar Chart")
-        st.image(keyword_plot_path)
-        st.subheader("🔑 Multilingual Extracted Keywords")
-        keywords_multilingual_str = '\n'.join([f"{kw[0]}: {kw[1]:.4f}" for kw in keywords_multilingual])
-        st.text(keywords_multilingual_str)
-        st.subheader("📊 Multilingual Keywords Bar Chart")
-        st.image(keyword_plot_multilingual_path)
-        st.subheader("☁️ Word Cloud")
-        st.image(wordcloud_path)
     else:
-        st.warning("Please enter a URL to extract keywords.")

 from keybert import KeyBERT
 from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
 import matplotlib.pyplot as plt
 import streamlit as st
 from wordcloud import WordCloud
+import os
+# Use a default system font
+font_path = '/usr/share/fonts/truetype/dejavu/DejaVuSans.ttf'
 # Tokenizer
 def jieba_tokenizer(text):
     scores = [kw[1] for kw in keywords]
     plt.figure(figsize=(10, 6))
     plt.barh(words, scores, color='#1f77b4')
+    plt.xlabel('Score')
+    plt.title(title)
     plt.gca().invert_yaxis()
+    plt.tight_layout()
+    plt.savefig(filename)
+    plt.close()
+    return filename
 # Generate word cloud
 def generate_word_cloud(text):
     tfidf_matrix = tfidf_vectorizer.fit_transform([text])
     tfidf_scores = dict(zip(tfidf_vectorizer.get_feature_names_out(), tfidf_matrix.toarray().flatten()))
+    wordcloud = WordCloud(font_path=font_path, background_color='white', width=800, height=400)
+    wordcloud.generate_from_frequencies(tfidf_scores)
+    plt.figure(figsize=(10, 5))
+    plt.imshow(wordcloud, interpolation='bilinear')
+    plt.axis('off')
+    plt.tight_layout(pad=0)
+    plt.savefig('wordcloud.png', dpi=300, bbox_inches='tight')
+    plt.close()
+    return 'wordcloud.png'
 # Function to scrape content and extract keywords
 def scrape_and_extract(url, diversity):
     keywords = extract_keywords(content, diversity)
     keywords_multilingual = extract_multilingual_keywords(content, diversity)
+    keyword_plot_path = plot_keywords(keywords, "Keyword Extraction Results", "keywords_plot.png")
+    keyword_plot_multilingual_path = plot_keywords(keywords_multilingual, "Multilingual Keyword Extraction Results", "keywords_multilingual_plot.png")
     wordcloud_path = generate_word_cloud(content)
     return title, content, keywords, keyword_plot_path, keywords_multilingual, keyword_plot_multilingual_path, wordcloud_path
 if st.button("Extract Keywords"):
     if url:
+        try:
+            title, content, keywords, keyword_plot_path, keywords_multilingual, keyword_plot_multilingual_path, wordcloud_path = scrape_and_extract(url, diversity)
+            st.subheader("📄 Article Title")
+            st.write(title)
+            st.subheader("📝 Article Content")
+            st.write(content)
+            st.subheader("🔑 Extracted Keywords")
+            keywords_str = '\n'.join([f"{kw[0]}: {kw[1]:.4f}" for kw in keywords])
+            st.text(keywords_str)
+            st.subheader("📊 Keywords Bar Chart")
+            st.image(keyword_plot_path)
+            st.subheader("🔑 Multilingual Extracted Keywords")
+            keywords_multilingual_str = '\n'.join([f"{kw[0]}: {kw[1]:.4f}" for kw in keywords_multilingual])
+            st.text(keywords_multilingual_str)
+            st.subheader("📊 Multilingual Keywords Bar Chart")
+            st.image(keyword_plot_multilingual_path)
+            if os.path.exists(wordcloud_path):
+                st.subheader("☁️ Word Cloud")
+                st.image(wordcloud_path)
+            else:
+                st.warning("Unable to generate word cloud.")
+        except Exception as e:
+            st.error(f"An error occurred: {str(e)}")
     else:
+        st.warning("Please enter a URL to extract keywords.")