Spaces:

JERNGOC
/

crawler_NLP

Sleeping

App Files Files Community

JERNGOC commited on Aug 5, 2024

Commit

bba69fc

verified ·

1 Parent(s): 8a0e99b

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -32

app.py CHANGED Viewed

@@ -1,15 +1,13 @@
 import requests
 from bs4 import BeautifulSoup
 import jieba
 from keybert import KeyBERT
 from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
-import matplotlib.pyplot as plt
 import streamlit as st
 from wordcloud import WordCloud
-import os
-# Use a default system font
-font_path = '/usr/share/fonts/truetype/dejavu/DejaVuSans.ttf'
 # Tokenizer
 def jieba_tokenizer(text):
@@ -31,18 +29,20 @@ def extract_multilingual_keywords(doc, diversity):
     return keywords
 # Plot keywords
-def plot_keywords(keywords, title, filename):
-    words = [kw[0] for kw in keywords]
-    scores = [kw[1] for kw in keywords]
     plt.figure(figsize=(10, 6))
-    plt.barh(words, scores, color='#1f77b4')
     plt.xlabel('Score')
     plt.title(title)
     plt.gca().invert_yaxis()
     plt.tight_layout()
-    plt.savefig(filename)
     plt.close()
-    return filename
 # Generate word cloud
 def generate_word_cloud(text):
@@ -50,17 +50,18 @@ def generate_word_cloud(text):
     tfidf_matrix = tfidf_vectorizer.fit_transform([text])
     tfidf_scores = dict(zip(tfidf_vectorizer.get_feature_names_out(), tfidf_matrix.toarray().flatten()))
-    wordcloud = WordCloud(font_path=font_path, background_color='white', width=800, height=400)
-    wordcloud.generate_from_frequencies(tfidf_scores)
     plt.figure(figsize=(10, 5))
     plt.imshow(wordcloud, interpolation='bilinear')
     plt.axis('off')
     plt.tight_layout(pad=0)
-    plt.savefig('wordcloud.png', dpi=300, bbox_inches='tight')
-    plt.close()
-    return 'wordcloud.png'
 # Function to scrape content and extract keywords
 def scrape_and_extract(url, diversity):
@@ -75,11 +76,11 @@ def scrape_and_extract(url, diversity):
     keywords = extract_keywords(content, diversity)
     keywords_multilingual = extract_multilingual_keywords(content, diversity)
-    keyword_plot_path = plot_keywords(keywords, "Keyword Extraction Results", "keywords_plot.png")
-    keyword_plot_multilingual_path = plot_keywords(keywords_multilingual, "Multilingual Keyword Extraction Results", "keywords_multilingual_plot.png")
-    wordcloud_path = generate_word_cloud(content)
-    return title, content, keywords, keyword_plot_path, keywords_multilingual, keyword_plot_multilingual_path, wordcloud_path
 # Streamlit Interface
 st.set_page_config(page_title="Professional Keyword Extraction Tool", page_icon="🔍")
@@ -93,7 +94,7 @@ diversity = st.slider("Adjust Diversity (0.0: Most Relevant, 1.0: Most Diverse)"
 if st.button("Extract Keywords"):
     if url:
         try:
-            title, content, keywords, keyword_plot_path, keywords_multilingual, keyword_plot_multilingual_path, wordcloud_path = scrape_and_extract(url, diversity)
             st.subheader("📄 Article Title")
             st.write(title)
@@ -102,24 +103,21 @@ if st.button("Extract Keywords"):
             st.write(content)
             st.subheader("🔑 Extracted Keywords")
-            keywords_str = '\n'.join([f"{kw[0]}: {kw[1]:.4f}" for kw in keywords])
-            st.text(keywords_str)
             st.subheader("📊 Keywords Bar Chart")
-            st.image(keyword_plot_path)
             st.subheader("🔑 Multilingual Extracted Keywords")
-            keywords_multilingual_str = '\n'.join([f"{kw[0]}: {kw[1]:.4f}" for kw in keywords_multilingual])
-            st.text(keywords_multilingual_str)
             st.subheader("📊 Multilingual Keywords Bar Chart")
-            st.image(keyword_plot_multilingual_path)
-            if os.path.exists(wordcloud_path):
-                st.subheader("☁️ Word Cloud")
-                st.image(wordcloud_path)
-            else:
-                st.warning("Unable to generate word cloud.")
         except Exception as e:
             st.error(f"An error occurred: {str(e)}")
     else:

 import requests
 from bs4 import BeautifulSoup
+import pandas as pd
 import jieba
 from keybert import KeyBERT
 from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
 import streamlit as st
+import matplotlib.pyplot as plt
 from wordcloud import WordCloud
+import io
 # Tokenizer
 def jieba_tokenizer(text):
     return keywords
 # Plot keywords
+def plot_keywords(keywords, title):
+    df = pd.DataFrame(keywords, columns=['Word', 'Score'])
     plt.figure(figsize=(10, 6))
+    plt.barh(df['Word'], df['Score'], color='#1f77b4')
     plt.xlabel('Score')
     plt.title(title)
     plt.gca().invert_yaxis()
     plt.tight_layout()
+    img = io.BytesIO()
+    plt.savefig(img, format='png')
+    img.seek(0)
     plt.close()
+    return img
 # Generate word cloud
 def generate_word_cloud(text):
     tfidf_matrix = tfidf_vectorizer.fit_transform([text])
     tfidf_scores = dict(zip(tfidf_vectorizer.get_feature_names_out(), tfidf_matrix.toarray().flatten()))
+    wordcloud = WordCloud(width=800, height=400, background_color='white').generate_from_frequencies(tfidf_scores)
     plt.figure(figsize=(10, 5))
     plt.imshow(wordcloud, interpolation='bilinear')
     plt.axis('off')
     plt.tight_layout(pad=0)
+    img = io.BytesIO()
+    plt.savefig(img, format='png')
+    img.seek(0)
+    plt.close()
+    return img
 # Function to scrape content and extract keywords
 def scrape_and_extract(url, diversity):
     keywords = extract_keywords(content, diversity)
     keywords_multilingual = extract_multilingual_keywords(content, diversity)
+    keyword_plot = plot_keywords(keywords, "Keyword Extraction Results")
+    keyword_plot_multilingual = plot_keywords(keywords_multilingual, "Multilingual Keyword Extraction Results")
+    wordcloud = generate_word_cloud(content)
+    return title, content, keywords, keyword_plot, keywords_multilingual, keyword_plot_multilingual, wordcloud
 # Streamlit Interface
 st.set_page_config(page_title="Professional Keyword Extraction Tool", page_icon="🔍")
 if st.button("Extract Keywords"):
     if url:
         try:
+            title, content, keywords, keyword_plot, keywords_multilingual, keyword_plot_multilingual, wordcloud = scrape_and_extract(url, diversity)
             st.subheader("📄 Article Title")
             st.write(title)
             st.write(content)
             st.subheader("🔑 Extracted Keywords")
+            df_keywords = pd.DataFrame(keywords, columns=['Word', 'Score'])
+            st.dataframe(df_keywords)
             st.subheader("📊 Keywords Bar Chart")
+            st.image(keyword_plot)
             st.subheader("🔑 Multilingual Extracted Keywords")
+            df_keywords_multilingual = pd.DataFrame(keywords_multilingual, columns=['Word', 'Score'])
+            st.dataframe(df_keywords_multilingual)
             st.subheader("📊 Multilingual Keywords Bar Chart")
+            st.image(keyword_plot_multilingual)
+            st.subheader("☁️ Word Cloud")
+            st.image(wordcloud)
         except Exception as e:
             st.error(f"An error occurred: {str(e)}")
     else: