Spaces:

soojeongcrystal
/

text

Sleeping

soojeongcrystal commited on Jul 26, 2024

Commit

35bdcd6

verified ·

1 Parent(s): de8d584

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import streamlit as st
-from wordcloud import WordCloud
 import matplotlib.pyplot as plt
 from sklearn.feature_extraction.text import CountVectorizer
 from sklearn.decomposition import LatentDirichletAllocation
@@ -42,12 +41,16 @@ def topic_modeling(texts, n_components):
         topics[f"Topic {topic_idx + 1}"] = [features[i] for i in topic.argsort()[:-21:-1]]
     return topics
-def generate_wordcloud(text, color):
-    wordcloud = WordCloud(width=800, height=400, background_color=color,
-                          font_path='/usr/share/fonts/truetype/nanum/NanumGothic.ttf').generate(text)
-    fig, ax = plt.subplots(figsize=(10, 5))
-    ax.imshow(wordcloud, interpolation='bilinear')
-    ax.axis("off")
     return fig
 def get_top_trigrams(text, n=10):
@@ -103,9 +106,9 @@ if uploaded_file is not None:
         for trigram, count in top_trigrams:
             st.write(f"{trigram}: {count}")
-        st.subheader("워드 클라우드")
-        color = st.color_picker("배경색 선택", "#ffffff")
-        fig = generate_wordcloud(preprocessed_text, color)
         st.pyplot(fig)
     except Exception as e:
@@ -117,5 +120,5 @@ st.sidebar.markdown("""
 2. 텍스트 파일(.txt)을 업로드하세요.
 3. 토픽 모델링의 토픽 수를 선택하세요.
 4. 상위 10개 Trigram을 확인하세요.
-5. 워드클라우드의 배경색을 선택할 수 있습니다.
 """)

 import streamlit as st
 import matplotlib.pyplot as plt
 from sklearn.feature_extraction.text import CountVectorizer
 from sklearn.decomposition import LatentDirichletAllocation
         topics[f"Topic {topic_idx + 1}"] = [features[i] for i in topic.argsort()[:-21:-1]]
     return topics
+def generate_word_frequency_chart(text, color, n=20):
+    words = text.split()
+    word_freq = Counter(words)
+    top_words = dict(word_freq.most_common(n))
+    fig, ax = plt.subplots(figsize=(12, 6))
+    ax.barh(list(top_words.keys()), list(top_words.values()), color=color)
+    ax.invert_yaxis()  # 가장 빈도가 높은 단어를 위쪽에 표시
+    ax.set_title("Top {} Words".format(n))
+    plt.tight_layout()
     return fig
 def get_top_trigrams(text, n=10):
         for trigram, count in top_trigrams:
             st.write(f"{trigram}: {count}")
+        st.subheader("단어 빈도 차트")
+        color = st.color_picker("막대 색상 선택", "#1f77b4")
+        fig = generate_word_frequency_chart(preprocessed_text, color)
         st.pyplot(fig)
     except Exception as e:
 2. 텍스트 파일(.txt)을 업로드하세요.
 3. 토픽 모델링의 토픽 수를 선택하세요.
 4. 상위 10개 Trigram을 확인하세요.
+5. 단어 빈도 차트의 막대 색상을 선택할 수 있습니다.
 """)