Spaces:

soojeongcrystal
/

text

Sleeping

soojeongcrystal commited on Jul 26, 2024

Commit

7235700

verified ·

1 Parent(s): bec772f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -50,19 +50,19 @@ def preprocess_text(text, user_stopwords):
         return ""
 def topic_modeling(texts, n_components):
-    doc_count = len(texts)
-    min_df = max(2, int(doc_count * 0.01))
-    max_df = min(0.95, int(doc_count * 0.95))
     # default_stopwords를 리스트로 변환
     stop_words_list = list(default_stopwords)
-    vectorizer = CountVectorizer(max_df=max_df, min_df=min_df, stop_words=stop_words_list)
     data_vectorized = vectorizer.fit_transform(texts)
     n_tokens = data_vectorized.shape[1]
     n_components = min(n_components, n_tokens)
     lda = LatentDirichletAllocation(n_components=n_components, random_state=42, max_iter=20)
     lda.fit(data_vectorized)
@@ -117,8 +117,11 @@ if uploaded_file is not None:
             st.subheader("토픽 모델링 결과")
             n_topics = st.slider("토픽 수 선택", min_value=2, max_value=10, value=5)
             topics = topic_modeling([preprocessed_text], n_topics)
-            for topic, words in topics.items():
-                st.write(f"{topic}: {', '.join(words)}")
             st.subheader("상위 10개 Trigram")
             top_trigrams = get_top_trigrams(preprocessed_text)

         return ""
 def topic_modeling(texts, n_components):
     # default_stopwords를 리스트로 변환
     stop_words_list = list(default_stopwords)
+    vectorizer = CountVectorizer(stop_words=stop_words_list)
     data_vectorized = vectorizer.fit_transform(texts)
     n_tokens = data_vectorized.shape[1]
     n_components = min(n_components, n_tokens)
+    if n_components < 2:
+        st.warning("추출된 고유 단어가 너무 적습니다. 더 긴 텍스트를 사용해 주세요.")
+        return {}
     lda = LatentDirichletAllocation(n_components=n_components, random_state=42, max_iter=20)
     lda.fit(data_vectorized)
             st.subheader("토픽 모델링 결과")
             n_topics = st.slider("토픽 수 선택", min_value=2, max_value=10, value=5)
             topics = topic_modeling([preprocessed_text], n_topics)
+            if topics:
+                for topic, words in topics.items():
+                    st.write(f"{topic}: {', '.join(words)}")
+            else:
+                st.warning("토픽 모델링을 수행할 수 없습니다. 더 긴 텍스트를 사용해 주세요.")
             st.subheader("상위 10개 Trigram")
             top_trigrams = get_top_trigrams(preprocessed_text)