topicmodelingadv

Sleeping

App Files Files Community

soojeongcrystal commited on Aug 24, 2024

Commit

66a6842

verified ·

1 Parent(s): 33d9085

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -45

app.py CHANGED Viewed

@@ -9,7 +9,6 @@ import re
 import os
 import altair as alt
 import colorsys
-import streamlit.components.v1 as components
 import matplotlib.pyplot as plt
 import networkx as nx
 import io
@@ -66,7 +65,6 @@ def plot_network_graph(G):
     nx.draw(G, pos, node_color=node_colors, with_labels=True, node_size=3000, font_size=8,
             font_weight='bold', edge_color='gray', width=0.5)
-    # 노드 라벨을 다시 그려 배경을 하얀색으로 만듭니다
     for node, (x, y) in pos.items():
         plt.text(x, y, node, fontsize=8, fontweight='bold', ha='center', va='center',
                  bbox=dict(facecolor='white', edgecolor='none', alpha=0.7, pad=0.5))
@@ -74,7 +72,6 @@ def plot_network_graph(G):
     plt.title("Topic Word Network", fontsize=16)
     plt.axis('off')
-    # 이미지를 바이트 스트림으로 저장
     img_bytes = io.BytesIO()
     plt.savefig(img_bytes, format='png', dpi=300, bbox_inches='tight')
     img_bytes.seek(0)
@@ -128,64 +125,50 @@ with st.sidebar:
     # 파일 업로드
     uploaded_file = st.file_uploader("CSV 파일을 업로드하세요", type="csv")
-    if uploaded_file is not None:
-        try:
-            df = pd.read_csv(uploaded_file)
             text_column = st.selectbox("텍스트 컬럼을 선택하세요", df.columns)
             num_topics = st.slider("토픽 수를 선택하세요", 2, 20, 5)
             if st.button("토픽 모델링 실행"):
                 st.session_state.run_analysis = True
             else:
                 st.session_state.run_analysis = False
-        except Exception as e:
-            st.error(f"파일을 읽는 중 오류가 발생했습니다: {str(e)}")
-# 파일 미리보기 (본문에서)
-# 파일 미리보기 (본문에서)
-if uploaded_file is not None:
-    try:
-        # 파일 내용 확인
-        file_contents = uploaded_file.getvalue().decode('utf-8')
-        if not file_contents.strip():
-            st.error("업로드된 CSV 파일이 비어 있습니다.")
-        else:
-            # CSV 파일 읽기 시도
-            df = pd.read_csv(uploaded_file, encoding='utf-8')
-            if df.empty:
-                st.error("CSV 파일에 데이터가 없습니다.")
-            else:
-                st.success("파일이 성공적으로 업로드되었습니다.")
-                st.subheader("데이터 미리보기")
-                st.write(df.head())
-                # 텍스트 컬럼 선택
-                text_column = st.selectbox("텍스트 컬럼을 선택하세요", df.columns)
-                num_topics = st.slider("토픽 수를 선택하세요", 2, 20, 5)
-                if st.button("토픽 모델링 실행"):
-                    st.session_state.run_analysis = True
-                else:
-                    st.session_state.run_analysis = False
     except pd.errors.EmptyDataError:
-        st.error("업로드된 CSV 파일이 비어있거나 올바르지 않습니다. 다시 확인해주세요.")
     except UnicodeDecodeError:
         st.error("파일 인코딩에 문제가 있습니다. UTF-8 인코딩으로 저장된 CSV 파일을 사용해주세요.")
     except Exception as e:
         st.error(f"파일을 읽는 중 오류가 발생했습니다: {str(e)}")
-# 메인 컨텐츠
 if 'run_analysis' in st.session_state and st.session_state.run_analysis:
-    if uploaded_file is not None and 'df' in locals() and not df.empty:
         try:
             # 텍스트 전처리
             with st.spinner("텍스트 전처리 중..."):
-                df['processed_text'] = df[text_column].apply(lambda x: preprocess_text(x, stop_words))
             # 토픽 모델링
             with st.spinner("토픽 모델링 실행 중..."):
                 vectorizer = CountVectorizer(max_df=0.95, min_df=2)
                 doc_term_matrix = vectorizer.fit_transform(df['processed_text'])
-                lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
                 lda_output = lda.fit_transform(doc_term_matrix)
                 # TF-IDF 계산
@@ -198,7 +181,6 @@ if 'run_analysis' in st.session_state and st.session_state.run_analysis:
             topic_results = []
-            # 토픽 요약을 callout 스타일로 표시
             for idx, topic in enumerate(lda.components_):
                 lda_top_words = [(feature_names[i], topic[i]) for i in topic.argsort()[:-11:-1]]
                 topic_docs = lda_output[:, idx].argsort()[::-1][:100]
@@ -206,7 +188,6 @@ if 'run_analysis' in st.session_state and st.session_state.run_analysis:
                 tfidf_top_words = [(feature_names[i], topic_tfidf[i]) for i in topic_tfidf.argsort()[:-11:-1]]
                 weight = lda_output[:, idx].mean() * 100
-                # 상위 3개 단어를 사용하여 토픽 이름 생성
                 topic_name = ", ".join([word for word, _ in lda_top_words[:3]])
                 topic_results.append({
@@ -223,19 +204,16 @@ if 'run_analysis' in st.session_state and st.session_state.run_analysis:
             for idx, topic in enumerate(lda.components_):
                 st.subheader(f"토픽 {idx + 1}")
-                # LDA 상위 단어와 TF-IDF 상위 단어를 나란히 표시
                 col1, col2 = st.columns(2)
                 with col1:
-                    # LDA 상위 단어 테이블
                     lda_top_words = [(feature_names[i], topic[i]) for i in topic.argsort()[:-11:-1]]
                     df_lda = pd.DataFrame(lda_top_words, columns=['단어', 'LDA 점수'])
                     st.subheader("LDA 상위 단어")
                     st.table(df_lda.style.format({'LDA 점수': '{:.4f}'}))
                 with col2:
-                    # 토픽별 TF-IDF 계산
-                    topic_docs = lda_output[:, idx].argsort()[::-1][:100]  # 상위 100개 문서 선택
                     topic_tfidf = tfidf_matrix[topic_docs].mean(axis=0).A1
                     tfidf_top_words = [(feature_names[i], topic_tfidf[i]) for i in topic_tfidf.argsort()[:-11:-1]]
                     df_tfidf = pd.DataFrame(tfidf_top_words, columns=['단어', 'TF-IDF'])
@@ -303,6 +281,45 @@ if 'run_analysis' in st.session_state and st.session_state.run_analysis:
             # Claude API를 사용하여 토픽 해석
             if api_key:
                 client = Anthropic(api_key=api_key)
@@ -340,6 +357,7 @@ if 'run_analysis' in st.session_state and st.session_state.run_analysis:
             3. 토픽명 설명에서는 왜 그러한 토픽명이 선택되었는지, LDA와 TF-IDF 상위 단어들과의 연관성을 설명해주세요.
             위 형식에 맞춰 답변해주세요. 사용자가 쉽게 복사하여 사용할 수 있도록 간결하고 명확하게 작성해주세요."""
                     try:
                         response = client.completions.create(
                             model="claude-2.1",

 import os
 import altair as alt
 import colorsys
 import matplotlib.pyplot as plt
 import networkx as nx
 import io
     nx.draw(G, pos, node_color=node_colors, with_labels=True, node_size=3000, font_size=8,
             font_weight='bold', edge_color='gray', width=0.5)
     for node, (x, y) in pos.items():
         plt.text(x, y, node, fontsize=8, fontweight='bold', ha='center', va='center',
                  bbox=dict(facecolor='white', edgecolor='none', alpha=0.7, pad=0.5))
     plt.title("Topic Word Network", fontsize=16)
     plt.axis('off')
     img_bytes = io.BytesIO()
     plt.savefig(img_bytes, format='png', dpi=300, bbox_inches='tight')
     img_bytes.seek(0)
     # 파일 업로드
     uploaded_file = st.file_uploader("CSV 파일을 업로드하세요", type="csv")
+# 파일 미리보기 및 분석 설정
+if uploaded_file is not None:
+    try:
+        df = pd.read_csv(uploaded_file)
+        if df.empty:
+            st.error("CSV 파일에 데이터가 없습니다.")
+        else:
+            st.success("파일이 성공적으로 업로드되었습니다.")
+            st.subheader("데이터 미리보기")
+            st.write(df.head())
+            # 텍스트 컬럼 선택
             text_column = st.selectbox("텍스트 컬럼을 선택하세요", df.columns)
             num_topics = st.slider("토픽 수를 선택하세요", 2, 20, 5)
             if st.button("토픽 모델링 실행"):
                 st.session_state.run_analysis = True
+                st.session_state.text_column = text_column
+                st.session_state.num_topics = num_topics
             else:
                 st.session_state.run_analysis = False
     except pd.errors.EmptyDataError:
+        st.error("업로드된 CSV 파일이 비어있습니다. 다시 확인해주세요.")
     except UnicodeDecodeError:
         st.error("파일 인코딩에 문제가 있습니다. UTF-8 인코딩으로 저장된 CSV 파일을 사용해주세요.")
     except Exception as e:
         st.error(f"파일을 읽는 중 오류가 발생했습니다: {str(e)}")
+else:
+    st.info("CSV 파일을 업로드해주세요.")
+# 메인 컨텐츠 (토픽 모델링 실행)
 if 'run_analysis' in st.session_state and st.session_state.run_analysis:
+    if 'text_column' in st.session_state and 'num_topics' in st.session_state:
         try:
             # 텍스트 전처리
             with st.spinner("텍스트 전처리 중..."):
+                df['processed_text'] = df[st.session_state.text_column].apply(lambda x: preprocess_text(x, stop_words))
             # 토픽 모델링
             with st.spinner("토픽 모델링 실행 중..."):
                 vectorizer = CountVectorizer(max_df=0.95, min_df=2)
                 doc_term_matrix = vectorizer.fit_transform(df['processed_text'])
+                lda = LatentDirichletAllocation(n_components=st.session_state.num_topics, random_state=42)
                 lda_output = lda.fit_transform(doc_term_matrix)
                 # TF-IDF 계산
             topic_results = []
             for idx, topic in enumerate(lda.components_):
                 lda_top_words = [(feature_names[i], topic[i]) for i in topic.argsort()[:-11:-1]]
                 topic_docs = lda_output[:, idx].argsort()[::-1][:100]
                 tfidf_top_words = [(feature_names[i], topic_tfidf[i]) for i in topic_tfidf.argsort()[:-11:-1]]
                 weight = lda_output[:, idx].mean() * 100
                 topic_name = ", ".join([word for word, _ in lda_top_words[:3]])
                 topic_results.append({
             for idx, topic in enumerate(lda.components_):
                 st.subheader(f"토픽 {idx + 1}")
                 col1, col2 = st.columns(2)
                 with col1:
                     lda_top_words = [(feature_names[i], topic[i]) for i in topic.argsort()[:-11:-1]]
                     df_lda = pd.DataFrame(lda_top_words, columns=['단어', 'LDA 점수'])
                     st.subheader("LDA 상위 단어")
                     st.table(df_lda.style.format({'LDA 점수': '{:.4f}'}))
                 with col2:
+                    topic_docs = lda_output[:, idx].argsort()[::-1][:100]
                     topic_tfidf = tfidf_matrix[topic_docs].mean(axis=0).A1
                     tfidf_top_words = [(feature_names[i], topic_tfidf[i]) for i in topic_tfidf.argsort()[:-11:-1]]
                     df_tfidf = pd.DataFrame(tfidf_top_words, columns=['단어', 'TF-IDF'])
             # Claude API를 사용하여 토픽 해석
+            if api_key:
+                client = Anthropic(api_key=api_key)
+                st.header("Claude의 토픽 해석")
+                with st.spinner("토픽 해석 중..."):
+                    prompt = f"""Human: 다음은 LDA 토픽 모델링 결과로 나온 각 토픽의 정보입니다. 이를 바탕으로 전체 토픽을 종합적으로 해석해주세요:
+            {", ".join([f"토픽 {{info['topic_num']}} (비중: {{info['weight']:.1f}}%)" for info in topic_results])}
+            각 토픽의 주요 단어:
+            """
+                    for info in topic_results:
+                        prompt += f"""
+            토픽 {info['topic_num']} (비중: {info['weight']:.1f}%):
+            LDA 상위 단어: {', '.join(info['lda_words'])}
+            TF-IDF 상위 단어: {', '.join(info['tfidf_words'])}
+            """
+                    prompt += """
+            위 정보를 바탕으로 다음 형식에 맞춰 답변해주세요:
+            1. 전체 문서의 주제 요약 (3-4문장):
+               [여기에 전체 문서의 주제를 종합적으로 설명해주세요. 각 토픽의 비중을 고려하여 중요도를 반영해주세요.]
+            2. 각 토픽 요약:
+               [각 토픽에 대해 다음 형식으로 요약해주세요]
+               - 토픽 [번호] ([LDA 기반 토픽명]): [비중]%
+                 • 토픽명 설명: [토픽명이 이렇게 지어진 이유를 1-2문장으로 설명해주세요. LDA와 TF-IDF 상위 단어들이 어떻게 이 토픽명과 연관되는지 설명하세요.]
+                 • 토픽 설명: [1-2문장으로 토픽의 전반적인 내용을 설명해주세요.]
+                 • 가상의 예시 응답: "[이 토픽과 관련된 가상의 구성원 발언 예시를 넣어주세요. -한다 체를 지켜주세요]"
+            주의사항:
+            1. 토픽명은 "LDA 기반 [구체적인 토픽명]" 형식으로 작성해주세요. 예를 들어, "구성원들의 성장과 개인적인 역량개발 노력" 또는 "리더들의 노력과 조직의 전폭적인 지원" 등입니다.
+            2. 토픽명은 단순히 단어를 나열하는 것이 아니라, 토픽의 핵심 주제나 의미를 잘 나타내는 구체적인 문구로 만들어주세요.
+            3. 토픽명 설명에서는 왜 그러한 토픽명이 선택되었는지, LDA와 TF-IDF 상위 단어들과의 연관성을 설명해주세요.
+            위 형식에 ��춰 답변해주세요. 사용자가 쉽게 복사하여 사용할 수 있도록 간결하고 명확하게 작성해주세요. """
             if api_key:
                 client = Anthropic(api_key=api_key)
             3. 토픽명 설명에서는 왜 그러한 토픽명이 선택되었는지, LDA와 TF-IDF 상위 단어들과의 연관성을 설명해주세요.
             위 형식에 맞춰 답변해주세요. 사용자가 쉽게 복사하여 사용할 수 있도록 간결하고 명확하게 작성해주세요."""
                     try:
                         response = client.completions.create(
                             model="claude-2.1",