Spaces:

soojeongcrystal
/

topicmodeling

Sleeping

App Files Files Community

soojeongcrystal commited on Aug 23, 2024

Commit

4b5031a

verified ·

1 Parent(s): 177ec8c

Update app.py

Browse files

Files changed (1) hide show

app.py +209 -206

app.py CHANGED Viewed

@@ -9,13 +9,12 @@ import re
 import os
 import altair as alt
 import colorsys
-# Streamlit 페이지 설정 (반드시 첫 번째 st 명령어여야 함)
-st.set_page_config(
-    layout="wide",
-    page_title="📊 토픽모델링 Tool for SK",
-    page_icon="📊"
-)
 # KoNLPy 형태소 분석기 초기화
 @st.cache_resource
@@ -29,251 +28,255 @@ default_stop_words = ['이', '그', '저', '것', '수', '등', '들', '및', '
 @st.cache_data
 def preprocess_text(text, stop_words):
-    text = re.sub(r'[^가-힣\s]', '', text)
     nouns = okt.nouns(text)
     processed = [word for word in nouns if word not in stop_words and len(word) > 1]
     return ' '.join(processed)
-# HSL 색상 생성
 def generate_colors(n):
     HSV_tuples = [(x * 1.0 / n, 0.5, 0.9) for x in range(n)]
     return ['#%02x%02x%02x' % tuple(int(x*255) for x in colorsys.hsv_to_rgb(*hsv)) for hsv in HSV_tuples]
-# CSS 스타일 정의
-st.markdown("""
-<style>
-.header {
-    position: fixed;
-    top: 0;
-    left: 0;
-    right: 0;
-    background-color: #f1f1f1;
-    color: black;
-    padding: 10px 0;
-    font-size: 16px;
-    z-index: 999;
-}
-.header-content {
-    display: flex;
-    justify-content: flex-end;
-    padding-right: 20px;
-}
-.main-content {
-    margin-top: 50px;
-    padding: 20px;
-}
-.stDataFrame {
-    width: 100%;
-}
-.stDataFrame table {
-    width: 100%;
-}
-.stDataFrame th {
-    font-size: 14px;
-}
-.stDataFrame td {
-    font-size: 12px;
-}
-</style>
-""", unsafe_allow_html=True)
-# 헤더 렌더링
 st.markdown("""
-<div class="header">
-    <div class="header-content">
-        mySUNI 행복 College 행복담당조직 Meet-Up
-    </div>
 </div>
 """, unsafe_allow_html=True)
-# 메인 컨텐츠
-st.markdown('<div class="main-content">', unsafe_allow_html=True)
 st.title('토픽모델링 Tool for SK')
-# 사이드바 내용
 with st.sidebar:
     st.header('설정')
-    # 최소화된 사이드바 상태에서도 보이는 정보
-    st.markdown("⚙️ 설정을 조정하려면 사이드바를 확장하세요.")
-    # 확장된 사이드바 상태에서 보이는 정보
-    with st.expander("상세 설정", expanded=True):
-        # Claude API 키 설정
-        api_key = st.text_input("Claude API 키를 입력하세요", type="password")
-        if not api_key:
-            api_key = os.environ.get("ANTHROPIC_API_KEY")
-        # 불용어 설정
-        stop_words_input = st.text_area("불용어 목록 (쉼표로 구분)", ', '.join(default_stop_words))
-        stop_words = [word.strip() for word in stop_words_input.split(',') if word.strip()]
-        # 파일 업로드
-        uploaded_file = st.file_uploader("CSV 파일을 업로드하세요", type="csv")
-        if uploaded_file is not None:
-            # 텍스트 컬럼 선택
             df = pd.read_csv(uploaded_file)
             text_column = st.selectbox("텍스트 컬럼을 선택하세요", df.columns)
-            # 토픽 수 선택
             num_topics = st.slider("토픽 수를 선택하세요", 2, 20, 5)
             if st.button("토픽 모델링 실행"):
                 st.session_state.run_analysis = True
             else:
                 st.session_state.run_analysis = False
 if 'run_analysis' in st.session_state and st.session_state.run_analysis:
     if uploaded_file is not None:
-        # 데이터 읽기
-        df = pd.read_csv(uploaded_file)
-        st.write("데이터 미리보기:")
-        st.write(df.head())
-        # 텍스트 전처리
-        with st.spinner("텍스트 전처리 중..."):
-            df['processed_text'] = df[text_column].apply(lambda x: preprocess_text(x, stop_words))
-        # 토픽 모델링
-        with st.spinner("토픽 모델링 실행 중..."):
-            vectorizer = CountVectorizer(max_df=0.95, min_df=2)
-            doc_term_matrix = vectorizer.fit_transform(df['processed_text'])
-            lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
-            lda_output = lda.fit_transform(doc_term_matrix)
-            # TF-IDF 계산
-            tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2)
-            tfidf_matrix = tfidf_vectorizer.fit_transform(df['processed_text'])
-        # 결과 출력
-        st.header("토픽 모델링 결과")
-        feature_names = vectorizer.get_feature_names_out()
-        topic_results = []
-        for idx, topic in enumerate(lda.components_):
-            st.subheader(f"토픽 {idx + 1}")
-            # LDA 상위 단어와 TF-IDF 상위 단어를 나란히 표시
-            col1, col2 = st.columns(2)
-            with col1:
-                # LDA 상위 단어 테이블
-                lda_top_words = [(feature_names[i], topic[i]) for i in topic.argsort()[:-11:-1]]
-                df_lda = pd.DataFrame(lda_top_words, columns=['단어', 'LDA 점수'])
-                st.subheader("LDA 상위 단어")
-                st.dataframe(df_lda.style.format({'LDA 점수': '{:.4f}'}), height=400)
-            with col2:
-                # 토픽별 TF-IDF 계산
-                topic_docs = lda_output[:, idx].argsort()[::-1][:100]  # 상위 100개 문서 선택
-                topic_tfidf = tfidf_matrix[topic_docs].mean(axis=0).A1
-                tfidf_top_words = [(feature_names[i], topic_tfidf[i]) for i in topic_tfidf.argsort()[:-11:-1]]
-                df_tfidf = pd.DataFrame(tfidf_top_words, columns=['단어', 'TF-IDF'])
-                st.subheader("TF-IDF 상위 단어")
-                st.dataframe(df_tfidf.style.format({'TF-IDF': '{:.4f}'}), height=400)
-            topic_results.append({
-                'topic_num': idx + 1,
-                'lda_words': [word for word, _ in lda_top_words],
-                'tfidf_words': [word for word, _ in tfidf_top_words],
-                'weight': lda_output[:, idx].mean() * 100  # 퍼센트로 변환
-            })
-        # 토픽 비중 그래프
-        st.header("토픽 비중 그래프")
-        df_weights = pd.DataFrame({
-            '토픽': [f'토픽 {i+1}' for i in range(num_topics)],
-            '비중': [result['weight'] for result in topic_results]
-        })
-        colors = generate_colors(num_topics)
-        # 차트 생성
-        base = alt.Chart(df_weights).encode(
-            x=alt.X('토픽:N', axis=alt.Axis(labelAngle=0)),
-            y=alt.Y('비중:Q', axis=alt.Axis(format=',.1f'))
-        )
-        bars = base.mark_bar().encode(
-            color=alt.Color('토픽:N', scale=alt.Scale(range=colors))
-        )
-        text = base.mark_text(
-            align='center',
-            baseline='middle',
-            dy=-10  # 텍스트를 약간 위로 이동
-        ).encode(
-            text=alt.Text('비중:Q', format='.1f')
-        )
-        chart = (bars + text).properties(
-            width=600,
-            height=400,
-            title='문서 내 토픽 비중 (%)'
-        ).configure_axis(
-            labelFontSize=12,
-            titleFontSize=14
-        ).configure_title(
-            fontSize=16,
-            font='Arial',
-            anchor='middle',
-            color='gray'
-        )
-        st.altair_chart(chart, use_container_width=True)
-        # Claude API를 사용하여 토픽 해석
-        if api_key:
-            anthropic = Anthropic(api_key=api_key)
-            st.header("Claude의 토픽 해석")
-            with st.spinner("토픽 해석 중..."):
-                prompt = f"""{HUMAN_PROMPT} 다음은 LDA 토픽 모델링 결과로 나온 각 토픽의 정보입니다. 이를 바탕으로 전체 토픽을 종합적으로 해석해주세요:
-        {", ".join([f"토픽 {info['topic_num']} (비중: {info['weight']:.1f}%)" for info in topic_results])}
-        각 토픽의 주요 단어:
-        """
-                for info in topic_results:
-                    prompt += f"""
-        토픽 {info['topic_num']} (비중: {info['weight']:.1f}%):
-        LDA 상위 단어: {', '.join(info['lda_words'])}
-        TF-IDF 상위 단어: {', '.join(info['tfidf_words'])}
-        """
-                prompt += """
-        위 정보를 바탕으로 다음 형식에 맞춰 답변해주세요:
-        1. 전체 문서의 주제 요약 (3-4문장):
-           [여기에 전체 문서의 주제를 종합적으로 설명해주세요. 각 토픽의 비중을 고려하여 중요도를 반영해주세요.]
-        2. 각 토픽 요약:
-           [각 토픽에 대해 다음 형식으로 요약해주세요]
-           - 토픽 [번호] ([LDA 기반 토픽명]): [비중]%
-             • 토픽명 설명: [토픽명이 이렇게 지어진 이유를 1-2문장으로 설명해주세요. LDA와 TF-IDF 상위 단어들이 어떻게 이 토픽명과 연관되는지 설명하세요.]
-             • 토픽 설명: [1-2문장으로 토픽의 전반적인 내용을 설명해주세요.]
-             • 가상의 예시 응답: "[이 토픽과 관련된 가상의 구성원 발언 예시를 넣어주세요. -한다 체를 지켜주세요]"
-        주의사항:
-        1. 토픽명은 "LDA 기반 [구체적인 토픽명]" 형식으로 작성해주세요. 예를 들어, "구성원들의 성장과 개인적인 역량개발 노력" 또는 "리더들의 노력과 조직의 전폭적인 지원" 등입니다.
-        2. 토픽명은 단순히 단어를 나열하는 것이 아니라, 토픽의 핵심 주제나 의미를 잘 나타내는 구체적인 문구로 만들어주세요.
-        3. 토픽명 설명에서는 왜 그러한 토픽명이 선택되었는지, LDA와 TF-IDF 상위 단어들과의 연관성을 설명해주세요.
-        위 형식에 맞춰 답변해주세요. 사용자가 쉽게 복사하여 사용할 수 있도록 간결하고 명확하게 작성해주세요."""
-                response = anthropic.completions.create(
-                    model="claude-2.1",
-                    max_tokens_to_sample=3000,
-                    prompt=f"{prompt}\n\n{AI_PROMPT}",
-                )
-                st.subheader("토픽 모델링 종합 결과")
-                st.text_area("결과를 복사하여 사용하세요:", value=response.completion, height=500)
-        else:
-            st.warning("Claude API 키가 설정되지 않았습니다. https://console.anthropic.com/settings/keys 에 접속하여 API 키를 발급받으시면 토픽명과 해석을 제공받으실 수 있습니다.")
-st.markdown('</div>', unsafe_allow_html=True)

 import os
 import altair as alt
 import colorsys
+import networkx as nx
+from pyvis.network import Network
+import streamlit.components.v1 as components
+# Streamlit 페이지 설정
+st.set_page_config(layout="wide", page_title="📊 토픽모델링 Tool for SK", page_icon="📊")
 # KoNLPy 형태소 분석기 초기화
 @st.cache_resource
 @st.cache_data
 def preprocess_text(text, stop_words):
+    text = re.sub(r'[^가-힣\s]', '', str(text))
     nouns = okt.nouns(text)
     processed = [word for word in nouns if word not in stop_words and len(word) > 1]
     return ' '.join(processed)
 def generate_colors(n):
     HSV_tuples = [(x * 1.0 / n, 0.5, 0.9) for x in range(n)]
     return ['#%02x%02x%02x' % tuple(int(x*255) for x in colorsys.hsv_to_rgb(*hsv)) for hsv in HSV_tuples]
+# 네트워크 그래프 생성 함수
+def create_network_graph(topic_results, num_words=30):
+    G = nx.Graph()
+    colors = generate_colors(len(topic_results))
+    for idx, topic in enumerate(topic_results):
+        words = topic['lda_words'][:num_words]
+        color = colors[idx]
+        # 노드 추가
+        for word in words:
+            if not G.has_node(word):
+                G.add_node(word, color=color, size=10)
+        # 엣지 추가
+        for i in range(len(words)):
+            for j in range(i+1, len(words)):
+                if G.has_edge(words[i], words[j]):
+                    G[words[i]][words[j]]['weight'] += 1
+                else:
+                    G.add_edge(words[i], words[j], weight=1)
+    return G
+# 네트워크 그래프 시각화 함수
+def visualize_network(G):
+    nt = Network(height="500px", width="100%", bgcolor="#222222", font_color="white")
+    nt.from_nx(G)
+    nt.show("network.html")
+    # HTML 파일을 읽어 Streamlit에 표시
+    with open("network.html", 'r', encoding='utf-8') as f:
+        html_string = f.read()
+    components.html(html_string, height=500)
+# 헤더
 st.markdown("""
+<div style="background-color: #f1f1f1; padding: 10px; text-align: right;">
+    mySUNI 행복 College 행복담당조직 Meet-Up
 </div>
 """, unsafe_allow_html=True)
 st.title('토픽모델링 Tool for SK')
+# 사이드바 설정
 with st.sidebar:
     st.header('설정')
+    # Claude API 키 설정
+    api_key = st.text_input("Claude API 키를 입력하세요", type="password")
+    if not api_key:
+        api_key = os.environ.get("ANTHROPIC_API_KEY")
+    # 불용어 설정
+    stop_words_input = st.text_area("불용어 목록 (쉼표로 구분)", ', '.join(default_stop_words))
+    stop_words = [word.strip() for word in stop_words_input.split(',') if word.strip()]
+    # 파일 업로드
+    uploaded_file = st.file_uploader("CSV 파일을 업로드하세요", type="csv")
+    if uploaded_file is not None:
+        try:
             df = pd.read_csv(uploaded_file)
             text_column = st.selectbox("텍스트 컬럼을 선택하세요", df.columns)
             num_topics = st.slider("토픽 수를 선택하세요", 2, 20, 5)
             if st.button("토픽 모델링 실행"):
                 st.session_state.run_analysis = True
             else:
                 st.session_state.run_analysis = False
+        except pd.errors.EmptyDataError:
+            st.error("업로드된 CSV 파일이 비어있거나 올바르지 않습니다. 다시 확인해주세요.")
+        except Exception as e:
+            st.error(f"파일을 읽는 중 오류가 발생했습니다: {str(e)}")
+# 메인 컨텐츠
 if 'run_analysis' in st.session_state and st.session_state.run_analysis:
     if uploaded_file is not None:
+        try:
+            # 데이터 읽기
+            df = pd.read_csv(uploaded_file)
+            st.write("데이터 미리보기:")
+            st.write(df.head())
+            # 텍스트 전처리
+            with st.spinner("텍스트 전처리 중..."):
+                df['processed_text'] = df[text_column].apply(lambda x: preprocess_text(x, stop_words))
+            # 토픽 모델링
+            with st.spinner("토픽 모델링 실행 중..."):
+                vectorizer = CountVectorizer(max_df=0.95, min_df=2)
+                doc_term_matrix = vectorizer.fit_transform(df['processed_text'])
+                lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
+                lda_output = lda.fit_transform(doc_term_matrix)
+                # TF-IDF 계산
+                tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2)
+                tfidf_matrix = tfidf_vectorizer.fit_transform(df['processed_text'])
+            # 결과 출력
+            st.header("토픽 모델링 결과")
+            feature_names = vectorizer.get_feature_names_out()
+            topic_results = []
+            for idx, topic in enumerate(lda.components_):
+                st.subheader(f"토픽 {idx + 1}")
+                # LDA 상위 단어와 TF-IDF 상위 단어를 나란히 표시
+                col1, col2 = st.columns(2)
+                with col1:
+                    # LDA 상위 단어 테이블
+                    lda_top_words = [(feature_names[i], topic[i]) for i in topic.argsort()[:-11:-1]]
+                    df_lda = pd.DataFrame(lda_top_words, columns=['단어', 'LDA 점수'])
+                    st.subheader("LDA 상위 단어")
+                    st.dataframe(df_lda.style.format({'LDA 점수': '{:.4f}'}), height=400)
+                with col2:
+                    # 토픽별 TF-IDF 계산
+                    topic_docs = lda_output[:, idx].argsort()[::-1][:100]  # 상위 100개 문서 선택
+                    topic_tfidf = tfidf_matrix[topic_docs].mean(axis=0).A1
+                    tfidf_top_words = [(feature_names[i], topic_tfidf[i]) for i in topic_tfidf.argsort()[:-11:-1]]
+                    df_tfidf = pd.DataFrame(tfidf_top_words, columns=['단어', 'TF-IDF'])
+                    st.subheader("TF-IDF 상위 단어")
+                    st.dataframe(df_tfidf.style.format({'TF-IDF': '{:.4f}'}), height=400)
+                topic_results.append({
+                    'topic_num': idx + 1,
+                    'lda_words': [word for word, _ in lda_top_words],
+                    'tfidf_words': [word for word, _ in tfidf_top_words],
+                    'weight': lda_output[:, idx].mean() * 100  # 퍼센트로 변환
+                })
+            # 토픽 비중 그래프
+            st.header("토픽 비중 그래프")
+            df_weights = pd.DataFrame({
+                '토픽': [f'토픽 {i+1}' for i in range(num_topics)],
+                '비중': [result['weight'] for result in topic_results]
+            })
+            colors = generate_colors(num_topics)
+            # 차트 생성
+            base = alt.Chart(df_weights).encode(
+                x=alt.X('토픽:N', axis=alt.Axis(labelAngle=0)),
+                y=alt.Y('비중:Q', axis=alt.Axis(format=',.1f'))
+            )
+            bars = base.mark_bar().encode(
+                color=alt.Color('토픽:N', scale=alt.Scale(range=colors))
+            )
+            text = base.mark_text(
+                align='center',
+                baseline='middle',
+                dy=-10  # 텍스트를 약간 위로 이동
+            ).encode(
+                text=alt.Text('비중:Q', format='.1f')
+            )
+            chart = (bars + text).properties(
+                width=600,
+                height=400,
+                title='문서 내 토픽 비중 (%)'
+            ).configure_axis(
+                labelFontSize=12,
+                titleFontSize=14
+            ).configure_title(
+                fontSize=16,
+                font='Arial',
+                anchor='middle',
+                color='gray'
+            )
+            st.altair_chart(chart, use_container_width=True)
+            # 네트워크 그래프 생성 및 시각화
+            st.header("토픽 단어 네트워크 그래프")
+            G = create_network_graph(topic_results)
+            visualize_network(G)
+            # Claude API를 사용하여 토픽 해석
+            if api_key:
+                anthropic = Anthropic(api_key=api_key)
+                st.header("Claude의 토픽 해석")
+                with st.spinner("토픽 해석 중..."):
+                    prompt = f"""{HUMAN_PROMPT} 다음은 LDA 토픽 모델링 결과로 나온 각 토픽의 정보입니다. 이를 바탕으로 전체 토픽을 종합적으로 해석해주세요:
+            {", ".join([f"토픽 {info['topic_num']} (비중: {info['weight']:.1f}%)" for info in topic_results])}
+            각 토픽의 주요 단어:
+            """
+                    for info in topic_results:
+                        prompt += f"""
+            토픽 {info['topic_num']} (비중: {info['weight']:.1f}%):
+            LDA 상위 단어: {', '.join(info['lda_words'])}
+            TF-IDF 상위 단어: {', '.join(info['tfidf_words'])}
+            """
+                    prompt += """
+            위 정보를 바탕으로 다음 형식에 맞춰 답변해주세요:
+            1. 전체 문서의 주제 요약 (3-4문장):
+               [여기에 전체 문서의 주제를 종합적으로 설명해주세요. 각 토픽의 비중을 고려하여 중요도를 반영해주세요.]
+            2. 각 토픽 요약:
+               [각 토픽에 대해 다음 형식으로 요약해주세요]
+               - 토픽 [번호] ([LDA 기반 토픽명]): [비중]%
+                 • 토픽명 설명: [토픽명이 이렇게 지어진 이유를 1-2문장으로 설명해주세요. LDA와 TF-IDF 상위 단어들이 어떻게 이 토픽명과 연관되는지 설명하세요.]
+                 • 토픽 설명: [1-2문장으로 토픽의 전반적인 내용을 설명해주세요.]
+                 • 가상의 예시 응답: "[이 토픽과 관련된 가상의 구성원 발언 예시를 넣어주세요. -한다 체를 지켜주세요]"
+            주의사항:
+            1. 토픽명은 "LDA 기반 [구체적인 토픽명]" 형식으로 작성해주세요. 예를 들어, "구성원들의 성장과 개인적인 역량개발 노력" 또는 "리더들의 노력과 조직의 전폭적인 지원" 등입니다.
+            2. 토픽명은 단순히 단어를 나열하는 것이 아니라, 토픽의 핵심 주제나 의미를 잘 나타내는 구체적인 문구로 만들어주세요.
+            3. 토픽명 설명에서는 왜 그러한 토픽명이 선택되었는지, LDA와 TF-IDF 상위 단어들과의 연관성을 설명해주세요.
+            위 형식에 맞춰 답변해주세요. 사용자가 쉽게 복사하여 사용할 수 있도록 간결하고 명확하게 작성해주세요."""
+                    response = anthropic.completions.create(
+                        model="claude-2.1",
+                        max_tokens_to_sample=3000,
+                        prompt=f"{prompt}\n\n{AI_PROMPT}",response = anthropic.completions.create(
+                        model="claude-2.1",
+                        max_tokens_to_sample=3000,
+                        prompt=f"{prompt}\n\n{AI_PROMPT}",
+                    )
+                    st.subheader("토픽 모델링 종합 결과")
+                    st.text_area("결과를 복사하여 사용하세요:", value=response.completion, height=500)
+            else:
+                st.warning("Claude API 키가 설정되지 않았습니다. https://console.anthropic.com/settings/keys 에 접속하여 API 키를 발급받으시면 토픽명과 해석을 제공받으실 수 있습니다.")
+        except Exception as e:
+            st.error(f"분석 중 오류가 발생했습니다: {str(e)}")
+# 페이지 하단에 추가 정보나 설명을 넣을 수 있습니다.
+st.markdown("""
+---
+© 2024 SK mySUNI 행복 College. Crystal_B . All rights reserved.
+""")