Spaces:

soojeongcrystal
/

topicmodeling

Sleeping

App Files Files Community

soojeongcrystal commited on Aug 23, 2024

Commit

177ec8c

verified ·

1 Parent(s): 346759b

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -51

app.py CHANGED Viewed

@@ -13,8 +13,8 @@ import colorsys
 # Streamlit 페이지 설정 (반드시 첫 번째 st 명령어여야 함)
 st.set_page_config(
     layout="wide",
-    page_title="토픽모델링 Tool for SK",
-    page_icon="⚙️"
 )
 # KoNLPy 형태소 분석기 초기화
@@ -86,27 +86,19 @@ st.markdown("""
 </div>
 """, unsafe_allow_html=True)
-# 사이드바 접기/펼치기 기능
-if 'sidebar_state' not in st.session_state:
-    st.session_state.sidebar_state = 'expanded'
-def toggle_sidebar():
-    if st.session_state.sidebar_state == 'expanded':
-        st.session_state.sidebar_state = 'collapsed'
-    else:
-        st.session_state.sidebar_state = 'expanded'
 # 메인 컨텐츠
 st.markdown('<div class="main-content">', unsafe_allow_html=True)
 st.title('토픽모델링 Tool for SK')
-# 사이드바 토글 버튼
-st.button("사이드바 접기/펼치기", on_click=toggle_sidebar)
 # 사이드바 내용
-if st.session_state.sidebar_state == 'expanded':
-    with st.sidebar:
-        st.header('설정')
         # Claude API 키 설정
         api_key = st.text_input("Claude API 키를 입력하세요", type="password")
         if not api_key:
@@ -119,19 +111,26 @@ if st.session_state.sidebar_state == 'expanded':
         # 파일 업로드
         uploaded_file = st.file_uploader("CSV 파일을 업로드하세요", type="csv")
-if uploaded_file is not None:
-    # 데이터 읽기
-    df = pd.read_csv(uploaded_file)
-    st.write("데이터 미리보기:")
-    st.write(df.head())
-    # 텍스트 컬럼 선택
-    text_column = st.sidebar.selectbox("텍스트 컬럼을 선택하세요", df.columns)
-    # 토픽 수 선택
-    num_topics = st.sidebar.slider("토픽 수를 선택하세요", 2, 20, 5)
-    if st.sidebar.button("토픽 모델링 실행"):
         # 텍스트 전처리
         with st.spinner("텍스트 전처리 중..."):
             df['processed_text'] = df[text_column].apply(lambda x: preprocess_text(x, stop_words))
@@ -226,39 +225,46 @@ if uploaded_file is not None:
         st.altair_chart(chart, use_container_width=True)
         # Claude API를 사용하여 토픽 해석
         if api_key:
             anthropic = Anthropic(api_key=api_key)
             st.header("Claude의 토픽 해석")
             with st.spinner("토픽 해석 중..."):
-                prompt = f"""{HUMAN_PROMPT} 다음은 토픽 모델링 결과로 나온 각 토픽의 정보입니다. 이를 바탕으로 전체 토픽을 종합적으로 해석해주세요:
-{", ".join([f"토픽 {info['topic_num']} (비중: {info['weight']:.1f}%)" for info in topic_results])}
-각 토픽의 주요 단어:
-"""
                 for info in topic_results:
                     prompt += f"""
-토픽 {info['topic_num']} (비중: {info['weight']:.1f}%):
-LDA 상위 단어: {', '.join(info['lda_words'])}
-TF-IDF 상위 단어: {', '.join(info['tfidf_words'])}
-"""
                 prompt += """
-위 정보를 바탕으로 다음 형식에 맞춰 답변해주세요:
-1. 전체 문서의 주제 요약 (3-4문장):
-   [여기에 전체 문서의 주제를 종합적으로 설명해주세요. 각 토픽의 비중을 고려하여 중요도를 반영해주세요.]
-2. 각 토픽 요약:
-   [각 토픽에 대해 다음 형식으로 요약해주세요]
-   - 토픽 [��호] ([토픽명]): [비중]%
-     • 토픽 설명: [1-2문장으로 토픽 설명]
-     • 가상의 예시 응답: "[이 토픽과 관련된 가상의 발언 예시]"
-위 형식에 맞춰 답변해주세요. 사용자가 쉽게 복사하여 사용할 수 있도록 간결하고 명확하게 작성해주세요."""
                 response = anthropic.completions.create(
                     model="claude-2.1",
                     max_tokens_to_sample=3000,

 # Streamlit 페이지 설정 (반드시 첫 번째 st 명령어여야 함)
 st.set_page_config(
     layout="wide",
+    page_title="📊 토픽모델링 Tool for SK",
+    page_icon="📊"
 )
 # KoNLPy 형태소 분석기 초기화
 </div>
 """, unsafe_allow_html=True)
 # 메인 컨텐츠
 st.markdown('<div class="main-content">', unsafe_allow_html=True)
 st.title('토픽모델링 Tool for SK')
 # 사이드바 내용
+with st.sidebar:
+    st.header('설정')
+    # 최소화된 사이드바 상태에서도 보이는 정보
+    st.markdown("⚙️ 설정을 조정하려면 사이드바를 확장하세요.")
+    # 확장된 사이드바 상태에서 보이는 정보
+    with st.expander("상세 설정", expanded=True):
         # Claude API 키 설정
         api_key = st.text_input("Claude API 키를 입력하세요", type="password")
         if not api_key:
         # 파일 업로드
         uploaded_file = st.file_uploader("CSV 파일을 업로드하세요", type="csv")
+        if uploaded_file is not None:
+            # 텍스트 컬럼 선택
+            df = pd.read_csv(uploaded_file)
+            text_column = st.selectbox("텍스트 컬럼을 선택하세요", df.columns)
+            # 토픽 수 선택
+            num_topics = st.slider("토픽 수를 선택하세요", 2, 20, 5)
+            if st.button("토픽 모델링 실행"):
+                st.session_state.run_analysis = True
+            else:
+                st.session_state.run_analysis = False
+if 'run_analysis' in st.session_state and st.session_state.run_analysis:
+    if uploaded_file is not None:
+        # 데이터 읽기
+        df = pd.read_csv(uploaded_file)
+        st.write("데이터 미리보기:")
+        st.write(df.head())
         # 텍스트 전처리
         with st.spinner("텍스트 전처리 중..."):
             df['processed_text'] = df[text_column].apply(lambda x: preprocess_text(x, stop_words))
         st.altair_chart(chart, use_container_width=True)
         # Claude API를 사용하여 토픽 해석
         if api_key:
             anthropic = Anthropic(api_key=api_key)
             st.header("Claude의 토픽 해석")
             with st.spinner("토픽 해석 중..."):
+                prompt = f"""{HUMAN_PROMPT} 다음은 LDA 토픽 모델링 결과로 나온 각 토픽의 정보입니다. 이를 바탕으로 전체 토픽을 종합적으로 해석해주세요:
+        {", ".join([f"토픽 {info['topic_num']} (비중: {info['weight']:.1f}%)" for info in topic_results])}
+        각 토픽의 주요 단어:
+        """
                 for info in topic_results:
                     prompt += f"""
+        토픽 {info['topic_num']} (비중: {info['weight']:.1f}%):
+        LDA 상위 단어: {', '.join(info['lda_words'])}
+        TF-IDF 상위 단어: {', '.join(info['tfidf_words'])}
+        """
                 prompt += """
+        위 정보를 바탕으로 다음 형식에 맞춰 답변해주세요:
+        1. 전체 문서의 주제 요약 (3-4문장):
+           [여기에 전체 문서의 주제를 종합적으로 설명해주세요. 각 토픽의 비중을 고려하여 중요도를 반영해주세요.]
+        2. 각 토픽 요약:
+           [각 토픽에 대해 다음 형식으로 요약해주세요]
+           - 토픽 [번호] ([LDA 기반 토픽명]): [비중]%
+             • 토픽명 설명: [토픽명이 이렇게 지어진 이유를 1-2문장으로 설명해주세요. LDA와 TF-IDF 상위 단어들이 어떻게 이 토픽명과 연관되는지 설명하세요.]
+             • 토픽 설명: [1-2문장으로 토픽의 전반적인 내용을 설명해주세요.]
+             • 가상의 예시 응답: "[이 토픽과 관련된 가상의 구성원 발언 예시를 넣어주세요. -한다 체를 지켜주세요]"
+        주의사항:
+        1. 토픽명은 "LDA 기반 [구체적인 토픽명]" 형식으로 작성해주세요. 예를 들어, "구성원들의 성장과 개인적인 역량개발 노력" 또는 "리더들의 노력과 조직의 전폭적인 지원" 등입니다.
+        2. 토픽명은 단순히 단어를 나열하는 것이 아니라, 토픽의 핵심 주제나 의미를 잘 나타내는 구체적인 문구로 만들어주세요.
+        3. 토픽명 설명에서는 왜 그러한 토픽명이 선택되었는지, LDA와 TF-IDF 상위 단어들과의 연관성을 설명해주세요.
+        위 형식에 맞춰 답변해주세요. 사용자가 쉽게 복사하여 사용할 수 있도록 간결하고 명확하게 작성해주세요."""
                 response = anthropic.completions.create(
                     model="claude-2.1",
                     max_tokens_to_sample=3000,