Spaces:

soojeongcrystal
/

topicmodeling

Sleeping

App Files Files Community

soojeongcrystal commited on Aug 24, 2024

Commit

fa61fd5

verified ·

1 Parent(s): b1b2d35

Update app.py

Browse files

Files changed (1) hide show

app.py +77 -68

app.py CHANGED Viewed

@@ -38,6 +38,25 @@ def generate_colors(n):
     HSV_tuples = [(x * 1.0 / n, 0.5, 0.9) for x in range(n)]
     return ['#%02x%02x%02x' % tuple(int(x*255) for x in colorsys.hsv_to_rgb(*hsv)) for hsv in HSV_tuples]
 def plot_network_graph(G):
     # 한국어 폰트 설정
     font_path = "./NanumBarunGothic.ttf"
@@ -51,14 +70,11 @@ def plot_network_graph(G):
     node_colors = [G.nodes[node]['color'] for node in G.nodes()]
-    nx.draw(G, pos, node_color=node_colors, with_labels=False, node_size=1000,
-            edge_color='gray', width=0.5)
-    # 라벨 위치 조정
-    label_pos = {k: (v[0], v[1] + 0.02) for k, v in pos.items()}
-    nx.draw_networkx_labels(G, label_pos, font_size=8, font_weight='bold', font_family=font_prop.get_name())
-    plt.title("Network graph", fontsize=16, fontproperties=font_prop)
     plt.axis('off')
     img_bytes = io.BytesIO()
@@ -68,25 +84,6 @@ def plot_network_graph(G):
     return img_bytes
-def create_network_graph(topic_results, num_words=10):
-    G = nx.Graph()
-    colors = generate_colors(len(topic_results))
-    for idx, topic in enumerate(topic_results):
-        words = topic['lda_words'][:num_words]
-        color = colors[idx]
-        for word in words:
-            if not G.has_node(word):
-                G.add_node(word, color=color)
-        for i in range(len(words)):
-            for j in range(i+1, len(words)):
-                if not G.has_edge(words[i], words[j]):
-                    G.add_edge(words[i], words[j])
-    return G
 # 헤더 스타일 변경
 st.markdown("""
 <style>
@@ -288,57 +285,69 @@ if 'run_analysis' in st.session_state and st.session_state.run_analysis:
                 st.error(f"네트워크 그래프 생성 중 오류가 발생했습니다: {str(e)}")
             # Claude API를 사용하여 토픽 해석
-            if api_key:
                 client = Anthropic(api_key=api_key)
-                st.header("Claude의 토픽 해석")
-                with st.spinner("토픽 해석 중..."):
-                    prompt = f"""Human: 다음은 LDA 토픽 모델링 결과로 나온 각 토픽의 정보입니다. 이를 바탕으로 전체 토픽을 종합적으로 해석해주세요:
-            {", ".join([f"토픽 {{info['topic_num']}} (비중: {{info['weight']:.1f}}%)" for info in topic_results])}
-            각 토픽의 주요 단어:
-            """
-                    for info in topic_results:
-                        prompt += f"""
-            토픽 {info['topic_num']} (비중: {info['weight']:.1f}%):
-            LDA 상위 단어: {', '.join(info['lda_words'])}
-            TF-IDF 상위 단어: {', '.join(info['tfidf_words'])}
-            """
-                    prompt += """
-            위 정보를 바탕으로 다음 형식에 맞춰 답변해주세요:
-            1. 전체 문서의 주제 요약 (3-4문장):
-               [여기에 전체 문서의 주제를 종합적으로 설명해주세요. 각 토픽의 비중을 고려하여 중요도를 반영해주세요.]
-            2. 각 토픽 요약:
-               [각 토픽에 대해 다음 형식으로 요약해주세요]
-               - 토픽 [번호] ([토픽명]): [비중]%
-                 • 토픽명 설명: [토픽명이 이렇게 지어진 이유를 1-2문장으로 설명해주세요. LDA와 TF-IDF 상위 단어들이 어떻게 이 토픽명과 연관되는지 설명하세요.]
-                 • 토픽 설명: [1-2문장으로 토픽의 전반적인 내용을 설명해주세요.]
-                 • 가상의 예시 응답: "[이 토픽과 관련된 가상의 구성원 발언 예시를 넣어주세요. -한다 체를 지켜주세요]"
-            주의사항:
-            1. 토픽명은 "[구체적인 토픽명]" 형식으로 작성해주세요. 예를 들어, "구성원들의 성장과 개인적인 역량개발 노력" 또는 "리더들의 노력과 조직의 전폭적인 지원" 등입니다.
-            2. 토픽명은 단순히 단어를 나열하는 것이 아니라, 토픽의 핵심 주제나 의미를 잘 나타내는 구체적인 문구로 만들어주세요.
-            3. 토픽명 설명에서는 왜 그러한 토픽명이 선택되었는지, LDA와 TF-IDF 상위 단어들과의 연관성을 설명해주세요.
-            위 형식에 맞춰 답변해주세요. 사용자가 쉽게 복사하여 사용할 수 있도록 간결하고 명확하게 작성해주세요.
-            \n\nAssistant: 네, 주어진 정보를 바탕으로 토픽 모델링 결과를 종합적으로 해석해 드리겠습니다.
-            """
-                    try:
-                        response = client.completions.create(
-                            model="claude-2.1",
-                            max_tokens_to_sample=3000,
-                            prompt=prompt
-                        )
-                        st.subheader("토픽 모델링 종합 결과")
-                        st.text_area("결과를 복사하여 사용하세요:", value=response.completion, height=500)
-                    except Exception as e:
-                        st.error(f"Claude API 호출 중 오류가 발생했습니다: {str(e)}")
             else:
                 st.warning("Claude API 키가 설정되지 않았습니다. https://console.anthropic.com/settings/keys 에 접속하여 API 키를 발급받으시면 토픽명과 해석을 제공받으실 수 있습니다.")
         except Exception as e:

     HSV_tuples = [(x * 1.0 / n, 0.5, 0.9) for x in range(n)]
     return ['#%02x%02x%02x' % tuple(int(x*255) for x in colorsys.hsv_to_rgb(*hsv)) for hsv in HSV_tuples]
+def create_network_graph(topic_results, num_words=10):
+    G = nx.Graph()
+    colors = generate_colors(len(topic_results))
+    for idx, topic in enumerate(topic_results):
+        words = topic['lda_words'][:num_words]
+        color = colors[idx]
+        for word in words:
+            if not G.has_node(word):
+                G.add_node(word, color=color)
+        for i in range(len(words)):
+            for j in range(i+1, len(words)):
+                if not G.has_edge(words[i], words[j]):
+                    G.add_edge(words[i], words[j])
+    return G
 def plot_network_graph(G):
     # 한국어 폰트 설정
     font_path = "./NanumBarunGothic.ttf"
     node_colors = [G.nodes[node]['color'] for node in G.nodes()]
+    nx.draw(G, pos, node_color=node_colors, with_labels=True, node_size=1000,
+            font_size=8, font_weight='bold', edge_color='gray', width=0.5,
+            font_family=font_prop.get_name())
+    plt.title("토픽 단어 네트워크", fontsize=16, fontproperties=font_prop)
     plt.axis('off')
     img_bytes = io.BytesIO()
     return img_bytes
 # 헤더 스타일 변경
 st.markdown("""
 <style>
                 st.error(f"네트워크 그래프 생성 중 오류가 발생했습니다: {str(e)}")
             # Claude API를 사용하여 토픽 해석
+            # Claude API를 사용하여 토픽 해석
+            def interpret_topics(api_key, topic_results):
                 client = Anthropic(api_key=api_key)
+                prompt = f"""Human: 다음은 LDA 토픽 모델링 결과로 나온 각 토픽의 정보입니다. 이를 바탕으로 전체 토픽을 종합적으로 해석해주세요:
+                {", ".join([f"토픽 {{info['topic_num']}} (비중: {{info['weight']:.1f}}%)" for info in topic_results])}
+                각 토픽의 주요 단어:
+                """
+                for info in topic_results:
+                    prompt += f"""
+                토픽 {info['topic_num']} (비중: {info['weight']:.1f}%):
+                LDA 상위 단어: {', '.join(info['lda_words'])}
+                TF-IDF 상위 단어: {', '.join(info['tfidf_words'])}
+                """
+                prompt += """
+                위 정보를 바탕으로 다음 형식에 맞춰 답변해주세요:
+                1. 전체 문서의 주제 요약 (3-4문장):
+                   [여기에 전체 문서의 주제를 종합적으로 설명해주세요. 각 토픽의 비중을 고려하여 중요도를 반영해주세요.]
+                2. 각 토픽 요약:
+                   [각 토픽에 대해 다음 형식으로 요약해주세요]
+                   - 토픽 [번호] ([토픽명]): [비중]%
+                     • 토픽명 설명: [토픽명이 이렇게 지어진 이유를 1-2문장으로 설명해주세요. LDA와 TF-IDF 상위 단어들이 어떻게 이 토픽명과 연관되는지 설명하세요.]
+                     • 토픽 설명: [1-2문장으로 토픽의 전반적인 내용을 설명해주세요.]
+                     • 가상의 예시 응답: "[이 토픽과 관련된 가상의 구성원 발언 예시를 넣어주세요. -한다 체를 지켜주세요]"
+                주의사항:
+                1. 토픽명은 "[구체적인 토픽명]" 형식으로 작성해주세요. 예를 들어, "구성원들의 성장과 개인적인 역량개발 노력" 또는 "리더들의 노력과 조직의 전폭적인 지원" 등입니다.
+                2. 토픽명은 단순히 단어를 나열하는 것이 아니라, 토픽의 핵심 주제나 의미를 잘 나타내는 구체적인 문구로 만들어주세요.
+                3. 토픽명 설명에서는 왜 그러한 토픽명이 선택되었는지, LDA와 TF-IDF 상위 단어들과의 연관성을 설명해주세요.
+                위 형식에 맞춰 답변해주세요. 사용자가 쉽게 복사하여 사용할 수 있도록 간결하고 명확하게 작성해주세요.
+                \n\nAssistant: 네, 주어진 정보를 바탕으로 토픽 모델링 결과를 종합적으로 해석해 드리겠습니다.
+                """
+                try:
+                    response = client.completions.create(
+                        model="claude-2.1",
+                        max_tokens_to_sample=3000,
+                        prompt=prompt
+                    )
+                    return response.completion
+                except Exception as e:
+                    return f"Claude API 호출 중 오류가 발생했습니다: {str(e)}"
+            # 메인 스크립트 내에서 토픽 해석 부분 수정
+            if api_key:
+                st.header("토픽 종합 해석")
+                if 'topic_interpretation' not in st.session_state:
+                    st.session_state.topic_interpretation = None
+                if st.session_state.topic_interpretation is None or st.button("토픽 다시 해석하기"):
+                    with st.spinner("토픽 해석 중..."):
+                        st.session_state.topic_interpretation = interpret_topics(api_key, topic_results)
+                st.subheader("토픽 모델링 종합 결과")
+                st.text_area("결과를 복사하여 사용하세요:", value=st.session_state.topic_interpretation, height=500)
             else:
                 st.warning("Claude API 키가 설정되지 않았습니다. https://console.anthropic.com/settings/keys 에 접속하여 API 키를 발급받으시면 토픽명과 해석을 제공받으실 수 있습니다.")
         except Exception as e: