Spaces:

dltmdgus
/

topic_modeling

Build error

App Files Files Community

dltmdgus commited on Aug 30, 2024

Commit

5488719

verified ·

1 Parent(s): a2dcc43

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -31

app.py CHANGED Viewed

@@ -1,42 +1,59 @@
-import pandas as pd
 import streamlit as st
-# 엑셀 파일 로드
-file_path = "book_introductions_with_predictions.xlsx"
-df = pd.read_excel(file_path)
-# 책 제목 검색
-st.title(" 책 소개글 기반 감정분석")
-# 사용자가 검색할 책 제목 입력
-search_title = st.text_input("책 제목을 입력하세요:")
-if search_title:
-    # 검색한 책 제목에 해당하는 최종 감정 가져오기
-    result = df[df['책 제목'] == search_title]
-    if not result.empty:
-        st.write(f"**{search_title}**에 대한 최종 감정: **{result.iloc[0]['최종감정']}**")
-    else:
-        st.write("해당 책 제목을 찾을 수 없습니다.")
-# 각 감정에 대해 상위 10개의 책 제목과 확률을 추출
-st.title("각 감정별 확률 상위 10개의 책")
-# 확률 데이터를 공백으로 분리하여 긍정, 부정, 중립 열로 분리
-df[['긍정', '부정', '중립']] = df['확률'].str.strip('[]').str.split(expand=True).astype(float)
-# 긍정 확률 상위 10개
-top_positive = df.sort_values(by='긍정', ascending=False).head(10)[['책 제목', '긍정']]
-st.subheader("긍정 확률 상위 10개 책")
-st.table(top_positive)
-# 부정 확률 상위 10개
-top_negative = df.sort_values(by='부정', ascending=False).head(10)[['책 제목', '부정']]
-st.subheader("부정 확률 상위 10개 책")
-st.table(top_negative)
-# 중립 확률 상위 10개
-top_neutral = df.sort_values(by='중립', ascending=False).head(10)[['책 제목', '중립']]
-st.subheader("중립 확률 상위 10개 책")
-st.table(top_neutral)

 import streamlit as st
+import pandas as pd
+# 파일 경로 설정
+FILE_PATH = "book_topics_output_modified.xlsx"
+# 엑셀 파일을 읽어오는 함수
+def load_data(file_path):
+    return pd.read_excel(file_path)
+# Streamlit 애플리케이션
+def main():
+    st.title("키워드 기반 도서 추천")
+    # 데이터 로드
+    data = load_data(FILE_PATH)
+    # 최종토픽 열이 있는지 확인
+    if '최종토픽' not in data.columns:
+        st.error("최종토픽 열이 데이터에 없습니다.")
+        return
+    # 최종토픽 카테고리 선택
+    topic_category = st.selectbox(
+        "최종토픽을 선택하세요:",
+        sorted(data['최종토픽'].unique())
+    )
+    # 선택된 토픽에 해당하는 도서 목록 필터링
+    filtered_data = data[data['최종토픽'] == topic_category]
+    # 도서명 열이 있는지 확인
+    if '도서명' not in data.columns:
+        st.error("도서명 열이 데이터에 없습니다.")
+        return
+    # 숫자 열이 있는지 확인
+    numeric_cols = [col for col in filtered_data.columns if pd.api.types.is_numeric_dtype(filtered_data[col])]
+    if not numeric_cols:
+        st.error("숫자 열이 없습니다.")
+        return
+    # 가장 높은 값을 가진 숫자 열 선택
+    number_col = numeric_cols[0]  # 첫 번째 숫자 열 사용
+    # 상위 10개 도서명 추출
+    top_books = filtered_data.nlargest(20, number_col)[['도서명', number_col]]
+    # 도서명만 출력
+    st.write(f"최종토픽 '{topic_category}'에 해당하는 상위 20개 도서명:")
+    st.dataframe(top_books[['도서명']])  # 도서명만 표시
+if __name__ == "__main__":
+    main()