topicmodeling / README.md
soojeongcrystal's picture
Update README.md
4e99d9d verified

A newer version of the Streamlit SDK is available: 1.54.0

Upgrade
metadata
title: 한국어 토픽모델링 프로그램
emoji: 📊
colorFrom: red
colorTo: pink
sdk: streamlit
sdk_version: 1.38.0
app_file: app.py
pinned: false

한국어 토픽 모델링 앱

이 Streamlit 앱은 사용자가 CSV 파일을 업로드하고 한국어 텍스트에 대한 토픽 모델링을 수행할 수 있게 해주는 도구입니다. 또한 Claude API를 사용하여 생성된 토픽에 대한 해석을 제공합니다.

주요 기능

  • CSV 파일 업로드 및 분석
  • 텍스트 컬럼 선택 기능
  • 사용자 지정 토픽 수 설정
  • 한국어 텍스트 전처리 (형태소 분석, 불용어 제거 등)
  • LDA를 이용한 토픽 모델링 수행
  • 토픽별 상위 10개 단어와 TF-IDF 값 표시
  • 문서 내 토픽 비중을 보여주는 그래프 제공
  • Claude API를 활용한 토픽 해석 기능

사용 방법

  1. 사이드바에서 CSV 파일을 업로드합니다.
  2. 분석하고자 하는 텍스트가 포함된 컬럼을 선택합니다.
  3. 원하는 토픽 수를 설정합니다.
  4. "토픽 모델링 실행" 버튼을 클릭합니다.
  5. 결과를 확인합니다.

주의사항

  • 이 앱을 사용하려면 유효한 Claude API 키가 필요합니다.
  • API 키는 환경 변수로 설정하거나 앱 내에서 직접 입력할 수 있습니다.
  • 대용량 파일 처리 시 시간이 오래 걸릴 수 있으니 주의해 주세요.
  • API 키와 같은 민감한 정보는 안전하게 관리해 주세요.

설치 및 로컬 실행

로컬 환경에서 이 앱을 실행하고 싶다면 다음 단계를 따르세요:

  1. 필요한 패키지 설치:

    pip install -r requirements.txt
    
  2. 앱 실행:

    streamlit run app.py
    

기술 스택

  • Python
  • Streamlit
  • scikit-learn
  • KoNLPy
  • Anthropic Claude API

피드백 및 기여

이 프로젝트에 대한 피드백이나 개선 제안은 언제나 환영합니다. 이슈를 생성하거나 풀 리퀘스트를 보내주세요.