Spaces:

dltmdgus
/

KOPIS

Build error

App Files Files Community

dltmdgus commited on Jul 25, 2025

Commit

2e37891

verified ·

1 Parent(s): 416c0ee

Upload 15 files

Browse files

Files changed (16) hide show

.gitattributes +3 -0
README.md +30 -16
app.py +27 -0
data/공연시설DB.xlsx +3 -0
data/내한공연DB.xlsx +3 -0
data/최종.xlsx +3 -0
packages.txt +1 -0
pages/1_📊_빅데이터_분석_페이지.py +47 -0
pages/2_🔁_기존_내한_재추천_페이지.py +54 -0
pages/3_🆕_신규_공연장_추천_페이지.py +119 -0
pages/3_🎨_시각화.py +18 -0
pages/4_🧠_신규벡터추천.py +23 -0
requirements.txt +9 -2
utils.py +15 -0
utils/__init__.py +1 -0
utils/recommend_utils.py +36 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+data/공연시설DB.xlsx filter=lfs diff=lfs merge=lfs -text
+data/내한공연DB.xlsx filter=lfs diff=lfs merge=lfs -text
+data/최종.xlsx filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,19 +1,33 @@
----
-title: KOPIS
-emoji: 🚀
-colorFrom: red
-colorTo: red
-sdk: docker
-app_port: 8501
-tags:
-- streamlit
-pinned: false
-short_description: Streamlit template space
----
-# Welcome to Streamlit!
-Edit `/src/streamlit_app.py` to customize this app to your heart's desire. :heart:
-If you have any questions, checkout our [documentation](https://docs.streamlit.io) and [community
-forums](https://discuss.streamlit.io).

+# 🎭 공연장 추천 시스템 (KOPIS 기반 Big Data Recommender)
+본 프로젝트는 공연예술통합전산망(KOPIS) 데이터를 활용하여
+**공연 벡터 → 공연장 벡터** 기반의 추천 시스템을 구현한 Streamlit 웹 애플리케이션입니다.
+## 📦 기능 요약
+| 기능 | 설명 |
+|------|------|
+| 📍 공연 검색 | 공연ID 또는 공연명을 입력해 상세 정보 조회 |
+| 🔎 유사도 기반 추천 | 기존 공연과 유사한 벡터를 가진 공연장 추천 |
+| 🎨 시각화 | 공연벡터 클러스터링 (PCA 기반 시각화) |
+| 🧠 신규 벡터 추천 | 직접 입력한 벡터로 Top-N 공연장 추천 |
+---
+## 🗂️ 폴더 구조
+```bash
+kopis-recommender/
+├── app.py                  # Streamlit 메인 엔트리 포인트
+├── utils.py                # 공통 데이터 로딩 및 전처리 함수
+├── pages/                  # 개별 기능 페이지
+│   ├── 1_📍_공연검색.py
+│   ├── 2_🔎_유사도기반추천.py
+│   ├── 3_🎨_시각화.py
+│   └── 4_🧠_신규벡터추천.py
+├── data/                   # 공연 관련 데이터 엑셀 파일
+│   ├── 최종.xlsx
+│   ├── 공연시설DB.xlsx
+│   └── 내한공연DB.xlsx
+├── requirements.txt        # 라이브러리 의존성
+└── README.md

app.py ADDED Viewed

	@@ -0,0 +1,27 @@

+import streamlit as st
+# 페이지 설정
+st.set_page_config(
+    page_title="공연장 추천 시스템 🎭",
+    page_icon="🎭",
+    layout="wide",
+)
+# 메인 화면
+st.title("🎭 공연장 추천 시스템")
+st.markdown("""
+이 웹앱은 **공연벡터 및 공연장벡터 기반 추천 시스템**으로,
+사용자가 선택하거나 입력한 공연의 특성을 바탕으로 **가장 어울리는 공연장**을 추천합니다.
+---
+### 📌 기능 안내
+- **📍 공연 검색**: 공연ID나 공연명을 입력해 상세 정보를 조회할 수 있습니다.
+- **🔎 유사도 기반 추천**: 공연과 유사한 벡터를 가진 공연장의 Top-N을 추천합니다.
+- **🎨 벡터 시각화**: PCA 기반 공연 클러스터링 시각화를 제공합니다.
+- **🧠 신규 벡터 기반 추천**: 직접 입력한 공연벡터로 가장 유사한 공연장을 예측합니다.
+---
+### 🗂️ 좌측 메뉴에서 기능을 선택하세요!
+""")

data/공연시설DB.xlsx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8ec7eb0e70a755559ad37f13f5ce3b3773e86e6b4ba3b1563f333caab3f5a2a
+size 567917

data/내한공연DB.xlsx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdb2168b327dd0f61eb29ba7c222e19fcb97a12486e2b20ca4f67cfe694d3b15
+size 412235

data/최종.xlsx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63b7e9e0d00ec14f6d622d677124569047bcd426af4132c895e9f942892c8512
+size 189635

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ chromium-chromedriver

pages/1_📊_빅데이터_분석_페이지.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import streamlit as st
+import pandas as pd
+import numpy as np
+from sklearn.decomposition import PCA
+from sklearn.cluster import KMeans
+import matplotlib.pyplot as plt
+import seaborn as sns
+st.title("📊 내한 공연 적합성 분석 및 클러스터링")
+# 데이터 불러오기
+df = pd.read_excel("data/최종.xlsx")
+df = df.dropna(subset=["공연벡터"])
+df["공연벡터"] = df["공연벡터"].apply(eval)
+# 적합성 통계 시각화
+st.subheader("✅ 적합성 분석 결과")
+st.bar_chart(df["적합성"].value_counts())
+st.write("📌 적합 공연 수:", (df["적합성"] == "적합").sum())
+st.write("📌 부적합 공연 수:", (df["적합성"] == "부적합").sum())
+# 클러스터링
+st.subheader("🎨 KMeans 클러스터링 분석")
+X = np.vstack(df["공연벡터"])
+pca = PCA(n_components=2)
+X_pca = pca.fit_transform(X)
+k = st.slider("클러스터 수 선택", 2, 10, 4)
+kmeans = KMeans(n_clusters=k, random_state=42)
+clusters = kmeans.fit_predict(X)
+df["클러스터"] = clusters
+fig, ax = plt.subplots(figsize=(8,6))
+sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1], hue=clusters, palette="tab10", s=80, ax=ax)
+plt.title("PCA 기반 공연 클러스터링")
+plt.xlabel("PC1")
+plt.ylabel("PC2")
+plt.legend(title="클러스터", bbox_to_anchor=(1.05, 1), loc='upper left')
+plt.grid(True)
+st.pyplot(fig)
+if st.checkbox("📋 클러스터별 공연 보기"):
+    cluster_id = st.selectbox("🔍 클러스터 선택", sorted(df["클러스터"].unique()))
+    st.dataframe(df[df["클러스터"] == cluster_id][["공연명", "공연시설명(fcltynm)", "적합성", "클러스터"]])

pages/2_🔁_기존_내한_재추천_페이지.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import streamlit as st
+import pandas as pd
+import numpy as np
+from utils.recommend_utils import compute_capacity_similarity
+from sklearn.metrics.pairwise import cosine_similarity
+# 페이지 상단에 추가
+import matplotlib.pyplot as plt
+import matplotlib.font_manager as fm
+plt.rcParams['font.family'] = 'Malgun Gothic'  # Windows
+# plt.rcParams['font.family'] = 'AppleGothic'  # macOS
+# plt.rcParams['font.family'] = 'NanumGothic'  # Linux 설치 필요
+plt.rcParams['axes.unicode_minus'] = False
+st.title("🔁 기존 내한 공연 재추천")
+# 데이터 불러오기
+df = pd.read_excel("data/최종.xlsx")
+df = df[df["공연장벡터"].notna()]
+df["공연벡터"] = df["공연벡터"].apply(eval)
+df["공연장벡터"] = df["공연장벡터"].apply(eval)
+venue_df = pd.read_excel("data/공연시설DB.xlsx")
+df = df.merge(venue_df[["공연시설ID", "객석 수", "시설특성", "레스토랑", "카페", "편의점",
+                        "장애시설-경사로", "장애시설-엘리베이터", "주소"]],
+              on="공연시설ID", how="left")
+# 추천 함수 (간단히 포함)
+def recommend_alternative_venues(perf_row, df, weights=[0.5,0.3,0.2], alpha=0.7, top_k=5):
+    perf_vec = np.array(perf_row["공연벡터"]) * np.array(weights)
+    perf_capacity = perf_row["객석 수"]
+    candidates = df[(df["적합성"] == "적합") & (df["공연시설ID"] != perf_row["공연시설ID"])]
+    candidates["공연장벡터"] = candidates["공연장벡터"].apply(lambda x: np.array(x) * np.array(weights))
+    candidates["유사도"] = candidates["공연장벡터"].apply(lambda v: cosine_similarity([perf_vec], [v])[0][0])
+    candidates["객석수유사도"] = candidates["객석 수"].apply(lambda c: compute_capacity_similarity(perf_capacity, c))
+    candidates["종합유사도"] = alpha * candidates["유사도"] + (1 - alpha) * candidates["객석수유사도"]
+    return candidates.sort_values("종합유사도", ascending=False).head(top_k)
+# UI
+target_title = st.selectbox("🎫 공연명을 선택하세요", df["공연명"].unique())
+if target_title:
+    perf_row = df[df["공연명"] == target_title].iloc[0]
+    if perf_row["적합성"] == "적합":
+        st.info("✅ 이 공연은 이미 적합한 공연장에서 진행되었습니다.")
+    else:
+        st.warning("⚠️ 부적합 공연입니다. 대체 공연장을 추천합니다.")
+        results = recommend_alternative_venues(perf_row, df)
+        st.dataframe(results[[
+            "공연시설명(fcltynm)", "공연시설ID", "유사도", "객석수유사도", "종합유사도",
+            "객석 수", "레스토랑", "카페", "편의점", "장애시설-경사로", "장애시설-엘리베이터", "주소"
+        ]])

pages/3_🆕_신규_공연장_추천_페이지.py ADDED Viewed

	@@ -0,0 +1,119 @@

+import streamlit as st
+import pandas as pd
+import numpy as np
+import time
+import re
+from urllib.parse import quote
+from selenium import webdriver
+from selenium.webdriver.common.by import By
+from selenium.webdriver.chrome.options import Options
+from utils.recommend_utils import recommend_venues
+# 🎭 장르 점수 맵
+genre_score_map = {
+    "연극": 0.5,
+    "무용(서양/한국무용)": 0.6,
+    "대중무용": 0.7,
+    "서양음악(클래식)": 0.6,
+    "한국음악(국악)": 0.5,
+    "대중음악": 0.85,
+    "복합": 0.4,
+    "서커스/마술": 0.3,
+    "뮤지컬": 0.7
+}
+# 🔍 뉴스 검색량 수집 함수
+def get_news_search_count(keyword):
+    options = Options()
+    options.add_argument("--headless")  # 창 안 띄움
+    options.add_argument("--disable-gpu")
+    options.add_argument("--no-sandbox")
+    options.add_argument("--disable-dev-shm-usage")
+    driver = webdriver.Chrome(options=options)
+    url = f"https://search.naver.com/search.naver?where=news&query={keyword}"
+    driver.get(url)
+    # 예시: 검색 결과 수 추출
+    from selenium.webdriver.common.by import By
+    import re
+    try:
+        element = driver.find_element(By.CLASS_NAME, "title_desc")
+        text = element.text
+        match = re.search(r'[\d,]+건', text)
+        if match:
+            count = int(match.group().replace(',', '').replace('건', ''))
+        else:
+            count = 0
+    except:
+        count = 0
+    driver.quit()
+    return count
+# 💸 티켓가 추출 함수
+def extract_first_ticket_price(text):
+    match = re.search(r'(\d[\d,]*)', str(text))
+    return int(match.group(1).replace(",", "")) if match else None
+# 📐 공연 벡터 생성 함수
+def create_perf_vector(title, cast, genre, price):
+    query = f"{title} {cast}" if cast else title
+    count = get_news_count_by_scroll(query)
+    st.info(f"🔍 '{query}' 검색 결과 뉴스 기사 수: {count}")
+    genre_score = genre_score_map.get(genre, 0.5)
+    price_value = extract_first_ticket_price(price)
+    price_norm = price_value / 200000 if price_value else 0
+    search_norm = count / 500 if count < 500 else 1.0  # 정규화 클립
+    return [round(price_norm, 3), round(genre_score, 2), round(search_norm, 3)]
+# 🚀 Streamlit 앱 실행 함수
+def render():
+    st.title("🆕 신규 내한 공연 정보 입력 → 공연장 추천")
+    st.subheader("1️⃣ 공연 정보 입력")
+    title = st.text_input("공연 제목")
+    cast = st.text_input("출연진 (첫 명만 입력해도 됨)")
+    genre = st.selectbox("장르 선택", list(genre_score_map.keys()))
+    price = st.text_input("대표 티켓가격 (예: 99,000원 또는 숫자만 입력)")
+    st.subheader("2️⃣ 유사도 가중치 설정")
+    w1 = st.slider("티켓가 가중치", 0.0, 1.0, 0.5)
+    w2 = st.slider("장르 가중치", 0.0, 1.0, 0.3)
+    w3 = st.slider("검색량 가중치", 0.0, 1.0, 0.2)
+    alpha = st.slider("🎯 종합유사도에서 벡터 유사도 비중 (α)", 0.0, 1.0, 0.7)
+    if st.button("🚀 벡터 생성 및 추천 실행"):
+        if not title or not genre or not price:
+            st.error("공연 제목, 장르, 가격은 필수 입력입니다.")
+            return
+        perf_vector = create_perf_vector(title, cast, genre, price)
+        st.success(f"🎯 생성된 공연 벡터: {perf_vector}")
+        # 데이터 로드 및 전처리
+        df = pd.read_excel("data/최종.xlsx")
+        venue_df = pd.read_excel("data/공연시설DB.xlsx")
+        df = df[df["공연장벡터"].notna()].copy()
+        df["공연장벡터"] = df["공연장벡터"].apply(eval)
+        # 객석 수 등 공연장 정보 병합
+        df = df.merge(venue_df, on="공연시설ID", how="left")
+        # 추천 수행
+        results = recommend_venues(perf_vector, df, weights=[w1, w2, w3], alpha=alpha)
+        # 결과 출력
+        st.subheader("✅ 추천 공연장 리스트 (유사도 기반 상위)")
+        st.dataframe(results[[
+            "공연시설명", "공연시설ID", "유사도", "객석수유사도", "종합유사도", "객석 수",
+            "레스토랑", "카페", "편의점",
+            "장애시설-주차장", "장애시설-화장실", "장애시설-경사로", "장애시설-엘리베이터"
+        ]].head(10))
+# 🟢 이 모듈이 직접 실행될 때만 앱 실행
+if __name__ == "__main__":
+    render()

pages/3_🎨_시각화.py ADDED Viewed

	@@ -0,0 +1,18 @@

+import streamlit as st
+import numpy as np
+import matplotlib.pyplot as plt
+import seaborn as sns
+from sklearn.decomposition import PCA
+from utils import load_data
+st.title("🎨 공연벡터 시각화 (PCA)")
+df = load_data()
+X = np.stack(df["공연벡터"].values)
+pca = PCA(n_components=2)
+X_2d = pca.fit_transform(X)
+plt.figure(figsize=(8,6))
+sns.scatterplot(x=X_2d[:,0], y=X_2d[:,1])
+plt.title("PCA 시각화")
+st.pyplot(plt)

pages/4_🧠_신규벡터추천.py ADDED Viewed

	@@ -0,0 +1,23 @@

+import streamlit as st
+import numpy as np
+from sklearn.metrics.pairwise import cosine_similarity
+from utils import load_data
+st.title("🧠 신규 공연벡터 → 공연장 추천")
+df = load_data()
+vec_input = st.text_input("공연벡터 입력 (예: [0.2, 0.8, 0.0])")
+if vec_input:
+    try:
+        vec = np.array([eval(vec_input)])
+        mat = np.stack(df["공연벡터"].values)
+        sims = cosine_similarity(vec, mat)[0]
+        top_k = sims.argsort()[-5:][::-1]
+        for i in top_k:
+            r = df.iloc[i]
+            st.markdown(f"🎵 **{r['공연명']}** → **{r['공연시설명(fcltynm)']}** (유사도: {sims[i]:.3f})")
+    except:
+        st.error("올바른 벡터 형식을 입력해주세요.")

requirements.txt CHANGED Viewed

@@ -1,3 +1,10 @@
-altair
 pandas
-streamlit

+streamlit>=1.18.0
 pandas
+numpy
+scikit-learn
+openpyxl
+seaborn
+matplotlib
+streamlit-folium
+folium
+selenium

utils.py ADDED Viewed

	@@ -0,0 +1,15 @@

+import pandas as pd
+import numpy as np
+import streamlit as st
+@st.cache_data
+def load_data():
+    final = pd.read_excel("data/최종.xlsx")
+    final["공연벡터"] = final["공연벡터"].apply(eval)
+    final["공연장벡터"] = final["공연장벡터"].apply(eval)
+    facility = pd.read_excel("data/공연시설DB.xlsx")
+    concert = pd.read_excel("data/내한공연DB.xlsx")
+    df = pd.merge(final, facility, on="공연시설ID", how="left")
+    df = pd.merge(df, concert, on="공연ID(mt20Id)", how="left")
+    return df

utils/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+

utils/recommend_utils.py ADDED Viewed

	@@ -0,0 +1,36 @@

+import numpy as np
+from sklearn.metrics.pairwise import cosine_similarity
+# 객석 수 유사도 함수
+def compute_capacity_similarity(cap1, cap2):
+    try:
+        if cap1 <= 0 or cap2 <= 0:
+            return 0.0
+        return min(cap1, cap2) / max(cap1, cap2)
+    except:
+        return 0.0
+# 공연장 추천 함수
+def recommend_venues(perf_vector, df, weights=[0.5, 0.3, 0.2], alpha=0.7):
+    """
+    perf_vector: [티켓가, 장르점수, 검색량] 형태의 신규 공연 벡터
+    df: 공연장 데이터프레임 (공연장벡터 + 객석 수 포함)
+    weights: 각 성분별 가중치
+    alpha: 종합 유사도 계산 시 벡터 유사도 비중
+    """
+    perf_vec = np.array(perf_vector) * np.array(weights)
+    # 공연장 벡터 유사도 계산
+    df["공연장벡터"] = df["공연장벡터"].apply(lambda x: np.array(x) * np.array(weights))
+    df["유사도"] = df["공연장벡터"].apply(lambda v: cosine_similarity([perf_vec], [v])[0][0])
+    # 객석 수 유사도 계산
+    target_capacity = perf_vector[0] * 200000  # 역정규화된 객석 수 기준 (티켓가 기준과 맞춰짐)
+    df["객석수유사도"] = df["객석 수"].apply(lambda c: compute_capacity_similarity(target_capacity, c))
+    # 종합 유사도
+    df["종합유사도"] = alpha * df["유사도"] + (1 - alpha) * df["객석수유사도"]
+    # 정렬 후 반환
+    result = df.sort_values("종합유사도", ascending=False).reset_index(drop=True)
+    return result