Spaces:

chatbotMOAI
/

MOAI

Sleeping

App Files Files Community

wenbemi commited on Aug 21, 2025

Commit

a6c552a

verified ·

1 Parent(s): 3308e49

Update app.py

Browse files

Files changed (1) hide show

app.py +86 -95

app.py CHANGED Viewed

@@ -1,45 +1,54 @@
-# streamlit 라이브러리가 import 되기 전에,
-# 설정 파일 경로를 앱 내부의 쓰기 가능한 경로로 강제 지정합니다.
-import os, pathlib, io
 APP_DIR = pathlib.Path(__file__).parent.resolve()
-# 모든 HF/Transformers 캐시를 /tmp 쪽으로 강제
-os.environ.setdefault("HF_HOME", "/tmp/hf-home")
-os.environ.setdefault("TRANSFORMERS_CACHE", "/tmp/hf-cache")
-os.environ.setdefault("HUGGINGFACE_HUB_CACHE", "/tmp/hf-cache")
-os.environ.setdefault("TORCH_HOME", "/tmp/torch-cache")
-os.environ.setdefault("XDG_CACHE_HOME", "/tmp/xdg-cache")
 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
-# 디렉터리 보장
-for p in ["/tmp/hf-home", "/tmp/hf-cache", "/tmp/torch-cache", "/tmp/xdg-cache"]:
-    os.makedirs(p, exist_ok=True)
 from huggingface_hub import hf_hub_download
 import pandas as pd
-import json
-import random
-APP_DIR = pathlib.Path(__file__).parent.resolve()
-os.environ.setdefault("HOME", str(APP_DIR))  # '~'가 /가 아니라 /app으로 가도록
-CONFIG_DIR = APP_DIR / ".streamlit"
-CONFIG_DIR.mkdir(parents=True, exist_ok=True)
-os.environ["STREAMLIT_HOME"] = str(CONFIG_DIR)
-os.environ["STREAMLIT_SERVER_HEADLESS"] = "true"
-os.environ["STREAMLIT_BROWSER_GATHER_USAGE_STATS"] = "false"  # 선택: metrics 파일 생성 줄이기
-HF_DATASET_REPO = os.getenv("HF_DATASET_REPO", "emisdfde/moai-travel-data")  # ← 본인 리포
 HF_DATASET_REV  = os.getenv("HF_DATASET_REV", "main")
 def _is_pointer_bytes(b: bytes) -> bool:
     head = b[:2048].decode(errors="ignore").lower()
-    # git-lfs / xet 포인터 텍스트 패턴 모두 감지
     return (
-        "version https://git-lfs.github.com/spec/v1" in head or
-        "git-lfs" in head or
-        "xet" in head or            # e.g. "Xet backed hash"
-        "pointer size" in head
     )
 def _read_csv_bytes(b: bytes) -> pd.DataFrame:
@@ -52,88 +61,59 @@ def load_csv_smart(local_path: str,
                    hub_filename: str | None = None,
                    repo_id: str = HF_DATASET_REPO,
                    repo_type: str = "dataset",
-                   revision: str = HF_DATASET_REV):
     if hub_filename is None:
         hub_filename = os.path.basename(local_path)
     if os.path.exists(local_path):
         with open(local_path, "rb") as f:
             data = f.read()
         if not _is_pointer_bytes(data):
-            try:
-                return pd.read_csv(io.BytesIO(data), encoding="utf-8")
-            except UnicodeDecodeError:
-                return pd.read_csv(io.BytesIO(data), encoding="cp949")
     cached = hf_hub_download(repo_id=repo_id, filename=hub_filename,
                              repo_type=repo_type, revision=revision)
     try:
         return pd.read_csv(cached, encoding="utf-8")
     except UnicodeDecodeError:
         return pd.read_csv(cached, encoding="cp949")
-import streamlit as st
-from streamlit.components.v1 import html
-from css import render_message, render_chip_buttons, log_and_render, replay_log
-import streamlit as st, pandas as pd, requests, json
-st.success("🎉 앱이 성공적으로 시작되었습니다! 라이브러리 설치 성공!")
-@st.cache_data(show_spinner=False)
-def load_csv_any(p):
-    return pd.read_csv(p) if str(p).startswith(("http://","https://")) else pd.read_csv(p)
-# 데이터 로딩을 위한 함수
-@st.cache_data
-def load_travel_data(file_path):
-    print(f"Caching {file_path}...") # 캐시가 언제 실행되는지 확인용
-    return pd.read_csv(file_path)
-@st.cache_data
-def load_json_data(file_path):
-    print(f"Caching {file_path}...")
-    with open(file_path, "r", encoding="utf-8") as f:
         return json.load(f)
-@st.cache_data
-def load_data(path):
-    try:
-        # UTF-8 인코딩으로 먼저 시도
-        df = pd.read_csv(path, encoding='utf-8')
-        print(f"✅ SUCCESS (utf-8): {path} 로드 성공. 컬럼: {df.columns.tolist()}")
-        return df
-    except UnicodeDecodeError:
-        # 실패하면 'cp949' (한국어 윈도우 환경) 인코딩으로 재시도
-        print(f"⚠️ INFO: {path} utf-8 디코딩 실패. cp949로 재시도합니다.")
-        df = pd.read_csv(path, encoding='cp949')
-        print(f"✅ SUCCESS (cp949): {path} 로드 성공. 컬럼: {df.columns.tolist()}")
-        return df
-    except Exception as e:
-        print(f"❌ ERROR: {path} 로드 중 에러 발생: {e}")
-        return pd.DataFrame() # 오류 발생 시 빈 데이터프레임 반환
-# ───────────────────────────────────── 데이터 로드
-# trip_url = st.secrets.get("TRIPDATA_URL")
-# if not trip_url:
-#     st.error("TRIPDATA_URL 미설정: Streamlit Secrets에 URL을 넣어주세요.")
-#     st.stop()
-travel_df = load_csv_smart("trip_emotions.csv")
-external_score_df = load_csv_smart("external_scores.csv")
-festival_df = load_csv_smart("festivals.csv")
-weather_df = load_csv_smart("weather.csv")
-package_df = load_csv_smart("packages.csv")
-master_df = load_csv_smart("countries_cities.csv")
-theme_title_phrases = load_json_data("theme_title_phrases.json")
-# travel_df가 성공적으로 로드되었는지 최종 확인
-if '여행나라' not in travel_df.columns:
-    st.error(f"데이터 로딩 후에도 'travel_df'에 '여행나라' 컬럼이 없습니다. 실제 컬럼: {travel_df.columns.tolist()}")
-    st.stop()
 from chat_a import (
     analyze_emotion,
     detect_intent,
     extract_themes,
@@ -157,6 +137,17 @@ from chat_a import (
     format_summary_tags_custom,
     make_companion_age_message
 )
 # ───────────────────────────────────── streamlit용 함수
 def init_session():
     if "chat_log" not in st.session_state:

+# -*- coding: utf-8 -*-
+# ──────────────────────────────── BOOTSTRAP (must be first) ────────────────────────────────
+import os, pathlib, io, json, random
 APP_DIR = pathlib.Path(__file__).parent.resolve()
+# Streamlit 홈/설정
+os.environ["HOME"] = str(APP_DIR)
+CONFIG_DIR = APP_DIR / ".streamlit"
+CONFIG_DIR.mkdir(parents=True, exist_ok=True)
+os.environ["STREAMLIT_HOME"] = str(CONFIG_DIR)
+os.environ["STREAMLIT_SERVER_HEADLESS"] = "true"
+os.environ["STREAMLIT_BROWSER_GATHER_USAGE_STATS"] = "false"
+# HF/Transformers 캐시를 **/data**로 고정 (Spaces에서 쓰기 가능)
+CACHE_ROOT = os.environ.get("HF_CACHE_ROOT", "/data")
+ENV_DIRS = {
+    "HF_HOME":               f"{CACHE_ROOT}/hf-home",
+    "TRANSFORMERS_CACHE":    f"{CACHE_ROOT}/hf-cache",
+    "HUGGINGFACE_HUB_CACHE": f"{CACHE_ROOT}/hf-cache",
+    "TORCH_HOME":            f"{CACHE_ROOT}/torch-cache",
+    "XDG_CACHE_HOME":        f"{CACHE_ROOT}/xdg-cache",
+}
+for k, v in ENV_DIRS.items():
+    os.environ[k] = v
+    os.makedirs(v, exist_ok=True)
+    try:
+        os.chmod(v, 0o777)
+    except Exception:
+        pass
 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
+os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")
 from huggingface_hub import hf_hub_download
 import pandas as pd
+import streamlit as st
+from streamlit.components.v1 import html
+from css import render_message, render_chip_buttons, log_and_render, replay_log
+st.success("🎉 앱이 성공적으로 시작되었습니다! 라이브러리 설치 성공!")
+# ──────────────────────────────── Dataset Repo 설정 ────────────────────────────────
+HF_DATASET_REPO = os.getenv("HF_DATASET_REPO", "emisdfde/moai-travel-data")
 HF_DATASET_REV  = os.getenv("HF_DATASET_REV", "main")
 def _is_pointer_bytes(b: bytes) -> bool:
     head = b[:2048].decode(errors="ignore").lower()
     return (
+        "version https://git-lfs.github.com/spec/v1" in head
+        or "git-lfs" in head
+        or "xet" in head          # e.g. xet 포인터
+        or "pointer size" in head
     )
 def _read_csv_bytes(b: bytes) -> pd.DataFrame:
                    hub_filename: str | None = None,
                    repo_id: str = HF_DATASET_REPO,
                    repo_type: str = "dataset",
+                   revision: str = HF_DATASET_REV) -> pd.DataFrame:
+    # hub_filename 생략 시 로컬 파일명 사용
     if hub_filename is None:
         hub_filename = os.path.basename(local_path)
+    # 1) 로컬 우선
     if os.path.exists(local_path):
         with open(local_path, "rb") as f:
             data = f.read()
         if not _is_pointer_bytes(data):
+            return _read_csv_bytes(data)
+    # 2) 허브 다운로드
     cached = hf_hub_download(repo_id=repo_id, filename=hub_filename,
                              repo_type=repo_type, revision=revision)
     try:
         return pd.read_csv(cached, encoding="utf-8")
     except UnicodeDecodeError:
         return pd.read_csv(cached, encoding="cp949")
+def load_json_smart(local_path: str,
+                    hub_filename: str | None = None,
+                    repo_id: str = HF_DATASET_REPO,
+                    repo_type: str = "dataset",
+                    revision: str = HF_DATASET_REV):
+    if hub_filename is None:
+        hub_filename = os.path.basename(local_path)
+    if os.path.exists(local_path):
+        with open(local_path, "rb") as f:
+            data = f.read()
+        if not _is_pointer_bytes(data):
+            return json.loads(data.decode("utf-8"))
+    cached = hf_hub_download(repo_id=repo_id, filename=hub_filename,
+                             repo_type=repo_type, revision=revision)
+    with open(cached, "r", encoding="utf-8") as f:
         return json.load(f)
+# ──────────────────────────────── 데이터 로드 ────────────────────────────────
+travel_df         = load_csv_smart("trip_emotions.csv",      "trip_emotions.csv")
+external_score_df = load_csv_smart("external_scores.csv",    "external_scores.csv")
+festival_df       = load_csv_smart("festivals.csv",          "festivals.csv")
+weather_df        = load_csv_smart("weather.csv",            "weather.csv")
+package_df        = load_csv_smart("packages.csv",           "packages.csv")
+master_df         = load_csv_smart("countries_cities.csv",   "countries_cities.csv")
+theme_title_phrases = load_json_smart("theme_title_phrases.json", "theme_title_phrases.json")
+# 필수 컬럼 가드
+for col in ("여행나라", "여행도시", "여행지"):
+    if col not in travel_df.columns:
+        st.error(f"'travel_df'에 '{col}' 컬럼이 없습니다. 실제 컬럼: {travel_df.columns.tolist()}")
+        st.stop()
+# ──────────────────────────────── chat_a import & 초기화 ────────────────────────────────
 from chat_a import (
+    init_datasets,  # ⬅️ 새로 추가된 지연 초기화 함수
     analyze_emotion,
     detect_intent,
     extract_themes,
     format_summary_tags_custom,
     make_companion_age_message
 )
+# 지연 초기화: import 시점에는 데이터 접근 금지, 여기서 한 번만 주입
+init_datasets(
+    travel_df=travel_df,
+    festival_df=festival_df,
+    external_score_df=external_score_df,
+    weather_df=weather_df,
+    package_df=package_df,
+    master_df=master_df,
+    theme_title_phrases=theme_title_phrases,
+)
 # ───────────────────────────────────── streamlit용 함수
 def init_session():
     if "chat_log" not in st.session_state: