Spaces:

chatbotMOAI
/

MOAI

Sleeping

App Files Files Community

wenbemi commited on Aug 21, 2025

Commit

9f04a9f

verified ·

1 Parent(s): 61be846

Update chat_a.py

Browse files

Files changed (1) hide show

chat_a.py +44 -6

chat_a.py CHANGED Viewed

@@ -2,7 +2,45 @@
 # coding: utf-8
 # In[10]:
 import pandas as pd
 import torch
@@ -44,14 +82,14 @@ def load_csv_any(p):
 #     st.error("TRIPDATA_URL 미설정: Streamlit Secrets에 URL을 넣어주세요.")
 #     st.stop()
-travel_df = pd.read_csv("트립닷컴_감정_테마_한줄설명_통합_07_08.csv")
-festival_df = pd.read_csv("전처리_통합지역축제.csv")
-external_score_df = pd.read_csv("클러스터_포함_외부요인_종합점수_결과_최종.csv")
 external_score_df.columns = external_score_df.columns.str.strip()
-weather_df = pd.read_csv("전처리_날씨_통합_07_08.csv")
-package_df = pd.read_csv("모두투어_컬럼별_개수_07_08.csv")
 package_df.columns = package_df.columns.str.strip()
-master_df = pd.read_csv("나라_도시_리스트.csv")
 countries = travel_df["여행나라"].dropna().unique().tolist()
 cities = travel_df["여행도시"].dropna().unique().tolist()

 # coding: utf-8
 # In[10]:
+import os, io, pandas as pd
+from huggingface_hub import hf_hub_download
+HF_DATASET_REPO = os.getenv("HF_DATASET_REPO", "emisdfde/moai-travel-data")  # ← 본인 리포
+HF_DATASET_REV  = os.getenv("HF_DATASET_REV", "main")
+def _is_pointer_bytes(b: bytes) -> bool:
+    head = b[:2048].decode(errors="ignore").lower()
+    # git-lfs / xet 포인터 텍스트 패턴 모두 감지
+    return (
+        "version https://git-lfs.github.com/spec/v1" in head or
+        "git-lfs" in head or
+        "xet" in head or            # e.g. "Xet backed hash"
+        "pointer size" in head
+    )
+def _read_csv_bytes(b: bytes) -> pd.DataFrame:
+    try:
+        return pd.read_csv(io.BytesIO(b), encoding="utf-8")
+    except UnicodeDecodeError:
+        return pd.read_csv(io.BytesIO(b), encoding="cp949")
+def load_csv_smart(local_path: str, hub_filename: str,
+                   repo_id: str = HF_DATASET_REPO, repo_type: str = "dataset",
+                   revision: str = HF_DATASET_REV) -> pd.DataFrame:
+    # 1) 로컬 우선
+    if os.path.exists(local_path):
+        with open(local_path, "rb") as f:
+            data = f.read()
+        if not _is_pointer_bytes(data):
+            return _read_csv_bytes(data)
+        # 포인터면 허브로 폴백
+    # 2) 허브 다운로드
+    cached = hf_hub_download(repo_id=repo_id, filename=hub_filename,
+                             repo_type=repo_type, revision=revision)
+    try:
+        return pd.read_csv(cached, encoding="utf-8")
+    except UnicodeDecodeError:
+        return pd.read_csv(cached, encoding="cp949")
 import pandas as pd
 import torch
 #     st.error("TRIPDATA_URL 미설정: Streamlit Secrets에 URL을 넣어주세요.")
 #     st.stop()
+travel_df = load_csv_smart("trip_emotions.csv")
+festival_df = load_csv_smart("festivals.csv")
+external_score_df = load_csv_smart("external_scores.csv")
 external_score_df.columns = external_score_df.columns.str.strip()
+weather_df = load_csv_smart("weather.csv")
+package_df = load_csv_smart("packages.csv")
 package_df.columns = package_df.columns.str.strip()
+master_df = load_csv_smart("countries_cities.csv")
 countries = travel_df["여행나라"].dropna().unique().tolist()
 cities = travel_df["여행도시"].dropna().unique().tolist()