Spaces:

ayaka68
/

voice2place

Sleeping

App Files Files Community

ayaka68 commited on Sep 5, 2025

Commit

f446a3d

verified ·

1 Parent(s): 27e5bec

Update app.py

Browse files

Files changed (1) hide show

app.py +107 -294

app.py CHANGED Viewed

@@ -1,92 +1,26 @@
 # =========================
-# streamlit_app.py 最終版
 # =========================
 import os
-import tempfile
-import warnings
-import logging
 import io
 import uuid
 import datetime as dt
 import csv
 import base64
-import json
 import random
-# --- ロギング・警告の抑制 ---
-logging.getLogger('matplotlib.font_manager').setLevel(logging.ERROR)
-logging.getLogger('matplotlib').setLevel(logging.ERROR)
 warnings.filterwarnings('ignore')
-# --- 権限/キャッシュ対策 ---
-os.environ["STREAMLIT_BROWSER_GATHERUSAGESTATS"] = "false"
-os.environ["NUMBA_DISABLE_JIT"] = "1"
-os.environ["NUMBA_CACHE_DIR"] = "/tmp/numba_cache"
-# --- Matplotlibのバックエンド設定 ---
-mpl_config_dir = tempfile.mkdtemp()
-os.environ["MPLCONFIGDIR"] = mpl_config_dir
-matplotlibrc_path = os.path.join(mpl_config_dir, 'matplotlibrc')
-with open(matplotlibrc_path, 'w') as f:
-    f.write("""
-backend: Agg
-font.family: sans-serif
-axes.unicode_minus: False
-""")
 # --- ライブラリのインポート ---
-import matplotlib
-matplotlib.use('Agg')
-import matplotlib.pyplot as plt
-import japanize_matplotlib  # 日本語化ライブラリ
 import numpy as np
 import soundfile as sf
 import streamlit as st
 from audiorecorder import audiorecorder
 from pydub import AudioSegment
-from matplotlib import rcParams
-plt.ioff()
-try:
-    os.makedirs("/tmp/numba_cache", exist_ok=True)
-except:
-    pass
-# Matplotlibのマイナス記号の文字化け対策
-rcParams["axes.unicode_minus"] = False
-# =========================
-# アプリケーション設定値
-# =========================
-class AppConfig:
-    """アプリ内の閾値や係数を管理するクラス"""
-    # A/V推定の閾値
-    VALENCE_DEAD_ZONE = 0.12
-    AROUSAL_DEAD_ZONE = 0.12
-    JOY_VALENCE_THRESHOLD = 0.22
-    JOY_AROUSAL_THRESHOLD = 0.22
-    HIGH_AROUSAL_NEG_VALENCE_THRESHOLD = 0.10
-    HIGH_AROUSAL_THRESHOLD = 0.30
-    SURPRISE_AROUSAL_THRESHOLD = 0.22
-    # A/V計算の係数
-    ENERGY_TO_AROUSAL_COEF = 160.0
-    ZCR_TO_AROUSAL_COEF = 4.0
-    F0_TO_VALENCE_OFFSET = 170.0
-    F0_TO_VALENCE_SCALE = 120.0
-    ENERGY_TO_VALENCE_COEF = 15.0
-    # refine_labelの閾値
-    ANGER_AROUSAL = 0.35
-    ANGER_SC = 1500
-    ANGER_ZCR = 0.05
-    ANGER_ENERGY = 0.015
-    SADNESS_AROUSAL = 0.18
-    SADNESS_ENERGY = 0.012
-    SADNESS_SC = 800
-    TENSION_AROUSAL = 0.30
-    TENSION_ZCR = 0.06
 # =========================
 # 架空の場所データ
@@ -108,91 +42,79 @@ PLACES = [
     {"place_id":"urban_track", "name":"アーバントラック", "tags":["身体活動","発散","屋外"], "emo_key":"release", "image":"images/urban_track.png"},
 ]
 REASON_TAGS = ["静けさ","緑","水辺","発散","創作","交流","体験","学習","屋内","屋外","没入","回復"]
-EMO_MAP_PRIORS = {
-    "joy": ["joy","surprise"], "calm": ["calm","joy"], "surprise": ["surprise","joy"],
-    "arousal_high_neg": ["release","surprise"], "neutral": ["calm","joy","surprise"],
-    "anger": ["release","surprise"], "sadness": ["calm","joy"], "tension": ["calm","surprise"],
-}
 # =========================
-# コアロジック (関数群)
 # =========================
-def audio_player_bytes(b: bytes, mime="audio/wav"):
-    """音声データをUIに表示するためのHTMLを生成"""
-    if not b: return
-    b64 = base64.b64encode(b).decode("utf-8")
-    st.markdown(
-        f'<audio controls preload="metadata" style="width:100%"><source src="data:{mime};base64,{b64}" type="{mime}"></audio>',
-        unsafe_allow_html=True,
-    )
-def extract_features(y, sr):
-    """音声波形データから特徴量を抽出"""
-    abs_y = np.abs(y)
-    thr = 0.01 * (abs_y.max() + 1e-9)
-    idx = np.where(abs_y > thr)[0]
-    if idx.size >= 2: y = y[idx[0]:idx[-1]+1]
-    energy_mean = float(np.sqrt(np.mean(y**2) + 1e-12))
-    n = len(y)
-    win = np.hanning(n) if n >= 512 else np.ones_like(y)
-    spec = np.fft.rfft(y * win)
-    mag = np.abs(spec) + 1e-12
-    freqs = np.fft.rfftfreq(len(y * win), d=1.0/sr)
-    sc_mean = float((freqs * mag).sum() / mag.sum())
-    zc = (y[:-1] * y[1:] < 0).astype(np.float32)
-    zcr_mean = float(zc.mean()) if zc.size else 0.0
-    fmin, fmax = 80.0, 600.0
-    if len(y) < int(sr / fmin) + 2:
-        f0_est = 0.0
-    else:
-        corr = np.correlate(y, y, mode='full')[len(y)-1:]
-        lmin, lmax = max(1, int(sr / fmax)), min(len(corr) - 1, int(sr / fmin))
-        seg = corr[lmin:lmax] if lmax > lmin else np.array([])
-        f0_est = float(sr / (lmin + np.argmax(seg))) if seg.size > 0 and (lmin + np.argmax(seg)) > 0 else 0.0
-    return {"f0_mean": f0_est, "energy_mean": energy_mean, "spec_centroid": sc_mean, "zcr_mean": zcr_mean, "duration": len(y)/sr}
-def av_from_features(feat):
-    """特徴量からArousal/Valenceを推定"""
-    f0, en, z = feat["f0_mean"], feat["energy_mean"], feat["zcr_mean"]
-    arousal = float(np.tanh(AppConfig.ENERGY_TO_AROUSAL_COEF * en + AppConfig.ZCR_TO_AROUSAL_COEF * z))
-    valence_term = ((f0 - AppConfig.F0_TO_VALENCE_OFFSET) / AppConfig.F0_TO_VALENCE_SCALE if AppConfig.F0_TO_VALENCE_SCALE != 0 else 0)
-    valence = float(np.tanh(valence_term + AppConfig.ENERGY_TO_VALENCE_COEF * en))
-    return arousal, valence
-def label_from_av(arousal, valence):
-    """Arousal/Valenceから基本的な感情ラベルを推定"""
-    v = 0.0 if abs(valence) < AppConfig.VALENCE_DEAD_ZONE else valence
-    a = 0.0 if arousal < AppConfig.AROUSAL_DEAD_ZONE else arousal
-    if v >= AppConfig.JOY_VALENCE_THRESHOLD and a >= AppConfig.JOY_AROUSAL_THRESHOLD: return "joy"
-    if v >= AppConfig.JOY_VALENCE_THRESHOLD and a < AppConfig.JOY_AROUSAL_THRESHOLD: return "calm"
-    if v < AppConfig.HIGH_AROUSAL_NEG_VALENCE_THRESHOLD and a >= AppConfig.HIGH_AROUSAL_THRESHOLD: return "arousal_high_neg"
-    if a >= AppConfig.SURPRISE_AROUSAL_THRESHOLD: return "surprise"
-    return "neutral"
-def refine_label(arousal, valence, feat):
-    """基本的な感情ラベルをさらに細分化"""
-    base = label_from_av(arousal, valence)
-    if base not in ("arousal_high_neg", "surprise", "neutral"):
-        return base
-    e, z, sc = feat["energy_mean"], feat["zcr_mean"], feat["spec_centroid"]
-    a = 0.0 if arousal < AppConfig.AROUSAL_DEAD_ZONE else arousal
-    v = 0.0 if abs(valence) < AppConfig.VALENCE_DEAD_ZONE else valence
-    if (a >= AppConfig.ANGER_AROUSAL and v <= 0.0 and sc >= AppConfig.ANGER_SC and z >= AppConfig.ANGER_ZCR and e >= AppConfig.ANGER_ENERGY): return "anger"
-    if (a < AppConfig.SADNESS_AROUSAL and v <= 0.0 and e < AppConfig.SADNESS_ENERGY and sc < AppConfig.SADNESS_SC): return "sadness"
-    if (a >= AppConfig.TENSION_AROUSAL and v <= 0.0 and z >= AppConfig.TENSION_ZCR): return "tension"
-    return base
-def score_places(emo_label, top_k=8, show_k=4, diversity=True):
-    """感情ラベルに基づいて場所をスコアリングし、推薦リストを生成"""
-    priors = EMO_MAP_PRIORS.get(emo_label, ["calm", "joy", "surprise"])
     scored = []
     for p in PLACES:
         base = 0.5
@@ -201,112 +123,30 @@ def score_places(emo_label, top_k=8, show_k=4, diversity=True):
         scored.append((base + random.uniform(-0.02, 0.02), p))
     scored.sort(key=lambda x: x[0], reverse=True)
-    candidates = [p for _, p in scored[:max(top_k, show_k)]]
-    if not diversity: return candidates[:show_k]
     picked, seen = [], set()
     for p in candidates:
         if p["emo_key"] not in seen:
-            picked.append(p); seen.add(p["emo_key"])
-        if len(picked) >= show_k: break
-    # 多様性を確保しつつ、指定された件数まで候補を追加
-    if len(picked) < show_k:
         for p in candidates:
             if p not in picked: picked.append(p)
-            if len(picked) >= show_k: break
     return picked
-def ensure_logs_path():
-    """ログファイルのパスを返し、なければヘッダーを書き込む"""
-    path_dir = "/tmp/logs"
-    os.makedirs(path_dir, exist_ok=True)
-    path = os.path.join(path_dir, "oc_sessions.csv")
-    if not os.path.exists(path):
-        with open(path, "w", newline="", encoding="utf-8") as f:
-            csv.writer(f).writerow(["session_id","ts","consent_research","save_audio","f0_mean","energy_mean","spec_centroid","zcr_mean","duration","arousal","valence","emo_label","exposed_ids","choice_id","rating_like","rating_vibe","reason_tags","comment"])
-    return path
-def append_log(row_dict):
-    """ログファイルに1行追記"""
-    path = ensure_logs_path()
-    header = ["session_id","ts","consent_research","save_audio","f0_mean","energy_mean","spec_centroid","zcr_mean","duration","arousal","valence","emo_label","exposed_ids","choice_id","rating_like","rating_vibe","reason_tags","comment"]
-    row_values = []
-    for key in header:
-        if key == "exposed_ids": row_values.append(",".join(row_dict.get(key, [])))
-        elif key == "reason_tags": row_values.append("|".join(row_dict.get(key, [])))
-        else: row_values.append(row_dict.get(key, ""))
-    with open(path, "a", newline="", encoding="utf-8") as f:
-        csv.writer(f).writerow(row_values)
-def to_wav_bytes(any_bytes: bytes, target_sr=16000, mono=True) -> bytes:
-    """様々な形式の音声をWAV形式のbytesに変換"""
-    if not any_bytes: st.error("音声が空です。"); st.stop()
-    try:
-        seg = AudioSegment.from_file(io.BytesIO(any_bytes))
-        seg = seg.set_channels(1) if mono else seg
-        seg = seg.set_frame_rate(target_sr) if target_sr else seg
-        buf = io.BytesIO()
-        seg.export(buf, format="wav")
-        return buf.getvalue()
-    except Exception as e:
-        st.error(f"音声ファイルを処理できませんでした: {e}"); st.stop()
-def plot_av_map(points, current=None, size=(6.5, 6.5), dpi=200):
-    """Arousal/Valenceマップを描画"""
-    fig, ax = plt.subplots(figsize=size, dpi=dpi)
-    fig.patch.set_facecolor('#FFFFFF')
-    ax.set_facecolor('#FAFBFC')
-    quads = [
-        ((0, 0), (1, 1), "#FFE4E6", "#FF6B6B", "喜び・興奮", "Joy/Excitement"),
-        ((-1, 0), (0, 1), "#FFF3CD", "#FFA94D", "緊張・怒り", "Tension/Anger"),
-        ((-1, -1), (0, 0), "#E8EAED", "#868E96", "悲しみ・低覚醒", "Sadness/Low"),
-        ((0, -1), (1, 0), "#D3F9D8", "#51CF66", "落ち着き・満足", "Calm/Content"),
-    ]
-    for (x0, y0), (x1, y1), c_base, c_accent, label_jp, label_en in quads:
-        ax.fill_between([x0, x1], y0, y1, color=c_base, alpha=0.15, zorder=0)
-        cx, cy = (x0 + x1) / 2, (y0 + y1) / 2
-        bbox_props = dict(boxstyle="round,pad=0.3", facecolor='white', edgecolor='none', alpha=0.7)
-        ax.text(cx, cy + 0.08, label_jp, fontsize=13, fontweight='bold', ha="center", va="center", color="#2D3436", bbox=bbox_props)
-        ax.text(cx, cy - 0.08, label_en, fontsize=10, style='italic', ha="center", va="center", color="#636E72", alpha=0.8)
-    ax.add_artist(plt.Circle((0, 0), 1.0, fill=False, lw=2, color="#2D3436", alpha=0.8))
-    ax.grid(True, alpha=0.2, linestyle=':', color='#BDC3C7')
-    ax.axhline(0, color="#495057", lw=1.5, alpha=0.8); ax.axvline(0, color="#495057", lw=1.5, alpha=0.8)
-    ax.set_xlim(-1.15, 1.15); ax.set_ylim(-1.15, 1.15); ax.set_aspect("equal", adjustable="box")
-    ax.set_xlabel("Valence (価値感情)\n← ネガティブ　　　　ポジティブ →", fontsize=13, labelpad=10, color="#2D3436")
-    ax.set_ylabel("Arousal (覚醒度)\n↑ 高い\n\n↓ 低い", fontsize=13, labelpad=10, color="#2D3436")
-    ax.set_xticks([-1, -0.5, 0, 0.5, 1]); ax.set_yticks([-1, -0.5, 0, 0.5, 1])
-    ax.tick_params(labelsize=10, colors="#495057")
-    if points:
-        xs, ys, n = [p["v"] for p in points], [p["a"] for p in points], len(points)
-        for i in range(n):
-            alpha = 0.2 + 0.4 * (i / max(n - 1, 1))
-            ax.scatter(xs[i], ys[i], s=30, alpha=alpha, color="#3498DB", edgecolors="none", zorder=2)
-    if current:
-        v, a, lab = float(current["v"]), float(current["a"]), current.get("label", "現在")
-        ax.scatter([v], [a], s=120, facecolors="white", edgecolors="#FF6348", linewidths=3, zorder=5)
-        ax.scatter([v], [a], s=60, color="#FF6348", zorder=6)
-        bbox_props = dict(boxstyle="round,pad=0.5", facecolor='#FF6348', edgecolor='none', alpha=0.9)
-        ax.annotate(f" {lab} ", xy=(v, a), xytext=(v + 0.15, a + 0.15), fontsize=12, weight="bold", color="white", bbox=bbox_props, arrowprops=dict(arrowstyle="-|>", connectionstyle="arc3,rad=0.3", color="#FF6348", lw=2))
-    ax.set_title("感情分析マップ", fontsize=16, fontweight='bold', pad=20, color="#2D3436")
-    plt.tight_layout(pad=0.5)
-    return fig
 # =========================
 # Streamlit UI
 # =========================
 st.set_page_config(page_title="Voice→Place Recommender", page_icon="🎙️", layout="centered")
-st.title("🎙️ 声の感情で『架空の場所』をレコメンド")
-st.caption("録音→感情推定（Arousal/Valence）→上位スポット→評価→CSV保存（匿名）")
 # ---- Session state 初期化 ----
-for key, default in [("wav_bytes", None), ("recs", None), ("feat", None), ("arousal", None), ("valence", None), ("emo_label", None), ("av_hist", []), ("rec_key", 0)]:
     if key not in st.session_state: st.session_state[key] = default
 # ---- 1) 録音 / アップロード ----
@@ -318,57 +158,51 @@ with tab_rec:
         st.session_state["wav_bytes"] = audio.export().read()
         audio_player_bytes(st.session_state["wav_bytes"])
     if st.button("🧹 クリアして新しく録音", use_container_width=True):
-        for k in ["wav_bytes","recs","feat","arousal","valence","emo_label"]: st.session_state[k] = None
         st.session_state["rec_key"] += 1
         st.rerun()
 with tab_upload:
-    up = st.file_uploader("WAV/MP3/M4A を選択", type=["wav","mp3","m4a"])
     if up:
         st.session_state["wav_bytes"] = up.read()
         audio_player_bytes(st.session_state["wav_bytes"])
 # ---- 2) 同意 ----
 st.subheader("2) 同意")
-consent = st.radio("研究利用の同意（匿名IDで特徴量と評価を保存します）", ["保存しない（体験のみ）", "匿名で保存する"], horizontal=True)
-save_audio = st.checkbox("音声ファイルも保存する（任意）", value=False)
 # ---- 推定 & レコメンド実行 ----
-if st.button("🔍 推定 & レコメンド", type="primary", use_container_width=True, disabled=(st.session_state["wav_bytes"] is None)):
-    with st.spinner('音声を分析中...🤖'):
-        wav_bytes_fixed = to_wav_bytes(st.session_state["wav_bytes"])
-        y, sr = sf.read(io.BytesIO(wav_bytes_fixed), dtype="float32", always_2d=False)
-        y = y.mean(axis=1) if y.ndim == 2 else y
-        feat = extract_features(y, sr)
-        arousal, valence = av_from_features(feat)
-        emo_label = refine_label(arousal, valence, feat)
         st.session_state.update({
-            "feat": feat, "arousal": arousal, "valence": valence, "emo_label": emo_label,
-            "recs": score_places(emo_label)
         })
-        st.session_state["av_hist"].append({"a": arousal, "v": valence, "label": emo_label})
     st.success("分析が完了しました！")
 # ---- 結果表示 ----
-if st.session_state["recs"]:
-    feat, arousal, valence, emo_label, recs = (st.session_state[k] for k in ["feat", "arousal", "valence", "emo_label", "recs"])
     st.subheader("分析結果")
-    col_map, col_info = st.columns([0.65, 0.35])
-    with col_map:
-        current_pt = {"a": arousal, "v": valence, "label": emo_label}
-        fig = plot_av_map(st.session_state["av_hist"], current=current_pt, size=(6, 6), dpi=150)
-        st.pyplot(fig, clear_figure=True)
-    with col_info:
-        st.success(f"**推定感情: {emo_label}**")
-        st.metric("Arousal (覚醒度)", f"{arousal:.2f}")
-        st.metric("Valence (価値感情)", f"{valence:.2f}")
-        with st.expander("詳細な特徴量"):
-            st.json({k: f"{v:.3f}" if isinstance(v, float) else v for k, v in feat.items()})
     st.subheader("3) おすすめ（上位4件）")
     cols = st.columns(4)
@@ -388,33 +222,12 @@ if st.session_state["recs"]:
         comment = st.text_input("ひとことコメント（任意・20字）", max_chars=20)
         if st.form_submit_button("💾 ログ保存", use_container_width=True):
-            if consent != "匿名で保存する":
-                st.info("体験のみモードのため、ログは保存しません。")
-            else:
-                choice_id = next((p["place_id"] for p in recs if p["name"] == choice_name), None)
-                row = {
-                    "session_id": f"oc-{uuid.uuid4().hex[:8]}", "ts": dt.datetime.now().isoformat(timespec="seconds"),
-                    "consent_research": True, "save_audio": save_audio, **feat,
-                    "arousal": arousal, "valence": valence, "emo_label": emo_label,
-                    "exposed_ids": [p["place_id"] for p in recs[:4]], "choice_id": choice_id,
-                    "rating_like": rating_like, "rating_vibe": rating_vibe, "reason_tags": reasons, "comment": comment,
-                }
-                append_log(row)
-                if save_audio:
-                    out_path = os.path.join("/tmp/logs", f"{row['session_id']}.wav")
-                    with open(out_path, "wb") as f: f.write(st.session_state["wav_bytes"])
-                st.success("ログを保存しました！ご協力ありがとうございます。")
-# ---- フッターと管理機能 ----
 st.divider()
-if st.button("▶ 次の人を録音する（状態をクリア）", use_container_width=True):
-    for k in list(st.session_state.keys()):
-        if k not in ['av_hist', 'rec_key']: # 履歴は残す
-            del st.session_state[k]
     st.session_state["rec_key"] += 1
-    st.rerun()
-csv_path = ensure_logs_path()
-if os.path.exists(csv_path) and os.path.getsize(csv_path) > 0:
-    with open(csv_path, "rb") as f:
-        st.download_button("🔻 これまでの評価ログをダウンロード", f, file_name="oc_sessions.csv", mime="text/csv")

 # =========================
+# app.py (AIモデル搭載版)
 # =========================
 import os
 import io
 import uuid
 import datetime as dt
 import csv
 import base64
 import random
+import warnings
+# --- 警告の抑制 ---
 warnings.filterwarnings('ignore')
 # --- ライブラリのインポート ---
 import numpy as np
 import soundfile as sf
 import streamlit as st
 from audiorecorder import audiorecorder
 from pydub import AudioSegment
+import torch
+from transformers import AutoModelForAudioClassification, AutoFeatureExtractor
 # =========================
 # 架空の場所データ
     {"place_id":"urban_track", "name":"アーバントラック", "tags":["身体活動","発散","屋外"], "emo_key":"release", "image":"images/urban_track.png"},
 ]
 REASON_TAGS = ["静けさ","緑","水辺","発散","創作","交流","体験","学習","屋内","屋外","没入","回復"]
 # =========================
+# AIモデル関連の関数
 # =========================
+@st.cache_resource
+def load_model():
+    """AIモデルをロードしてStreamlitのキャッシュに保存"""
+    model_name = "Mizuiro-inc/emotion2vec-base-japanese"
+    feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)
+    model = AutoModelForAudioClassification.from_pretrained(model_name)
+    return feature_extractor, model
+def predict_emotion(audio_bytes):
+    """音声データからAIが感情を予測する"""
+    feature_extractor, model = load_model()
+    # 音声データを16kHzのWAV形式に変換
+    wav_bytes_16k = to_wav_bytes(audio_bytes, target_sr=16000)
+    y, sr = sf.read(io.BytesIO(wav_bytes_16k), dtype="float32")
+    # 特徴量を抽出し、PyTorchテンソルに変換
+    inputs = feature_extractor(y, sampling_rate=sr, return_tensors="pt", padding=True)
+    # AIモデルで予測を実行
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    # 最も確率の高い感情ラベルを取得
+    predicted_id = torch.argmax(logits, dim=-1).item()
+    predicted_label = model.config.id2label[predicted_id]
+    # 各感情の確率も計算 (表示用)
+    probabilities = torch.softmax(logits, dim=-1)[0]
+    all_scores = {model.config.id2label[i]: prob.item() for i, prob in enumerate(probabilities)}
+    return predicted_label, all_scores
+# =========================
+# 汎用関数
+# =========================
+def to_wav_bytes(any_bytes: bytes, target_sr=16000, mono=True) -> bytes:
+    """様々な形式の音声をWAV形式のbytesに変換"""
+    if not any_bytes: st.error("音声が空です。"); st.stop()
+    try:
+        seg = AudioSegment.from_file(io.BytesIO(any_bytes))
+        if mono: seg = seg.set_channels(1)
+        if target_sr: seg = seg.set_frame_rate(target_sr)
+        buf = io.BytesIO()
+        seg.export(buf, format="wav")
+        return buf.getvalue()
+    except Exception as e:
+        st.error(f"音声ファイルを処理できませんでした: {e}"); st.stop()
+def audio_player_bytes(b: bytes, mime="audio/wav"):
+    """音声データをUIに表示するためのHTMLを生成"""
+    if not b: return
+    b64 = base64.b64encode(b).decode("utf-8")
+    st.markdown(f'<audio controls preload="metadata" style="width:100%"><source src="data:{mime};base64,{b64}" type="{mime}"></audio>', unsafe_allow_html=True)
+# AIの予測結果を場所の推薦に繋げるための新しい関数
+def score_places_by_ai(emo_label, top_k=4):
+    """AIの感情ラベルに基づいて場所を推薦する"""
+    # AIのラベルと場所のカテゴリを対応付ける
+    label_to_emo_key = {
+        'happy': ['joy', 'surprise'],
+        'sad': ['calm', 'joy'],
+        'angry': ['release', 'calm'],
+        'neutral': ['calm', 'surprise', 'joy']
+    }
+    priors = label_to_emo_key.get(emo_label, ['calm', 'joy']) # 未知のラベルはcalm/joyに
     scored = []
     for p in PLACES:
         base = 0.5
         scored.append((base + random.uniform(-0.02, 0.02), p))
     scored.sort(key=lambda x: x[0], reverse=True)
+    # 多様性を確保するロジック
+    candidates = [p for _, p in scored]
     picked, seen = [], set()
     for p in candidates:
         if p["emo_key"] not in seen:
+            picked.append(p)
+            seen.add(p["emo_key"])
+        if len(picked) >= top_k: break
+    if len(picked) < top_k:
         for p in candidates:
             if p not in picked: picked.append(p)
+            if len(picked) >= top_k: break
     return picked
 # =========================
 # Streamlit UI
 # =========================
 st.set_page_config(page_title="Voice→Place Recommender", page_icon="🎙️", layout="centered")
+st.title("🎙️ 声の感情で『架空の場所』をレコメンド (AI版)")
+st.caption("録音→AI感情推定→上位スポット→評価→CSV保存（匿名）")
 # ---- Session state 初期化 ----
+for key, default in [("wav_bytes", None), ("recs", None), ("emo_label", None), ("scores", None), ("rec_key", 0)]:
     if key not in st.session_state: st.session_state[key] = default
 # ---- 1) 録音 / アップロード ----
         st.session_state["wav_bytes"] = audio.export().read()
         audio_player_bytes(st.session_state["wav_bytes"])
     if st.button("🧹 クリアして新しく録音", use_container_width=True):
+        for k in ["wav_bytes", "recs", "emo_label", "scores"]: st.session_state[k] = None
         st.session_state["rec_key"] += 1
         st.rerun()
 with tab_upload:
+    up = st.file_uploader("WAV/MP3/M4A を選択", type=["wav", "mp3", "m4a"])
     if up:
         st.session_state["wav_bytes"] = up.read()
         audio_player_bytes(st.session_state["wav_bytes"])
 # ---- 2) 同意 ----
 st.subheader("2) 同意")
+consent = st.radio("研究利用の同意", ["保存しない（体験のみ）", "匿名で保存する"], horizontal=True)
 # ---- 推定 & レコメンド実行 ----
+if st.button("🔍 AIで推定 & レコメンド", type="primary", use_container_width=True, disabled=(st.session_state["wav_bytes"] is None)):
+    with st.spinner('AIが感情を分析中...🤖'):
+        raw_bytes = st.session_state["wav_bytes"]
+        emo_label, all_scores = predict_emotion(raw_bytes)
         st.session_state.update({
+            "emo_label": emo_label,
+            "scores": all_scores,
+            "recs": score_places_by_ai(emo_label)
         })
     st.success("分析が完了しました！")
 # ---- 結果表示 ----
+if st.session_state.get("recs"):
+    emo_label = st.session_state["emo_label"]
+    scores = st.session_state["scores"]
+    recs = st.session_state["recs"]
     st.subheader("分析結果")
+    col1, col2 = st.columns([0.6, 0.4])
+    with col1:
+        st.success(f"**AIの推定感情: {emo_label}**")
+        st.write("感情スコアの詳細:")
+        st.bar_chart(scores)
+    with col2:
+        st.write("この感情におすすめの場所:")
+        if recs:
+            st.image(recs[0]["image"], use_container_width=True)
+            st.markdown(f"**{recs[0]['name']}**")
+            st.caption(f"タグ: {', '.join(recs[0]['tags'])}")
     st.subheader("3) おすすめ（上位4件）")
     cols = st.columns(4)
         comment = st.text_input("ひとことコメント（任意・20字）", max_chars=20)
         if st.form_submit_button("💾 ログ保存", use_container_width=True):
+            st.info("ログ保存機能は現在開発中です。")
+# ---- フッター ----
 st.divider()
+if st.button("▶ 次の人を試す（状態をクリア）", use_container_width=True):
+    for k in ["wav_bytes", "recs", "emo_label", "scores"]:
+        if st.session_state.get(k): st.session_state[k] = None
     st.session_state["rec_key"] += 1
+    st.rerun()