Spaces:

ayaka68
/

voice2place

Sleeping

App Files Files Community

ayaka68 commited on Sep 5, 2025

Commit

84e84dd

verified ·

1 Parent(s): 574f756

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -22

app.py CHANGED Viewed

@@ -310,9 +310,8 @@ def _normalize_label(lbl: str) -> str:
 def predict_emotion_ai(audio_bytes):
     """
-    S3PRL Featurizer → [B,T,H] と reps_len を受け取り、
-    reps_len が int / list / tuple / Tensor / None のいずれでも動くよう正規化して
-    有効長のみ平均化（[B,H]）→ 線形ヘッドで分類。
     """
     try:
         featurizer, head, id2label, device = load_kushinada_s3prl()
@@ -333,27 +332,29 @@ def predict_emotion_ai(audio_bytes):
             y = y[:max_samples]
             st.warning("音声が30秒を超えたため、最初の30秒のみを分析します。")
-        # Featurizer想定の入力（CPU list でOK）
         wavs = [torch.tensor(y, dtype=torch.float32)]
         wavs_len = [int(len(y))]
         with torch.no_grad():
-            reps, reps_len = featurizer(wavs, wavs_len)  # reps: [B,T,H] か [T,H]、reps_len: list/int/Tensor/None
-            # --- reps を [B,T,H] に統一 ---
-            if isinstance(reps, torch.Tensor):
-                if reps.dim() == 2:        # [T,H] → [1,T,H]
-                    reps = reps.unsqueeze(0)
-                elif reps.dim() != 3:
-                    raise RuntimeError(f"Unexpected reps.dim(): {reps.dim()}")
             else:
-                # 念のため、非テンソルなら失敗扱い（通常ここには来ない）
-                raise RuntimeError(f"Unexpected reps type: {type(reps)}")
             B, T, H = reps.shape
-            # --- reps_len を [B] のリストに正規化 ---
             if reps_len is None:
                 reps_len_list = [T] * B
             elif isinstance(reps_len, int):
@@ -361,7 +362,6 @@ def predict_emotion_ai(audio_bytes):
             elif isinstance(reps_len, (list, tuple)):
                 reps_len_list = [int(x) for x in reps_len]
                 if len(reps_len_list) != B:
-                    # 長さが合わなければ T で埋める
                     reps_len_list = [T] * B
             elif isinstance(reps_len, torch.Tensor):
                 reps_len_list = reps_len.view(-1).tolist()
@@ -370,13 +370,16 @@ def predict_emotion_ai(audio_bytes):
             else:
                 reps_len_list = [T] * B
-            # 安全に 1..T にクリップ
             reps_len_list = [max(1, min(int(li), T)) for li in reps_len_list]
-            # --- 有効長のみ平均して [B,H] ---
-            pooled = torch.stack([reps[i, :reps_len_list[i]].mean(dim=0) for i in range(B)], dim=0)  # [B,H]
-            # --- 線形ヘッドで分類 ---
             logits = head.fc(pooled.to(device))    # [B,C]
             probs = torch.softmax(logits, dim=-1)[0].detach().cpu().numpy()
@@ -384,7 +387,7 @@ def predict_emotion_ai(audio_bytes):
         raw_label = id2label[pred_id]
         def _norm(lbl: str) -> str:
-            m = {"happy":"happiness", "angry":"anger", "sad":"sadness", "neutral":"neutral"}
             return m.get(lbl.lower(), lbl)
         label = _norm(raw_label)

 def predict_emotion_ai(audio_bytes):
     """
+    S3PRL Featurizer → reps（[B,T,H] | [T,H] | [H]）と reps_len（int/list/tensor/None）を受け取り、
+    形を正規化して有効長で時間平均 → [B,H] → 線形ヘッドで分類。
     """
     try:
         featurizer, head, id2label, device = load_kushinada_s3prl()
             y = y[:max_samples]
             st.warning("音声が30秒を超えたため、最初の30秒のみを分析します。")
+        # Featurizer は list 入力想定
         wavs = [torch.tensor(y, dtype=torch.float32)]
         wavs_len = [int(len(y))]
         with torch.no_grad():
+            reps, reps_len = featurizer(wavs, wavs_len)  # reps: Tensor, reps_len: int/list/Tensor/None になる
+            # ---- reps を必ず [B,T,H] に統一 ----
+            if not isinstance(reps, torch.Tensor):
+                raise RuntimeError(f"Unexpected reps type: {type(reps)} (Tensor想定)")
+            if reps.dim() == 3:            # [B,T,H] そのまま
+                pass
+            elif reps.dim() == 2:          # [T,H] -> [1,T,H]
+                reps = reps.unsqueeze(0)
+            elif reps.dim() == 1:          # [H]   -> [1,1,H]  ← ★今回ここを追加
+                reps = reps.unsqueeze(0).unsqueeze(0)
             else:
+                raise RuntimeError(f"Unexpected reps.dim(): {reps.dim()}")
             B, T, H = reps.shape
+            # ---- reps_len を [B] リストに正規化 ----
             if reps_len is None:
                 reps_len_list = [T] * B
             elif isinstance(reps_len, int):
             elif isinstance(reps_len, (list, tuple)):
                 reps_len_list = [int(x) for x in reps_len]
                 if len(reps_len_list) != B:
                     reps_len_list = [T] * B
             elif isinstance(reps_len, torch.Tensor):
                 reps_len_list = reps_len.view(-1).tolist()
             else:
                 reps_len_list = [T] * B
+            # [1,1,H] になったケースでも安全に 1..T へクリップ
             reps_len_list = [max(1, min(int(li), T)) for li in reps_len_list]
+            # ---- 有効長のみで平均して [B,H] ----
+            pooled = torch.stack(
+                [reps[i, :reps_len_list[i]].mean(dim=0) for i in range(B)],
+                dim=0
+            )  # [B,H]
+            # ---- 線形ヘッドで分類 ----
             logits = head.fc(pooled.to(device))    # [B,C]
             probs = torch.softmax(logits, dim=-1)[0].detach().cpu().numpy()
         raw_label = id2label[pred_id]
         def _norm(lbl: str) -> str:
+            m = {"happy": "happiness", "angry": "anger", "sad": "sadness", "neutral": "neutral"}
             return m.get(lbl.lower(), lbl)
         label = _norm(raw_label)