AndreasXi
/

FineLAP

@@ -28,7 +28,6 @@ class FineLAPConfig(PretrainedConfig):
         self.unify_audio_proj = unify_audio_proj
         self.text_encoder_name = text_encoder_name
-        # 👈 关键修改 2：如果读进来的是字典，把它重新包装成 EATConfig 对象
         if isinstance(audio_config, dict):
             self.audio_config = EATConfig(**audio_config)
         elif isinstance(audio_config, EATConfig):

         self.unify_audio_proj = unify_audio_proj
         self.text_encoder_name = text_encoder_name
         if isinstance(audio_config, dict):
             self.audio_config = EATConfig(**audio_config)
         elif isinstance(audio_config, EATConfig):

modeling_finelap.py CHANGED Viewed

@@ -121,12 +121,12 @@ class FineLAPModel(PreTrainedModel):
         global_text = self.get_global_text_embeds(text_labels, device)
         logits = torch.matmul(global_text, global_audio.transpose(-1, -2))
-        return logits
-        # if hasattr(self, "temp_global"):
-        #     logits = logits / self.temp_global
-        # if hasattr(self, "b_global"):
-        #     logits = logits + self.b_global
-        # return torch.sigmoid(logits).squeeze(-1)
     @torch.no_grad()
     def plot_frame_level_score(self, audio_path, text_labels, output_path="similarity_plot.png", device=None):

         global_text = self.get_global_text_embeds(text_labels, device)
         logits = torch.matmul(global_text, global_audio.transpose(-1, -2))
+        # return logits
+        if hasattr(self, "temp_global"):
+            logits = logits / self.temp_global
+        if hasattr(self, "b_global"):
+            logits = logits + self.b_global
+        return F.sigmoid(logits).squeeze(-1)
     @torch.no_grad()
     def plot_frame_level_score(self, audio_path, text_labels, output_path="similarity_plot.png", device=None):