mazesmazes
/

tiny-audio-qformer

Feature Extraction

Generated from Trainer

Model card Files Files and versions

mazesmazes commited on 22 days ago

Commit

ae8ce74

·

verified ·

1 Parent(s): d2cc415

Training in progress - step 500

Files changed (2) hide show

asr_config.py +1 -1
projectors.py +3 -3

asr_config.py CHANGED Viewed

@@ -20,7 +20,7 @@ class ASRConfig(transformers.PretrainedConfig):
         llm_dim: Optional[int] = None,
         audio_sample_rate: int = 16000,
         projector_init_std: float = 0.02,
-        projector_pool_stride: int = 2,
         downsample_rate: int = 16,
         projector_hidden_dim: Optional[int] = None,
         projector_type: str = "moe",  # "moe", "swiglu", "residual", "shared_moe", "mlp", "qformer"

         llm_dim: Optional[int] = None,
         audio_sample_rate: int = 16000,
         projector_init_std: float = 0.02,
+        projector_pool_stride: int = 4,
         downsample_rate: int = 16,
         projector_hidden_dim: Optional[int] = None,
         projector_type: str = "moe",  # "moe", "swiglu", "residual", "shared_moe", "mlp", "qformer"

projectors.py CHANGED Viewed

@@ -522,7 +522,7 @@ class SharedMoEAudioProjector(nn.Module):
         super().__init__()
         # Default stride is now 2 (was 4)
-        self.k = getattr(config, "projector_pool_stride", 2)
         encoder_dim = config.encoder_dim
         # Depthwise Conv for temporal mixing
@@ -617,8 +617,8 @@ class QFormerAudioProjector(nn.Module):
         # QFormer hidden size (matches encoder for cross-attention)
         qformer_hidden = getattr(config, "qformer_hidden_size", None) or encoder_dim
         qformer_num_layers = getattr(config, "qformer_num_layers", 2)
-        # Default heads must divide hidden size evenly (1280 / 8 = 160)
-        qformer_num_heads = getattr(config, "qformer_num_heads", 8)
         qformer_intermediate = getattr(config, "qformer_intermediate_size", None) or (qformer_hidden * 4)
         # Learnable query embeddings (Granite uses std=1.0)

         super().__init__()
         # Default stride is now 2 (was 4)
+        self.k = getattr(config, "projector_pool_stride", 4)
         encoder_dim = config.encoder_dim
         # Depthwise Conv for temporal mixing
         # QFormer hidden size (matches encoder for cross-attention)
         qformer_hidden = getattr(config, "qformer_hidden_size", None) or encoder_dim
         qformer_num_layers = getattr(config, "qformer_num_layers", 2)
+        # Default heads must divide hidden size evenly (1280 / 16 = 80)
+        qformer_num_heads = getattr(config, "qformer_num_heads", 16)
         qformer_intermediate = getattr(config, "qformer_intermediate_size", None) or (qformer_hidden * 4)
         # Learnable query embeddings (Granite uses std=1.0)