Delete files export_vision.py vision_encoder.onnx vision_encoder.onnx.data with huggingface_hub

Browse files

Files changed (3) hide show

export_vision.py +0 -111
vision_encoder.onnx +0 -3
vision_encoder.onnx.data +0 -3

export_vision.py DELETED Viewed

@@ -1,111 +0,0 @@
-#!/usr/bin/env python3
-import os
-import torch
-import torch.nn as nn
-import onnx
-from sam_audio.model.vision_encoder import PerceptionEncoder
-from onnx_export.standalone_config import PerceptionEncoderConfig
-class VisionEncoderWrapper(nn.Module):
-    """
-    Wrapper for the Vision Encoder (CLIP visual backbone).
-    """
-    def __init__(self, vision_encoder):
-        super().__init__()
-        self.model = vision_encoder.model
-        self.normalize = vision_encoder.normalize_feature
-    def forward(self, x):
-        # x: (N, 3, H, W) where N is number of frames
-        # returns: (N, 1024) features
-        return self.model.encode_image(x, normalize=self.normalize)
-def export_vision_encoder(model_id="facebook/sam-audio-small", output_dir="onnx_models"):
-    """Export the vision encoder to ONNX."""
-    print(f"Loading Vision Encoder from {model_id}...")
-    import torch
-    from transformers import AutoConfig
-    from sam_audio.model.vision_encoder import PerceptionEncoder
-    from onnx_export.standalone_config import PerceptionEncoderConfig
-    print("Fetching config...")
-    cfg_hf = AutoConfig.from_pretrained(model_id)
-    cfg_dict = cfg_hf.to_dict()
-    # Extract vision encoder config
-    v_cfg_dict = cfg_dict.get("vision_encoder", {})
-    v_cfg = PerceptionEncoderConfig(**v_cfg_dict)
-    print(f"Initializing PerceptionEncoder with name: {v_cfg.name}...")
-    vision_encoder = PerceptionEncoder(v_cfg)
-    # Load weights from checkpoint
-    print("Loading weights from SAM Audio checkpoint...")
-    from huggingface_hub import hf_hub_download
-    checkpoint_path = hf_hub_download(repo_id=model_id, filename="checkpoint.pt")
-    state_dict = torch.load(checkpoint_path, map_location="cpu", mmap=True)
-    # Filter vision encoder weights
-    vision_state = {}
-    prefix = "vision_encoder."
-    for key, value in state_dict.items():
-        if key.startswith(prefix):
-            new_key = key[len(prefix):]
-            vision_state[new_key] = value
-    if vision_state:
-        print(f"  Loading {len(vision_state)} tensors into vision encoder...")
-        vision_encoder.load_state_dict(vision_state)
-        print("  ✓ Vision encoder weights loaded.")
-    else:
-        print("  WARNING: No 'vision_encoder' weights found in checkpoint. Using base weights.")
-    image_size = vision_encoder.image_size
-    print(f"  Image size: {image_size}")
-    wrapper = VisionEncoderWrapper(vision_encoder).eval()
-    # Create dummy input
-    image_size = vision_encoder.image_size
-    dummy_input = torch.randn(1, 3, image_size, image_size)
-    output_path = os.path.join(output_dir, "vision_encoder.onnx")
-    os.makedirs(output_dir, exist_ok=True)
-    print(f"Exporting to {output_path}...")
-    input_names = ["video_frames"]
-    output_names = ["vision_features"]
-    opset_version = 17 # Using 17 for better support of ViT/ConvNext
-    torch.onnx.export(
-        wrapper,
-        dummy_input,
-        output_path,
-        input_names=input_names,
-        output_names=output_names,
-        dynamic_axes={
-            "video_frames": {0: "num_frames"},
-            "vision_features": {0: "num_frames"},
-        },
-        opset_version=opset_version,
-        do_constant_folding=True,
-        dynamo=False,
-        external_data=True,
-    )
-    # Check if data was saved separately
-    data_path = output_path + ".data"
-    if os.path.exists(data_path):
-        print(f"  Large model detected, weights saved to {data_path}")
-    print("✓ Vision encoder export complete!")
-if __name__ == "__main__":
-    import argparse
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--model", type=str, default="facebook/sam-audio-small")
-    parser.add_argument("--output", type=str, default="onnx_models")
-    args = parser.parse_args()
-    export_vision_encoder(args.model, args.output)

vision_encoder.onnx DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2143dc1338dcc11905d425b39f55a030e712920c3ab7a96db19867ca6fd82126
-size 1269876747

vision_encoder.onnx.data DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a6226f043f9600557b0bd9273e68a758ba024d5841627fff59cc0ec4f2a83275
-size 1268318208