Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

README.md +78 -0
sed_ast_snr_ctl_v2_16k/checkpoints/best.pt +3 -0
sed_ast_snr_ctl_v2_16k/config.json +167 -0

README.md ADDED Viewed

	@@ -0,0 +1,78 @@

+---
+license: mit
+tags:
+  - audio
+  - sound-event-detection
+  - audio-spectrogram-transformer
+  - yamnet
+datasets:
+  - audioset
+language:
+  - en
+pipeline_tag: audio-classification
+---
+# Sound Event Detection — Pretrained Models
+Pretrained models for Sound Event Detection (SED) used in **MobiSys 2026 #198 "Aurchestra"**.
+## Models
+### 1. YAMNet (Pretrained Baseline)
+- **Source**: [google/yamnet](https://huggingface.co/google/yamnet) (TensorFlow) / PyTorch reimplementation
+- **Classes**: 521 AudioSet classes
+- **Usage**: Loaded directly from HuggingFace — no checkpoint in this repo
+### 2. AST (Pretrained Baseline)
+- **Source**: [MIT/ast-finetuned-audioset-10-10-0.4593](https://huggingface.co/MIT/ast-finetuned-audioset-10-10-0.4593)
+- **Architecture**: Audio Spectrogram Transformer
+- **Classes**: 527 AudioSet classes
+- **Usage**: Loaded directly from HuggingFace — no checkpoint in this repo
+### 3. Fine-tuned AST (`sed_ast_snr_ctl_v2_16k`)
+- **Base model**: `MIT/ast-finetuned-audioset-10-10-0.4593`
+- **Fine-tuned on**: On-the-fly synthesized binaural audio mixtures (SNR-controlled, 16kHz)
+- **Classes**: 20 target sound classes
+- **Training**: AdamW, OneCycleLR with group-wise learning rates (backbone 1e-5, head 1e-3), 80 epochs
+- **Checkpoint**: `sed_ast_snr_ctl_v2_16k/checkpoints/best.pt`
+## File Structure
+```
+.
+├── README.md
+└── sed_ast_snr_ctl_v2_16k/
+    ├── config.json          # Training configuration
+    └── checkpoints/
+        └── best.pt          # Fine-tuned model weights (~2GB)
+```
+## Usage
+```python
+# Fine-tuned AST
+from huggingface_hub import hf_hub_download
+checkpoint_path = hf_hub_download(
+    repo_id="ooshyun/sound_event_detection",
+    filename="sed_ast_snr_ctl_v2_16k/checkpoints/best.pt",
+)
+config_path = hf_hub_download(
+    repo_id="ooshyun/sound_event_detection",
+    filename="sed_ast_snr_ctl_v2_16k/config.json",
+)
+```
+For training and evaluation code, see [ooshyun/sound_event_detection](https://github.com/ooshyun/sound_event_detection).
+## Citation
+If you use these models, please cite:
+```
+MobiSys 2026 #198 "Aurchestra"
+```

sed_ast_snr_ctl_v2_16k/checkpoints/best.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a640a4e87be91870e9b19b991297e598b36608d2cc7626132fa122dc3b0815d
+size 1035160839

sed_ast_snr_ctl_v2_16k/config.json ADDED Viewed

	@@ -0,0 +1,167 @@

+{
+    "pl_module": "src.hl_modules.sed.Module",
+    "pl_module_args": {
+        "metrics": [
+            "accuracy"
+        ],
+        "model": "src.models.SED.ast_hf.ASTHuggingFace",
+        "model_params": {
+            "model_name": "MIT/ast-finetuned-audioset-10-10-0.4593",
+            "num_labels": 20,
+            "unfreeze_layers": [
+                "classifier"
+            ]
+        },
+        "samples_per_speaker_number": 20,
+        "optimizer": "torch.optim.AdamW",
+        "optimizer_params": {
+            "lr": 0.001
+        },
+        "loss": "src.losses.SEDLoss.MultiLabelBCELoss",
+        "loss_params": {},
+        "scheduler": "onecycle_with_groups",
+        "scheduler_params": {
+            "backbone_lr": 1e-05,
+            "head_lr": 0.001,
+            "backbone_max_lr": 1e-05,
+            "head_max_lr": 0.001,
+            "epochs": 80,
+            "steps_per_epoch": 2500,
+            "pct_start": 0.1,
+            "div_factor": 25.0,
+            "final_div_factor": 10000.0
+        },
+        "sr": 16000,
+        "grad_clip": 1,
+        "early_stopping": {
+            "enabled": true,
+            "monitor": "val/loss",
+            "mode": "min",
+            "patience": 20,
+            "min_delta": 0.0,
+            "verbose": true
+        }
+    },
+    "root_dataset_dir": "/scr",
+    "train_dataset": "src.frozen_dataset.frozen_dataset.FrozenMisophoniaDataset",
+    "train_data_args": {
+        "split_dir": "frozen-10c-40000/train"
+    },
+    "val_dataset": "src.frozen_dataset.frozen_dataset.FrozenMisophoniaDataset",
+    "val_data_args": {
+        "split_dir": "frozen-10c-40000/val"
+    },
+    "test_dataset": "src.frozen_dataset.frozen_dataset.FrozenMisophoniaDataset",
+    "test_data_args": {
+        "split_dir": "frozen-10c-40000/test"
+    },
+    "onflight_mode": 1,
+    "onflight_train_dataset": "src.datasets.MisophoniaDataset.MisophoniaDataset",
+    "onflight_train_data_args": {
+        "fg_sounds_dir": "BinauralCuratedDataset/scaper_fmt/train",
+        "bg_sounds_dir": "BinauralCuratedDataset/bg_scaper_fmt/train",
+        "noise_sounds_dir": "BinauralCuratedDataset/noise_scaper_fmt/train",
+        "hrtf_list": "BinauralCuratedDataset/hrtf/CIPIC/train_hrtf.txt",
+        "samples_per_epoch": 20000,
+        "duration": 5,
+        "sr": 16000,
+        "hrtf_type": "CIPIC",
+        "augmentations": [],
+        "num_total_labels": 20,
+        "num_fg_sounds_min": 1,
+        "num_fg_sounds_max": 5,
+        "num_bg_sounds_min": 1,
+        "num_bg_sounds_max": 3,
+        "num_noise_sounds_min": 1,
+        "num_noise_sounds_max": 1,
+        "num_output_channels": 5,
+        "snr_range_fg": [
+            5,
+            15
+        ],
+        "snr_range_bg": [
+            0,
+            10
+        ],
+        "ref_db": -50,
+        "onflight_mode": 1
+    },
+    "onflight_val_dataset": "src.datasets.MisophoniaDataset.MisophoniaDataset",
+    "onflight_val_data_args": {
+        "fg_sounds_dir": "BinauralCuratedDataset/scaper_fmt/val",
+        "bg_sounds_dir": "BinauralCuratedDataset/bg_scaper_fmt/val",
+        "noise_sounds_dir": "BinauralCuratedDataset/noise_scaper_fmt/val",
+        "hrtf_list": "BinauralCuratedDataset/hrtf/CIPIC/val_hrtf.txt",
+        "samples_per_epoch": 2000,
+        "duration": 5,
+        "sr": 16000,
+        "hrtf_type": "CIPIC",
+        "augmentations": [],
+        "num_total_labels": 20,
+        "num_fg_sounds_min": 1,
+        "num_fg_sounds_max": 5,
+        "num_bg_sounds_min": 1,
+        "num_bg_sounds_max": 3,
+        "num_noise_sounds_min": 1,
+        "num_noise_sounds_max": 1,
+        "num_output_channels": 5,
+        "snr_range_fg": [
+            5,
+            15
+        ],
+        "snr_range_bg": [
+            0,
+            10
+        ],
+        "ref_db": -50,
+        "onflight_mode": 1
+    },
+    "onflight_test_dataset": "src.datasets.MisophoniaDataset.MisophoniaDataset",
+    "onflight_test_data_args": {
+        "fg_sounds_dir": "BinauralCuratedDataset/scaper_fmt/test",
+        "bg_sounds_dir": "BinauralCuratedDataset/bg_scaper_fmt/test",
+        "noise_sounds_dir": "BinauralCuratedDataset/noise_scaper_fmt/test",
+        "hrtf_list": "BinauralCuratedDataset/hrtf/CIPIC/test_hrtf.txt",
+        "samples_per_epoch": 2000,
+        "duration": 2,
+        "sr": 16000,
+        "hrtf_type": "CIPIC",
+        "augmentations": [],
+        "num_total_labels": 20,
+        "num_fg_sounds_min": 5,
+        "num_fg_sounds_max": 5,
+        "num_bg_sounds_min": 1,
+        "num_bg_sounds_max": 1,
+        "num_noise_sounds_min": 1,
+        "num_noise_sounds_max": 1,
+        "num_output_channels": 5,
+        "snr_range_fg": [
+            5,
+            15
+        ],
+        "snr_range_bg": [
+            0,
+            10
+        ],
+        "ref_db": -50,
+        "onflight_mode": 1
+    },
+    "epochs": 80,
+    "batch_size": 8,
+    "eval_batch_size": 8,
+    "num_workers": 16,
+    "logging": {
+        "module_levels": {
+            "src.train": "INFO",
+            "src.training.train_val": "INFO",
+            "src.metrics.metrics": "INFO",
+            "src.hl_modules.sed": "INFO",
+            "src.datasets.compile.tau_label_collector": "DEBUG",
+            "src.datasets.MisophoniaDataset": "INFO",
+            "src.datasets.multi_ch_simulator": "INFO",
+            "src.models.GuidedTFNetwork.multiflim_guided_tfnet": "INFO",
+            "src.models.GuidedTFNetwork.guided_tfnet": "INFO",
+            "src.cuda.cuda": "DEBUG"
+        }
+    }
+}