MUSTAR
/

temp_checkpoints

Model card Files Files and versions

MUSTAR commited on Nov 15, 2024

Commit

7105a54

·

verified ·

1 Parent(s): 170a68a

Upload 2 files

Files changed (2) hide show

Scripts/prepare.sh +35 -0
Scripts/remove_silence_files.py +50 -0

Scripts/prepare.sh ADDED Viewed

	@@ -0,0 +1,35 @@

+CONDA_ROOT=/home/$(whoami)/miniconda3
+source ${CONDA_ROOT}/etc/profile.d/conda.sh
+conda activate contentvec
+mkdir -p feature/lab
+# Generate manifest files
+python3 fairseq/examples/wav2vec/wav2vec_manifest.py dataset --dest feature --valid-percent 0.1
+# Filter out files with silence and update manifests
+python remove_silence_files.py feature/train.tsv feature/valid.tsv feature/filtered
+cp feature/filtered/train.tsv feature/lab/train.tsv
+cp feature/filtered/valid.tsv feature/lab/valid.tsv
+# Continue with feature extraction
+rm -rf fairseq/examples/hubert/simple_kmeans/dump_hubert_feature.py
+cp dump_hubert_feature.py fairseq/examples/hubert/simple_kmeans/dump_hubert_feature.py
+tsv_dir="feature/lab"
+split="train"
+ckpt_path="checkpoint_best_legacy_500.pt"
+layer=12
+nshard=1
+rank=0
+feat_dir="feature"
+km_path="feature/${split}.km"
+lab_dir="feature/lab"
+n_clusters=100
+python speaker.py
+# Extract features
+python fairseq/examples/hubert/simple_kmeans/dump_hubert_feature.py $tsv_dir $split $ckpt_path $layer $nshard $rank $feat_dir

Scripts/remove_silence_files.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import os
+import sys
+import soundfile as sf
+from tqdm import tqdm
+def is_significant_audio(file_path, silence_threshold=-40, silence_percent=90):
+    """
+    Check if an audio file contains significant non-silent parts.
+    """
+    try:
+        data, samplerate = sf.read(file_path)
+        if len(data) == 0:
+            return False  # Empty file
+        # Calculate audio energy
+        energy = (data ** 2).mean()
+        silence_ratio = (energy < silence_threshold).sum() / len(data) * 100
+        return silence_ratio < silence_percent
+    except Exception as e:
+        print(f"Error processing {file_path}: {e}")
+        return False
+def filter_manifest(manifest_path, output_path, dataset_dir):
+    """
+    Read the manifest file, check for silence, and write filtered files.
+    """
+    with open(manifest_path, 'r') as f:
+        lines = f.readlines()
+    filtered_lines = [lines[0]]  # Keep the header
+    for line in tqdm(lines[1:], desc=f"Processing {manifest_path}"):
+        file_path = os.path.join(dataset_dir, line.split("\t")[0])
+        if is_significant_audio(file_path):
+            filtered_lines.append(line)
+        else:
+            print(f"Skipping file due to silence: {file_path}")
+    with open(output_path, 'w') as f_out:
+        f_out.writelines(filtered_lines)
+if __name__ == "__main__":
+    train_manifest = sys.argv[1]
+    valid_manifest = sys.argv[2]
+    output_dir = sys.argv[3]
+    os.makedirs(output_dir, exist_ok=True)
+    dataset_dir = "dataset"
+    filter_manifest(train_manifest, os.path.join(output_dir, "train.tsv"), dataset_dir)
+    filter_manifest(valid_manifest, os.path.join(output_dir, "valid.tsv"), dataset_dir)