UniMus
/

OpenJMLA

Text Generation

feature-extraction

music foundation model

Model card Files Files and versions

sino commited on Dec 13, 2023

Commit

99f673d

·

1 Parent(s): 8fb04ef

Update README.md

Files changed (1) hide show

README.md +6 -6

README.md CHANGED Viewed

@@ -40,8 +40,8 @@ device = model.device
 # sample rate: 16k
 music_path = '/path/to/music.wav'
-# extract logmel spectrogram
-# 1. parameters
 class FFT_parameters:
   sample_rate = 16000
   window_size = 400
@@ -51,7 +51,7 @@ class FFT_parameters:
   f_min = 50
   f_max = 8000
 prms = FFT_parameters()
-# 2. extract
 import nnAudio.Spectrogram
 import librosa
 to_spec = nnAudio.Spectrogram.MelSpectrogram(
@@ -69,7 +69,7 @@ to_spec = nnAudio.Spectrogram.MelSpectrogram(
 wav, ori_sr = librosa.load(music_path, mono=True, sr=prms.sample_rate)
 lms = to_spec(torch.tensor(wav))
 lms = (lms + torch.finfo().eps).log().to(device)
-# 3. processing
 import os
 from torch.nn.utils.rnn import pad_sequence
 import random
@@ -83,7 +83,7 @@ lms = lms.numpy()
 for trans in transforms:
   lms = trans(lms)
-# template of input
 input = dict()
 input['filenames'] = [music_path.split('/')[-1]]
 input['ans_crds'] = [0]
@@ -91,7 +91,7 @@ input['audio_crds'] = [0]
 input['attention_mask'] = torch.tensor([[1, 1, 1, 1, 1]]).to(device)
 input['input_ids'] = torch.tensor([[1, 694, 5777, 683, 13]]).to(device)
 input['spectrogram'] = torch.from_numpy(lms).unsqueez(dim=0).to(device)
-# generation
 model.eval()
 gen_ids = model.forward_test(input)
 gen_text = model.neck.tokenizer.batch_decode(gen_ids.clip(0))

 # sample rate: 16k
 music_path = '/path/to/music.wav'
+# 1. extract logmel spectrogram
+# 1.1 parameters
 class FFT_parameters:
   sample_rate = 16000
   window_size = 400
   f_min = 50
   f_max = 8000
 prms = FFT_parameters()
+# 1.2. extract
 import nnAudio.Spectrogram
 import librosa
 to_spec = nnAudio.Spectrogram.MelSpectrogram(
 wav, ori_sr = librosa.load(music_path, mono=True, sr=prms.sample_rate)
 lms = to_spec(torch.tensor(wav))
 lms = (lms + torch.finfo().eps).log().to(device)
+# 1.3. processing
 import os
 from torch.nn.utils.rnn import pad_sequence
 import random
 for trans in transforms:
   lms = trans(lms)
+# 2. template of input
 input = dict()
 input['filenames'] = [music_path.split('/')[-1]]
 input['ans_crds'] = [0]
 input['attention_mask'] = torch.tensor([[1, 1, 1, 1, 1]]).to(device)
 input['input_ids'] = torch.tensor([[1, 694, 5777, 683, 13]]).to(device)
 input['spectrogram'] = torch.from_numpy(lms).unsqueez(dim=0).to(device)
+# 3. generation
 model.eval()
 gen_ids = model.forward_test(input)
 gen_text = model.neck.tokenizer.batch_decode(gen_ids.clip(0))