Dionyssos commited on Sep 2, 2024

Commit

08238e0

1 Parent(s): 8a2aca3

add styles

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

mimic3_make_harvard_sentences.py +88 -6
style_vector/en_UK_apope.wav +0 -0
style_vector/en_US_cmu_arctic_aew.wav +0 -0
style_vector/en_US_cmu_arctic_ahw.wav +0 -0
style_vector/en_US_cmu_arctic_aup.wav +0 -0
style_vector/en_US_cmu_arctic_awbrms.wav +0 -0
style_vector/en_US_cmu_arctic_axb.wav +0 -0
style_vector/en_US_cmu_arctic_bdl.wav +0 -0
style_vector/en_US_cmu_arctic_clb.wav +0 -0
style_vector/en_US_cmu_arctic_eey.wav +0 -0
style_vector/en_US_cmu_arctic_fem.wav +0 -0
style_vector/en_US_cmu_arctic_gka.wav +0 -0
style_vector/en_US_cmu_arctic_jmk.wav +0 -0
style_vector/en_US_cmu_arctic_ksp.wav +0 -0
style_vector/en_US_cmu_arctic_ljm.wav +0 -0
style_vector/en_US_cmu_arctic_lnh.wav +0 -0
style_vector/en_US_cmu_arctic_rxr.wav +0 -0
style_vector/en_US_cmu_arctic_slp.wav +0 -0
style_vector/en_US_cmu_arctic_slt.wav +0 -0
style_vector/en_US_hifi-tts_6097.wav +0 -0
style_vector/en_US_hifi-tts_9017.wav +0 -0
style_vector/en_US_hifi-tts_92.wav +0 -0
style_vector/en_US_ljspeech.wav +0 -0
style_vector/en_US_m-ailabs_elliot_miller.wav +0 -0
style_vector/en_US_m-ailabs_judy_bieber.wav +0 -0
style_vector/en_US_m-ailabs_mary_ann.wav +0 -0
style_vector/en_US_vctk_p225.wav +0 -0
style_vector/en_US_vctk_p226.wav +0 -0
style_vector/en_US_vctk_p227.wav +0 -0
style_vector/en_US_vctk_p228.wav +0 -0
style_vector/en_US_vctk_p229.wav +0 -0
style_vector/en_US_vctk_p230.wav +0 -0
style_vector/en_US_vctk_p231.wav +0 -0
style_vector/en_US_vctk_p232.wav +0 -0
style_vector/en_US_vctk_p233.wav +0 -0
style_vector/en_US_vctk_p234.wav +0 -0
style_vector/en_US_vctk_p236.wav +0 -0
style_vector/en_US_vctk_p237.wav +0 -0
style_vector/en_US_vctk_p238.wav +0 -0
style_vector/en_US_vctk_p239.wav +0 -0
style_vector/en_US_vctk_p240.wav +0 -0
style_vector/en_US_vctk_p241.wav +0 -0
style_vector/en_US_vctk_p243.wav +0 -0
style_vector/en_US_vctk_p244.wav +0 -0
style_vector/en_US_vctk_p245.wav +0 -0
style_vector/en_US_vctk_p246.wav +0 -0
style_vector/en_US_vctk_p247.wav +0 -0
style_vector/en_US_vctk_p248.wav +0 -0
style_vector/en_US_vctk_p249.wav +0 -0
style_vector/en_US_vctk_p250.wav +0 -0

mimic3_make_harvard_sentences.py CHANGED Viewed

@@ -77,6 +77,21 @@ list_voices = [
 # ================================================== INTERFACE MODELS
 LABELS = [
     'arousal', 'dominance', 'valence',
     # 'speech_synthesizer', 'synthetic_singing',
@@ -131,10 +146,77 @@ teacher_cat.forward = types.MethodType(_infer, teacher_cat)
-# Audioset & ADV
-# audioset_model = audonnx.load(audmodel.load('17c240ec-1.0.0'), device='cuda:0')
-adv_model = audonnx.load(audmodel.load('90398682-2.0.0'), device='cuda:0')
 def process_function(x, sampling_rate, idx):
     '''run audioset ct, adv
@@ -154,7 +236,7 @@ def process_function(x, sampling_rate, idx):
     # logits_audioset = audioset_model(x, 16000)['logits_sounds']
     # logits_audioset = logits_audioset[:, [7, 35]]  # speech synthesizer synthetic singing
     # --
-    logits_adv = adv_model(x, 16000)['logits']
     cat = np.concatenate([logits_adv,
                         #   _sigmoid(logits_audioset),
@@ -169,7 +251,7 @@ interface = audinterface.Feature(
     # process_func_args={'outputs': 'logits_scene'},
     process_func_applies_sliding_window=False,
     win_dur=7.0,
-    hop_dur=4.0,
     sampling_rate=16000,
     resample=True,
     verbose=True,
@@ -297,7 +379,7 @@ for _id, _voice in enumerate(list_voices):
         total_audio_mimic3 = []
         total_audio_styletts2 = []
         ix = 0
-        for list_of_10 in harvard_individual_sentences[:1000]:  # 77
             text = ' '.join(list_of_10['sentences'])

 # ================================================== INTERFACE MODELS
 LABELS = [
     'arousal', 'dominance', 'valence',
     # 'speech_synthesizer', 'synthetic_singing',
+# ===================[:]===================== Dawn
+def _prenorm(x, attention_mask=None):
+    '''mean/var'''
+    if attention_mask is not None:
+        N = attention_mask.sum(1, keepdim=True)  # here attn msk is unprocessed just the original input
+        x -= x.sum(1, keepdim=True) / N
+        var = (x * x).sum(1, keepdim=True) / N
+    else:
+        x -= x.mean(1, keepdim=True)  # mean is an onnx operator reducemean saves some ops compared to casting integer N to float and the div
+        var = (x * x).mean(1, keepdim=True)
+    return x / torch.sqrt(var + 1e-7)
+from torch import nn
+from transformers.models.wav2vec2.modeling_wav2vec2 import Wav2Vec2PreTrainedModel, Wav2Vec2Model
+class RegressionHead(nn.Module):
+        r"""Classification head."""
+        def __init__(self, config):
+            super().__init__()
+            self.dense = nn.Linear(config.hidden_size, config.hidden_size)
+            self.dropout = nn.Dropout(config.final_dropout)
+            self.out_proj = nn.Linear(config.hidden_size, config.num_labels)
+        def forward(self, features, **kwargs):
+            x = features
+            x = self.dropout(x)
+            x = self.dense(x)
+            x = torch.tanh(x)
+            x = self.dropout(x)
+            x = self.out_proj(x)
+            return x
+class Dawn(Wav2Vec2PreTrainedModel):
+    r"""Speech emotion classifier."""
+    def __init__(self, config):
+        super().__init__(config)
+        self.config = config
+        self.wav2vec2 = Wav2Vec2Model(config)
+        self.classifier = RegressionHead(config)
+        self.init_weights()
+    def forward(
+            self,
+            input_values,
+            attention_mask=None,
+    ):
+        x = _prenorm(input_values, attention_mask=attention_mask)
+        outputs = self.wav2vec2(x, attention_mask=attention_mask)
+        hidden_states = outputs[0]
+        hidden_states = torch.mean(hidden_states, dim=1)
+        logits = self.classifier(hidden_states)
+        return logits
+        # return {'hidden_states': hidden_states,
+        #         'logits': logits}
+dawn = Dawn.from_pretrained('audeering/wav2vec2-large-robust-12-ft-emotion-msp-dim').to(config.dev).eval()
+# =======================================
 def process_function(x, sampling_rate, idx):
     '''run audioset ct, adv
     # logits_audioset = audioset_model(x, 16000)['logits_sounds']
     # logits_audioset = logits_audioset[:, [7, 35]]  # speech synthesizer synthetic singing
     # --
+    logits_adv = dawn(torch.from_numpy(x).to(config.dev)).cpu().detach().numpy() #['logits']
     cat = np.concatenate([logits_adv,
                         #   _sigmoid(logits_audioset),
     # process_func_args={'outputs': 'logits_scene'},
     process_func_applies_sliding_window=False,
     win_dur=7.0,
+    hop_dur=40.0,
     sampling_rate=16000,
     resample=True,
     verbose=True,
         total_audio_mimic3 = []
         total_audio_styletts2 = []
         ix = 0
+        for list_of_10 in harvard_individual_sentences[:4]:  # 77
             text = ' '.join(list_of_10['sentences'])

style_vector/en_UK_apope.wav ADDED Viewed

Binary file (99.9 kB). View file

style_vector/en_US_cmu_arctic_aew.wav ADDED Viewed

Binary file (96.3 kB). View file

style_vector/en_US_cmu_arctic_ahw.wav ADDED Viewed

Binary file (95.8 kB). View file

style_vector/en_US_cmu_arctic_aup.wav ADDED Viewed

Binary file (90.2 kB). View file

style_vector/en_US_cmu_arctic_awbrms.wav ADDED Viewed

Binary file (92.7 kB). View file

style_vector/en_US_cmu_arctic_axb.wav ADDED Viewed

Binary file (92.2 kB). View file

style_vector/en_US_cmu_arctic_bdl.wav ADDED Viewed

Binary file (90.7 kB). View file

style_vector/en_US_cmu_arctic_clb.wav ADDED Viewed

Binary file (96.3 kB). View file

style_vector/en_US_cmu_arctic_eey.wav ADDED Viewed

Binary file (90.7 kB). View file

style_vector/en_US_cmu_arctic_fem.wav ADDED Viewed

Binary file (90.2 kB). View file

style_vector/en_US_cmu_arctic_gka.wav ADDED Viewed

Binary file (90.7 kB). View file

style_vector/en_US_cmu_arctic_jmk.wav ADDED Viewed

Binary file (92.7 kB). View file

style_vector/en_US_cmu_arctic_ksp.wav ADDED Viewed

Binary file (93.7 kB). View file

style_vector/en_US_cmu_arctic_ljm.wav ADDED Viewed

Binary file (89.1 kB). View file

style_vector/en_US_cmu_arctic_lnh.wav ADDED Viewed

Binary file (91.2 kB). View file

style_vector/en_US_cmu_arctic_rxr.wav ADDED Viewed

Binary file (93.2 kB). View file

style_vector/en_US_cmu_arctic_slp.wav ADDED Viewed

Binary file (93.2 kB). View file

style_vector/en_US_cmu_arctic_slt.wav ADDED Viewed

Binary file (92.2 kB). View file

style_vector/en_US_hifi-tts_6097.wav ADDED Viewed

Binary file (89.1 kB). View file

style_vector/en_US_hifi-tts_9017.wav ADDED Viewed

Binary file (88.6 kB). View file

style_vector/en_US_hifi-tts_92.wav ADDED Viewed

Binary file (90.7 kB). View file

style_vector/en_US_ljspeech.wav ADDED Viewed

Binary file (101 kB). View file

style_vector/en_US_m-ailabs_elliot_miller.wav ADDED Viewed

Binary file (102 kB). View file

style_vector/en_US_m-ailabs_judy_bieber.wav ADDED Viewed

Binary file (104 kB). View file

style_vector/en_US_m-ailabs_mary_ann.wav ADDED Viewed

Binary file (103 kB). View file

style_vector/en_US_vctk_p225.wav ADDED Viewed

Binary file (96.8 kB). View file

style_vector/en_US_vctk_p226.wav ADDED Viewed

Binary file (98.3 kB). View file

style_vector/en_US_vctk_p227.wav ADDED Viewed

Binary file (97.8 kB). View file

style_vector/en_US_vctk_p228.wav ADDED Viewed

Binary file (94.8 kB). View file

style_vector/en_US_vctk_p229.wav ADDED Viewed

Binary file (95.3 kB). View file

style_vector/en_US_vctk_p230.wav ADDED Viewed

Binary file (95.8 kB). View file

style_vector/en_US_vctk_p231.wav ADDED Viewed

Binary file (94.8 kB). View file

style_vector/en_US_vctk_p232.wav ADDED Viewed

Binary file (93.7 kB). View file

style_vector/en_US_vctk_p233.wav ADDED Viewed

Binary file (95.8 kB). View file

style_vector/en_US_vctk_p234.wav ADDED Viewed

Binary file (95.8 kB). View file

style_vector/en_US_vctk_p236.wav ADDED Viewed

Binary file (93.2 kB). View file

style_vector/en_US_vctk_p237.wav ADDED Viewed

Binary file (95.3 kB). View file

style_vector/en_US_vctk_p238.wav ADDED Viewed

Binary file (103 kB). View file

style_vector/en_US_vctk_p239.wav ADDED Viewed

Binary file (94.8 kB). View file

style_vector/en_US_vctk_p240.wav ADDED Viewed

Binary file (97.8 kB). View file

style_vector/en_US_vctk_p241.wav ADDED Viewed

Binary file (93.2 kB). View file

style_vector/en_US_vctk_p243.wav ADDED Viewed

Binary file (97.3 kB). View file

style_vector/en_US_vctk_p244.wav ADDED Viewed

Binary file (93.7 kB). View file

style_vector/en_US_vctk_p245.wav ADDED Viewed

Binary file (98.3 kB). View file

style_vector/en_US_vctk_p246.wav ADDED Viewed

Binary file (98.3 kB). View file

style_vector/en_US_vctk_p247.wav ADDED Viewed

Binary file (97.3 kB). View file

style_vector/en_US_vctk_p248.wav ADDED Viewed

Binary file (102 kB). View file

style_vector/en_US_vctk_p249.wav ADDED Viewed

Binary file (96.3 kB). View file

style_vector/en_US_vctk_p250.wav ADDED Viewed

Binary file (93.2 kB). View file