Spaces:

clr
/

pce

Sleeping

App Files Files Community

catiR commited on Nov 6, 2023

Commit

07c85d3

1 Parent(s): a4ed697

adjust plot

Browse files

Files changed (2) hide show

scripts/clusterprosody.py +35 -15
scripts/runSQ.py +2 -2

scripts/clusterprosody.py CHANGED Viewed

@@ -222,14 +222,22 @@ def match_tts(clusters, speech_data, tts_data, tts_align, words, seg_aligns, voi
     bad_data = {f'{words}**{r}': speech_data[f'{words}**{r}'] for r,c in clusters if c==bad_cluster}
     #tts_fig_p = plot_pitch_tts(matched_data,tts_data, tts_align, words,seg_aligns,best_cluster,voice)
-    tts_fig_p = plot_one_cluster(words,'pitch',matched_data,seg_aligns,best_cluster,tts_data=tts_data,tts_align=tts_align,voice=voice)
-    fig_mid_p = plot_one_cluster(words,'pitch',mid_data,seg_aligns,mid_cluster)
-    fig_bad_p = plot_one_cluster(words,'pitch',bad_data,seg_aligns,bad_cluster)
-    tts_fig_e = plot_one_cluster(words,'rmse',matched_data,seg_aligns,best_cluster,tts_data=tts_data,tts_align=tts_align,voice=voice)
-    fig_mid_e = plot_one_cluster(words,'rmse',mid_data,seg_aligns,mid_cluster)
-    fig_bad_e = plot_one_cluster(words,'rmse',bad_data,seg_aligns,bad_cluster)
     return best_cluster_score, tts_fig_p, fig_mid_p, fig_bad_p, tts_fig_e, fig_mid_e, fig_bad_e
@@ -298,18 +306,27 @@ def cluster(norm_sent,orig_sent,h_spk_ids, h_align_dir, h_f0_dir, h_wav_dir, tts
 # realign at the start of each word
 # destroys pause information but overall more legible
 def reset_cluster_times(words,cluster_speakers,human_aligns,tts_align):
     words = words.split('_')
-    retimes = []
-    for i in range(len(words)):
-        starts = [human_aligns[spk][i][1] for spk in cluster_speakers]
         if tts_align:
-            starts.append(tts_align[i][1])
-        retimes.append((words[i],max(starts)))
     return retimes
 def retime_speaker_xvals(retimes, speaker_aligns, speaker_xvals):
     new_xvals = []
     def xlim(x,i,retimes,speaker_aligns):
@@ -321,7 +338,7 @@ def retime_speaker_xvals(retimes, speaker_aligns, speaker_xvals):
         xdiff = st-s
         new_xvals += [x+xdiff for x in speaker_xvals if (x>= s) and xlim(x,i,retimes,speaker_aligns) ]
-    return [round(x,2) for x in new_xvals]
@@ -329,6 +346,7 @@ def plot_one_cluster(words,feature,speech_data,seg_aligns,cluster_id,tts_data=No
 #(speech_data, tts_data, tts_align, words, seg_aligns, cluster_id, voice):
     colors = ["red", "green", "blue", "orange", "purple", "pink", "brown", "gray", "cyan"]
     cc = 0
     fig = plt.figure(figsize=(10, 5))
     if feature.lower() in ['pitch','f0']:
@@ -341,7 +359,7 @@ def plot_one_cluster(words,feature,speech_data,seg_aligns,cluster_id,tts_data=No
         pfunc = plt.plot
     else:
         print('problem with the figure')
-        return fig
     # boundary for start of each word
@@ -361,6 +379,7 @@ def plot_one_cluster(words,feature,speech_data,seg_aligns,cluster_id,tts_data=No
         # datapoint interval is 0.005 seconds
         feat_xvals = [x*0.005 for x in range(len(feats))]
         feat_xvals = retime_speaker_xvals(retimes, word_times, feat_xvals)
         #pfunc(feat_xvals, feats, color=colors[cc], label=f"Speaker {spk}")
@@ -371,7 +390,8 @@ def plot_one_cluster(words,feature,speech_data,seg_aligns,cluster_id,tts_data=No
             feat_xvals = feat_xvals[:-(len(w_xvals))]
             feats = feats[:-(len(w_xvals))]
         cc += 1
         if cc >= len(colors):
             cc=0
@@ -393,7 +413,7 @@ def plot_one_cluster(words,feature,speech_data,seg_aligns,cluster_id,tts_data=No
     #plt.show()
-    return fig

     bad_data = {f'{words}**{r}': speech_data[f'{words}**{r}'] for r,c in clusters if c==bad_cluster}
     #tts_fig_p = plot_pitch_tts(matched_data,tts_data, tts_align, words,seg_aligns,best_cluster,voice)
+    tts_fig_p, best_cc = plot_one_cluster(words,'pitch',matched_data,seg_aligns,best_cluster,tts_data=tts_data,tts_align=tts_align,voice=voice)
+    fig_mid_p, mid_cc = plot_one_cluster(words,'pitch',mid_data,seg_aligns,mid_cluster)
+    fig_bad_p, bad_cc = plot_one_cluster(words,'pitch',bad_data,seg_aligns,bad_cluster)
+    tts_fig_e, _ = plot_one_cluster(words,'rmse',matched_data,seg_aligns,best_cluster,tts_data=tts_data,tts_align=tts_align,voice=voice)
+    fig_mid_e, _ = plot_one_cluster(words,'rmse',mid_data,seg_aligns,mid_cluster)
+    fig_bad_e, _ = plot_one_cluster(words,'rmse',bad_data,seg_aligns,bad_cluster)
+    # TODO
+    # not necessarily here, bc paths to audio files.
+    spk_cc_map = [('Best',best_cluster,best_cc), ('Mid',mid_cluster,mid_cc), ('Last',bad_cluster,bad_cc)]
+    print(spk_cc_map)
+    #playable = audio_htmls(spk_cc_map)
     return best_cluster_score, tts_fig_p, fig_mid_p, fig_bad_p, tts_fig_e, fig_mid_e, fig_bad_e
+# TODO:
+# redo this so that it doesnt just take the max Start Time of each word ;
+# but,  in effect,
+# finds the max Duration of the 1st word, the max Duration of the next, and so on.
 # realign at the start of each word
 # destroys pause information but overall more legible
 def reset_cluster_times(words,cluster_speakers,human_aligns,tts_align):
     words = words.split('_')
+    retimes = [(words[0], 0.0)]
+    for i in range(len(words)-1):
+        #starts = [human_aligns[spk][i][1] for spk in cluster_speakers]
+        gaps = [human_aligns[spk][i+1][1]-human_aligns[spk][i][1] for spk in cluster_speakers]
         if tts_align:
+            gaps.append(tts_align[i+1][1] - tts_align[i][1])
+        retimes.append((words[i+1],retimes[i][1]+max(gaps)))
     return retimes
 def retime_speaker_xvals(retimes, speaker_aligns, speaker_xvals):
     new_xvals = []
     def xlim(x,i,retimes,speaker_aligns):
         xdiff = st-s
         new_xvals += [x+xdiff for x in speaker_xvals if (x>= s) and xlim(x,i,retimes,speaker_aligns) ]
+    return [round(x,3) for x in new_xvals]
 #(speech_data, tts_data, tts_align, words, seg_aligns, cluster_id, voice):
     colors = ["red", "green", "blue", "orange", "purple", "pink", "brown", "gray", "cyan"]
     cc = 0
+    spk_ccs = [] # for external display
     fig = plt.figure(figsize=(10, 5))
     if feature.lower() in ['pitch','f0']:
         pfunc = plt.plot
     else:
         print('problem with the figure')
+        return fig, []
     # boundary for start of each word
         # datapoint interval is 0.005 seconds
         feat_xvals = [x*0.005 for x in range(len(feats))]
         feat_xvals = retime_speaker_xvals(retimes, word_times, feat_xvals)
         #pfunc(feat_xvals, feats, color=colors[cc], label=f"Speaker {spk}")
             feat_xvals = feat_xvals[:-(len(w_xvals))]
             feats = feats[:-(len(w_xvals))]
+        spk_ccs.append((spk,colors[cc]))
         cc += 1
         if cc >= len(colors):
             cc=0
     #plt.show()
+    return fig, spk_ccs

scripts/runSQ.py CHANGED Viewed

@@ -222,11 +222,11 @@ def setup_tts_sent(sentence,ttsdir,meta_path = 'tts_meta.tsv'):
 def localtest():
-    sentence = 'Ef svo er, hvað heita þau þá?'#'Var það ekki nóg?'
     voices = ['Alfur_v2'] #,'Dilja']
     # make for now the interface allows max one voice
-    start_end_word_ix = '5-7'
     locl = '/home/caitlinr/work/peval/pce/'
     corpus_meta = locl+'human_data/SQL1adult10s_metadata.tsv'

 def localtest():
+    sentence = 'En er hægt að taka orðalagið bókstaflega?'#'Ef svo er, hvað heita þau þá?'#'Var það ekki nóg?'
     voices = ['Alfur_v2'] #,'Dilja']
     # make for now the interface allows max one voice
+    start_end_word_ix = '1-3'#'5-7'
     locl = '/home/caitlinr/work/peval/pce/'
     corpus_meta = locl+'human_data/SQL1adult10s_metadata.tsv'