WatchMeSpeak

Sleeping

App Files Files Community

Siddarth commited on Apr 20, 2022

Commit

57303f6

1 Parent(s): a56e64f

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -68

app.py CHANGED Viewed

@@ -1,22 +1,12 @@
 from Main import wav2art
 import numpy as np
-import pandas as pd
-import random
 import librosa
-from pathlib import Path
-import os
 import base64
-import urllib.request
 import gc
 gc.enable()
-import json
 import matplotlib.pyplot as plt
-import matplotlib
-import IPython.display as ipd
-from scipy.io import wavfile
-import scipy.io
 import soundfile as sf
 from cv2 import resize, INTER_LINEAR
 from PIL import Image
@@ -24,10 +14,6 @@ from PIL import Image
 import scipy.signal as signal
 from matplotlib.animation import FuncAnimation
-from glob import glob
-from transformers import AutoTokenizer, AutoFeatureExtractor, AutoModelForCTC, Wav2Vec2PhonemeCTCTokenizer, Wav2Vec2ForCTC
 import torch
 import librosa
@@ -145,63 +131,15 @@ if what == 'Upload audio file':
-        text = text_area.text_area("", "Loading wav2vec 2.0 ... \n It may take a while!")
-        # import model, feature extractor, tokenizer
-        # model = torch.load('model.pt')
-#         @st.cache(allow_output_mutation=True)
-#         def load_model():
-#             if not os.path.isfile('model.pt'):
-#                 with st.spinner("Downloading model... this may take awhile! \n Don't stop it!"):
-#                     import gdown
-#                     url = 'https://drive.google.com/uc?id=1-1sjyooNoDiis6LhSHGfB8iU_CGLVRlS'
-#                     gdown.download(url, 'model.pt', quiet=False)
-#             model = torch.load('model.pt')
-#             model.eval()
-#             return model
-#         model = load_model()
-#         @st.cache(allow_output_mutation=True)
-#         def load_model():
-#             model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
-#             return model
-#         model = load_model()
-#         url = 'https://github.com/siddarth-c/WatchMeSpeak/releases/download/wav2vec2/model.pt'
-#         filename = url.split('/')[-1]
-#         urllib.request.urlretrieve(url, filename)
-#         model = torch.load('model.pt')
-#         import requests
-#         API_URL = "https://api-inference.huggingface.co/models/facebook/wav2vec2-lv-60-espeak-cv-ft"
-#         headers = {"Authorization": "Bearer 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"}
-#         def query():
-#             with open('audio.wav', "rb") as f:
-#                 data = f.read()
-#             response = requests.request("POST", API_URL, headers=headers, data=data)
-#             return json.loads(response.content.decode("utf-8"))
-#         logits = query()['text']
-#         tokenizer = torch.load('tokenizer.pt')
-#         feature_extractor = torch.load('feature_extractor.pt')
-        model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
         tokenizer = torch.load('tokenizer.pt')
         feature_extractor = torch.load('feature_extractor.pt')
         text = text_area.text_area("", "Estimating phonemes ...")
         input_values = feature_extractor(wav, return_tensors="pt", sampling_rate = sr).input_values
@@ -266,6 +204,7 @@ if what == 'Upload audio file':
         length = int(len(emaR_sub) * 0.3)
         ema = signal.resample(emaR_sub, length)
         processed = []
         to_print = []
@@ -372,7 +311,7 @@ if what == 'Upload audio file':
         brain0 = Image.open('BrainAndSpinal.png')
-        text = text_area.text_area("", "Rendering the initial frame ...")
@@ -635,7 +574,6 @@ if what == 'Upload audio file':
         newax.axis('off')
         ax.axis('off')
-        text = text_area.text_area("", "Rendering all frames ...")
         my_bar.progress(30)
@@ -652,6 +590,9 @@ if what == 'Upload audio file':
            loaded = int(30 + (54 * frame_number) / len(ema))
            my_bar.progress(loaded)
            particles["position"] = ema[frame_number]

 from Main import wav2art
 import numpy as np
 import librosa
 import base64
 import gc
 gc.enable()
 import matplotlib.pyplot as plt
 import soundfile as sf
 from cv2 import resize, INTER_LINEAR
 from PIL import Image
 import scipy.signal as signal
 from matplotlib.animation import FuncAnimation
 import torch
 import librosa
+        text = text_area.text_area("", "Loading wav2vec 2.0 ...")
+        model = torch.load("model.pt")
         tokenizer = torch.load('tokenizer.pt')
         feature_extractor = torch.load('feature_extractor.pt')
+        my_bar.progress(15)
         text = text_area.text_area("", "Estimating phonemes ...")
         input_values = feature_extractor(wav, return_tensors="pt", sampling_rate = sr).input_values
         length = int(len(emaR_sub) * 0.3)
         ema = signal.resample(emaR_sub, length)
+        my_bar.progress(25)
         processed = []
         to_print = []
         brain0 = Image.open('BrainAndSpinal.png')
+        text = text_area.text_area("", "Rendering frame: 0 / " + str(len(ema)))
         newax.axis('off')
         ax.axis('off')
         my_bar.progress(30)
            loaded = int(30 + (54 * frame_number) / len(ema))
+           text = text_area.text_area("", "Rendering frame: " + str(frame_number) + " / " + str(len(ema)))
            my_bar.progress(loaded)
            particles["position"] = ema[frame_number]