Spaces:

szili2011
/

FNaF-Audio-Generation

Runtime error

App Files Files Community

szili2011 commited on Jul 5

Commit

012a8ba

verified ·

1 Parent(s): d5a7fa2

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -16

app.py CHANGED Viewed

@@ -13,8 +13,6 @@ nltk.download('averaged_perceptron_tagger', quiet=True)
 nltk.download('cmudict', quiet=True)
 # Load your model from the root directory
-# Add compile=False as it's often needed for inference-only models
-# and can resolve some loading warnings.
 model = tf.keras.models.load_model('audio_model.h5', compile=False)
 # Preprocess input text
@@ -31,24 +29,20 @@ def preprocess_text(text):
     flattened_phonemes = [p for sublist in phonemes for p in sublist]
-    # Create dummy 13-feature vectors for each phoneme (implement your own feature extraction)
     num_features = 13
     sequence_length = len(flattened_phonemes)
-    if sequence_length == 0: # Handle empty input
         return np.zeros((1, 1, num_features))
     input_data = np.random.rand(sequence_length, num_features)
-    # Add batch dimension
-    input_data = np.expand_dims(input_data, axis=0)  # Shape (1, sequence_length, 13)
     return input_data
 # Convert model output to an audio file
 def convert_to_audio(model_output, filename="output.wav"):
-    if model_output.size == 0: # Handle empty output
         return None
-    # Normalize audio to be between -1 and 1
     normalized_output = np.interp(model_output, (model_output.min(), model_output.max()), (-1, 1))
     write(filename, SAMPLE_RATE, normalized_output.astype(np.float32))
     return filename
@@ -57,17 +51,15 @@ def convert_to_audio(model_output, filename="output.wav"):
 def generate_sfx(text, duration):
     input_data = preprocess_text(text)
-    # Check for empty input after preprocessing
     if input_data.shape[1] == 0:
-        return None # Return None to clear the audio component
     prediction = model.predict(input_data)
     flat_prediction = prediction.flatten()
     if len(flat_prediction) == 0:
         return None
-    # Generate longer output by repeating or padding
     num_repeats = (duration * SAMPLE_RATE // len(flat_prediction)) + 1
     audio_data = np.tile(flat_prediction, num_repeats)[:duration * SAMPLE_RATE]
@@ -89,6 +81,6 @@ interface = gr.Interface(
 # Run the interface
 if __name__ == "__main__":
-    tf.config.set_visible_devices([], 'GPU')  # Disable GPU
-    # --- FIX: Remove share=True for Hugging Face Spaces ---
-    interface.launch()

 nltk.download('cmudict', quiet=True)
 # Load your model from the root directory
 model = tf.keras.models.load_model('audio_model.h5', compile=False)
 # Preprocess input text
     flattened_phonemes = [p for sublist in phonemes for p in sublist]
     num_features = 13
     sequence_length = len(flattened_phonemes)
+    if sequence_length == 0:
         return np.zeros((1, 1, num_features))
     input_data = np.random.rand(sequence_length, num_features)
+    input_data = np.expand_dims(input_data, axis=0)
     return input_data
 # Convert model output to an audio file
 def convert_to_audio(model_output, filename="output.wav"):
+    if model_output.size == 0:
         return None
     normalized_output = np.interp(model_output, (model_output.min(), model_output.max()), (-1, 1))
     write(filename, SAMPLE_RATE, normalized_output.astype(np.float32))
     return filename
 def generate_sfx(text, duration):
     input_data = preprocess_text(text)
     if input_data.shape[1] == 0:
+        return None
     prediction = model.predict(input_data)
     flat_prediction = prediction.flatten()
     if len(flat_prediction) == 0:
         return None
     num_repeats = (duration * SAMPLE_RATE // len(flat_prediction)) + 1
     audio_data = np.tile(flat_prediction, num_repeats)[:duration * SAMPLE_RATE]
 # Run the interface
 if __name__ == "__main__":
+    tf.config.set_visible_devices([], 'GPU')
+    # The ValueError shows that share=True IS required for your environment.
+    interface.launch(share=True)