Spaces:

mi55th
/

421_space

Paused

App Files Files Community

mi55th commited on 12 days ago

Commit

7edcdca

verified ·

1 Parent(s): d563ad4

Update app.py

Browse files

Files changed (1) hide show

app.py +0 -75

app.py CHANGED Viewed

@@ -20,29 +20,6 @@ from sentence_transformers import SentenceTransformer
 # Инициализация моделей (ленивая загрузка)
 models = {}
-def load_audio_model(model_name):
-    if model_name not in models:
-        if model_name == "whisper":
-            models[model_name] = pipeline(
-                "automatic-speech-recognition",
-                model="openai/whisper-small"
-            )
-        elif model_name == "wav2vec2":
-            models[model_name] = pipeline(
-                "automatic-speech-recognition",
-                model="bond005/wav2vec2-large-ru-golos"
-            )
-        elif model_name == "audio_classifier":
-            models[model_name] = pipeline(
-                "audio-classification",
-                model="MIT/ast-finetuned-audioset-10-10-0.4593"
-            )
-        elif model_name == "emotion_classifier":
-            models[model_name] = pipeline(
-                "audio-classification",
-                model="superb/hubert-large-superb-er"
-            )
-    return models[model_name]
 def load_image_model(model_name):
     if model_name not in models:
@@ -59,58 +36,6 @@ def load_image_model(model_name):
             models[f"{model_name}_processor"] = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
     return models[model_name]
-# Функции для обработки аудио
-def audio_classification(audio_file, model_type):
-    classifier = load_audio_model(model_type)
-    results = classifier(audio_file)
-    output = "Топ-5 предсказаний:\n"
-    for i, result in enumerate(results[:5]):
-        output += f"{i+1}. {result['label']}: {result['score']:.4f}\n"
-    return output
-def speech_recognition(audio_file, model_type):
-    asr_pipeline = load_audio_model(model_type)
-    if model_type == "whisper":
-        result = asr_pipeline(audio_file, generate_kwargs={"language": "russian"})
-    else:
-        result = asr_pipeline(audio_file)
-    return result['text']
-def text_to_speech(text, model_type):
-    if model_type == "silero":
-        # Silero TTS
-        model, _ = torch.hub.load(repo_or_dir='snakers4/silero-models',
-                                model='silero_tts',
-                                language='ru',
-                                speaker='ru_v3')
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
-            model.save_wav(text=text, speaker='aidar', sample_rate=48000, audio_path=f.name)
-            return f.name
-    elif model_type == "gtts":
-        # Google TTS
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
-            tts = gTTS(text=text, lang='ru')
-            tts.save(f.name)
-            return f.name
-    elif model_type == "mms":
-        # Facebook MMS TTS
-        model = VitsModel.from_pretrained("facebook/mms-tts-rus")
-        tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-rus")
-        inputs = tokenizer(text, return_tensors="pt")
-        with torch.no_grad():
-            output = model(**inputs).waveform
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
-            sf.write(f.name, output.numpy().squeeze(), model.config.sampling_rate)
-            return f.name
 # Функции для обработки изображений
 def object_detection(image):

 # Инициализация моделей (ленивая загрузка)
 models = {}
 def load_image_model(model_name):
     if model_name not in models:
             models[f"{model_name}_processor"] = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
     return models[model_name]
 # Функции для обработки изображений
 def object_detection(image):