Spaces:

userdotcs
/

Dizgec-Phono-Transcriptor

Paused

Update app.py

b88c7ba verified about 1 month ago

1.56 kB

	import gradio as gr
	import torch
	from transformers import WhisperProcessor, WhisperForConditionalGeneration
	import librosa
	import numpy as np
	import spaces

	MODEL_ID = "userdotcs/whisper-small-turkish-phono-finetuned"
	device = "cuda" if torch.cuda.is_available() else "cpu"

	# İşlemci ve Modeli yükle
	processor = WhisperProcessor.from_pretrained(MODEL_ID)
	model = WhisperForConditionalGeneration.from_pretrained(MODEL_ID).to(device)

	@spaces.GPU
	def transcribe(audio):
	if audio is None:
	return "Ses dosyası algılanamadı."

	sr, y = audio

	# 1. Float32 Dönüşümü ve Normalizasyon (KRİTİK ADIM)
	y = y.astype(np.float32)
	y /= np.max(np.abs(y)) if np.max(np.abs(y)) > 0 else 1

	# 2. Mono Yapma
	if y.ndim > 1:
	y = y.mean(axis=1)

	# 3. Resampling
	if sr != 16000:
	y = librosa.resample(y, orig_sr=sr, target_sr=16000)
	sr = 16000

	# 4. Input Hazırlama
	input_features = processor(y, sampling_rate=sr, return_tensors="pt").input_features.to(device)

	# 5. Inference
	with torch.no_grad():
	# forced_decoder_ids ile modeli Türkçe'ye zorlayabilirsin (opsiyonel)
	predicted_ids = model.generate(input_features, max_new_tokens=128)

	transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
	return transcription

	# Arayüz
	demo = gr.Interface(
	fn=transcribe,
	inputs=gr.Audio(type="numpy"), # Gradio 4+ kullanıyorsan bu kalsın
	outputs="text",
	title="Whisper Small Turkish Phonetic Trancription"
	)

	demo.launch()