Spaces:

NitinBot001
/

Whisper-api

Running

App Files Files Community

Whisper-api / main.py

NitinBot001

Update main.py

7e971d4 verified 4 months ago

raw

history blame contribute delete

14 kB

	from flask_cors import CORS
	from flask import Flask, request, jsonify
	import tempfile
	import os
	from werkzeug.utils import secure_filename
	import logging
	from datetime import datetime

	# Configure logging
	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger(__name__)

	app = Flask(__name__)
	CORS(app)

	# Configuration
	app.config['MAX_CONTENT_LENGTH'] = 100 * 1024 * 1024 # 100MB max file size
	ALLOWED_EXTENSIONS = {'wav', 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'webm', 'flac'}

	# Initialize model variable
	model = None
	MODEL_SIZE = "medium" # Use 'tiny' for faster loading on Hugging Face Spaces, change to 'base', 'small', 'medium', or 'large' as needed

	# Set cache directory for Hugging Face Spaces
	def setup_cache_directory():
	"""Setup cache directory for Hugging Face Spaces"""
	# Create a writable cache directory in the current working directory
	cache_dir = os.path.join(os.getcwd(), ".whisper_cache")
	os.makedirs(cache_dir, exist_ok=True)

	# Set environment variables for Whisper cache
	os.environ['XDG_CACHE_HOME'] = cache_dir
	os.environ['WHISPER_CACHE'] = cache_dir

	logger.info(f"Cache directory set to: {cache_dir}")
	return cache_dir

	def load_whisper_model():
	"""Load Whisper model with proper error handling"""
	global model
	try:
	# Setup cache directory first
	cache_dir = setup_cache_directory()

	# Try multiple import strategies for openai-whisper
	whisper_module = None

	# Strategy 1: Direct import (most common)
	try:
	import whisper as whisper_module
	except ImportError:
	pass

	# Strategy 2: Try importing as openai_whisper
	if whisper_module is None:
	try:
	import openai_whisper as whisper_module
	except ImportError:
	pass

	# Strategy 3: Try importing with explicit path
	if whisper_module is None:
	try:
	import sys
	import importlib.util
	# This is a fallback - usually not needed
	import whisper as whisper_module
	except ImportError:
	pass

	if whisper_module is None:
	logger.error("OpenAI Whisper not installed. Install with: pip install openai-whisper")
	return False

	# Check if the module has the load_model function
	if not hasattr(whisper_module, 'load_model'):
	logger.error("Whisper module found but missing 'load_model' function")
	logger.error("This suggests you have the wrong 'whisper' package installed")
	logger.error("Solution:")
	logger.error("1. pip uninstall whisper")
	logger.error("2. pip uninstall openai-whisper (if exists)")
	logger.error("3. pip install openai-whisper")
	logger.error("4. pip install torch torchaudio")
	return False

	logger.info(f"Loading Whisper model: {MODEL_SIZE}")
	logger.info(f"Using cache directory: {cache_dir}")

	# Load model with explicit download root
	try:
	model = whisper_module.load_model(MODEL_SIZE, download_root=cache_dir)
	except TypeError:
	# Fallback if download_root parameter is not supported
	model = whisper_module.load_model(MODEL_SIZE)

	logger.info("Whisper model loaded successfully")
	return True

	except ImportError as e:
	logger.error(f"Import error: {e}")
	logger.error("OpenAI Whisper not installed. Install with: pip install openai-whisper torch torchaudio")
	return False
	except AttributeError as e:
	logger.error(f"Whisper import error: {e}")
	logger.error("Make sure you have the correct whisper package installed:")
	logger.error("Solution:")
	logger.error("1. pip uninstall whisper")
	logger.error("2. pip install openai-whisper torch torchaudio")
	return False
	except PermissionError as e:
	logger.error(f"Permission error: {e}")
	logger.error("Cannot write to cache directory. This might be a Hugging Face Spaces limitation.")
	logger.error("Trying alternative cache locations...")

	# Try alternative cache locations
	alternative_dirs = [
	"/tmp/.whisper_cache",
	os.path.expanduser("~/.whisper_cache"),
	"./whisper_models"
	]

	for alt_dir in alternative_dirs:
	try:
	os.makedirs(alt_dir, exist_ok=True)
	os.environ['XDG_CACHE_HOME'] = alt_dir
	os.environ['WHISPER_CACHE'] = alt_dir
	logger.info(f"Trying alternative cache: {alt_dir}")

	import whisper
	model = whisper.load_model(MODEL_SIZE, download_root=alt_dir)
	logger.info(f"Successfully loaded model with cache: {alt_dir}")
	return True
	except Exception as alt_e:
	logger.warning(f"Alternative cache {alt_dir} failed: {alt_e}")
	continue

	logger.error("All cache directory attempts failed")
	return False
	except Exception as e:
	logger.error(f"Error loading Whisper model: {e}")
	logger.error("This could be due to:")
	logger.error("- Insufficient memory")
	logger.error("- Missing PyTorch/CUDA dependencies")
	logger.error("- Network issues downloading the model")
	logger.error("- Hugging Face Spaces limitations")
	return False

	# Try to load the model at startup
	model_loaded = load_whisper_model()

	def allowed_file(filename):
	"""Check if the file extension is allowed"""
	return '.' in filename and \
	filename.rsplit('.', 1)[1].lower() in ALLOWED_EXTENSIONS

	def format_timestamp(seconds):
	"""Convert seconds to HH:MM:SS.mmm format"""
	hours = int(seconds // 3600)
	minutes = int((seconds % 3600) // 60)
	secs = seconds % 60
	return f"{hours:02d}:{minutes:02d}:{secs:06.3f}"

	@app.route('/', methods=['GET'])
	def health_check():
	"""Health check endpoint"""
	return jsonify({
	"status": "healthy" if model_loaded else "unhealthy",
	"message": "Whisper Transcription API is running" if model_loaded else "Whisper model failed to load",
	"model": MODEL_SIZE if model_loaded else "none",
	"model_loaded": model_loaded,
	"timestamp": datetime.now().isoformat()
	})

	@app.route('/transcribe', methods=['POST'])
	def transcribe_audio():
	"""
	Transcribe audio file and return word-level timestamps

	Expected form data:
	- audio_file: The audio file to transcribe
	- language (optional): Language code (e.g., 'en', 'es', 'fr')
	- task (optional): 'transcribe' or 'translate' (default: transcribe)
	"""
	try:
	# Check if model is loaded
	if not model_loaded or model is None:
	return jsonify({
	'error': 'Whisper model not loaded. Please check server logs and ensure openai-whisper is installed correctly.'
	}), 503

	# Check if audio file is present
	if 'audio_file' not in request.files:
	return jsonify({'error': 'No audio file provided'}), 400

	file = request.files['audio_file']

	if file.filename == '':
	return jsonify({'error': 'No file selected'}), 400

	if not allowed_file(file.filename):
	return jsonify({
	'error': f'File type not allowed. Supported formats: {", ".join(ALLOWED_EXTENSIONS)}'
	}), 400

	# Get optional parameters
	language = request.form.get('language', None)
	task = request.form.get('task', 'transcribe')

	if task not in ['transcribe', 'translate']:
	return jsonify({'error': 'Task must be either "transcribe" or "translate"'}), 400

	# Save uploaded file temporarily
	with tempfile.NamedTemporaryFile(delete=False, suffix=f".{file.filename.rsplit('.', 1)[1].lower()}") as tmp_file:
	file.save(tmp_file.name)
	temp_path = tmp_file.name

	logger.info(f"Processing file: {file.filename}")

	try:
	# Transcribe with word-level timestamps
	result = model.transcribe(
	temp_path,
	language=language,
	task=task,
	word_timestamps=True,
	verbose=False
	)

	# Extract word-level data
	word_segments = []
	for segment in result.get("segments", []):
	if "words" in segment:
	for word_data in segment["words"]:
	word_segments.append({
	"word": word_data.get("word", "").strip(),
	"start": word_data.get("start", 0),
	"end": word_data.get("end", 0),
	"start_formatted": format_timestamp(word_data.get("start", 0)),
	"end_formatted": format_timestamp(word_data.get("end", 0)),
	"confidence": word_data.get("probability", 0)
	})

	# Prepare response
	response_data = {
	"success": True,
	"filename": secure_filename(file.filename),
	"language": result.get("language", "unknown"),
	"task": task,
	"duration": result.get("segments", [{}])[-1].get("end", 0) if result.get("segments") else 0,
	"text": result.get("text", ""),
	"word_count": len(word_segments),
	"segments": result.get("segments", []),
	"words": word_segments,
	"model_used": MODEL_SIZE,
	"processing_time": None # You can add timing if needed
	}

	logger.info(f"Successfully transcribed {len(word_segments)} words from {file.filename}")
	return jsonify(response_data)

	except Exception as e:
	logger.error(f"Transcription error: {str(e)}")
	return jsonify({'error': f'Transcription failed: {str(e)}'}), 500

	finally:
	# Clean up temporary file
	if os.path.exists(temp_path):
	os.unlink(temp_path)

	except Exception as e:
	logger.error(f"API error: {str(e)}")
	return jsonify({'error': f'Server error: {str(e)}'}), 500

	@app.route('/models', methods=['GET'])
	def available_models():
	"""Get information about available Whisper models"""
	models_info = {
	"current_model": MODEL_SIZE if model_loaded else "none",
	"model_loaded": model_loaded,
	"available_models": {
	"tiny": {"size": "~39 MB", "speed": "~32x", "accuracy": "lowest"},
	"base": {"size": "~74 MB", "speed": "~16x", "accuracy": "low"},
	"small": {"size": "~244 MB", "speed": "~6x", "accuracy": "medium"},
	"medium": {"size": "~769 MB", "speed": "~2x", "accuracy": "high"},
	"large": {"size": "~1550 MB", "speed": "~1x", "accuracy": "highest"}
	},
	"supported_languages": [
	"en", "zh", "de", "es", "ru", "ko", "fr", "ja", "pt", "tr", "pl", "ca", "nl",
	"ar", "sv", "it", "id", "hi", "fi", "vi", "he", "uk", "el", "ms", "cs", "ro",
	"da", "hu", "ta", "no", "th", "ur", "hr", "bg", "lt", "la", "mi", "ml", "cy",
	"sk", "te", "fa", "lv", "bn", "sr", "az", "sl", "kn", "et", "mk", "br", "eu",
	"is", "hy", "ne", "mn", "bs", "kk", "sq", "sw", "gl", "mr", "pa", "si", "km",
	"sn", "yo", "so", "af", "oc", "ka", "be", "tg", "sd", "gu", "am", "yi", "lo",
	"uz", "fo", "ht", "ps", "tk", "nn", "mt", "sa", "lb", "my", "bo", "tl", "mg",
	"as", "tt", "haw", "ln", "ha", "ba", "jw", "su"
	],
	"installation_help": {
	"error": "Whisper model not loaded" if not model_loaded else None,
	"install_command": "pip install openai-whisper torch torchaudio",
	"uninstall_conflicts": "pip uninstall whisper (if you have conflicting whisper package)"
	}
	}
	return jsonify(models_info)

	@app.errorhandler(413)
	def too_large(e):
	return jsonify({'error': 'File too large. Maximum size is 100MB'}), 413

	@app.errorhandler(404)
	def not_found(e):
	return jsonify({'error': 'Endpoint not found'}), 404

	@app.errorhandler(500)
	def internal_error(e):
	return jsonify({'error': 'Internal server error'}), 500

	if __name__ == '__main__':
	if not model_loaded:
	print(f"""
	⚠️ WHISPER MODEL LOADING FAILED ⚠️
	===================================

	The Whisper model could not be loaded. Please check:

	1. Install the correct package:
	pip install openai-whisper torch torchaudio

	2. If you have conflicts, uninstall the wrong whisper package:
	pip uninstall whisper
	pip install openai-whisper

	3. Make sure you have sufficient disk space for the model

	The server will start but transcription will not work until the model is loaded.
	""")
	else:
	print(f"""
	Whisper Transcription API Server
	================================
	Model: {MODEL_SIZE} ✅
	Status: Ready
	Endpoints:
	- GET / : Health check
	- POST /transcribe : Transcribe audio file
	- GET /models : Available models info

	Supported formats: {', '.join(ALLOWED_EXTENSIONS)}
	Max file size: 100MB
	""")

	app.run(debug=True, host='0.0.0.0', port=7860)