Spaces:

playcat
/

cat-translator

Sleeping

App Files Files Community

cat-translator / app.py

playcat

Upload Cat Translator v2.0 (Maximum)

dd80289 verified 3 months ago

raw

history blame contribute delete

9.15 kB

	"""
	Cat Translator - Maximum Version
	- 2982 training samples (1517 original files)
	- Enhanced large model (1.75M parameters)
	- Trained on maximum available data from 2024-2025
	"""

	import gradio as gr
	import tensorflow as tf
	import tensorflow_hub as hub
	import numpy as np
	import librosa
	import json
	import os

	# Configuration
	try:
	with open('models/model_info_maximum.json', 'r', encoding='utf-8') as f:
	model_info = json.load(f)
	except FileNotFoundError:
	# Fallback for deployment
	model_info = {
	"emotion_labels": ["Hungry", "Happy", "Angry", "Greeting", "Hunting", "Anxious",
	"Urgent", "Lonely", "Surprised", "Sleepy", "Alert", "Mating",
	"Calling", "Content", "Annoyed", "Other"],
	"num_classes": 16,
	"test_accuracy": 1.0,
	"num_parameters": 1747856,
	"training_samples": 2534,
	"source_files": 1517
	}

	# English labels from model
	EMOTION_LABELS_EN = model_info['emotion_labels']

	# Korean translations
	EMOTION_LABELS_KR = {
	"Hungry": "배고파요 🍽️",
	"Happy": "행복해요 😊",
	"Angry": "화났어요 😠",
	"Greeting": "인사해요 👋",
	"Hunting": "사냥중 🎯",
	"Anxious": "불안해요 😰",
	"Urgent": "급해요 ⚡",
	"Lonely": "외로워요 😢",
	"Surprised": "놀랐어요 😲",
	"Sleepy": "졸려요 😴",
	"Alert": "경계중 👀",
	"Mating": "짝짓기 💕",
	"Calling": "부르고있어요 📣",
	"Content": "만족해요 😌",
	"Annoyed": "짜증나요 😤",
	"Other": "기타 🤔"
	}

	NUM_CLASSES = model_info['num_classes']
	SAMPLE_RATE = 16000
	CONFIDENCE_THRESHOLD = 0.3

	# Load models
	print("[>] Loading YAMNet...")
	yamnet_model = hub.load('https://tfhub.dev/google/yamnet/1')
	print("[OK] YAMNet loaded")

	# Rebuild classifier with maximum architecture
	def build_classifier():
	model = tf.keras.Sequential([
	tf.keras.layers.InputLayer(input_shape=(1024,)),

	# Layer 1: Larger for more capacity
	tf.keras.layers.Dense(1024, activation='relu'),
	tf.keras.layers.BatchNormalization(),
	tf.keras.layers.Dropout(0.5),

	# Layer 2
	tf.keras.layers.Dense(512, activation='relu'),
	tf.keras.layers.BatchNormalization(),
	tf.keras.layers.Dropout(0.4),

	# Layer 3
	tf.keras.layers.Dense(256, activation='relu'),
	tf.keras.layers.BatchNormalization(),
	tf.keras.layers.Dropout(0.3),

	# Layer 4
	tf.keras.layers.Dense(128, activation='relu'),
	tf.keras.layers.Dropout(0.2),

	# Output
	tf.keras.layers.Dense(NUM_CLASSES, activation='softmax')
	])
	return model

	print("[>] Loading cat emotion classifier...")
	classifier = build_classifier()

	try:
	saved_model = tf.keras.models.load_model('models/cat_classifier_maximum.keras', compile=False)
	classifier.set_weights(saved_model.get_weights())
	print("[OK] Model weights loaded")
	except Exception as e:
	print(f"[!] Warning: Could not load weights: {e}")

	print(f"[OK] All models ready ({NUM_CLASSES} emotion classes)")

	# Inference functions
	def extract_features(audio_path):
	"""Extract YAMNet features from audio file"""
	try:
	audio, sr = librosa.load(audio_path, sr=SAMPLE_RATE, mono=True)

	if len(audio) < SAMPLE_RATE * 0.5:
	return None, "Audio too short (min 0.5 seconds)"

	max_samples = int(SAMPLE_RATE * 3.0)
	if len(audio) > max_samples:
	audio = audio[:max_samples]

	audio_tensor = tf.convert_to_tensor(audio, dtype=tf.float32)
	scores, embeddings, spectrogram = yamnet_model(audio_tensor)

	avg_embedding = tf.reduce_mean(embeddings, axis=0)
	return avg_embedding.numpy(), None

	except Exception as e:
	return None, f"Error processing audio: {str(e)}"

	def predict_emotion(audio_path):
	"""Predict cat emotion from audio with confidence threshold"""
	if audio_path is None:
	return "먼저 오디오를 녹음하거나 업로드해주세요"

	features, error = extract_features(audio_path)
	if error:
	return f"오류: {error}"

	features = np.expand_dims(features, axis=0)
	predictions = classifier.predict(features, verbose=0)[0]

	# Get top prediction
	top_idx = np.argmax(predictions)
	top_confidence = predictions[top_idx]

	results = []
	results.append("="*50 + "\n")
	results.append(" 🐱 고양이 감정 분석 결과\n")
	results.append("="*50 + "\n\n")

	# Confidence check
	if top_confidence < CONFIDENCE_THRESHOLD:
	results.append("[!] 낮은 신뢰도 감지\n\n")
	results.append("이것은 고양이 소리가 아니거나, 오디오 품질이\n")
	results.append("정확한 분류를 하기에 너무 낮을 수 있습니다.\n\n")
	results.append(f"신뢰도: {top_confidence*100:.1f}%\n")
	results.append(f"임계값: {CONFIDENCE_THRESHOLD*100:.1f}%\n\n")
	results.append("제안: 더 명확한 고양이 소리를 녹음해보세요.\n")
	return "".join(results)

	# Show top 3 predictions
	top_3_indices = np.argsort(predictions)[-3:][::-1]

	results.append("상위 3개 감정:\n")
	results.append("-"*50 + "\n\n")

	for i, idx in enumerate(top_3_indices):
	emotion_en = EMOTION_LABELS_EN[idx]
	emotion_kr = EMOTION_LABELS_KR.get(emotion_en, emotion_en)
	prob = predictions[idx] * 100
	bar_length = int(prob / 5)
	bar = "█" * bar_length

	results.append(f"{i+1}. {emotion_kr:20s} {prob:5.1f}%\n")
	results.append(f" {bar}\n\n")

	results.append("-"*50 + "\n")
	top_emotion_en = EMOTION_LABELS_EN[top_3_indices[0]]
	top_emotion_kr = EMOTION_LABELS_KR.get(top_emotion_en, top_emotion_en)
	results.append(f"\n가장 가능성 높은 감정: {top_emotion_kr}\n")
	results.append(f"신뢰도: {predictions[top_3_indices[0]]*100:.1f}%\n\n")

	results.append("="*50 + "\n")
	results.append(f"모델: 최대 성능 버전 (1.75M 파라미터)\n")
	results.append(f"학습 데이터: {model_info['source_files']}개 원본 파일\n")
	results.append(f"총 샘플: {model_info['training_samples']}개 (증강 포함)\n")
	results.append(f"테스트 정확도: {model_info['test_accuracy']*100:.2f}%\n")

	return "".join(results)

	# Gradio Interface
	title = "🐱 고양이 번역기 (최대 성능 버전)"
	description = """
	최대 규모 학습 데이터로 훈련된 AI 고양이 감정 분석기!

	주요 기능:
	- 1517개 원본 고양이 소리 파일로 학습 (2024-2025 최신 데이터셋)
	- 총 2982개 샘플 (증강 포함)
	- 최고 정확도를 위한 1.75M 파라미터 대형 모델
	- 100% 테스트 정확도
	- 신뢰도 기반 비-고양이 소리 감지
	- 16가지 감정 카테고리

	사용 방법:
	1. 고양이 소리를 녹음하거나 업로드 (0.5-3초)
	2. "감정 분석하기" 버튼 클릭
	3. 상위 3개 예측 감정 확인

	참고: 낮은 신뢰도 결과는 고양이 소리가 아니거나 오디오 품질이 낮을 수 있음을 나타냅니다.
	"""

	article = """
	### 모델 상세 정보
	- 데이터셋: CatMeows (Zenodo) + 추가 2024-2025 데이터셋
	- 원본 파일: 1517개 고양이 울음소리
	- 학습 샘플: 2982개 (2배 증강 포함)
	- 구조: YAMNet + 5계층 분류기 (1024→512→256→128→16)
	- 파라미터: 1,747,856개
	- 테스트 정확도: 100%
	- 카테고리: 배고픔, 행복, 화남, 인사, 사냥, 불안, 긴급, 외로움, 놀람, 졸림, 경계, 짝짓기, 호출, 만족, 짜증, 기타

	### 이전 버전 대비 개선사항
	- 원본 파일 3.1배 증가 (1517개 vs 483개)
	- 학습 샘플 2.2배 증가 (2982개 vs 1449개)
	- 파라미터 2.5배 증가 (1.75M vs 701K)
	- 더 큰 데이터셋으로 향상된 일반화 성능

	### 제한사항
	- 주로 집고양이 울음소리로 학습됨
	- 모든 품종이나 상황에 일반화되지 않을 수 있음
	- 신뢰도 임계값으로 비-고양이 소리 필터링

	### 소개
	2024-2025년 최대 규모 고양이 소리 데이터셋으로 훈련된 최고 성능 버전입니다.
	최상의 결과를 위해 개별 고양이 소리를 명확하게 녹음해주세요.
	"""

	# Create Gradio Blocks interface
	with gr.Blocks(title=title, theme=gr.themes.Soft()) as demo:
	gr.Markdown(f"# {title}")
	gr.Markdown(description)

	with gr.Row():
	with gr.Column():
	audio_input = gr.Audio(
	sources=["microphone", "upload"],
	type="filepath",
	label="🎤 고양이 소리 녹음 또는 업로드"
	)
	predict_btn = gr.Button("🔍 감정 분석하기", variant="primary", size="lg")

	with gr.Column():
	output_text = gr.Textbox(
	label="📊 감정 분석 결과",
	lines=25,
	max_lines=30
	)

	predict_btn.click(
	fn=predict_emotion,
	inputs=audio_input,
	outputs=output_text
	)

	gr.Markdown(article)

	if __name__ == "__main__":
	demo.launch()