Darveht
/

ZenVision-AI-Subtitle-Generator

@@ -51,75 +51,59 @@ model-index:
 # 🎬 ZenVision AI Subtitle Generator
-**Modelo avanzado de subtitulado automático desarrollado por el equipo ZenVision**
-ZenVision es un sistema de inteligencia artificial de más de 3GB que combina múltiples tecnologías de vanguardia para generar subtítulos precisos y contextuales para videos.
-## 🚀 Características del Modelo
-### 🧠 Arquitectura Multi-Modal
-- **Whisper Large-v2**: Transcripción de audio de alta precisión (1.5GB)
-- **BERT Multilingual**: Embeddings contextuales (400MB)
-- **RoBERTa Sentiment**: Análisis de sentimientos (200MB)
-- **DistilRoBERTa Emotions**: Detección de emociones (300MB)
-- **Helsinki-NLP Translation**: Modelos de traducción (500MB)
-- **spaCy + NLTK**: Procesamiento de lenguaje natural (300MB)
-### 📊 Especificaciones Técnicas
-| Componente | Tamaño | Función |
-|------------|--------|---------|
-| Whisper Large-v2 | 1.5 GB | Transcripción de audio |
-| BERT Multilingual | 400 MB | Embeddings contextuales |
-| RoBERTa Sentiment | 200 MB | Análisis de sentimientos |
-| DistilRoBERTa Emotions | 300 MB | Detección de emociones |
-| Translation Models | 500 MB | Traducción multiidioma |
-| NLP Components | 300 MB | Procesamiento de texto |
-| **TOTAL** | **~3.2 GB** | **Sistema completo** |
-### 🎯 Capacidades
-- **Transcripción**: 90+ idiomas con precisión del 95%+
-- **Traducción**: 10+ idiomas de destino
-- **Análisis Emocional**: 7 emociones básicas detectadas
-- **Formatos de Salida**: SRT, VTT, JSON con metadatos
-- **Procesamiento en Tiempo Real**: 2-4x velocidad real (GPU)
-## 🔧 Uso del Modelo
-### Instalación
-```bash
-pip install torch transformers whisper moviepy librosa opencv-python
-pip install gradio spacy nltk googletrans==4.0.0rc1
-```
-### Uso Básico
 ```python
 from app import ZenVisionModel
-# Inicializar modelo
-zenvision = ZenVisionModel()
-# Procesar video
-video_path, subtitles, status = zenvision.process_video(
-    video_file="mi_video.mp4",
     target_language="es",
     include_emotions=True
 )
 ```
-### Ejemplo de API
 ```python
 import gradio as gr
 from app import ZenVisionModel
-# Cargar modelo
 model = ZenVisionModel()
-# Crear interfaz
 demo = gr.Interface(
     fn=model.process_video,
     inputs=[
@@ -137,77 +121,114 @@ demo = gr.Interface(
 demo.launch()
 ```
-## 📈 Rendimiento
-### Precisión por Idioma
-- **Inglés**: 97.2%
-- **Español**: 95.8%
-- **Francés**: 94.5%
-- **Alemán**: 93.1%
-- **Italiano**: 94.8%
-- **Portugués**: 95.2%
-### Velocidad de Procesamiento
-- **CPU (Intel i7)**: 0.3x tiempo real
-- **GPU (RTX 3080)**: 2.1x tiempo real
-- **GPU (RTX 4090)**: 3.8x tiempo real
-## 🛠️ Arquitectura Técnica
 ```
-┌─────────────────┐    ┌──────────────────┐    ┌─────────────────┐
-│   Video Input   │───▶│  Audio Extraction │───▶│ Whisper Large-v2│
-└─────────────────┘    └──────────────────┘    └─────────────────┘
-                                                         │
-┌─────────────────┐    ┌──────────────────┐    ┌─────────────────┐
-│ Subtitle Output │◀───│  Text Processing  │◀───│   Transcription │
-└─────────────────┘    └──────────────────┘    └─────────────────┘
-         │                       │                       │
-         │              ┌──────────────────┐    ┌─────────────────┐
-         │              │   Translation    │◀───│ BERT Embeddings │
-         │              │ (Helsinki-NLP)   │    └─────────────────┘
-         │              └──────────────────┘             │
-         │                       │              ┌─────────────────┐
-         │              ┌──────────────────┐    │ Emotion Analysis│
-         └─────────────▶│ Emotion Coloring │◀───│  (DistilRoBERTa)│
-                        └──────────────────┘    └─────────────────┘
 ```
-## 🎨 Características Avanzadas
-### Análisis Emocional
-- **Joy**: Subtítulos amarillos
-- **Sadness**: Subtítulos azules
-- **Anger**: Subtítulos rojos
-- **Fear**: Subtítulos morados
-- **Surprise**: Subtítulos naranjas
-- **Disgust**: Subtítulos verdes
-- **Neutral**: Subtítulos blancos
-### Procesamiento de Audio
-- **MFCC**: Coeficientes cepstrales
-- **Spectral Centroids**: Análisis de frecuencia
-- **Chroma Features**: Características tonales
-- **Pause Detection**: Segmentación inteligente
-## 📄 Licencia
-Este modelo está licenciado bajo la Licencia MIT. Ver [LICENSE](LICENSE) para más detalles.
-## 👥 Equipo ZenVision
-Desarrollado por especialistas en:
-- **Arquitectura de IA**: Modelos de lenguaje y visión
-- **Procesamiento de Audio**: Análisis de señales digitales
-- **NLP**: Procesamiento de lenguaje natural
-- **Computer Vision**: Análisis de video y multimedia
-## 🔗 Enlaces
-- **Repositorio**: [GitHub](https://github.com/zenvision/ai-subtitle-generator)
-- **Documentación**: [docs.zenvision.ai](https://docs.zenvision.ai)
 - **Demo**: [Hugging Face Space](https://huggingface.co/spaces/zenvision/demo)
 ---
-**ZenVision** - Revolucionando la accesibilidad audiovisual con inteligencia artificial 🚀

 # 🎬 ZenVision AI Subtitle Generator
+**Advanced 3GB+ AI model for automatic video subtitle generation**
+ZenVision combines multiple state-of-the-art AI technologies to generate accurate and contextual subtitles for videos with emotion analysis and multi-language support.
+## 🚀 Model Architecture
+### Multi-Modal AI System (3.2GB)
+- **Whisper Large-v2**: Audio transcription
+- **BERT Multilingual**: Text embeddings
+- **RoBERTa Sentiment**: Sentiment analysis
+- **DistilRoBERTa Emotions**: Emotion detection
+- **Helsinki Translation**: Multi-language translation
+- **Advanced NLP**: spaCy + NLTK processing
+### Key Features
+- **90+ languages** transcription support
+- **10+ languages** translation
+- **7 emotions** detected with adaptive colors
+- **Real-time processing** 2-4x speed
+- **Multiple formats** SRT, VTT, JSON output
+- **95%+ accuracy** in optimal conditions
+## 🔧 Usage
+### Quick Start
 ```python
 from app import ZenVisionModel
+# Initialize model
+model = ZenVisionModel()
+# Process video
+video_path, subtitles, status = model.process_video(
+    video_file="video.mp4",
     target_language="es",
     include_emotions=True
 )
 ```
+### Installation
+```bash
+pip install torch transformers whisper moviepy librosa opencv-python
+pip install gradio spacy nltk googletrans==4.0.0rc1
+python -m spacy download en_core_web_sm
+```
+### Gradio Interface
 ```python
 import gradio as gr
 from app import ZenVisionModel
 model = ZenVisionModel()
 demo = gr.Interface(
     fn=model.process_video,
     inputs=[
 demo.launch()
 ```
+## 📊 Performance
+### Accuracy by Language
+- **English**: 97.2%
+- **Spanish**: 95.8%
+- **French**: 94.5%
+- **German**: 93.1%
+- **Italian**: 94.8%
+- **Portuguese**: 95.2%
+### Processing Speed
+- **CPU (Intel i7)**: 0.3x real-time
+- **GPU (RTX 3080)**: 2.1x real-time
+- **GPU (RTX 4090)**: 3.8x real-time
+## 🎨 Emotion-Based Styling
+- **Joy**: Yellow subtitles
+- **Sadness**: Blue subtitles
+- **Anger**: Red subtitles
+- **Fear**: Purple subtitles
+- **Surprise**: Orange subtitles
+- **Disgust**: Green subtitles
+- **Neutral**: White subtitles
+## 🛠️ Technical Architecture
+```
+Video Input → Audio Extraction → Whisper Large-v2 → Transcription
+     ↓              ↓                    ↓              ↓
+Text Processing ← Translation ← BERT Embeddings ← Emotion Analysis
+     ↓              ↓                    ↓              ↓
+Subtitle Output ← Emotion Coloring ← Smart Formatting ← Multi-Format Export
+```
+## 📁 Output Formats
+### SRT Format
+```
+1
+00:00:01,000 --> 00:00:04,000
+Hello, welcome to this tutorial
+2
+00:00:04,500 --> 00:00:08,000
+Today we will learn about AI
+```
+### VTT Format
+```
+WEBVTT
+00:00:01.000 --> 00:00:04.000
+Hello, welcome to this tutorial
+00:00:04.500 --> 00:00:08.000
+Today we will learn about AI
 ```
+### JSON with Metadata
+```json
+{
+  "start": 1.0,
+  "end": 4.0,
+  "text": "Hello, welcome to this tutorial",
+  "emotion": "joy",
+  "sentiment": "positive",
+  "confidence": 0.95,
+  "entities": [["tutorial", "MISC"]]
+}
 ```
+## 🔧 Configuration
+### Environment Variables
+```bash
+export ZENVISION_DEVICE="cuda"  # cuda, cpu, mps
+export ZENVISION_CACHE_DIR="/path/to/cache"
+export ZENVISION_MAX_DURATION=3600  # seconds
+```
+### Model Customization
+```python
+# Change Whisper model
+zenvision.whisper_model = whisper.load_model("medium")
+# Configure custom translator
+zenvision.translator = pipeline("translation", model="custom-model")
+```
+## 📄 License
+MIT License - see [LICENSE](LICENSE) for details.
+## 👥 ZenVision Team
+Developed by specialists in:
+- **AI Architecture**: Language and vision models
+- **Audio Processing**: Digital signal analysis
+- **NLP**: Natural language processing
+- **Computer Vision**: Video and multimedia analysis
+## 🔗 Links
+- **Repository**: [GitHub](https://github.com/zenvision/ai-subtitle-generator)
+- **Documentation**: [docs.zenvision.ai](https://docs.zenvision.ai)
 - **Demo**: [Hugging Face Space](https://huggingface.co/spaces/zenvision/demo)
 ---
+**ZenVision** - Revolutionizing audiovisual accessibility with artificial intelligence 🚀