Spaces:

jjeampierjs
/

jose_test_deploy

Configuration error

App Files Files Community

jose_test_deploy / README.md

jjeampierjs

Upload README.md

0447c0a verified 8 months ago

preview code

raw

history blame contribute delete

9.93 kB

	# 🏦 Analizador de Comprobantes Bancarios

	## 📋 Descripción del Proyecto

	Esta aplicación web desarrollada en Streamlit permite extraer información específica de comprobantes bancarios utilizando Amazon Textract, un servicio de AWS especializado en extracción de texto y análisis de documentos. La aplicación puede procesar imágenes de comprobantes y extraer automáticamente datos como montos, números de operación, fechas, y más información relevante.

	## 🎯 Funcionalidades Principales

	- ✅ Extracción automática de texto de comprobantes bancarios
	- ✅ Análisis inteligente de formularios y tablas
	- ✅ Reconocimiento de patrones específicos bancarios
	- ✅ Exportación de datos extraídos en formato JSON
	- ✅ Interfaz web intuitiva con vista previa de documentos

	## 🛠️ Tecnologías Utilizadas

	### Librerías Principales

	- Streamlit: Framework para crear aplicaciones web interactivas
	- boto3: SDK oficial de AWS para Python (interacción con servicios AWS)
	- PIL (Pillow): Procesamiento y manipulación de imágenes
	- pandas: Manipulación y análisis de datos estructurados
	- re: Expresiones regulares para extracción de patrones

	### Servicios AWS

	- Amazon Textract: Servicio de extracción de texto y análisis de documentos

	## 📁 Estructura del Código

	### 1. Clase `BankingReceiptAnalyzer`

	Propósito: Gestiona la comunicación con AWS Textract para el análisis de documentos.

	#### Método `__init__(self)`
	```python
	def __init__(self):
	```
	- Función: Constructor que inicializa la conexión con AWS Textract
	- Consumo de librería: Utiliza `boto3.client()` para crear cliente de Textract
	- Configuración: Lee credenciales desde `st.secrets` (AWS_ACCESS_KEY_ID, AWS_SECRET_ACCESS_KEY, AWS_DEFAULT_REGION)
	- Manejo de errores: Valida credenciales y maneja excepciones de conexión

	#### Método `analyze_document_with_forms(self, image_bytes)`
	```python
	def analyze_document_with_forms(self, image_bytes: bytes) -> Dict[str, Any]:
	```
	- Función: Análisis avanzado de documentos con reconocimiento de formularios y tablas
	- Consumo AWS: Utiliza `textract.analyze_document()` con características:
	- `FORMS`: Detecta pares clave-valor en formularios
	- `TABLES`: Reconoce estructuras tabulares
	- Parámetros: Recibe bytes de la imagen del documento
	- Retorno: Diccionario con bloques de texto estructurados o mensaje de error

	#### Método `extract_text_simple(self, image_bytes)`
	```python
	def extract_text_simple(self, image_bytes: bytes) -> Dict[str, Any]:
	```
	- Función: Extracción básica de texto línea por línea
	- Consumo AWS: Utiliza `textract.detect_document_text()` (método más simple)
	- Procesamiento: Filtra bloques de tipo 'LINE' para obtener texto legible
	- Uso: Ideal para documentos con texto simple sin estructura compleja

	### 2. Clase `BankingDataExtractor`

	Propósito: Procesa el texto extraído y identifica campos específicos bancarios usando patrones.

	#### Método `extract_banking_fields(text)`
	```python
	@staticmethod
	def extract_banking_fields(text: str) -> Dict[str, str]:
	```
	- Función: Extrae información bancaria específica usando expresiones regulares
	- Consumo de librería: Utiliza `re.search()` para patrones regex
	- Campos detectables:
	- 💰 Importe enviado (S/ XXX.XX)
	- 🏦 Entidad destino (nombre del banco)
	- 💳 Comisión (S/ X.XX)
	- 📊 ITF (Impuesto a las Transacciones Financieras)
	- 🔢 Número de operación
	- 📝 Tipo de operación
	- 📅 Fecha y hora
	- ✅ Estado de operación

	Patrones de Búsqueda Ejemplo:
	```python
	'importe_enviado': [
	r'Importe enviado\sS/\s(\d+\.?\d*)',
	r'S/\s(\d+\.?\d)',
	r'Monto\sS/\s(\d+\.?\d*)'
	]
	```

	#### Método `_extract_account_numbers(text, fields)`
	```python
	@staticmethod
	def _extract_account_numbers(text: str, fields: Dict[str, str]) -> None:
	```
	- Función: Identifica números de cuenta origen y destino
	- Patrones: Busca formatos como "•1234", "Cuenta 123456789"
	- Lógica: Asigna primera cuenta como origen y segunda como destino

	#### Método `_extract_bank_names(text, fields)`
	```python
	@staticmethod
	def _extract_bank_names(text: str, fields: Dict[str, str]) -> None:
	```
	- Función: Detecta nombres de bancos peruanos comunes
	- Bancos soportados: BBVA, Plin, BCP, Interbank, Scotiabank, BanBif
	- Método: Búsqueda case-insensitive en el texto

	### 3. Función `display_extracted_banking_data(fields)`

	Propósito: Presenta los datos extraídos en una interfaz visual organizada.

	- Consumo Streamlit: Utiliza `st.metric()`, `st.dataframe()`, `st.columns()`
	- Funcionalidades:
	- Métricas destacadas (importe, entidad, estado)
	- Tabla detallada con todos los campos
	- Indicadores de estado (detectado/no detectado)
	- Botón de descarga en formato JSON
	- Exportación: Genera archivo JSON con timestamp y estadísticas de completitud

	### 4. Función `process_banking_receipt(uploaded_file, analyzer)`

	Propósito: Orquesta el proceso completo de análisis de un comprobante.

	- Consumo PIL: Utiliza `Image.open()` para mostrar vista previa
	- Funcionalidades:
	- Vista previa del documento subido
	- Dos métodos de análisis (Tabs):
	- Análisis avanzado con formularios
	- Extracción simple de texto
	- Procesamiento de bytes del archivo
	- Manejo de errores y estados de carga

	### 5. Función `main()`

	Propósito: Función principal que construye la interfaz de usuario completa.

	- Consumo Streamlit: Utiliza múltiples componentes:
	- `st.title()`, `st.markdown()`: Títulos y contenido
	- `st.sidebar`: Panel lateral informativo
	- `st.file_uploader()`: Subida de archivos
	- `st.columns()`: Layout en columnas
	- Validaciones: Verifica credenciales AWS antes de continuar
	- Tipos de archivo: Soporta JPG, PNG, PDF

	## FUNCIONAMIENTO


	## 🧠 Dos "servicios" o capas distintas en el proceso

	### 🔹 1. OCR con IA → Textract (`extract_text_simple`)

	* Es el servicio de reconocimiento de texto (OCR) de [AWS Textract](w).
	* Detecta el texto visual en una imagen escaneada (como un comprobante bancario).
	* No interpreta lo que ese texto significa, solo lo reconoce y lo devuelve como líneas o palabras.
	* Es como un escáner con visión artificial inteligente, que ve:

	```
	"Importe enviado S/ 1250.00"
	```

	---

	### 🔹 2. Servicio tipo “tag” semántico → `BankingDataExtractor`

	* Es un servicio personalizado, hecho por ti (o el desarrollador).
	* Usa expresiones regulares para “etiquetar” o clasificar partes del texto como:

	* `importe_enviado`, `fecha`, `comisión`, etc.
	* Es como un motor de reglas semánticas que dice:

	> `Importe enviado S/ X`, eso es el campo `importe_enviado`.”

	---

	## 🧪 Definicion:

	> AWS Textract es como un lector que lee el contenido de una carta (OCR),
	> `BankingDataExtractor` es un asistente que resalta lo importante con marcadores: el nombre del remitente, la fecha, el asunto, etc.

	---

	## 🧩 Diagrama:

	```
	🖼️ Imagen JPG/PDF
	│
	▼
	🧠 AWS Textract (OCR IA)
	└──▶ Texto plano
	│
	▼
	🧾 BankingDataExtractor (Regex/tagger)
	└──▶ Datos estructurados clave-valor
	```

	---

	## ✅ Conclusión:

	> Se usan 2 servicios: uno (Textract) es como un OCR con inteligencia artificial que extrae el texto visible, y el otro (el extractor con regex) etiqueta o clasifica semánticamente ese texto para obtener información útil y estructurada.



	## 🔧 Configuración y Uso

	### 1. Configuración de AWS

	Archivo: `secrets.toml` (Streamlit)
	```toml
	[aws]
	AWS_ACCESS_KEY_ID = "tu_access_key"
	AWS_SECRET_ACCESS_KEY = "tu_secret_key"
	AWS_DEFAULT_REGION = "us-east-1"
	```

	### 2. Instalación de Dependencias

	```bash
	pip install streamlit boto3 pillow pandas
	```

	### 3. Ejecución

	```bash
	streamlit run app.py
	```

	## 📊 Flujo de Trabajo

	1. Carga de Documento: Usuario sube imagen del comprobante
	2. Procesamiento AWS: Textract extrae texto y estructura
	3. Análisis de Patrones: Regex identifica campos bancarios específicos
	4. Visualización: Streamlit muestra datos extraídos
	5. Exportación: Descarga opcional en JSON

	## 🎯 Casos de Uso

	- ✅ Automatización de contabilidad empresarial
	- ✅ Reconciliación bancaria automatizada
	- ✅ Digitalización de comprobantes físicos
	- ✅ Auditorías y reportes financieros
	- ✅ Integración con sistemas ERP

	## ⚠️ Consideraciones Importantes

	### Limitaciones de AWS Textract
	- Costo: Servicio pagado por documento procesado
	- Calidad: Requiere imágenes claras y bien iluminadas
	- Idioma: Optimizado para texto en español/inglés

	### Seguridad
	- Credenciales AWS deben mantenerse seguras
	- Los documentos se procesan temporalmente en AWS
	- No se almacenan datos permanentemente

	## 🚀 Mejoras Futuras

	- 🔄 Procesamiento por lotes (múltiples comprobantes)
	- 🤖 Machine Learning personalizado para patrones específicos
	- 📱 Versión móvil optimizada
	- 🔐 Autenticación de usuarios
	- 📈 Dashboard de estadísticas

	## 📞 Soporte

	Para consultas técnicas o mejoras al código, contactar al desarrollador: [@JoseJeampierJaraSalas1997](https://github.com/JoseJeampierJaraSalas1997)

	---

	Nota: Este proyecto utiliza Amazon Textract, no Amazon Rekognition. Textract está especializado en extracción de texto y análisis de documentos, mientras que Rekognition se enfoca en reconocimiento de imágenes, caras y objetos.