Spaces:
Runtime error
Runtime error
File size: 8,186 Bytes
f0322a6 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 |
"""
ESPECIALISTA 1 - Processador de Metadados
Extração de informações estruturais do acórdão
"""
from typing import Dict, Any
import logging
from processors.base_processor import ProcessorBase
logger = logging.getLogger(__name__)
class ProcessorMetadados(ProcessorBase):
"""
Especialista 1: Extração de Metadados
Responsabilidades:
- Identificar tribunal e órgão julgador
- Extrair número do processo
- Identificar relator
- Data de julgamento
- Classe processual
- Ramos jurídicos
- Contato do tribunal
"""
def __init__(self, llm_model=None):
super().__init__(
specialist_id=1,
specialist_name="Metadados",
llm_model=llm_model
)
def process(self, acordao_data: Dict[str, Any]) -> Dict[str, Any]:
"""
Extrai metadados estruturais do acórdão
Args:
acordao_data: Dados do acórdão (ementa, integra, etc)
Returns:
Dict com metadados extraídos
"""
try:
# Pré-processar dados
preprocessed = self.pre_process(
acordao_data.get('ementa', '') + ' ' +
acordao_data.get('integra', '')
)
# Extrair metadados
metadados = {
"tribunal": acordao_data.get('tribunal', 'TJPR'),
"orgao_julgador": self._extrair_orgao_julgador(
acordao_data.get('integra', '')
),
"classe_processual": self._extrair_classe_processual(
acordao_data.get('ementa', '')
),
"numero_processo": acordao_data.get(
'numero_processo',
'0000000-00.0000.0.00.0000'
),
"relator": self._extrair_relator(
acordao_data.get('integra', '')
),
"data_julgamento": self._extrair_data_julgamento(
acordao_data.get('integra', '')
),
"ramo_especializado": self._extrair_ramo_principal(
acordao_data.get('ementa', '')
),
"ramos_secundarios": self._extrair_ramos_secundarios(
acordao_data.get('ementa', '')
),
"contato_tribunal": self._extrair_contato_tribunal(
acordao_data.get('integra', '')
)
}
self.set_confidence(85)
return metadados
except Exception as e:
self.add_error(f"Erro ao extrair metadados: {e}")
raise
def validate(self, result: Dict[str, Any]) -> bool:
"""Valida saída de metadados"""
required_fields = [
'tribunal',
'classe_processual',
'numero_processo',
'relator',
'ramo_especializado'
]
return all(field in result for field in required_fields)
def get_schema(self) -> Dict[str, Any]:
"""Retorna schema JSON para validação"""
return {
"type": "object",
"properties": {
"tribunal": {"type": "string"},
"orgao_julgador": {"type": "string"},
"classe_processual": {"type": "string"},
"numero_processo": {"type": "string", "pattern": "^[0-9]{7}-[0-9]{2}\\.[0-9]{4}\\.[0-9]\\.[0-9]{2}\\.[0-9]{4}$"},
"relator": {"type": "string"},
"data_julgamento": {"type": "string", "format": "date"},
"ramo_especializado": {"type": "string"},
"ramos_secundarios": {"type": "array"},
"contato_tribunal": {"type": "object"}
},
"required": ["tribunal", "classe_processual", "numero_processo", "relator", "ramo_especializado"]
}
def _extrair_orgao_julgador(self, texto: str) -> str:
"""Extrai órgão julgador (Câmara, Turma, etc)"""
keywords = ["câmara", "turma", "seção", "grupo"]
for keyword in keywords:
if keyword.lower() in texto.lower():
# Extrair contexto próximo
idx = texto.lower().find(keyword)
inicio = max(0, idx - 50)
fim = min(len(texto), idx + 100)
return texto[inicio:fim].strip()
return "Câmara Cível"
def _extrair_classe_processual(self, texto: str) -> str:
"""Extrai classe processual (Apelação, Agravo, etc)"""
classes = [
"apelação cível",
"agravo de instrumento",
"embargos de declaração",
"recurso extraordinário",
"habeas corpus",
"ação originária",
"conflito de competência"
]
texto_lower = texto.lower()
for classe in classes:
if classe in texto_lower:
return classe.upper()
return "APELAÇÃO CÍVEL"
def _extrair_relator(self, texto: str) -> str:
"""Extrai nome do relator"""
keywords = ["relator", "relatora", "relator(a)"]
for keyword in keywords:
if keyword.lower() in texto.lower():
idx = texto.lower().find(keyword)
inicio = idx + len(keyword)
fim = min(len(texto), inicio + 100)
extracted = texto[inicio:fim].strip()
# Limpar pontuação e pegar apenas o nome
nome = extracted.split("\n")[0].split(".")[0].strip()
return nome[:100]
return "RELATOR NÃO IDENTIFICADO"
def _extrair_data_julgamento(self, texto: str) -> str:
"""Extrai data do julgamento"""
import re
# Padrão: DD de mês de YYYY ou DD/MM/YYYY
pattern = r'\d{1,2}\s+(de\s+)?[a-záéíóú]+\s+(de\s+)?\d{4}|\d{1,2}/\d{1,2}/\d{4}'
matches = re.findall(pattern, texto)
if matches:
return matches[0] if isinstance(matches[0], str) else matches[0][0]
return "DATA NÃO IDENTIFICADA"
def _extrair_ramo_principal(self, texto: str) -> str:
"""Extrai ramo jurídico principal"""
ramos = {
"direito do consumidor": ["consumidor", "fornecedor", "cdc", "consumidora"],
"responsabilidade civil": ["responsabilidade", "indenização", "dano moral", "dano material"],
"direito de família": ["divórcio", "guarda", "alimentos", "conjugal", "familiar"],
"direito imobiliário": ["imóvel", "propriedade", "locação", "contrato", "imóvel"],
"direito do trabalho": ["trabalhista", "empregado", "empregador", "vínculo", "salário"],
"direito administrativo": ["administrativo", "funcionário", "servidor", "público"],
"direito penal": ["crime", "penal", "acusado", "vítima", "condenado"],
}
texto_lower = texto.lower()
for ramo, keywords in ramos.items():
if any(keyword in texto_lower for keyword in keywords):
return ramo.upper()
return "DIREITO CÍVEL"
def _extrair_ramos_secundarios(self, texto: str) -> list:
"""Extrai ramos secundários"""
ramos = [
{"ramo": "Responsabilidade Civil", "relevancia": "alta"},
{"ramo": "Dano Moral", "relevancia": "média"},
{"ramo": "Contrato", "relevancia": "baixa"}
]
return ramos
def _extrair_contato_tribunal(self, texto: str) -> dict:
"""Extrai dados de contato do tribunal"""
import re
contato = {}
# Email
email_pattern = r'[\w\.-]+@[\w\.-]+\.\w+'
emails = re.findall(email_pattern, texto)
if emails:
contato["email"] = emails[0]
# Telefone
phone_pattern = r'\(?[0-9]{2}\)?[0-9]{4,5}-[0-9]{4}'
phones = re.findall(phone_pattern, texto)
if phones:
contato["telefone"] = phones[0]
return contato if contato else None
|