aysalas commited on
Commit
387ef08
·
verified ·
1 Parent(s): 93db579

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +33 -0
app.py CHANGED
@@ -4,6 +4,39 @@ import tempfile
4
  import re
5
  import unicodedata
6
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7
 
8
  def extraer_texto_pdf(archivo_pdf):
9
  if archivo_pdf is None:
 
4
  import re
5
  import unicodedata
6
 
7
+ def limpiar_texto(texto):
8
+ # Normaliza caracteres Unicode (acentos y símbolos)
9
+ texto = unicodedata.normalize("NFKD", texto)
10
+
11
+ # Elimina caracteres no imprimibles
12
+ texto = re.sub(
13
+ r"[^\x09\x0A\x0D\x20-\x7EáéíóúÁÉÍÓÚñÑüÜ]",
14
+ "",
15
+ texto
16
+ )
17
+
18
+ # Reemplazos comunes de símbolos en PDFs
19
+ reemplazos = {
20
+ "�": "",
21
+ "•": "-",
22
+ "▪": "-",
23
+ "–": "-",
24
+ "—": "-",
25
+ "“": '"',
26
+ "”": '"',
27
+ "‘": "'",
28
+ "’": "'",
29
+ "Â": "",
30
+ }
31
+
32
+ for simbolo, reemplazo in reemplazos.items():
33
+ texto = texto.replace(simbolo, reemplazo)
34
+
35
+ # Limpia espacios y saltos de línea excesivos
36
+ texto = re.sub(r"\n{3,}", "\n\n", texto)
37
+ texto = re.sub(r"[ \t]{2,}", " ", texto)
38
+
39
+ return texto.strip()
40
 
41
  def extraer_texto_pdf(archivo_pdf):
42
  if archivo_pdf is None: