Nancy1906 commited on
Commit
f348df0
·
verified ·
1 Parent(s): 8e99664
Files changed (1) hide show
  1. app.py +5 -14
app.py CHANGED
@@ -1,27 +1,18 @@
1
  import os
2
  import nltk
3
 
4
- # 1) Apuntar NLTK_DATA a tu carpeta del repo (ya creada): nltk_data
5
- # Esto debe ir antes de cualquier import que use nltk (incluido llama_index).
6
  os.environ["NLTK_DATA"] = "nltk_data"
7
 
8
- # 2) Insertar tu carpeta en la lista de búsqueda de nltk (prioritaria)
9
  nltk.data.path.insert(0, "nltk_data")
10
 
11
- # 3) Si el tokenizador 'punkt' ya está descargado en nltk_data, no hace nada.
12
- # Si no lo está, lo detectaremos aquí. No lo volvemos a descargar en este archivo,
13
- # porque ya lo pudo haber descargado en postBuild.
14
- # Simplemente comprobamos existencia y, si no existe, emitimos un warning.
15
  try:
16
  nltk.data.find("tokenizers/punkt")
17
  nltk.data.find("corpora/stopwords")
18
- except LookupError:
19
- # Opcionalmente, podrías intentar descargar aquí (pero luego el Space lo reseteará
20
- # al no estar en git). Por eso, lo mejor ya es hacerlo en postBuild.
21
- print("WARNING: 'punkt' no encontrado en nltk_data. Asegúrate de haberlo descargado en postBuild.")
22
- # Si quieres forzar descarga aquí (útil solo si tienes persistent storage habilitado),
23
- # podrías descomentar la línea siguiente:
24
- # nltk.download('punkt', download_dir='nltk_data', quiet=True)
25
 
26
  # ── Ahora SÍ traemos el resto de librerías que usan nltk y llama_index ──────
27
  import gradio as gr
 
1
  import os
2
  import nltk
3
 
4
+ # 1) Apuntar a la carpeta nltk_data (ya creada en el build)
 
5
  os.environ["NLTK_DATA"] = "nltk_data"
6
 
7
+ # 2) Ponerla al inicio de las rutas de búsqueda de NLTK
8
  nltk.data.path.insert(0, "nltk_data")
9
 
10
+ # 3) Verificar que existan 'punkt' y 'stopwords'; si falta alguno, imprimir warning
 
 
 
11
  try:
12
  nltk.data.find("tokenizers/punkt")
13
  nltk.data.find("corpora/stopwords")
14
+ except LookupError as e:
15
+ print(f"WARNING: Recurso NLTK no encontrado en nltk_data: {e}")
 
 
 
 
 
16
 
17
  # ── Ahora SÍ traemos el resto de librerías que usan nltk y llama_index ──────
18
  import gradio as gr