Nancy1906 commited on
Commit
527c93a
·
verified ·
1 Parent(s): 1af1fd1
Files changed (1) hide show
  1. app.py +24 -0
app.py CHANGED
@@ -1,4 +1,28 @@
1
  import os
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  import gradio as gr
3
  import requests
4
  import inspect
 
1
  import os
2
+ import nltk
3
+
4
+ # 1) Apuntar NLTK_DATA a tu carpeta del repo (ya creada): nltk_data
5
+ # Esto debe ir antes de cualquier import que use nltk (incluido llama_index).
6
+ os.environ["NLTK_DATA"] = "nltk_data"
7
+
8
+ # 2) Insertar tu carpeta en la lista de búsqueda de nltk (prioritaria)
9
+ nltk.data.path.insert(0, "nltk_data")
10
+
11
+ # 3) Si el tokenizador 'punkt' ya está descargado en nltk_data, no hace nada.
12
+ # Si no lo está, lo detectaremos aquí. No lo volvemos a descargar en este archivo,
13
+ # porque ya lo pudo haber descargado en postBuild.
14
+ # Simplemente comprobamos existencia y, si no existe, emitimos un warning.
15
+ try:
16
+ nltk.data.find("tokenizers/punkt")
17
+ except LookupError:
18
+ # Opcionalmente, podrías intentar descargar aquí (pero luego el Space lo reseteará
19
+ # al no estar en git). Por eso, lo mejor ya es hacerlo en postBuild.
20
+ print("WARNING: 'punkt' no encontrado en nltk_data. Asegúrate de haberlo descargado en postBuild.")
21
+ # Si quieres forzar descarga aquí (útil solo si tienes persistent storage habilitado),
22
+ # podrías descomentar la línea siguiente:
23
+ # nltk.download('punkt', download_dir='nltk_data', quiet=True)
24
+
25
+ # ── Ahora SÍ traemos el resto de librerías que usan nltk y llama_index ──────
26
  import gradio as gr
27
  import requests
28
  import inspect