Spaces:

VicGerardoPR
/

BudtenderGuide

Sleeping

VicGerardoPR commited on May 17, 2025

Commit

40c25a8

verified ·

1 Parent(s): f3d805b

Upload 4 files

Files changed (2) hide show

README.md CHANGED Viewed

@@ -4,19 +4,19 @@ emoji: 🌿
 colorFrom: green
 colorTo: purple
 sdk: gradio
-sdk_version: 5.29.1
 app_file: app.py
 pinned: false
 license: mit
 tags:
-- cannabis
-- terpenes
-- llm
-- gradio
-- health
-- pdf
 ---
 # 🌿 Budtender AI Assistant
-**Budtender AI Assistant** es una aplicación que analiza automáticamente certificados de análisis de flores de cannabis en formato PDF y ofrece una interpretación experta sobre sus posibles efectos, beneficios y características, basada en su perfil de terpenos y cannabinoides.

 colorFrom: green
 colorTo: purple
 sdk: gradio
+sdk_version: 4.15.0
 app_file: app.py
 pinned: false
 license: mit
 tags:
+  - cannabis
+  - terpenes
+  - llm
+  - gradio
+  - health
+  - pdf
 ---
 # 🌿 Budtender AI Assistant
+**Budtender AI Assistant** analiza certificados de análisis de cannabis, extrayendo solamente las secciones relevantes de terpenos y cannabinoides. Esto permite interpretaciones precisas, rápidas y compatibles con modelos livianos de lenguaje natural.

utils/interpret_lab_pdf.py CHANGED Viewed

@@ -1,37 +1,34 @@
 import fitz  # PyMuPDF
-from transformers import pipeline
-from transformers import AutoTokenizer
 generator = pipeline("text-generation", model="tiiuae/falcon-rw-1b")
 tokenizer = AutoTokenizer.from_pretrained("tiiuae/falcon-rw-1b")
-def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
     text = ""
     for page in doc:
-        text += page.get_text()
     return text
 def analyze_pdf(pdf_path):
-    text = extract_text_from_pdf(pdf_path)
-    # Prompt fijo
     prefix = (
-        "Eres un experto en cannabis medicinal. Analiza el siguiente certificado de análisis "
-        "y brinda una interpretación clara sobre los efectos, usos potenciales y características del strain basado en los terpenos y cannabinoides. "
-        "No enfatices pesticidas ni contaminantes.\n\n"
     )
-    # Codificar prompt + texto completo
     full_input = prefix + text
     tokens = tokenizer(full_input, truncation=True, max_length=1024, return_tensors="pt")
-    # Decodificar tokens truncados
     truncated_input = tokenizer.decode(tokens["input_ids"][0], skip_special_tokens=True)
-    # Ejecutar modelo con input seguro
     result = generator(truncated_input, max_new_tokens=300, do_sample=True)
     return result[0]['generated_text'].split("Interpretación:")[-1].strip()

 import fitz  # PyMuPDF
+from transformers import pipeline, AutoTokenizer
 generator = pipeline("text-generation", model="tiiuae/falcon-rw-1b")
 tokenizer = AutoTokenizer.from_pretrained("tiiuae/falcon-rw-1b")
+def extract_relevant_text(pdf_path):
     doc = fitz.open(pdf_path)
     text = ""
     for page in doc:
+        page_text = page.get_text()
+        for line in page_text.splitlines():
+            if "Terpenes" in line or "Cannabinoids" in line:
+                text += line + "\n"
+            elif any(sub in line for sub in ["mg/g", "%", "THC", "CBD", "Myrcene", "Limonene", "Caryophyllene", "Humulene", "Linalool", "Pinene", "Ocimene"]):
+                text += line + "\n"
     return text
 def analyze_pdf(pdf_path):
+    text = extract_relevant_text(pdf_path)
     prefix = (
+        "Eres un experto en cannabis medicinal. Analiza los siguientes datos del análisis de una cepa de cannabis. "
+        "Describe sus efectos, usos terapéuticos y el perfil del strain según sus niveles de terpenos y cannabinoides:
+"
     )
     full_input = prefix + text
     tokens = tokenizer(full_input, truncation=True, max_length=1024, return_tensors="pt")
     truncated_input = tokenizer.decode(tokens["input_ids"][0], skip_special_tokens=True)
     result = generator(truncated_input, max_new_tokens=300, do_sample=True)
     return result[0]['generated_text'].split("Interpretación:")[-1].strip()