Spaces:

Jeice
/

AgenteHelpN8n

Sleeping

App Files Files Community

AgenteHelpN8n / app.py

Jeice

Update app.py

da5f153 verified 4 months ago

raw

history blame contribute delete

12.2 kB

	"""
	🤖 N8n Assistant - Open Source (GRÁTIS, CPU-friendly)
	- Sem OpenAI
	- LLM: google/flan-t5-base (fallback flan-t5-small)
	- Embeddings: all-MiniLM-L6-v2 (fallback paraphrase-MiniLM-L3-v2)
	- Baixa dataset Jeice/n8n-docs-v2 e gera documentacao.txt
	- Logs detalhados p/ depuração
	"""

	import os
	import json
	import yaml
	import logging
	from typing import Tuple

	import gradio as gr
	from huggingface_hub import snapshot_download

	# LlamaIndex
	from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings, ServiceContext
	from llama_index.core.settings import Settings as LISettings
	from llama_index.embeddings.huggingface import HuggingFaceEmbedding
	from llama_index.llms.huggingface import HuggingFaceLLM

	# -------------------------
	# Logging
	# -------------------------
	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger("n8n-assistant")

	# -------------------------
	# Modelos (CPU-friendly)
	# -------------------------
	PRIMARY_LLM = "google/flan-t5-base"
	FALLBACK_LLM = "google/flan-t5-small"

	PRIMARY_EMB = "sentence-transformers/all-MiniLM-L6-v2"
	FALLBACK_EMB = "sentence-transformers/paraphrase-MiniLM-L3-v2"

	# -------------------------
	# App
	# -------------------------
	class N8nAssistant:
	def __init__(self):
	self.docs_dir = None
	self.index = None
	self.query_engine = None
	self.inicializado = False
	self.llm_model_used = None
	self.emb_model_used = None

	# ---------- Dataset ----------
	def baixar_docs(self) -> bool:
	"""Baixa o dataset com a documentação."""
	try:
	logger.info("📥 Baixando dataset Jeice/n8n-docs-v2 ...")
	self.docs_dir = snapshot_download(
	repo_id="Jeice/n8n-docs-v2",
	repo_type="dataset"
	)
	logger.info(f"✅ Dataset baixado em: {self.docs_dir}")
	try:
	logger.info(f"📂 Itens no diretório raiz do dataset: {os.listdir(self.docs_dir)}")
	data_path = os.path.join(self.docs_dir, "data")
	if os.path.isdir(data_path):
	logger.info(f"📂 Pasta /data encontrada. Itens: {os.listdir(data_path)}")
	except Exception as e:
	logger.warning(f"⚠️ Não consegui listar arquivos do dataset: {e}")
	return True
	except Exception as e:
	logger.error(f"❌ Erro ao baixar dataset: {e}")
	return False

	# ---------- Consolidação ----------
	def extrair_conteudo_arquivos(self, pasta: str) -> str:
	"""Varre todas as subpastas e agrega .yml/.yaml/.json/.md/.txt em um único texto."""
	extensoes = ('.yml', '.yaml', '.json', '.md', '.txt')
	texto_final = []
	if not os.path.exists(pasta):
	logger.error(f"❌ Pasta não existe: {pasta}")
	return ""

	total_arquivos = 0
	for root, _, files in os.walk(pasta):
	logger.info(f"🔎 Explorando: {root} \| {len(files)} arquivos")
	for file in files:
	caminho = os.path.join(root, file)
	if not file.lower().endswith(extensoes):
	continue
	total_arquivos += 1
	try:
	if file.lower().endswith(('.yml', '.yaml')):
	with open(caminho, 'r', encoding='utf-8') as f:
	data = yaml.safe_load(f)
	texto = yaml.dump(data, allow_unicode=True, sort_keys=False)
	elif file.lower().endswith('.json'):
	with open(caminho, 'r', encoding='utf-8') as f:
	data = json.load(f)
	texto = json.dumps(data, ensure_ascii=False, indent=2)
	else: # .md / .txt
	with open(caminho, 'r', encoding='utf-8', errors='ignore') as f:
	texto = f.read()

	texto_final.append(f"\n\n### Arquivo: {os.path.relpath(caminho, pasta)}\n{texto}")
	except Exception as e:
	logger.warning(f"⚠️ Erro lendo {caminho}: {e}")

	logger.info(f"🧾 Total de arquivos agregados: {total_arquivos}")
	return "".join(texto_final)

	def gerar_documentacao(self) -> bool:
	"""Gera documentacao.txt a partir do dataset (raiz + /data se existir)."""
	try:
	if not self.docs_dir:
	logger.error("❌ docs_dir não definido")
	return False

	partes = []
	# raiz do dataset
	partes.append(self.extrair_conteudo_arquivos(self.docs_dir))
	# subpasta /data (comum em datasets do HF)
	data_path = os.path.join(self.docs_dir, "data")
	if os.path.isdir(data_path):
	partes.append(self.extrair_conteudo_arquivos(data_path))

	texto = "\n".join([p for p in partes if p and p.strip()])
	if not texto.strip():
	logger.error("❌ Nenhum conteúdo válido encontrado no dataset")
	return False

	with open("documentacao.txt", "w", encoding="utf-8") as f:
	f.write(texto)

	# Loga um preview
	preview = texto[:1500]
	logger.info(f"📝 documentacao.txt gerado (preview 1500 chars):\n{preview}")
	return True
	except Exception as e:
	logger.error(f"❌ Erro ao gerar documentacao.txt: {e}")
	return False

	# ---------- Modelos ----------
	def configurar_embeddings(self) -> bool:
	for emb in (PRIMARY_EMB, FALLBACK_EMB):
	try:
	LISettings.embed_model = HuggingFaceEmbedding(model_name=emb)
	self.emb_model_used = emb
	logger.info(f"✅ Embeddings carregados: {emb}")
	return True
	except Exception as e:
	logger.warning(f"⚠️ Falhou carregar embeddings {emb}: {e}")
	return False

	def configurar_llm(self) -> bool:
	gen_kwargs = {
	"temperature": 0.2,
	"do_sample": True,
	"top_p": 0.9
	}
	for name in (PRIMARY_LLM, FALLBACK_LLM):
	try:
	llm = HuggingFaceLLM(
	model_name=name,
	tokenizer_name=name,
	context_window=2048,
	max_new_tokens=384, # menor = mais leve em CPU
	generate_kwargs=gen_kwargs,
	device_map="auto",
	model_kwargs={"torch_dtype": "auto"},
	system_prompt=(
	"Você é um assistente especialista em n8n. "
	"Responda em português do Brasil, de forma clara e objetiva, "
	"baseado exclusivamente na documentação fornecida. "
	"Se não souber, diga que não há informações suficientes."
	),
	)
	LISettings.llm = llm
	self.llm_model_used = name
	logger.info(f"✅ LLM carregado: {name}")
	return True
	except Exception as e:
	logger.warning(f"⚠️ Falhou carregar LLM {name}: {e}")
	return False

	# ---------- Index ----------
	def criar_index(self) -> bool:
	try:
	if not os.path.exists("documentacao.txt"):
	logger.error("❌ documentacao.txt não existe")
	return False

	# Carrega o único arquivo consolidado
	docs = SimpleDirectoryReader(input_files=["documentacao.txt"]).load_data()
	if not docs:
	logger.error("❌ Nenhum documento carregado de documentacao.txt")
	with open("documentacao.txt", "r", encoding="utf-8") as f:
	logger.error("📄 documentacao.txt (trecho): " + f.read()[:1200])
	return False

	logger.info(f"📚 {len(docs)} documento(s) prontos para indexação")
	self.index = VectorStoreIndex.from_documents(docs)
	self.query_engine = self.index.as_query_engine()
	logger.info("✅ Índice e QueryEngine criados")
	return True
	except Exception as e:
	logger.error(f"❌ Erro ao criar índice: {e}")
	return False

	# ---------- Orquestração ----------
	def inicializar(self) -> Tuple[bool, str]:
	try:
	if not self.baixar_docs():
	return False, "Erro ao baixar dataset"
	if not self.gerar_documentacao():
	return False, "Erro ao gerar documentacao.txt"
	if not self.configurar_embeddings():
	return False, "Erro ao configurar embeddings"
	if not self.configurar_llm():
	return False, "Erro ao configurar LLM"
	if not self.criar_index():
	return False, "Erro ao criar índice"
	self.inicializado = True
	return True, f"Pronto \| LLM: {self.llm_model_used} \| Emb: {self.emb_model_used}"
	except Exception as e:
	logger.error(f"❌ Erro na inicialização: {e}")
	return False, f"Erro na inicialização: {e}"

	def responder(self, pergunta: str) -> str:
	if not pergunta.strip():
	return "⚠️ Por favor, digite uma pergunta."
	if not self.inicializado or not self.query_engine:
	return "❌ Sistema não inicializado. Recarregue a página."
	try:
	logger.info(f"🤔 Pergunta: {pergunta[:120]}")
	resp = self.query_engine.query(pergunta)
	return str(resp)
	except Exception as e:
	logger.error(f"❌ Erro na resposta: {e}")
	return f"❌ Erro ao processar a pergunta: {e}"


	# -------------------------
	# Bootstrap
	# -------------------------
	logger.info("🚀 Subindo N8n Assistant (Open Source, CPU)...")
	assistant = N8nAssistant()
	ok, status_msg = assistant.inicializar()
	if ok:
	logger.info(f"✅ {status_msg}")
	else:
	logger.error(f"❌ {status_msg}")

	# -------------------------
	# Gradio UI
	# -------------------------
	def processar_pergunta(pergunta: str) -> str:
	if not ok:
	return f"❌ Sistema não inicializado: {status_msg}"
	return assistant.responder(pergunta)

	with gr.Blocks(theme=gr.themes.Soft(), title="N8n Assistant") as demo:
	gr.Markdown(
	f"""
	# 🤖 N8n Assistant (Open Source)
	Assistente baseado na documentação oficial do n8n (dataset do HF).
	Status: {'✅ ' + status_msg if ok else '❌ ' + status_msg}
	"""
	)
	with gr.Row():
	with gr.Column(scale=1):
	gr.Markdown("### 🤖 N8n Bot")
	with gr.Column(scale=4):
	gr.Markdown("## Como posso ajudar você com o n8n?")
	with gr.Row():
	with gr.Column(scale=3):
	pergunta = gr.Textbox(
	label="Sua pergunta",
	placeholder="Ex: Como configurar um Webhook Trigger no n8n?",
	lines=3
	)
	enviar = gr.Button("🚀 Perguntar", variant="primary")
	limpar = gr.Button("🧹 Limpar")
	with gr.Column(scale=4):
	resposta = gr.Textbox(
	label="Resposta",
	placeholder="A resposta aparecerá aqui...",
	lines=14
	)
	with gr.Accordion("💡 Exemplos", open=False):
	gr.Markdown(
	"""
	- Como configurar webhooks no n8n?
	- Para que serve o node HTTP Request?
	- Como integrar com Google Sheets?
	- Como debugar erros nos nodes?
	- Quais são boas práticas de workflows?
	"""
	)

	enviar.click(fn=processar_pergunta, inputs=pergunta, outputs=resposta)
	limpar.click(lambda: ("", ""), None, [pergunta, resposta])
	pergunta.submit(fn=processar_pergunta, inputs=pergunta, outputs=resposta)

	if __name__ == "__main__":
	demo.launch(server_name="0.0.0.0", server_port=7860, show_error=True)