Spaces:

ValerioBotto
/

GraphRag

Running

App Files Files Community

GraphRag / db /graph_db.py

ValerioBotto

Initial clean commit without secrets

aabd32c 17 days ago

raw

history blame contribute delete

10.4 kB

	#Questo file gestisce la connessione e tutte le query Cypher

	from neo4j import GraphDatabase, exceptions
	import logging
	import os
	from typing import List, Dict, Any, Optional

	logger = logging.getLogger(__name__)

	logging.basicConfig(level=logging.INFO)

	#Classe per la gestione della connessione e delle operazioni di base con Neo4j
	class GraphDB:
	def __init__(self, uri: Optional[str] = None, user: Optional[str] = None, password: Optional[str] = None, database: Optional[str] = None):

	#Carica credenziali dalle varibiali dambiente o usa i default del progetto
	self.uri = uri or os.getenv("NEO4J_URI")
	self.user = user or os.getenv("NEO4J_USERNAME")
	self.password = password or os.getenv("NEO4J_PASSWORD")
	self.database = database or os.getenv("NEO4J_DATABASE")

	# VALIDAZIONE: Forza la presenza di tutte le variabili
	if not all([self.uri, self.user, self.password, self.database]):
	missing_vars = [name for name, val in [
	("NEO4J_URI", self.uri),
	("NEO4J_USERNAME", self.user),
	("NEO4J_PASSWORD", self.password),
	("NEO4J_DATABASE", self.database)
	] if not val]

	# Rilancia un errore chiaro se le credenziali non sono definite nell'ambiente
	raise ValueError(
	f"Credenziali Neo4j mancanti. Assicurati che le seguenti variabili siano definite nel file .env e caricate correttamente: {', '.join(missing_vars)}"
	)

	self.driver = None

	try:
	self.driver = GraphDatabase.driver(self.uri, auth=(self.user, self.password))
	self.driver.verify_connectivity()

	self.create_indexes_and_constraints()
	logger.info(f"Connessione a Neo4j (DB: {self.database}) stabilita con successo.")
	except Exception as e:
	logger.error(f"Errore durante la connessione a Neo4j su {self.uri}: {e}")
	raise

	#Chiude la connessione al driver Neo4j
	def close(self):
	if self.driver:
	self.driver.close()
	logger.info("Connessione a Neo4j chiusa.")

	#Crea indici e vincoli essenziali per le performance del RAG
	def create_indexes_and_constraints(self):
	index_queries = [
	#Vincoli per l'unicità dei nodi principali (Documenti, Utenti)
	"CREATE CONSTRAINT IF NOT EXISTS FOR (d:Document) REQUIRE d.filename IS UNIQUE",
	"CREATE CONSTRAINT IF NOT EXISTS FOR (u:User) REQUIRE u.id IS UNIQUE",
	#Indice per la ricerca di Chunk tramite ID (utile per la citazione del chunk)
	"CREATE INDEX IF NOT EXISTS FOR (c:Chunk) ON (c.chunk_id)",
	]

	with self.driver.session(database=self.database) as session:
	for query in index_queries:
	try:
	session.run(query)
	except exceptions.ClientError as e:
	#Logga l'errore, ma ignora quelli noti di indice/vincolo già esistente
	if "IndexAlreadyExists" not in e.message and "ConstraintAlreadyExists" not in e.message:
	logger.error(f"Errore nell'esecuzione della query indice '{query}': {e}")
	raise
	except Exception as e:
	logger.error(f"Errore inatteso nell'esecuzione della query indice '{query}': {e}")
	raise

	logger.info("Indici e vincoli Neo4j verificati/creati.")


	# --- Operazioni Crud per il RAG ---
	#Crea o Aggiorna un nodo Document
	def create_document_node(self, filename: str, title: str = None):
	query = """
	MERGE (d:Document {filename: $filename})
	ON CREATE SET
	d.created_at = datetime(),
	d.title = COALESCE($title, $filename)
	ON MATCH SET d.last_updated = datetime()
	RETURN d
	"""
	return self.run_query(query, {"filename": filename, "title": title})

	#Crea o aggiorna un nodo User e registra l'attività
	def create_user_node(self, user_id: str):
	query = """
	MERGE (u:User {id: $user_id})
	ON CREATE SET u.created_at = datetime(), u.last_activity = datetime()
	ON MATCH SET u.last_activity = datetime()
	RETURN u
	"""
	return self.run_query(query, {"user_id": user_id})

	#Crea una relazione ACCESSED tra User e Document
	def link_user_to_document(self, user_id: str, filename: str):
	query = """
	MATCH (u:User {id: $user_id})
	MATCH (d:Document {filename: $filename})
	MERGE (u)-[r:ACCESSED]->(d)
	ON CREATE SET r.first_access = datetime(), r.last_access = datetime()
	ON MATCH SET r.last_access = datetime()
	RETURN u, d, r
	"""
	return self.run_query(query, {"user_id": user_id, "filename": filename})

	#Aggiunge un nodo Chunk collegato al nodo Document
	def add_chunk_to_document(self, filename: str, chunk_id: str, content: str, embedding: List[float], metadata: Dict[str, Any]):
	query = """
	MATCH (d:Document {filename: $filename})
	MERGE (c:Chunk {chunk_id: $chunk_id})
	SET c.content = $content,
	c.embedding = $embedding,
	c.section = $section,
	c.source = $filename,
	c.last_updated = datetime()
	MERGE (d)-[:HAS_CHUNK]->(c)
	RETURN c
	"""
	parameters = {
	"filename": filename,
	"chunk_id": chunk_id,
	"content": content,
	"embedding": embedding,
	"section": metadata.get("section", "unspecified")
	}
	return self.run_query(query, parameters)

	#Crea un indice vettoriale per la ricerca di similarità
	def create_vector_index(self, index_name: str, node_label: str, property_name: str, vector_dimensions: int):
	query = f"""
	CREATE VECTOR INDEX {index_name} IF NOT EXISTS
	FOR (n:{node_label})
	ON (n.{property_name})
	OPTIONS {{
	indexConfig: {{
	`vector.dimensions`: {vector_dimensions},
	`vector.similarity_function`: 'cosine'
	}}
	}}
	"""
	try:
	self.run_query(query)
	logger.info(f"Indice vettoriale '{index_name}' creato con successo per {node_label}.")
	except Exception as e:
	logger.error(f"Errore nella creazione dell'indice vettoriale '{index_name}': {e}")
	raise

	#Esegue una ricerca vettoriale, opzionalemnte filtrata per documento
	def query_vector_index(self, index_name: str, query_embedding: List[float], k: int = 5, filename: Optional[str] = None) -> List[Dict[str, Any]]:

	# db.index.vector.queryNodes è la procedura Cypher per la ricerca vettoriale
	if filename:
	# Ricerca filtrata per documento specifico (più precisa)
	query = f"""
	CALL db.index.vector.queryNodes('{index_name}', $k, $query_embedding)
	YIELD node, score
	WITH node, score
	MATCH (d:Document {{filename: $filename}})-[:HAS_CHUNK]->(node)
	RETURN node.content AS node_content, score, node.chunk_id AS chunk_id, node.section AS section, d.filename AS filename
	"""
	parameters = {"query_embedding": query_embedding, "filename": filename, "k": k}
	else:
	# Ricerca globale su tutti i documenti (usato per cross-document search)
	query = f"""
	CALL db.index.vector.queryNodes('{index_name}', $k, $query_embedding)
	YIELD node, score
	RETURN node.content AS node_content, score, node.chunk_id AS chunk_id, node.section AS section, node.source AS filename
	"""
	parameters = {"query_embedding": query_embedding, "k": k}

	results = []
	try:
	records = self.run_query(query, parameters)
	for record in records:
	results.append({
	"node_content": record["node_content"],
	"score": record["score"],
	"chunk_id": record["chunk_id"],
	"section": record.get("section", "N/A"), # Usiamo .get per sicurezza
	"filename": record.get("filename", "Unknown"),
	})
	logger.debug(f"Ricerca vettoriale ha trovato {len(results)} risultati.")
	return results
	except Exception as e:
	logger.error(f"Errore durante la query dell'indice vettoriale: {e}")
	return []

	def add_entity_to_chunk(self, entity_name, entity_type, chunk_id):
	query = """
	MERGE (e:Entity {name: $name, type: $type})
	WITH e
	MATCH (c:Chunk {chunk_id: $chunk_id})
	MERGE (c)-[:CONTAINS_ENTITY]->(e)
	"""
	params = {"name": entity_name, "type": entity_type, "chunk_id": chunk_id}
	self.run_query(query, params)

	#Esegue una ricerca esatta basata sui nodi Entity
	def entity_search(self, entity_name: str) -> List[Dict[str, Any]]:
	query = """
	MATCH (e:Entity)
	WHERE toLower(e.name) = toLower($name)
	MATCH (e)<-[:CONTAINS_ENTITY]-(c:Chunk)
	RETURN c.content AS node_content, c.chunk_id AS chunk_id, 1.0 AS score, c.section AS section, c.source AS filename
	LIMIT 5
	"""
	results = []
	try:
	records = self.run_query(query, {"name": entity_name})
	for record in records:
	results.append({
	"node_content": record.get("node_content"),
	"chunk_id": record.get("chunk_id"),
	"score": record.get("score"),
	"section": record.get("section"),
	"filename": record.get("filename")
	})
	return results
	except Exception as e:
	logger.error(f"Errore nella ricerca per entità '{entity_name}': {e}")
	return []

	def run_query(self, query: str, parameters: Optional[Dict[str, Any]] = None):
	if not self.driver:
	raise RuntimeError("Driver Neo4j non inizializzato.")

	with self.driver.session(database=self.database) as session:
	result = session.run(query, parameters)
	return result.data()