Spaces:

Bogdan555
/

grantforge-api

Running

grantforge-api / backend /agents /generator_agent.py

GrantForge Bot

Deploy to Hugging Face

afd56bc about 19 hours ago

26.5 kB

	import logging
	from typing import Dict, List, TypedDict, Optional
	from langchain_core.messages import SystemMessage, HumanMessage
	from langgraph.graph import StateGraph, START, END

	# Importy z rdzenia backendu
	try:
	from core.llm_router import get_llm
	except ImportError:
	from backend.core.llm_router import get_llm

	try:
	from core.utils import extract_markdown_and_sanitize
	except ImportError:
	from backend.core.utils import extract_markdown_and_sanitize

	from tenacity import retry, stop_after_attempt, wait_exponential

	try:
	from rag_pipeline.vector_store import get_parent_document_retriever
	except ImportError:
	from backend.rag_pipeline.vector_store import get_parent_document_retriever

	try:
	from core.sensitive_data_guard import anonymizer
	except ImportError:
	try:
	from backend.core.sensitive_data_guard import anonymizer
	except ImportError:
	anonymizer = None

	try:
	from core.audit_logger import audit_log
	except ImportError:
	audit_log = None

	logger = logging.getLogger(__name__)


	class GeneratorState(TypedDict):
	"""Stan przepływu w LangGraph dla generatora wniosków."""

	project_id: str
	namespace: str
	document_type: str

	# Opis projektu wczytany z DB — anonymizowany przed wysłaniem do LLM
	project_description: Optional[str]

	sections_plan: List[dict]
	current_section_idx: int
	generated_sections: Dict[str, str]

	context: str
	is_completed: bool
	missing_data_question: Optional[str]
	additional_context: Optional[str]
	traceability_data: Optional[Dict[str, List[dict]]]


	from langgraph.checkpoint.memory import MemorySaver

	# Global checkpointer so states survive across Agent instantiations
	global_memory_saver = MemorySaver()

	class DocumentGeneratorAgent:
	"""
	Agent korzystający z maszyn stanów LangGraph do wytwarzania długich
	i sformalizowanych dokumentów, zabezpieczony danymi z RAG (Rząd RP/PARP).
	"""

	def __init__(self):
	# Używamy najlepszego modelu, docelowo task_type="critical" by odpalić np. Gemini 1.5 Pro
	# (albo dedykowany fine-tuned)
	self.llm = get_llm(task_type="critical")
	self.graph = self._build_graph()

	def _build_graph(self):
	workflow = StateGraph(GeneratorState)

	# Rejestracja Węzłów
	workflow.add_node("plan_document", self.plan_document)
	workflow.add_node("fetch_context", self.fetch_context)
	workflow.add_node("draft_section", self.draft_section)
	workflow.add_node("resolve_missing_data", self.resolve_missing_data)
	workflow.add_node("ask_missing_data", self.ask_missing_data)

	# Sterowanie przepływem (Graf)
	workflow.add_edge(START, "plan_document")
	workflow.add_edge("plan_document", "fetch_context")
	workflow.add_edge("fetch_context", "draft_section")

	# Pętla warunkowa (Czy mamy jeszcze sekcje do wygenerowania, albo czy brakuje danych?)
	workflow.add_conditional_edges(
	"draft_section",
	self._should_continue,
	{
	"continue": "fetch_context",
	"resolve": "resolve_missing_data",
	"end": END,
	},
	)

	# Nowy warunek: po próbie auto-rozwiązania (Tool Calling), decyduje czy nadal pytać użytkownika
	workflow.add_conditional_edges(
	"resolve_missing_data",
	lambda s: "pause" if s.get("missing_data_question") else "draft_section",
	{
	"pause": "ask_missing_data",
	"draft_section": "draft_section"
	}
	)

	workflow.add_edge("ask_missing_data", "draft_section")

	return workflow.compile(
	checkpointer=global_memory_saver, interrupt_before=["ask_missing_data"]
	)

	def resolve_missing_data(self, state: GeneratorState):
	"""Nowy węzeł: Próbuje użyć narzędzi (Tool Calling) z KRS/GUS do zdobycia danych (np. członków zarządu), zamiast angażować użytkownika."""
	logger.info("[Generator] Próba automatycznego znalezienia brakujących danych (GUS/KRS)...")
	question = state.get("missing_data_question")

	if not question:
	return {"additional_context": state.get("additional_context")}

	import re
	from integrations.krs_client import KRSClient
	from tools.company_search import fetch_regon_data

	# Wyciągnięcie NIP/KRS z opisu
	desc = state.get("project_description", "")
	nip_match = re.search(r"NIP:\s*(\d{10})", desc)

	auto_answer = ""
	if nip_match:
	nip = nip_match.group(1)
	try:
	# Najpierw REGON
	regon_data = fetch_regon_data(nip)
	if regon_data:
	auto_answer += f"Z bazy GUS (NIP {nip}): {regon_data}\n"

	# Potem KRS jeśli potrzebne (dane z odpisu aktualnego)
	# Często w opisach padają słowa "członek zarządu", "wspólnik", "<OSOBA"
	if "zarząd" in question.lower() or "osoba" in question.lower() or "wspólnik" in question.lower() or "reprezent" in question.lower():
	# Krok 1: Próba znalezienia numeru KRS w opisie
	krs_match = re.search(r"KRS:\s*(\d{10})", desc)
	if krs_match:
	krs = krs_match.group(1)
	odpis = KRSClient.get_odpis_aktualny(krs)
	if odpis:
	relations = KRSClient.extract_graph_relations(odpis)
	auto_answer += f"Z bazy KRS (KRS {krs}): Zarząd: {relations.get('zarzad')}, Wspólnicy: {relations.get('wspolnicy')}\n"
	except Exception as e:
	logger.warning(f"[Generator] Błąd auto-resolve z GUS/KRS: {e}")

	if auto_answer:
	logger.info(f"[Generator] Znalazłem dane automatycznie: {auto_answer}")
	old_ctx = state.get("additional_context") or ""
	new_ctx = old_ctx + f"\n\n[ZAUTOMATYZOWANA ODPOWIEDŹ NARZĘDZIA KRS/GUS na Twoje wątpliwości '{question}']:\n{auto_answer}"
	return {
	"missing_data_question": None, # usunięto pytanie, system kontynuuje bez użytkownika
	"additional_context": new_ctx
	}

	# Jeśli narzędzia nie pomogły, przepuszczamy do zapytania użytkownika
	return {"missing_data_question": question}

	def ask_missing_data(self, state: GeneratorState):
	"""Węzeł pauzujący działanie grafu przed wykonaniem (interrupt_before)."""
	logger.info(
	f"Pauza HIL. Oczekiwanie na dane: {state.get('missing_data_question')}"
	)
	# Po wznowieniu przez użytkownika (update state'u o 'additional_context'),
	# czyścimy to zapytanie, żeby nie wpaść w pętlę.
	return {"missing_data_question": None}

	def plan_document(self, state: GeneratorState):
	"""Krok 1: Inicjalizuje sekcje w zależności od zadanego wzorca."""
	logger.info(f"Planowanie dokumentu: {state['document_type']}")

	from core.telemetry import telemetry

	telemetry.log(
	"INFO",
	"GeneratorAgent",
	f"Tworzę plan dokumentu typu {state['document_type']}",
	{"project_id": state["project_id"]},
	)

	plan = state.get("sections_plan", [])
	if not plan:
	doc_type = state["document_type"].lower()
	if "wniosek" in doc_type and "smart" in doc_type:
	plan = [
	{"type": "project_summary", "title": "Opis projektu i jego celów"},
	{"type": "innovation", "title": "Uzasadnienie innowacyjności"},
	{"type": "applicant", "title": "Potencjał Wnioskodawcy (doświadczenie i zasoby)"},
	{"type": "budget", "title": "Budżet i harmonogram"},
	]
	elif "biznesplan" in doc_type:
	plan = [
	{
	"type": "executive_summary",
	"title": "Streszczenie projektu",
	},
	{"type": "product", "title": "Opis produktu/usługi"},
	{"type": "market", "title": "Analiza rynku i konkurencji"},
	{"type": "finance", "title": "Plan finansowy"},
	]
	else:
	plan = [
	{"type": "intro", "title": "Wprowadzenie"},
	{"type": "body", "title": "Rozwinięcie merytoryczne"},
	{"type": "outro", "title": "Zakończenie i podsumowanie"},
	]

	return {
	"sections_plan": plan,
	"current_section_idx": state.get("current_section_idx", 0),
	"generated_sections": state.get("generated_sections", {}),
	"is_completed": False,
	"missing_data_question": None,
	"traceability_data": state.get("traceability_data", {}),
	}

	def fetch_context(self, state: GeneratorState):
	"""Krok 2: Pobiera wycinki wiedzy z wejściowego RAG lub bazy aktów ISAP/PARP"""
	from core.telemetry import telemetry

	idx = state.get("current_section_idx", 0)
	sections = state.get("sections_plan", [])
	if not sections or idx >= len(sections):
	logger.error(f"[Generator] IndexError in fetch_context: idx={idx}, sections_plan length={len(sections)}")
	return {"context": "Błąd: Brak planu sekcji."}
	section = sections[idx]
	section_name = section["title"] if isinstance(section, dict) else section
	section["type"] if isinstance(section, dict) else section_name
	namespace = state["namespace"]

	telemetry.log(
	"INFO",
	"GeneratorAgent",
	f"Przeszukuję bazę wektorową (Pinecone) dla sekcji: {section_name}",
	{"namespace": namespace},
	)
	logger.info(
	f"Pobieranie kontekstu RAG dla sekcji '{section_name}' w namespace '{namespace}'."
	)

	try:
	retriever = get_parent_document_retriever(namespace=namespace)

	# Wzbogacamy zapytanie o kontekst firmy aby system szukał trafniejszych fragmentów
	project_context = state.get("project_description", "")
	# Ograniczamy długość kontekstu do kluczowych informacji aby nie rozmyć zapytania
	short_context = project_context[:300] if project_context else ""

	# Retrieval - szukamy najpierw specyfiki projektu w private_namespace
	query = f"Regulamin i wytyczne dla sekcji: {section_name}. Typ dokumentu: {state['document_type']}. Kontekst i informacje do uwzględnienia (Kryteria, Budżet, Kwalifikowalność): {short_context}"
	docs = retriever.invoke(query)
	def _format_temporal(doc):
	valid_from = doc.metadata.get("valid_from", "")
	valid_to = doc.metadata.get("valid_to", "")
	ver_id = doc.metadata.get("version_id", "")
	time_str = ""
	if valid_from or valid_to or ver_id:
	time_str = f" [Wersja: {ver_id}, Ważne od: {valid_from} do: {valid_to}]"
	return f"{doc.page_content}{time_str}"

	context = "\n\n".join([_format_temporal(doc) for doc in docs])

	import hashlib
	from datetime import datetime

	traceability = state.get("traceability_data", {}) or {}
	current_traces = []

	for doc in docs:
	content_hash = hashlib.sha256(doc.page_content.encode('utf-8')).hexdigest()
	current_traces.append({
	"source": doc.metadata.get("source", "Własny dokument / RAG"),
	"url": doc.metadata.get("url", "Brak linku"),
	"date": doc.metadata.get("fetch_date", datetime.now().strftime("%Y-%m-%d")),
	"hash": content_hash[:16],
	"version_id": doc.metadata.get("version_id", ""),
	"valid_from": doc.metadata.get("valid_from", ""),
	"valid_to": doc.metadata.get("valid_to", "")
	})

	traceability[section_name] = current_traces

	if not context.strip():
	context = "Brak specyficznego kontekstu wgranej dokumentacji w RAG dla tej sekcji."
	telemetry.log(
	"INFO",
	"Pinecone",
	f"Pobrano {len(docs)} fragmentów z wektorowej bazy danych.",
	)
	except Exception as e:
	logger.error(f"Błąd RAG pod względem '{namespace}': {e}")
	telemetry.log("ERROR", "Pinecone", f"Błąd pobierania wektorów: {str(e)}")
	context = (
	"Brak połączenia z RAG. Generowanie oparto na wiedzy ogólnej modelu."
	)
	traceability = state.get("traceability_data", {}) or {}

	return {"context": context, "traceability_data": traceability}

	def draft_section(self, state: GeneratorState):
	"""Krok 3: Generowanie sekcji za pomocą LLM.

	Pipeline RODO (FAZA 1 Enterprise):
	1. Anonymizuj opis projektu (NIP, PESEL, IBAN, nazwiska → tokeny)
	2. Wyślij zanonimizowany tekst do LLM
	3. Deanonymizuj wynik (tokeny → oryginalne wartości)

	Dzięki temu dane PII nigdy nie trafiają do zewnętrznych API LLM.
	"""
	idx = state.get("current_section_idx", 0)
	sections = state.get("sections_plan", [])
	if not sections or idx >= len(sections):
	logger.error(f"[Generator] IndexError in draft_section: idx={idx}, sections_plan length={len(sections)}")
	return {
	"generated_sections": state.get("generated_sections", {}),
	"is_completed": True,
	"missing_data_question": None
	}
	section = sections[idx]
	section_name = section["title"] if isinstance(section, dict) else section
	section["type"] if isinstance(section, dict) else section_name
	context = state.get("context", "")
	project_desc = state.get("project_description") or ""

	# ── KROK 1: Anonymizuj opis projektu przed LLM ─────────────────────
	anon_desc = project_desc
	if anonymizer and project_desc:
	try:
	anon_desc = anonymizer.anonymize_text(project_desc)
	if anon_desc != project_desc:
	logger.info(
	f"[Generator][PII] Opis projektu '{state['project_id']}' "
	f"zanonimizowany przed wysłaniem do LLM."
	)
	if audit_log:
	audit_log(
	"GENERATOR_PII_ANON",
	f"Projekt: {state['project_id']} \| Sekcja: {section_name}",
	)
	except Exception as e:
	logger.warning(
	f"[Generator][PII] Anonimizacja nieudana: {e} — kontynuuję bez maskowania."
	)
	anon_desc = project_desc

	from pydantic import BaseModel, Field
	from core.telemetry import telemetry

	class GeneratedSection(BaseModel):
	content_markdown: Optional[str] = Field(
	None,
	description="Zredagowany tekst sekcji w formacie Markdown. ZAWSZE WYPEŁNIJ to pole, nawet jeśli brakuje danych (użyj znaczników [UZUPEŁNIĆ: co brakuje]). BEZWZGLĘDNIE PISZ TYLKO W JĘZYKU POLSKIM (włączając w to nagłówki i tytuły).",
	)
	missing_data_question: Optional[str] = Field(
	None,
	description="Jeśli brakuje Ci krytycznych danych, wpisz tu ostrzeżenie, ale i tak wygeneruj `content_markdown` ze znacznikami. BEZWZGLĘDNIE PISZ TYLKO W JĘZYKU POLSKIM.",
	)

	system_prompt = (
	"Jesteś profesjonalnym doradcą dotacyjnym (Consultant AI) specjalizującym się w funduszach UE.\n"
	"Odpowiadasz za najwyższą korporacyjną jakość we wnioskach dotacyjnych.\n"
	f"Mamy dokument typu: '{state['document_type']}'.\n"
	f"Obecnie przygotowujesz dokładnie i wyczerpująco sekcję: '{section_name}'.\n\n"
	"Wytyczne:\n"
	" - Wykorzystaj dostarczony Kontekst RAG (fragmenty regulaminów i wytycznych programu).\n"
	" - Zadbaj o analityczny, sformalizowany ton z punktami i statystykami gdzie to możliwe.\n"
	" - STOSUJ BOGATE FORMATOWANIE MARKDOWN: używaj profesjonalnych nagłówków (###, ####), tabel dla danych liczbowych, list punktowanych i pogrubień (bold) dla kluczowych wskaźników. Dokument ma wyglądać nieskazitelnie, czytelnie i estetycznie!\n"
	" - Jeżeli w zanonimizowanym opisie projektu znajduje się nazwa firmy lub jej token (np. <FIRMA_1>), BEZWZGLĘDNIE i NATURALNIE wplataj go w treść sekcji.\n"
	" - Jeżeli napotkasz tokeny anonimizacji typu <NIP_1>, <OSOBA_1>, UŻYJ ICH dosłownie.\n"
	" - Zakaz wymyślania danych (NIP, daty, kwoty, nazwy firm). Jeśli brakuje danych (np. danych z GUS/KRS takich jak dokładni wspólnicy, NIP, PKD, adres, czy szczegółowe parametry maszyny), użyj placeholderów w formacie [UZUPEŁNIĆ: Czego brakuje]. Opcję 'missing_data_question' traktuj jako OSTATECZNOŚĆ i używaj TYLKO W KRYTYCZNYCH PRZYPADKACH.\n"
	" - >>> BEZWZGLĘDNIE GENERUJ CAŁĄ TREŚĆ WYŁĄCZNIE W JĘZYKU POLSKIM. <<<\n"
	" - ZABRANIA SIĘ używania słów w języku angielskim. Wszystkie nagłówki, tabele, teksty i podsumowania MUSZĄ być po polsku.\n"
	" - NIGDY NIE ZWRACAJ ANGIELSKICH TYTUŁÓW SEKCJI. Masz kategoryczny nakaz użycia oryginalnego, polskiego tytułu sekcji, nad którym pracujesz.\n"
	" - ZADBÓJ O ZWIĘZŁOŚĆ NAGŁÓWKÓW: Ogranicz długość nagłówków/tytułów sekcji do maksymalnie 5 wyrazów.\n"
	" - W PRZYPADKU ODPOWIEDZI UŻYTKOWNIKA NA 'missing_data_question': Pamiętaj, aby ZACHOWAĆ dotychczasowy styl sekcji i wpleść nowe informacje spójnie.\n"
	)

	additional_context = state.get("additional_context", "")
	human_content = f"Kontekst RAG:\n{context}"
	if anon_desc:
	human_content += f"\n\nOpis projektu (zanonimizowany):\n{anon_desc}"
	if additional_context:
	human_content += (
	f"\n\nDodatkowe odpowiedzi od użytkownika:\n{additional_context}"
	)

	telemetry.log(
	"INFO",
	"GeneratorAgent",
	"Rozpoczynam draftowanie sekcji",
	{"project_id": state["project_id"], "section": section_name},
	)
	logger.info(
	f"[Generator] Draftowanie sekcji: '{section_name}' (projekt: {state['project_id']})"
	)

	# ── KROK 2: Wywołanie LLM z walidacją schematu ────────────────────
	@retry(
	stop=stop_after_attempt(3),
	wait=wait_exponential(multiplier=1, min=2, max=10),
	)
	def _generate():
	try:
	structured_llm = get_llm(
	task_type="critical", structured_output_schema=GeneratedSection
	)
	response = structured_llm.invoke(
	[
	SystemMessage(content=system_prompt),
	HumanMessage(content=human_content),
	]
	)

	if response.missing_data_question:
	telemetry.log(
	"WARN",
	"GeneratorAgent",
	"Wykryto brak danych, ale generowanie jest kontynuowane.",
	{"question": response.missing_data_question},
	)

	section_content_temp = response.content_markdown or ""
	if not section_content_temp and response.missing_data_question:
	section_content_temp = f"Brakujące dane: {response.missing_data_question}\n\nProszę uzupełnić tę sekcję ręcznie lub podać wymagane informacje w opisie projektu."
	else:
	section_content_temp = extract_markdown_and_sanitize(
	section_content_temp
	)
	return section_content_temp, response.missing_data_question
	except Exception as e:
	logger.warning(
	f"[Generator] with_structured_output failed for '{section_name}': {e}. Attempting fallback without structured output."
	)
	fallback_response = self.llm.invoke(
	[
	SystemMessage(
	content=system_prompt
	+ "\nZwróć TYLKO treść sekcji w formacie Markdown (bez pytań o brakujące dane, spróbuj sobie poradzić). BEZWZGLĘDNIE PISZ TYLKO W JĘZYKU POLSKIM. DO NOT USE ENGLISH."
	),
	HumanMessage(content=human_content),
	]
	)
	section_content_temp = (
	fallback_response.content
	if hasattr(fallback_response, "content")
	else str(fallback_response)
	)
	return extract_markdown_and_sanitize(section_content_temp), None

	try:
	# INTEGRACJA: Faza 4 - Moduł Analityka Finansowego
	if section["type"] in ["budget", "finance"]:
	try:
	from backend.agents.finance_agent import finance_agent
	except ImportError:
	from agents.finance_agent import finance_agent

	logger.info(f"[Generator] Delegowanie sekcji '{section_name}' do Agenta Finansowego.")
	section_content, missing_question = finance_agent.draft_financial_section(
	document_type=state['document_type'],
	section_name=section_name,
	project_desc=anon_desc,
	context=context
	)
	else:
	section_content, missing_question = _generate()
	except Exception as e_fallback:
	logger.error(
	f"[Generator] Fallback LLM failure for section '{section_name}': {e_fallback}"
	)
	telemetry.log(
	"ERROR",
	"GeneratorAgent",
	"Błąd LLM podczas generowania",
	{"error": str(e_fallback)},
	)
	section_content = (
	f"(Wystąpił błąd API podczas generowania sekcji: {str(e_fallback)})"
	)
	missing_question = None

	# ── KROK 3: Deanonymizuj wynik (tokeny → oryginalne wartości) ────
	if anonymizer and project_desc and anon_desc != project_desc:
	try:
	section_content = anonymizer.deanonymize_text(section_content)
	logger.info(
	f"[Generator][PII] Sekcja '{section_name}' deanonimizowana po LLM."
	)
	except Exception as e:
	logger.warning(
	f"[Generator][PII] Deanonymizacja nieudana: {e} — zwracam zanonimizowaną wersję."
	)

	# ── Aktualizacja stanu ────────────────────────────────────────────
	current_sections = dict(state.get("generated_sections", {}))
	current_sections[section_name] = section_content

	if missing_question:
	next_idx = idx
	is_completed = False
	else:
	next_idx = idx + 1
	is_completed = next_idx >= len(state["sections_plan"])

	telemetry.log(
	"INFO",
	"GeneratorAgent",
	"Zakończono draftowanie sekcji",
	{"project_id": state["project_id"], "section": section_name},
	)

	return {
	"generated_sections": current_sections,
	"current_section_idx": next_idx,
	"is_completed": is_completed,
	"missing_data_question": missing_question, # store the question in state instead of clearing
	}

	def _should_continue(self, state: GeneratorState):
	"""Sprawdzak czy istnieją kolejne sekcje do procedowania w Grafie."""
	if state.get("missing_data_question"):
	return "resolve"
	return "end" if state.get("is_completed") else "continue"

	def provide_human_response(self, thread_id: str, response: str):
	"""Aktualizuje stan grafu o odpowiedź użytkownika."""
	config = {"configurable": {"thread_id": thread_id}}

	# Oczyszczamy pytanie i dodajemy kontekst do stanu wstrzymanego węzła
	self.graph.update_state(
	config,
	{"additional_context": response, "missing_data_question": None},
	as_node="ask_missing_data"
	)

	async def astm_stream(
	self,
	initial_state: Optional[GeneratorState],
	thread_id: str,
	resume: bool = False,
	):
	"""Uruchamia graf w trybie streamingowym zdarzeń żeby zasilić SSE (Server-Sent Events)"""
	config = {"configurable": {"thread_id": thread_id}, "recursion_limit": 150}

	# Ochrona przed błędem `Received no input for __start__` gdy MemorySaver jest wyczyszczony.
	state = self.graph.get_state(config)
	if resume and not state.values:
	logger.warning(f"Zażądano wznowienia dla wątku {thread_id}, ale brak stanu w checkpointerze. Resetujemy strumień z initial_state.")
	input_data = initial_state
	else:
	input_data = None if resume else initial_state

	async for event in self.graph.astream_events(
	input_data, version="v2", config=config
	):
	yield event