Spaces:

jaczad
/

KorChat

Build error

App Files Files Community

jaczad commited on Jul 30, 2025

Commit

6805005

1 Parent(s): 4e4c288

Bibliografia już się wyświetla prawidłowo

Browse files

Files changed (7) hide show

.DS_Store +0 -0
README.md +50 -1
__pycache__/hr_assistant.cpython-312.pyc +0 -0
bibliografia.csv +12 -12
chatbot.py +33 -9
hr_assistant.py +175 -297
requirements.txt +6 -8

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

README.md CHANGED Viewed

@@ -11,4 +11,53 @@ license: cc-by-sa-4.0
 short_description: Asystent zatrudniania osób z niepełnosprawnościami
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 short_description: Asystent zatrudniania osób z niepełnosprawnościami
 ---
+# Asystent HR dla pracodawców zatrudniających osoby z niepełnosprawnościami
+## Funkcjonalności
+- Wykorzystuje dokumenty PDF jako bazę wiedzy, przetwarza je na wektorową bazę danych (FAISS) w pamięci
+- Pozwala na zadawanie pytań w języku polskim z konwersacyjną pamięcią kontekstu (ChatOpenAI, model GPT-4o-mini)
+- Odpowiedzi generowane są wyłącznie na podstawie treści dokumentów PDF, wybranych stron internetowych (z pliku `urls.txt`) oraz hardkodowanych fragmentów (np. wysokości dofinansowań PFRON)
+- Każda odpowiedź zawiera źródło informacji (nazwa pliku PDF, strona, sekcja lub URL)
+- Obsługuje interaktywny tryb konsolowy z komendami: `stats`, `clear`, `quit`/`exit`/`q`
+- Przetwarza dokumenty PDF z zachowaniem struktury (chunkowanie sekcji, nagłówków, stron)
+- Pobiera i przetwarza treści z wybranych stron internetowych (BeautifulSoup, requests)
+- Loguje przebieg działania i błędy (logging)
+## Źródła wiedzy
+- Pliki PDF z katalogu `pdfs/`
+- Adresy URL z pliku `urls.txt`
+- Hardkodowane fragmenty (np. wysokość dofinansowań PFRON)
+## Wymagania
+- Python 3.10+
+- Klucz API OpenAI (zmienna środowiskowa `OPENAI_API_KEY`)
+- Zainstalowane pakiety: `langchain`, `langchain_openai`, `langchain_community`, `fitz` (PyMuPDF), `requests`, `beautifulsoup4`
+## Uruchomienie
+1. Ustaw zmienną środowiskową `OPENAI_API_KEY` z własnym kluczem OpenAI
+2. Umieść pliki PDF w katalogu `pdfs/`
+3. (Opcjonalnie) Dodaj adresy URL do pliku `urls.txt` (jeden w linii)
+4. Zainstaluj wymagane pakiety:
+   ```bash
+   pip install -r requirements.txt
+   ```
+5. Uruchom program:
+   ```bash
+   python hr_assistant.py
+   ```
+## Tryb interaktywny
+Program uruchamia się w trybie konsolowym. Dostępne komendy:
+- `stats` — wyświetla statystyki bazy wiedzy
+- `clear` — czyści pamięć konwersacji
+- `quit`/`exit`/`q` — kończy program
+## Dodatkowe informacje
+- Odpowiedzi generowane są wyłącznie na podstawie załadowanych dokumentów i stron.
+- Każda odpowiedź zawiera źródło (nazwa pliku PDF, strona, sekcja lub URL).
+- Baza wiedzy jest ładowana do pamięci przy starcie programu i nie jest aktualizowana w trakcie działania.
+- Logi działania i błędów zapisywane są na konsoli.
+## Autor
+Jacek (2024-2025)

__pycache__/hr_assistant.cpython-312.pyc ADDED Viewed

Binary file (31.3 kB). View file

bibliografia.csv CHANGED Viewed

@@ -1,12 +1,12 @@
-"PRZYSTOSOWANIE OBIEKT�W, POMIESZCZE� ORAZ STANOWISK PRACY DLA OS�B NIEPE�NOSPRAWNYCH O SPECYFICZNYCH POTRZEBACH � DOBRE PRAKTYKI; PFRON, CIOP PIB; Warszawa 2014";dobre praktyki- wersja finalna
-"LISTA KONTROLNA DO OCENY �RODOWISKA PRACY POD K�TEM DOSTOSOWANIA DO POTRZEB OS�B NIEPE�NOSPRAWNYCH; PFRON, CIOP PIB; Warszawa 2014";lista kontrolna 2014
-"PROJEKTOWANIE OBIEKT�W, POMIESZCZE� ORAZ PRZYSTOSOWANIE STANOWISK PRACY DLA OS�B NIEPE�NOSPRAWNYCH O SPECYFICZNYCH POTRZEBACH � RAMOWE WYTYCZNE; PFRON, CIOP PIB; Warszawa 2014";Ramowe wytyczne�
-"Kotowska L.; Prawo pracy. Pracownik niepe�nosprawny; Pa�stwowa Inspekcja Pracy; wydanie 2/2024, stan prawny marzec 2024";wydawnictwo PIP�
-"Gosk D., Olkowska A., Dani�owska S., Komunikacja bez barier, Praktyczny poradnik kontaktu z osobami z niepe�nosprawno�ciami; Fundacja Aktywizacja; Warszawa 2021";Fundacja-Aktywizacja-Publikacja-Komunikacja-bez�
-"Raport systemowy. Podsumowanie przegl�du procedur w 30 urz�dach oraz rekomendacje systemowe dla ca�ej administracji w zakresie zatrudniania os�b ze szczeg�lnymi potrzebami; Kancelaria Prezesa Rady Ministr�w";Raport_ systemowy�
-"Kompendium wiedzy na temat zatrudnienia os�b ze szczeg�lnymi potrzebami; Kancelaria Prezesa rady Ministr�w";PBB_HR�
-Dani�owska S., Gawska A., Kowalski P., Paszkowska M., Sielecka K., Tatko A., Dobre praktyki w zatrudnianiu os�b z niepe�nosprawno�ciami. Fundacja Aktywizacja, Warszawa 2022;podr�cznik online
-Gawska A., Poradnik dla pracodawc�w, o tym jak tworzy� dost�pne miejsce pracy. Fundacja Aktywizacja, Warszawa 2024;Fundacja Aktywizacja poradnik dla pracodawc�w o tym�
-Gruszczy�ska A., Gruntowski M,. 5 krok�w do zatrudnienia � Osoby z niepe�nosprawno�ci� w procesie rekrutacji. Fundacja Aktywizacja, Warszawa 2024;5 krok�w do zatrudnienia�
-Gruszczy�ska A., Gruntowski M., Osoba z niepe�nosprawno�ci�� w Twojej firmie, Fundacja Aktywizacja, Warszawa 2024;niezb�dnik pracodawcy
-Gawska A. Pracodawca w��czaj�cy � jak skutecznie zatrudnia� osoby z niepe�nosprawno�ciami?, Warszawa 2025;artyku� ze strony koREKtora

+"PRZYSTOSOWANIE OBIEKTÓW, POMIESZCZEŃ ORAZ STANOWISK PRACY DLA OSÓB NIEPEŁNOSPRAWNYCH O SPECYFICZNYCH POTRZEBACH – DOBRE PRAKTYKI; PFRON, CIOP PIB; Warszawa 2014";Dobre_praktyki-wersja_finalna2014.pdf
+"LISTA KONTROLNA DO OCENY ŚRODOWISKA PRACY POD KĄTEM DOSTOSOWANIA DO POTRZEB OSÓB NIEPEŁNOSPRAWNYCH; PFRON, CIOP PIB; Warszawa 2014";ListaKontrolna2014.pdf
+"PROJEKTOWANIE OBIEKTÓW, POMIESZCZEŃ ORAZ PRZYSTOSOWANIE STANOWISK PRACY DLA OSÓB NIEPEŁNOSPRAWNYCH O SPECYFICZNYCH POTRZEBACH – RAMOWE WYTYCZNE; PFRON, CIOP PIB; Warszawa 2014";Ramowe_wytyczne2014.pdf
+"Kotowska L.; Prawo pracy. Pracownik niepełnosprawny; Państwowa Inspekcja Pracy; wydanie 2/2024, stan prawny marzec 2024";Wydawnictwo PIP - Niepelnosprawny pracownik.pdf
+"Gosk D., Olkowska A., Daniłowska S., Komunikacja bez barier, Praktyczny poradnik kontaktu z osobami z niepełnosprawnościami; Fundacja Aktywizacja; Warszawa 2021";Fundacja-Aktywizacja-Publikacja-Komunikacja-bez-barier.pdf
+"Raport systemowy. Podsumowanie przeglądu procedur w 30 urzędach oraz rekomendacje systemowe dla całej administracji w zakresie zatrudniania osób ze szczególnymi potrzebami; Kancelaria Prezesa Rady Ministrów";Raport_systemowy_-_podumowanie_przeglądu_procedur_zatrudnieniowych_Procedury_bez_barier.pdf
+"Kompendium wiedzy na temat zatrudnienia osób ze szczególnymi potrzebami; Kancelaria Prezesa rady Ministrów";PBB_HR_Podręcznik_Kompendium_wiedzy_na_temat_zatrudnienia_osób_ze_szczególnymi_potrzebami.pdf
+"Daniłowska S., Gawska A., Kowalski P., Paszkowska M., Sielecka K., Tatko A., Dobre praktyki w zatrudnianiu osób z niepełnosprawnościami. Fundacja Aktywizacja, Warszawa 2022";podrecznik-online.pdf
+"Gawska A., Poradnik dla pracodawców, o tym jak tworzyć dostępne miejsce pracy. Fundacja Aktywizacja, Warszawa 2024";Fundacja-Aktywizacja_Poradnik-dla-pracodawcow-o-tym-jak-tworzyc-dostepne-miejsce-pracy.pdf
+"Gruszczyńska A., Gruntowski M,. 5 kroków do zatrudnienia – Osoby z niepełnosprawnością w procesie rekrutacji. Fundacja Aktywizacja, Warszawa 2024";5-krokow-do-zatrudnienia-online.pdf
+"Gruszczyńska A., Gruntowski M., Osoba z niepełnosprawnością w Twojej firmie, Fundacja Aktywizacja, Warszawa 2024";Niezbednik-pracodawcy-online.pdf
+"Gawska A. Pracodawca włączający – jak skutecznie zatrudniać osoby z niepełnosprawnościami?, Warszawa 2025";artykuł ze strony koREKtora

chatbot.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
 import os
 # --- Próba importu HRAssistant ---
 try:
@@ -8,6 +9,24 @@ try:
 except ModuleNotFoundError as e:
     hr_import_error = str(e)
 # --- Inicjalizacja asystenta ---
 def initialize_assistant():
     if hr_import_error:
@@ -59,26 +78,31 @@ def respond_to_query(message, history):
                     'pages': set()
                 }
-            # Strona 'page' w metadanych jest numerowana od 0, dodajemy 1 dla czytelności
-            if 'page' in source_meta:
                 grouped_sources[source_key]['pages'].add(source_meta['page'])
         for key, data in grouped_sources.items():
             if data['type'] == 'pdf':
-                filename = data['meta'].get('filename', os.path.basename(key))
                 pages = sorted(list(data['pages']))
-                # Jeśli jest tylko jedna strona, nie twórz zakresu
-                if len(pages) == 1:
-                    pages_str = f"str. {pages[0]}"
-                else:
-                    pages_str = "str. " + ", ".join(map(str, pages))
-                answer += f"\n- {filename} ({pages_str})"
             elif data['type'] == 'url':
                 title = data['meta'].get('title', key)
                 url = key
                 date = data['meta'].get('added_date', '')
                 date_str = f" (dodano: {date})" if date else ""
                 answer += f"\n- [{title}]({url}){date_str}"
     history.append({"role": "user", "content": message})
     history.append({"role": "assistant", "content": answer})

 import gradio as gr
 import os
+import csv
 # --- Próba importu HRAssistant ---
 try:
 except ModuleNotFoundError as e:
     hr_import_error = str(e)
+# --- Wczytywanie bibliografii ---
+def load_bibliography(file_path="bibliografia.csv"):
+    bibliography = {}
+    try:
+        with open(file_path, mode='r', encoding='utf-8') as csvfile:
+            reader = csv.reader(csvfile, delimiter=';')
+            for row in reader:
+                if len(row) == 2:
+                    # Klucz to nazwa pliku bez rozszerzenia, wartość to pełny opis
+                    bibliography[row[1].strip()] = row[0].strip()
+    except FileNotFoundError:
+        print(f"Plik {file_path} nie został znaleziony.")
+    except Exception as e:
+        print(f"Błąd podczas wczytywania pliku {file_path}: {e}")
+    return bibliography
+bibliography_data = load_bibliography()
 # --- Inicjalizacja asystenta ---
 def initialize_assistant():
     if hr_import_error:
                     'pages': set()
                 }
+            if 'page' in source_meta and source_meta['page'] is not None:
                 grouped_sources[source_key]['pages'].add(source_meta['page'])
         for key, data in grouped_sources.items():
             if data['type'] == 'pdf':
+                file_stem = data['meta'].get('file_stem', os.path.splitext(os.path.basename(key))[0])
+                display_name = bibliography_data.get(file_stem, os.path.basename(key))
                 pages = sorted(list(data['pages']))
+                pages_str = ""
+                if pages:
+                    if len(pages) == 1:
+                        pages_str = f"str. {pages[0]}"
+                    else:
+                        pages_str = "str. " + ", ".join(map(str, pages))
+                answer += f"\n- {display_name} ({pages_str})" if pages_str else f"\n- {display_name}"
             elif data['type'] == 'url':
                 title = data['meta'].get('title', key)
                 url = key
                 date = data['meta'].get('added_date', '')
                 date_str = f" (dodano: {date})" if date else ""
                 answer += f"\n- [{title}]({url}){date_str}"
     history.append({"role": "user", "content": message})
     history.append({"role": "assistant", "content": answer})

hr_assistant.py CHANGED Viewed

@@ -1,6 +1,79 @@
 """
 Asystent HR dla pracodawców zatrudniających osoby z niepełnosprawnościami.
-Wykorzystuje dokumenty PDF jako bazę wiedzy z wektorową bazą danych w pamięci.
 """
 import os
@@ -8,6 +81,7 @@ import logging
 from typing import List, Dict, Any, Optional, Tuple
 from pathlib import Path
 import re
 # LangChain imports (aktualne na 2024-06)
 from langchain_text_splitters import RecursiveCharacterTextSplitter
@@ -253,22 +327,17 @@ class HRAssistant:
         prompt_template = (
             "Jesteś ekspertem HR specjalizującym się w zatrudnianiu osób z niepełnosprawnościami w Polsce.\n"
-            "Twoja wiedza opiera się na oficjalnych dokumentach, poradnikach dla pracodawców i aktualnych stronach internetowych PFRON.\n\n"
-            "Kontekst z dokumentów i stron internetowych:\n{context}\n\n"
             "Historia rozmowy:\n{chat_history}\n\n"
             "Pytanie: {question}\n\n"
             "Instrukcje:\n"
-            "1. Odpowiadaj w języku polskim\n"
-            "2. Bazuj wyłącznie na informacjach z dostarczonych dokumentów i stron PFRON\n"
-            "3. Jeśli nie masz informacji w dokumentach, powiedz to wprost\n"
-            "4. Podawaj konkretne, praktyczne porady\n"
-            "5. Odwołuj się do konkretnych przepisów prawnych gdy to możliwe\n"
-            "6. GDY PYTANIE DOTYCZY KWOT PIENIĘŻNYCH, OBOWIĄZKOWO PODAJ DOKŁADNE WARTOŚCI Z NAJNOWSZYCH ŹRÓDEŁ\n"
-            "7. ZAWSZE PRIORYTETYZUJ INFORMACJE ZE STRON INTERNETOWYCH PFRON NAD INFORMACJAMI Z PDF-ÓW\n"
-            "8. DLA KWOT DOFINANSOWAŃ ZAWSZE PRZYTACZAJ DOKŁADNE LICZBY, NP. '2300 ZŁ', '1900 ZŁ', ITD.\n"
-            "9. Bądź pomocny i profesjonalny\n"
-            "10. Zawsze podawaj źródło informacji (URL lub nazwa dokumentu PDF)\n"
-            "11. NAJWAŻNIEJSZE: Gdy pytanie dotyczy finansów, MUSZISZ podać konkretne kwoty z podanych informacji\n\n"
             "Odpowiedź:"
         )
         custom_prompt = PromptTemplate(
@@ -279,7 +348,7 @@ class HRAssistant:
             llm=self.llm,
             retriever=self.vectorstore.as_retriever(
                 search_type="similarity",
-                search_kwargs={"k": 8}  # Zmniejszone z 10 do 8 dla lepszej wydajności
             ),
             memory=self.memory,
             combine_docs_chain_kwargs={"prompt": custom_prompt},
@@ -362,7 +431,7 @@ class HRAssistant:
         Kwoty, o których mowa powyżej, zwiększa się o 1050 zł w przypadku osób niepełnosprawnych, w odniesieniu do których orzeczono chorobę psychiczną, upośledzenie umysłowe, całościowe zaburzenia rozwojowe lub epilepsję oraz niewidomych.
-        Wysokość miesięcznego dofinansowania nie może przekroczyć 90% faktycznie poniesionych miesięcznych kosztów płacy, a w przypadku pracodawcy wykonującego działalność gospodarczą, w rozumieniu przepisów o postępowaniu w sprawach dotyczących pomocy publicznej, zwanego dalej "pracodawcą wykonującym działalność gospodarczą", 75% tych kosztów.
         """
         hardcoded_doc = Document(
@@ -459,184 +528,80 @@ class HRAssistant:
         return url_documents
-    def ask(self, question: str) -> Dict[str, Any]:
         """
-        Zadaje pytanie asystentowi.
         """
-        logger.info(f"Otrzymano pytanie: {question}")
-        # Sprawdź, czy to bezpośrednie pytanie o wysokość dofinansowania
-        direct_funding_patterns = [
-            r'(ile|jaka|jakie)\s+(wynosi|jest|są)?\s+(wysoko[śs][cć]|kwot[ay])\s+dofinansowania',
-            r'wysoko[śs][cć]\s+dofinansowania',
-            r'kwot[ay]\s+dofinansowania',
-            r'(ile|jaka|jakie)\s+(wynosi|jest|są)?\s+dofinansow',
-            r'dofinansowanie\s+do\s+wynagrodz[eń]'
         ]
-        # Sprawdź, czy pytanie dotyczy bezpośrednio kwot dofinansowania
-        is_direct_funding_question = any(re.search(pattern, question.lower()) for pattern in direct_funding_patterns)
-        if is_direct_funding_question:
-            return self._get_direct_funding_answer()
-        # Sprawdź czy pytanie zawiera słowa kluczowe finansowe
-        financial_keywords = [
-            "kwota", "kwoty", "wysokość", "dofinansowanie", "dofinansowania",
-            "złotych", "zł", "PLN", "pieniądze", "ile", "stawki", "refundacja",
-            "refundacji", "refundowane", "wsparcie", "dopłata", "dopłaty",
-            "wypłata", "wypłaty", "poziom", "wynagrodzenie", "wynagrodzeń"
-        ]
-        is_financial_question = any(keyword.lower() in question.lower() for keyword in financial_keywords)
         try:
             response = self.qa_chain.invoke({
                 "question": question,
                 "chat_history": self.memory.chat_memory.messages
             })
             answer = response["answer"]
-            # Dodaj źródła do odpowiedzi
             result = {
                 "answer": answer,
                 "sources": [],
-                "confidence": "medium"
             }
-            for doc in response.get("source_documents", []):
-                source_info = {
-                    "filename": doc.metadata.get("filename", ""),
-                    "page": doc.metadata.get("page", ""),
-                    "section": doc.metadata.get("section", ""),
-                    "title": doc.metadata.get("title", ""),
-                    "source": doc.metadata.get("source", ""),
-                    "added_date": doc.metadata.get("added_date", ""),
-                    "snippet": doc.page_content[:200] + "..." if len(doc.page_content) > 200 else doc.page_content
-                }
-                result["sources"].append(source_info)
-            # Dodatkowa logika do pytań o kwoty dofinansowania
-            if is_financial_question:
-                logger.info("Przetwarzanie pytania o kwoty dofinansowania - dodatkowe kroki")
-                # Ekstrakcja danych finansowych z odpowiedzi
-                financial_data = []
-                # Szukaj wzorców kwot w odpowiedzi
-                amount_patterns = [
-                    r'(\d{1,3}(?:\s?\d{3})*(?:,\d{2})?)\s*(zł|PLN)',
-                    r'(\d+(?:\.\d{1,2})?)\s*(zł|PLN)'
-                ]
-                for pattern in amount_patterns:
-                    matches = re.finditer(pattern, answer)
-                    for match in matches:
-                        amount = match.group(1).replace(" ", "").replace(",", ".")
-                        currency = match.group(2)
-                        financial_data.append({
-                            "amount": float(amount),
-                            "currency": currency,
-                            "original": match.group(0)
-                        })
-                # Logika priorytetyzacji danych finansowych z odpowiedzi
-                if financial_data:
-                    logger.info(f"Wykryto {len(financial_data)} kwot w odpowiedzi")
-                    # Sortuj według kwoty (malejąco)
-                    financial_data.sort(key=lambda x: x["amount"], reverse=True)
-                    # Weź najlepsze 3 wyniki
-                    top_financial_data = financial_data[:3]
-                    # Przygotuj tekst do dodania do odpowiedzi
-                    additional_info = "\n\nAktualne kwoty dofinansowań według PFRON:"
-                    for item in top_financial_data:
-                        additional_info += f"\n• {item['original']}"
-                    # Dodaj do odpowiedzi
-                    answer += additional_info
-                    logger.info("Dodano szczegółowe kwoty dofinansowań do odpowiedzi")
-                else:
-                    logger.warning("Nie wykryto żadnych kwot dofinansowania w odpowiedzi")
-            # Dodatkowa weryfikacja - sprawdź, czy dla pytań o wysokość dofinansowania odpowiedź ma konkretne kwoty
-            if "wysokość dofinansowania" in question.lower() or "kwota dofinansowania" in question.lower():
-                if not re.search(r'\d+(?:[.,]\d+)?\s*(?:zł|PLN|złot)', answer, re.IGNORECASE):
-                    logger.warning("Odpowiedź na pytanie o wysokość dofinansowania NIE zawiera konkretnych kwot!")
-                    # Szukamy specyficznie w źródłach URL
-                    for url in ['https://www.pfron.org.pl/pracodawcy/dofinansowanie-wynagrodzen/wysokosc-dofinansowania-do-wynagrodzen-pracownikow-niepelnosprawnych/']:
-                        try:
-                            logger.info(f"Próba bezpośredniego pobrania konkretnych kwot z: {url}")
-                            import requests
-                            from bs4 import BeautifulSoup
-                            response = requests.get(url, timeout=15, headers={'User-Agent': 'Mozilla/5.0'})
-                            soup = BeautifulSoup(response.content, 'html.parser')
-                            # Użyjmy bardzo specyficznych selektorów dla strony z kwotami dofinansowania
-                            content = ""
-                            for selector in ['.csc-default', '.frame.default', '#c101710', '.content-main']:
-                                elements = soup.select(selector)
-                                if elements:
-                                    content = elements[0].get_text(strip=True)
-                                    break
-                            if content:
-                                # Ekstrakcja zdań z kwotami
-                                sentences = re.split(r'(?<=[.!?])\s+', content)
-                                financial_sentences = []
-                                for sentence in sentences:
-                                    if re.search(r'\d+(?:[.,]\d+)?\s*(?:zł|PLN|złot)', sentence, re.IGNORECASE):
-                                        financial_sentences.append(sentence.strip())
-                                if financial_sentences:
-                                    answer += "\n\nDODATKOWE INFORMACJE O KWOTACH DOFINANSOWAŃ Z PFRON:\n\n"
-                                    answer += "• " + "\n• ".join(financial_sentences[:5])
-                                    logger.info("Dodano konkretne kwoty po specjalnym wyszukiwaniu")
-                        except Exception as e:
-                            logger.error(f"Błąd podczas próby pobrania konkretnych kwot: {e}")
-            response = {
-                "answer": answer,
-                "sources": [],
-                "confidence": "medium"
-            }
-            # Najpierw dodaj źródła z URL, jeśli są priorytetyzowane
-            url_sources = [doc for doc in response.get("source_documents", []) if doc.metadata.get('source', '').startswith('http')]
-            if is_financial_question and url_sources:
-                for doc in url_sources[:3]:  # Ogranicz do 3 najlepszych wyników URL
                     source_info = {
-                        "filename": "",
-                        "page": "",
-                        "section": "",
                         "title": doc.metadata.get("title", ""),
                         "source": doc.metadata.get("source", ""),
                         "added_date": doc.metadata.get("added_date", ""),
                         "snippet": doc.page_content[:200] + "..." if len(doc.page_content) > 200 else doc.page_content
                     }
-                    response["sources"].append(source_info)
-            # Dodaj standardowe źródła
-            for doc in result.get("source_documents", []):
-                source_info = {
-                    "filename": doc.metadata.get("filename", ""),
-                    "page": doc.metadata.get("page", ""),
-                    "section": doc.metadata.get("section", ""),
-                    "title": doc.metadata.get("title", ""),
-                    "source": doc.metadata.get("source", ""),
-                    "added_date": doc.metadata.get("added_date", ""),
-                    "snippet": doc.page_content[:200] + "..." if len(doc.page_content) > 200 else doc.page_content
-                }
-                # Dodaj tylko jeśli to źródło nie zostało już dodane
-                if not any(s.get('source') == source_info['source'] for s in response["sources"]):
-                    response["sources"].append(source_info)
-            return response
         except Exception as e:
             logger.error(f"Błąd podczas przetwarzania pytania: {e}")
             return {
@@ -646,39 +611,7 @@ class HRAssistant:
                 "error": str(e)
             }
-    def _get_direct_funding_answer(self) -> Dict[str, Any]:
-        """
-        Zwraca bezpośrednią odpowiedź o kwotach dofinansowania.
-        """
-        logger.info("Wykryto bezpośrednie pytanie o kwoty dofinansowania - użycie odpowiedzi hardcoded")
-        direct_answer = """
-Na podstawie aktualnych informacji z PFRON, kwoty miesięcznego dofinansowania do wynagrodzenia pracowników niepełnosprawnych wynoszą:
-• 2300 zł – w przypadku osób niepełnosprawnych zaliczonych do znacznego stopnia niepełnosprawności
-• 1350 zł – w przypadku osób niepełnosprawnych zaliczonych do umiarkowanego stopnia niepełnosprawności
-• 500 zł – w przypadku osób niepełnosprawnych zaliczonych do lekkiego stopnia niepełnosprawności
-Powyższe kwoty zwiększa się o 1050 zł w przypadku osób niepełnosprawnych, w odniesieniu do których orzeczono chorobę psychiczną, upośledzenie umysłowe, całościowe zaburzenia rozwojowe lub epilepsję oraz niewidomych.
-Wysokość miesięcznego dofinansowania nie może przekroczyć 90% faktycznie poniesionych miesięcznych kosztów płacy, a w przypadku pracodawcy wykonującego działalność gospodarczą 75% tych kosztów.
-"""
-        source_info = {
-            "filename": "",
-            "page": "",
-            "section": "",
-            "title": "Wysokość dofinansowania do wynagrodzeń pracowników niepełnosprawnych",
-            "source": "https://www.pfron.org.pl/pracodawcy/dofinansowanie-wynagrodzen/wysokosc-dofinansowania-do-wynagrodzen-pracownikow-niepelnosprawnych/",
-            "added_date": datetime.now().strftime("%Y-%m-%d"),
-            "snippet": "Kwoty miesięcznego dofinansowania: 2300 zł (znaczny), 1350 zł (umiarkowany), 500 zł (lekki). Zwiększenie o 1050 zł dla schorzeń szczególnych."
-        }
-        return {
-            "answer": direct_answer,
-            "sources": [source_info],
-            "confidence": "high"
-        }
     def get_stats(self) -> Dict[str, Any]:
         """
@@ -702,17 +635,35 @@ Wysokość miesięcznego dofinansowania nie może przekroczyć 90% faktycznie po
 def print_unique_sources(sources: list):
     """
-    Wypisuje unikalne źródła na podstawie filename, page, section.
     """
     unique_sources = []
     seen = set()
     for source in sources:
-        key = (source['filename'], source['page'], source['section'])
         if key not in seen:
             seen.add(key)
             unique_sources.append(source)
     for i, source in enumerate(unique_sources, 1):
-        print(f"{i}. {source['filename']} (str. {source['page']}) - {source['section']}")
 def handle_command(command: str, assistant: HRAssistant) -> bool:
     """
@@ -773,11 +724,17 @@ def main():
             if cmd_result is True:
                 continue
             # Uzyskaj odpowiedź
             response = assistant.ask(question)
             print(f"\n📝 Odpowiedź:")
             print(response["answer"])
             if "error" in response:
                 print(f"\n⚠️  Błąd: {response['error']}")
@@ -796,94 +753,15 @@ if __name__ == "__main__":
     # Usunięto metodę reload_knowledge_base, gdyż baza wiedzy jest teraz tylko w pamięci i nie jest aktualizowana
-def print_unique_sources(sources: list):
-    """
-    Wypisuje unikalne źródła na podstawie filename, page, section.
-    """
-    unique_sources = []
-    seen = set()
-    for source in sources:
-        key = (source['filename'], source['page'], source['section'])
-        if key not in seen:
-            seen.add(key)
-            unique_sources.append(source)
-    for i, source in enumerate(unique_sources, 1):
-        print(f"{i}. {source['filename']} (str. {source['page']}) - {source['section']}")
-def handle_command(command: str, assistant: HRAssistant) -> bool:
-    """
-    Obsługuje polecenia specjalne. Zwraca True jeśli należy kontynuować pętlę.
-    """
-    cmd = command.lower()
-    if cmd in ['quit', 'exit', 'q']:
-        return False
-    if cmd == 'stats':
-        print(f"Statystyki: {assistant.get_stats()}")
-        return True
-    if cmd == 'clear':
-        assistant.clear_memory()
-        print("Pamięć konwersacji została wyczyszczona")
-        return True
-    return None
-def main():
-    """
-    Przykład użycia asystenta HR.
-    """
-    # Sprawdź czy ustawiono klucz API
-    api_key = os.getenv("OPENAI_API_KEY")
-    if not api_key:
-        raise ValueError("Ustaw zmienną środowiskową OPENAI_API_KEY")
-    # Utwórz asystenta
-    assistant = HRAssistant(
-        openai_api_key=api_key,
-        pdf_directory="pdfs"
-    )
-    # Przykładowe pytania
-    test_questions = [
-        "Jakie są uprawnienia pracownika z niepełnosprawnością?",
-        "Jak przeprowadzić rekrutację osoby z niepełnosprawnością?",
-        "Jakie wsparcie może otrzymać pracodawca zatrudniający osoby z niepełnosprawnościami?",
-        "Czy osoba z orzeczeniem o całkowitej niezdolności do pracy może być zatrudniona?"
-    ]
-    print("=== Asystent HR - Zatrudnianie osób z niepełnosprawnościami ===\n")
-    print(f"Statystyki: {assistant.get_stats()}\n")
-    print("Dostępne komendy:")
-    print("  stats - wyświetla statystyki bazy wiedzy")
-    print("  clear - czyści pamięć konwersacji")
-    print("  quit/exit/q - kończy program\n")
-    # Interaktywny tryb
-    while True:
-        try:
-            question = input("\nTwoje pytanie (lub 'quit' aby zakończyć): ")
-            if not question.strip():
-                continue
-            cmd_result = handle_command(question, assistant)
-            if cmd_result is False:
-                break
-            if cmd_result is True:
-                continue
-            # Uzyskaj odpowiedź
-            response = assistant.ask(question)
-            print(f"\n📝 Odpowiedź:")
-            print(response["answer"])
-            if "error" in response:
-                print(f"\n⚠️  Błąd: {response['error']}")
-        except KeyboardInterrupt:
-            print("\n\nDo widzenia!")
-            break
-        except Exception as e:
-            print(f"\n❌ Błąd: {e}")
-if __name__ == "__main__":
-    main()

+# --- Funkcje pomocnicze do obsługi źródeł bibliograficznych ---
+import os
+import csv
+def load_bibliography(file_path="bibliografia.csv"):
+    """
+    Wczytuje dane bibliograficzne z pliku CSV i zwraca słownik: {file_stem: opis}
+    """
+    bibliography = {}
+    if os.path.exists(file_path):
+        with open(file_path, mode='r', encoding='utf-8') as csvfile:
+            reader = csv.reader(csvfile, delimiter=';')
+            for row in reader:
+                if len(row) == 2:
+                    # Usuwanie cudzysłowów z obu kolumn
+                    key = row[1].strip().replace('"', '')
+                    value = row[0].strip().replace('"', '')
+                    bibliography[key] = value
+    return bibliography
+bibliography_data = load_bibliography()
+def print_unique_sources(sources: list):
+    """
+    Wypisuje unikalne źródła na podstawie filename, page, section, zamieniając nazwę pliku na opis bibliograficzny jeśli to możliwe.
+    Jeśli źródło to URL lub hardcoded, wypisuje tytuł lub URL.
+    """
+    unique_sources = []
+    seen = set()
+    for source in sources:
+        key = (source.get('filename'), source.get('page'), source.get('section'))
+        if key not in seen:
+            seen.add(key)
+            unique_sources.append(source)
+    for i, source in enumerate(unique_sources, 1):
+        opis = None
+        filename = source.get('filename')
+        if filename:
+            file_stem = os.path.splitext(filename)[0]
+            # Szukaj opisu w bibliografii wg różnych wariantów
+            opis = bibliography_data.get(filename)
+            if not opis:
+                opis = bibliography_data.get(file_stem + '.pdf')
+            if not opis:
+                opis = bibliography_data.get(file_stem)
+            if not opis:
+                opis = filename  # fallback: sama nazwa pliku
+        else:
+            # Jeśli nie ma filename, spróbuj użyć tytułu lub źródła (np. URL)
+            opis = source.get('title') or source.get('source') or "nieznane źródło"
+        page = source.get('page', '')
+        section = source.get('section', '')
+        print(f"{i}. {opis} (str. {page}) - {section}")
 """
 Asystent HR dla pracodawców zatrudniających osoby z niepełnosprawnościami.
+Funkcjonalności:
+- Wykorzystuje dokumenty PDF jako bazę wiedzy, przetwarza je na wektorową bazę danych (FAISS) w pamięci.
+- Pozwala na zadawanie pytań w języku polskim z konwersacyjną pamięcią kontekstu (ChatOpenAI, model GPT-4o-mini).
+- Odpowiedzi generowane są wyłącznie na podstawie treści dokumentów PDF, wybranych stron internetowych (z pliku urls.txt) oraz hardkodowanych fragmentów (np. wysokości dofinansowań PFRON).
+- Każda odpowiedź zawiera źródło informacji (nazwa pliku PDF, strona, sekcja lub URL).
+- Obsługuje interaktywny tryb konsolowy z komendami: stats, clear, quit/exit/q.
+- Przetwarza dokumenty PDF z zachowaniem struktury (chunkowanie sekcji, nagłówków, stron).
+- Pobiera i przetwarza treści z wybranych stron internetowych (BeautifulSoup, requests).
+- Loguje przebieg działania i błędy (logging).
+Źródła wiedzy:
+- Pliki PDF z katalogu "pdfs/"
+- Adresy URL z pliku "urls.txt"
+- Hardkodowane fragmenty (np. wysokość dofinansowań PFRON)
+Wymagania:
+- Python 3.10+
+- Klucz API OpenAI (zmienna środowiskowa OPENAI_API_KEY)
+- Zainstalowane pakiety: langchain, langchain_openai, langchain_community, fitz (PyMuPDF), requests, beautifulsoup4
+Autor: Jacek (2024-2025)
 """
 import os
 from typing import List, Dict, Any, Optional, Tuple
 from pathlib import Path
 import re
+import csv
 # LangChain imports (aktualne na 2024-06)
 from langchain_text_splitters import RecursiveCharacterTextSplitter
         prompt_template = (
             "Jesteś ekspertem HR specjalizującym się w zatrudnianiu osób z niepełnosprawnościami w Polsce.\n"
+            "Twoja wiedza opiera się na dostarczonych dokumentach, które mogą zawierać oficjalne poradniki i treści ze stron internetowych.\n\n"
+            "Kontekst z dokumentów:\n{context}\n\n"
             "Historia rozmowy:\n{chat_history}\n\n"
             "Pytanie: {question}\n\n"
             "Instrukcje:\n"
+            "1. Odpowiadaj w języku polskim.\n"
+            "2. Bazuj wyłącznie na informacjach z dostarczonego kontekstu.\n"
+            "3. Jeśli nie masz informacji w kontekście, powiedz to wprost.\n"
+            "4. Podawaj konkretne i praktyczne porady.\n"
+            "5. Bądź pomocny i profesjonalny.\n"
+            "6. Zawsze podawaj źródło informacji (URL lub nazwa dokumentu PDF), jeśli jest dostępne w metadanych kontekstu.\n\n"
             "Odpowiedź:"
         )
         custom_prompt = PromptTemplate(
             llm=self.llm,
             retriever=self.vectorstore.as_retriever(
                 search_type="similarity",
+                search_kwargs={"k": 8}
             ),
             memory=self.memory,
             combine_docs_chain_kwargs={"prompt": custom_prompt},
         Kwoty, o których mowa powyżej, zwiększa się o 1050 zł w przypadku osób niepełnosprawnych, w odniesieniu do których orzeczono chorobę psychiczną, upośledzenie umysłowe, całościowe zaburzenia rozwojowe lub epilepsję oraz niewidomych.
+        Wysokość miesięcznego dofinansowania nie może przekroczyć 90% faktycznie poniesionych miesięcznych kosztów płacy, a w przypadku pracodawcy wykonującego działalność gospodarczą, w rozumieniu przepisów o postępowaniu w sprawach dotyczących pomocy publicznej, zwanym dalej "pracodawcą wykonującym działalność gospodarczą", 75% tych kosztów.
         """
         hardcoded_doc = Document(
         return url_documents
+    def _extract_url_content(self, soup: BeautifulSoup) -> str:
         """
+        Wyodrębnia główną treść tekstową ze strony internetowej (obiektu BeautifulSoup).
+        Próbuje znaleźć kontenery z główną treścią, a jeśli to się nie uda, pobiera cały tekst.
         """
+        main_content = []
+        # Priorytetowe selektory dla stron PFRON i podobnych
+        priority_selectors = [
+            '.frame.default',
+            '.csc-default',
+            '#c101710',
+            '.content-main',
+            'article',
+            'main',
+            '.content',
+            '.main-content',
+            '.post-content',
+            '#content',
+            '#main'
         ]
+        found_content = False
+        for selector in priority_selectors:
+            elements = soup.select(selector)
+            if elements:
+                for element in elements:
+                    main_content.append(element.get_text(separator='\n', strip=True))
+                found_content = True
+                break  # Znaleziono treść, więc przerwij pętlę
+        # Jeśli nie znaleziono specyficznych kontenerów, pobierz cały tekst z body
+        if not found_content:
+            if soup.body:
+                main_content.append(soup.body.get_text(separator='\n', strip=True))
+        return "\n\n".join(main_content)
+    def ask(self, question: str) -> Dict[str, Any]:
+        """
+        Zadaje pytanie asystentowi.
+        """
+        logger.info(f"Otrzymano pytanie: {question}")
         try:
             response = self.qa_chain.invoke({
                 "question": question,
                 "chat_history": self.memory.chat_memory.messages
             })
             answer = response["answer"]
+            # Przygotuj odpowiedź z odpowiednimi źródłami
             result = {
                 "answer": answer,
                 "sources": [],
+                "confidence": "medium"  # Domyślna pewność, można dostosować
             }
+            if "source_documents" in response:
+                for doc in response["source_documents"]:
                     source_info = {
+                        "filename": doc.metadata.get("filename", ""),
+                        "page": doc.metadata.get("page", ""),
+                        "section": doc.metadata.get("section", ""),
                         "title": doc.metadata.get("title", ""),
                         "source": doc.metadata.get("source", ""),
                         "added_date": doc.metadata.get("added_date", ""),
                         "snippet": doc.page_content[:200] + "..." if len(doc.page_content) > 200 else doc.page_content
                     }
+                    result["sources"].append(source_info)
+            return result
         except Exception as e:
             logger.error(f"Błąd podczas przetwarzania pytania: {e}")
             return {
                 "error": str(e)
             }
     def get_stats(self) -> Dict[str, Any]:
         """
 def print_unique_sources(sources: list):
     """
+    Wypisuje unikalne źródła na podstawie filename, page, section, zamieniając nazwę pliku na opis bibliograficzny jeśli to możliwe.
+    Jeśli źródło to URL lub hardcoded, wypisuje tytuł lub URL.
     """
     unique_sources = []
     seen = set()
     for source in sources:
+        key = (source.get('filename'), source.get('page'), source.get('section'))
         if key not in seen:
             seen.add(key)
             unique_sources.append(source)
     for i, source in enumerate(unique_sources, 1):
+        opis = None
+        filename = source.get('filename')
+        if filename:
+            file_stem = os.path.splitext(filename)[0]
+            # Szukaj opisu w bibliografii wg różnych wariantów
+            opis = bibliography_data.get(filename)
+            if not opis:
+                opis = bibliography_data.get(file_stem + '.pdf')
+            if not opis:
+                opis = bibliography_data.get(file_stem)
+            if not opis:
+                opis = filename  # fallback: sama nazwa pliku
+        else:
+            # Jeśli nie ma filename, spróbuj użyć tytułu lub źródła (np. URL)
+            opis = source.get('title') or source.get('source') or "nieznane źródło"
+        page = source.get('page', '')
+        section = source.get('section', '')
+        print(f"{i}. {opis} (str. {page}) - {section}")
 def handle_command(command: str, assistant: HRAssistant) -> bool:
     """
             if cmd_result is True:
                 continue
             # Uzyskaj odpowiedź
             response = assistant.ask(question)
             print(f"\n📝 Odpowiedź:")
             print(response["answer"])
+            # Wyświetl unikalne źródła, jeśli są dostępne
+            if response.get("sources"):
+                print("\nŹródła:")
+                print_unique_sources(response["sources"])
             if "error" in response:
                 print(f"\n⚠️  Błąd: {response['error']}")
     # Usunięto metodę reload_knowledge_base, gdyż baza wiedzy jest teraz tylko w pamięci i nie jest aktualizowana
+# Wczytywanie danych bibliograficznych z pliku CSV
+bibliography_data = {}
+file_path = 'bibliography.csv'
+if os.path.exists(file_path):
+    with open(file_path, mode='r', encoding='utf-8') as csvfile:
+        reader = csv.reader(csvfile, delimiter=';')
+        for row in reader:
+            if len(row) == 2:
+                bibliography_data[row[1].strip()] = row[0].strip()
+print(bibliography_data)

requirements.txt CHANGED Viewed

@@ -1,14 +1,12 @@
 gradio==5.24.0
-pandas
-pydantic==2.10.6
-python-docx
 langchain
 langchain-community
 langchain-openai
 openai
-docx2txt
-pypdf
-streamlit
 PyMuPDF
-sentence-transformers
-faiss-cpu

+beautifulsoup4
+faiss-cpu
 gradio==5.24.0
 langchain
 langchain-community
 langchain-openai
 openai
+pydantic==2.10.6
 PyMuPDF
+pypdf
+requests
+sentence-transformers