A newer version of the Gradio SDK is available:
6.2.0
metadata
title: KorChat
emoji: 📚
colorFrom: blue
colorTo: gray
sdk: gradio
sdk_version: 5.38.0
app_file: chatbot.py
pinned: false
license: cc-by-sa-4.0
short_description: Asystent zatrudniania osób z niepełnosprawnościami
Asystent HR dla pracodawców zatrudniających osoby z niepełnosprawnościami
Funkcjonalności
- Wykorzystuje dokumenty PDF jako bazę wiedzy, przetwarza je na wektorową bazę danych (FAISS) w pamięci
- Pozwala na zadawanie pytań w języku polskim z konwersacyjną pamięcią kontekstu (ChatOpenAI, model GPT-4o-mini)
- Odpowiedzi generowane są wyłącznie na podstawie treści dokumentów PDF, wybranych stron internetowych (z pliku
urls.txt) oraz hardkodowanych fragmentów (np. wysokości dofinansowań PFRON) - Każda odpowiedź zawiera źródło informacji (nazwa pliku PDF, strona, sekcja lub URL)
- Obsługuje interaktywny tryb konsolowy z komendami:
stats,clear,quit/exit/q - Przetwarza dokumenty PDF z zachowaniem struktury (chunkowanie sekcji, nagłówków, stron)
- Pobiera i przetwarza treści z wybranych stron internetowych (BeautifulSoup, requests)
- Loguje przebieg działania i błędy (logging)
Źródła wiedzy
- Pliki PDF z katalogu
pdfs/ - Adresy URL z pliku
urls.txt - Hardkodowane fragmenty (np. wysokość dofinansowań PFRON)
Wymagania
- Python 3.10+
- Klucz API OpenAI (zmienna środowiskowa
OPENAI_API_KEY) - Zainstalowane pakiety:
langchain,langchain_openai,langchain_community,fitz(PyMuPDF),requests,beautifulsoup4
Uruchomienie
- Ustaw zmienną środowiskową
OPENAI_API_KEYz własnym kluczem OpenAI - Umieść pliki PDF w katalogu
pdfs/ - (Opcjonalnie) Dodaj adresy URL do pliku
urls.txt(jeden w linii) - Zainstaluj wymagane pakiety:
pip install -r requirements.txt - Uruchom program:
python hr_assistant.py
Tryb interaktywny
Program uruchamia się w trybie konsolowym. Dostępne komendy:
stats— wyświetla statystyki bazy wiedzyclear— czyści pamięć konwersacjiquit/exit/q— kończy program
Dodatkowe informacje
- Odpowiedzi generowane są wyłącznie na podstawie załadowanych dokumentów i stron.
- Każda odpowiedź zawiera źródło (nazwa pliku PDF, strona, sekcja lub URL).
- Baza wiedzy jest ładowana do pamięci przy starcie programu i nie jest aktualizowana w trakcie działania.
- Logi działania i błędów zapisywane są na konsoli.
Autor
Jacek (2024-2025)