| | import os |
| | import shutil |
| | import ollama |
| | from pathlib import Path |
| |
|
| | |
| | ROOT_FOLDER = "scans" |
| | REJECTED_FOLDER = "_ODRZUCONE" |
| | HISTORY_FILE = "clean_scans_processed.txt" |
| | MODEL_NAME = "llama3.2-vision" |
| | IMAGE_EXTENSIONS = {'.jpg', '.jpeg', '.png', '.bmp', '.webp', '.heic'} |
| |
|
| | |
| | SAFE_FOLDERS = {'documentScan', 'other'} |
| |
|
| | |
| | |
| | DOCUMENT_TYPES = { |
| | |
| | 'pit11': ('Deklaracja PIT-11', |
| | 'Wyraźny symbol "PIT-11" (zazwyczaj lewy górny róg), tabela z przychodami, dane płatnika i podatnika'), |
| | 'pit37': ('Zeznanie PIT-37', |
| | 'Wyraźny symbol "PIT-37" (duży druk w nagłówku/rogu), biało-zielony lub biały formularz, pola na PESEL'), |
| | 'pit36': ('Zeznanie PIT-36', 'Wyraźny symbol "PIT-36" w nagłówku formularza, sekcje działalności gospodarczej'), |
| | 'pit36L': ('Zeznanie PIT-36L', 'Wyraźny symbol "PIT-36L" (podatek liniowy) w nagłówku'), |
| | 'pit28': ('Zeznanie PIT-28', 'Wyraźny symbol "PIT-28" (ryczałt) w nagłówku formularza'), |
| | 'pit38': ('Zeznanie PIT-38', 'Wyraźny symbol "PIT-38" (kapitały pieniężne) w nagłówku'), |
| | 'pit39': ('Zeznanie PIT-39', 'Wyraźny symbol "PIT-39" (nieruchomości) w nagłówku'), |
| | 'pit5': ('Deklaracja PIT-5', 'Symbol "PIT-5" widoczny na formularzu'), |
| | 'pit8C': ('Informacja PIT-8C', 'Symbol "PIT-8C" widoczny w nagłówku formularza'), |
| | 'vat7': ('Deklaracja VAT-7 / JPK', 'Symbol "VAT-7" lub nagłówek JPK_V7, tabela rozliczenia podatku VAT'), |
| | 'cit8': ('Zeznanie CIT-8', 'Symbol "CIT-8" w nagłówku, dotyczy osób prawnych'), |
| | 'pcc3': ('Deklaracja PCC-3', 'Symbol "PCC-3" (podatek od czynności cywilnoprawnych) w nagłówku'), |
| |
|
| | |
| | 'invoice': ('Faktura VAT', |
| | 'Słowo "Faktura" lub "Invoice", tabela z kolumnami netto/vat/brutto, dane sprzedawcy i nabywcy'), |
| | 'proformaInvoice': ('Faktura Proforma', |
| | 'Wyraźny napis "Proforma" lub "Zamówienie", brak skutków księgowych (wygląda jak faktura)'), |
| | 'receipt': ('Paragon fiskalny', |
| | 'Wąski wydruk z drukarki fiskalnej, logo sklepu na górze, stawki PTU na dole, data i godzina'), |
| | 'utilityBill': ('Rachunek za media', |
| | 'Logo dostawcy (prąd/gaz/woda/internet), wykres zużycia, kwota "do zapłaty", numer konta'), |
| | 'bankStatement': ('Wyciąg bankowy', 'Logo banku, lista operacji z datami i kwotami, saldo początkowe i końcowe'), |
| | 'loanAgreement': ('Umowa kredytowa', |
| | 'Tytuł "Umowa kredytu" lub "Umowa pożyczki", harmonogram spłat, pieczęci banku'), |
| | 'insurancePolicy': ('Polisa ubezpieczeniowa', |
| | 'Tytuł "Polisa", numer polisy, okres ubezpieczenia, przedmiot ubezpieczenia (auto/dom)'), |
| |
|
| | |
| | 'notarialDeed': ('Akt notarialny', |
| | 'Godło państwowe (orzeł), pieczęć notariusza, charakterystyczny sznurek (repetytorium), tytuł "Akt Notarialny"'), |
| | 'courtJudgment': ('Wyrok sądu', |
| | 'Godło państwowe, nagłówek "Wyrok w imieniu Rzeczypospolitej Polskiej", sygnatura akt'), |
| | 'powerOfAttorney': ('Pełnomocnictwo', |
| | 'Tytuł "Pełnomocnictwo" lub "Upoważnienie", dane mocodawcy i pełnomocnika, podpis'), |
| | 'employmentContract': ('Umowa o pracę', |
| | 'Tytuł "Umowa o pracę", określenie stanowiska, wynagrodzenia, wymiaru etatu'), |
| | 'mandateContract': ('Umowa zlecenie', |
| | 'Tytuł "Umowa zlecenie", określenie czynności do wykonania, stawka godzinowa/miesięczna'), |
| | 'taskContract': ('Umowa o dzieło', 'Tytuł "Umowa o dzieło", określenie konkretnego rezultatu/dzieła'), |
| | 'b2bContract': ('Kontrakt B2B', 'Umowa współpracy biznesowej, dane dwóch firm (NIP), określenie zasad współpracy'), |
| | 'nonCompeteAgreement': ('Zakaz konkurencji', |
| | 'Umowa lub aneks o zakazie konkurencji, określenie kar umownych i okresu obowiązywania'), |
| | 'lawsuit': ('Pozew sądowy', 'Pismo procesowe, nagłówek "Pozew", oznaczenie sądu i stron, uzasadnienie'), |
| |
|
| | |
| | 'idCard': ('Dowód osobisty', 'Plastikowa karta, zdjęcie twarzy, godło, napis "Rzeczpospolita Polska"'), |
| | 'passport': ('Paszport', 'Strona z danymi, zdjęcie, hologramy, dolny pasek maszynowy (<<<)'), |
| | 'birthCertificate': ('Akt urodzenia', 'Odpis aktu stanu cywilnego, godło, pieczęć urzędu stanu cywilnego (USC)'), |
| | 'marriageCertificate': ('Akt małżeństwa', 'Odpis aktu małżeństwa, dane małżonków, pieczęć USC'), |
| | 'deathCertificate': ('Akt zgonu', 'Odpis aktu zgonu, czarna ramka lub standardowy druk USC, pieczęć'), |
| | 'peselConfirmation': ('Zaświadczenie PESEL', |
| | 'Biały druk urzędowy, potwierdzenie nadania numeru PESEL, pieczęć gminy/urzędu'), |
| | 'drivingLicense': ('Prawo jazdy', 'Różowa plastikowa karta, zdjęcie, ikony pojazdów na rewersie'), |
| | 'schoolCertificate': ('Świadectwo szkolne', |
| | 'Gilosz (ozdobne tło), godło, nazwa szkoły, oceny, czerwony pasek (opcjonalnie)'), |
| | 'universityDiploma': ('Dyplom studiów', |
| | 'Ozdobny papier, godło uczelni, tytuł zawodowy (licencjat/magister/inżynier), pieczęć sucha lub tuszowa'), |
| | 'professionalCertificate': ('Certyfikat zawodowy', |
| | 'Nazwa kursu/szkolenia, imię i nazwisko uczestnika, podpis organizatora'), |
| | 'cv': ('CV / Życiorys', 'Układ sekcyjny: Doświadczenie, Edukacja, Umiejętności, często zdjęcie, dane kontaktowe'), |
| |
|
| | |
| | 'sickLeave': ('Zwolnienie L4', 'Formularz ZUS ZLA (zielony/biały) lub wydruk e-ZLA, dane pacjenta i lekarza'), |
| | 'prescription': ('Recepta', 'Kod kreskowy (góra/dół), "Recepta", lista leków, dane świadczeniodawcy'), |
| | 'medicalResults': ('Wyniki badań', |
| | 'Wydruk laboratoryjny, nazwy parametrów (morfologia, glukoza itp.), normy i wyniki'), |
| | 'referral': ('Skierowanie', 'Tytuł "Skierowanie", rozpoznanie (kod ICD-10), pieczęć lekarza kierującego'), |
| | 'medicalHistory': ('Historia choroby/Wypis', 'Karta informacyjna leczenia szpitalnego, epikryza, zalecenia'), |
| | 'vaccinationCard': ('Karta szczepień', 'Książeczka lub karta, tabela z datami szczepień i nazwami preparatów'), |
| | 'sanitaryBooklet': ('Książeczka sanepidowska', |
| | 'Mała książeczka, wpisy badań na nosicielstwo, pieczątki stacji sanitarno-epidemiologicznej'), |
| |
|
| | |
| | 'propertyDeed': ('Akt własności', 'Akt notarialny dotyczący przeniesienia własności nieruchomości'), |
| | 'landRegistry': ('Księga wieczysta', 'Wydruk z EKW (Elektroniczne Księgi Wieczyste), działy I-IV'), |
| | 'rentalAgreement': ('Umowa najmu', 'Tytuł "Umowa najmu lokalu", określenie czynszu, kaucji, adres lokalu'), |
| | 'registrationCertificate': ('Dowód rejestracyjny', |
| | 'Składany dokument (błękitno-żółty), hologram, pola z kodami A, B, C'), |
| | 'vehicleHistory': ('Karta pojazdu', 'Czerwona książeczka (stary typ) lub wydruk historii z CEPiK'), |
| | 'landMap': ('Mapa geodezyjna', 'Rysunek techniczny terenu, granice działek, numery działek, pieczęć starostwa'), |
| | 'technicalInspection': ('Przegląd techniczny', |
| | 'Zaświadczenie ze stacji kontroli pojazdów lub pieczątka w dowodzie rejestracyjnym'), |
| |
|
| | |
| | 'application': ('Wniosek/Podanie', 'Nagłówek "Wniosek" lub "Podanie", adresat (urząd/firma), prośba, podpis'), |
| | 'certificate': ('Zaświadczenie', 'Tytuł "Zaświadczenie", potwierdzenie faktu przez instytucję, pieczęć'), |
| | 'authorization': ('Upoważnienie', 'Tytuł "Upoważnienie", dane osoby upoważnianej do czynności, podpis') |
| | } |
| |
|
| | DEFAULT_CRITERIA = "Oficjalny dokument z czytelnym tekstem i pieczęciami." |
| |
|
| |
|
| | |
| |
|
| | def load_history(): |
| | if not os.path.exists(HISTORY_FILE): |
| | return set() |
| | with open(HISTORY_FILE, 'r', encoding='utf-8') as f: |
| | return set(line.strip() for line in f if line.strip()) |
| |
|
| |
|
| | def mark_as_done(rel_path): |
| | with open(HISTORY_FILE, 'a', encoding='utf-8') as f: |
| | f.write(f"{rel_path}\n") |
| |
|
| |
|
| | def check_document_strict(file_path, doc_name, criteria): |
| | """ |
| | Wysyła zapytanie do Llama Vision z BARDZO rygorystycznymi wymogami. |
| | """ |
| | print(f" (Weryfikacja: {doc_name} -> {criteria[:30]}...)", end="", flush=True) |
| |
|
| | prompt = f""" |
| | Działaj jako rygorystyczny audytor dokumentów. Twoim zadaniem jest potwierdzenie autentyczności typu dokumentu. |
| | |
| | OBRAZ: {file_path} |
| | OCZEKIWANY TYP: {doc_name} |
| | |
| | KRYTYCZNE WYMAGANIA WIZUALNE (MUST HAVE): |
| | - {criteria} |
| | |
| | NATYCHMIASTOWE ODRZUCENIE (REJECT IF): |
| | 1. To jest zrzut ekranu (widać paski przeglądarki, kursor, interfejs telefonu). |
| | 2. To jest zdjęcie ekranu monitora (widać piksele/morę). |
| | 3. Dokument jest nieczytelny, rozmazany lub ucięty w sposób uniemożliwiający identyfikację. |
| | 4. Brakuje kluczowych elementów wymienionych w wymaganiach (np. brak napisu "PIT-11" na rzekomym PIT-11). |
| | 5. To jest zdjęcie przedmiotu, zwierzęcia lub osoby (selfie), a nie skan dokumentu. |
| | |
| | DECYZJA: |
| | Czy obraz spełnia wszystkie kryteria dla {doc_name}? |
| | Odpowiedz TYLKO jednym słowem: TAK lub NIE. |
| | """ |
| |
|
| | try: |
| | response = ollama.chat( |
| | model=MODEL_NAME, |
| | messages=[{ |
| | 'role': 'user', |
| | 'content': prompt, |
| | 'images': [str(file_path)] |
| | }] |
| | ) |
| | |
| | answer = response['message']['content'].strip().upper().replace('.', '') |
| |
|
| | if "TAK" in answer or "YES" in answer: |
| | return True |
| | return False |
| |
|
| | except Exception as e: |
| | print(f" ❌ Błąd API: {e}") |
| | return None |
| |
|
| |
|
| | def main(): |
| | base_path = Path(ROOT_FOLDER) |
| | rejected_path = base_path / REJECTED_FOLDER |
| |
|
| | if not base_path.exists(): |
| | print(f"❌ Folder '{ROOT_FOLDER}' nie istnieje!") |
| | return |
| |
|
| | if not rejected_path.exists(): |
| | rejected_path.mkdir() |
| |
|
| | processed_files = load_history() |
| | print(f"📂 Historia: {len(processed_files)} plików pominiętych.") |
| | print(f"🚀 Start audytu wizualnego (Model: {MODEL_NAME})...") |
| |
|
| | |
| | subdirs = [d for d in base_path.iterdir() if d.is_dir()] |
| |
|
| | for folder in subdirs: |
| | folder_name = folder.name |
| |
|
| | |
| | if folder_name == REJECTED_FOLDER: |
| | continue |
| |
|
| | |
| | if folder_name in SAFE_FOLDERS: |
| | |
| | continue |
| |
|
| | |
| | if folder_name in DOCUMENT_TYPES: |
| | doc_name, doc_criteria = DOCUMENT_TYPES[folder_name] |
| | else: |
| | |
| | |
| | continue |
| |
|
| | files = [f for f in folder.iterdir() if f.suffix.lower() in IMAGE_EXTENSIONS] |
| | if not files: |
| | continue |
| |
|
| | print(f"\n📂 Audyt folderu: [{folder_name}]") |
| |
|
| | for file_path in files: |
| | rel_path_str = str(file_path.relative_to(base_path)) |
| |
|
| | |
| | if rel_path_str in processed_files: |
| | continue |
| |
|
| | print(f" 👁️ Plik: {file_path.name}...", end="", flush=True) |
| |
|
| | is_valid = check_document_strict(file_path, doc_name, doc_criteria) |
| |
|
| | if is_valid is True: |
| | print(" ✅ OK") |
| | mark_as_done(rel_path_str) |
| |
|
| | elif is_valid is False: |
| | print(" 🗑️ ODRZUCONY") |
| |
|
| | |
| | target_dir = rejected_path / folder_name |
| | if not target_dir.exists(): |
| | target_dir.mkdir(parents=True) |
| |
|
| | try: |
| | shutil.move(str(file_path), str(target_dir / file_path.name)) |
| | mark_as_done(rel_path_str) |
| | except Exception as e: |
| | print(f" [!] Błąd przenoszenia: {e}") |
| | else: |
| | print(" ⚠️ Błąd modelu (spróbujemy ponownie).") |
| |
|
| | print("\n✨ Zakończono.") |
| |
|
| |
|
| | if __name__ == "__main__": |
| | try: |
| | main() |
| | except KeyboardInterrupt: |
| | print("\n🛑 Zatrzymano.") |