--- language: - bs - en - de library_name: transformers license: mit base_model: xlm-roberta-base tags: - email-security - phishing-detection - cybersecurity - nlp - transformers - xlm-roberta - generated_from_trainer metrics: - accuracy - precision - recall - f1 ---

PhishGuard AI Banner

# PhishGuard AI — Model za detekciju prijetnji u elektronskoj pošti / Email Threat Detection Model (Risk Edition) **PhishGuard AI** je inteligentni model mašinskog učenja koji koristi **prirodnojezičnu obradu (NLP)** za klasifikaciju elektronskih poruka kao **phishing**, **spam** ili **legitimnih**. Model je razvijen i fino podešen na osnovu *XLM-RoBERTa* arhitekture i kombinovan sa **heurističkom analizom** (prepoznavanje ključnih riječi, gustoće URL-ova i strukture mejla). Cilj modela je pružiti **brzu i automatsku analizu rizika** e-mail poruka u kontekstu sajber bezbjednosti i edukacije. --- ## Opis i arhitektura modela / Model Overview Model koristi **XLM-RoBERTa-Base** (multijezična varijanta RoBERTa) i treniran je na datasetima koji sadrže stvarne i simulirane primjere phishing i spam poruka. Klasifikacija se zasniva na tekstualnim obrascima, kontekstu, emocionalnom tonu i ključnim riječima koje ukazuju na socijalni inženjering. **Output labele:** * `PHISH` – lažne poruke koje imitiraju legitimne organizacije s ciljem krađe podataka * `SPAM` – neželjene marketinške ili promotivne poruke * `LEGIT` – legitimne, neškodljive poruke --- ## Skup podataka i obuka / Dataset & Training Data Model je treniran na kombinovanom datasetu koji uključuje: * **Kaggle Phishing Email Dataset (2023)** * Prošireni skup na **bosanskom, engleskom i njemačkom jeziku**, prikupljen i označen ručno * Filtrirane primjere neželjenih marketinških mejlova Podaci su očišćeni, normalizovani, tokenizovani i podijeljeni u omjeru **80 % trening / 20 % validacija**. Trening je obavljen pomoću **PyTorch** biblioteke i **Transformers (Hugging Face)** okvira. --- ## Parametri obuke / Training Hyperparameters | Parametar | Vrijednost / Value | | -------------- | ---------------------------- | | Broj epoha | 3 | | Batch veličina | 16 | | Learning rate | 2e-5 | | Optimizator | AdamW (weight decay 0.01) | | Scheduler | Linear | | GPU | NVIDIA T4 (Google Colab Pro) | --- ## Rezultati evaluacije / Evaluation Metrics | Metrika | Vrijednost / Value | | --------- | -----------------: | | Loss | 0.0812 | | Accuracy | 0.9677 | | Precision | 0.9649 | | Recall | 0.9701 | | F1 Score | 0.9674 | Model pokazuje visoku preciznost i odziv kod identifikacije phishing poruka (preko 96 %), uz minimalnu stopu lažnih pozitivnih rezultata (ispod 2 %). Najveći broj grešaka dešava se kod poruka koje su po strukturi vrlo slične legitimnim obavještenjima. --- ## Integracija s PhishGuard AI aplikacijom / Integration with App Model je implementiran unutar web aplikacije **PhishGuard AI – Risk Edition**, koja omogućava: * učitavanje `.eml` fajlova * automatsko izvlačenje sadržaja, URL-ova i pošiljaoca * NLP analizu putem modela * heurističko bodovanje i vizualizaciju doprinosa (AI vs Heuristika) > 🔗 [Online demo on Hugging Face Space](https://huggingface.co/spaces/MujMej/phishguard-ai) --- ## Integracija s heuristikom / Heuristic Integration Aplikacija kombinuje rezultate modela i heurističke funkcije: * AI analiza (semantička detekcija phishing sadržaja) * Heuristika (broj URL-ova, ključne riječi, obrasci sumnjivog ponašanja) * Kombinovani rizik = 60 % NLP + 40 % heuristika Rezultat je vizualizovan kroz grafikon koji prikazuje doprinos oba pristupa. --- ## Prednosti / Model Strengths Multijezična podrška (B/H/S, engleski, njemački) Visoka preciznost i brzina obrade Može se koristiti lokalno bez interneta Kombinacija AI i heuristike povećava tačnost Edukativna i istraživačka primjena --- ## Ograničenja / Limitations * Ne analizira zaglavlja (SPF, DKIM, DMARC) ni priloge * Oslanja se na tekstualni sadržaj mejla * Neki mejlovi s minimalnim sadržajem mogu proizvesti neodređene rezultate * Hugging Face Spaces sandbox ne dozvoljava vanjske API pozive (VirusTotal, AbuseIPDB) --- ## Projekat i upotreba / Project Context PhishGuard AI je kreiran kao u sklopu diplomskog rada na temu ML u Pythonu i je dio većeg istraživačkog projekta **S.AF.E — Security Awareness for Families & Education**, usmjerenog na edukaciju i prevenciju digitalnih prijetnji u BiH kroz praktične alate i podizanje svijesti o sajber bezbjednosti. Model se koristi i u verziji za lokalnu analizu (offline), koja uključuje reputacione servise VirusTotal i AbuseIPDB. --- ## Citat / Citation > Mujanović, M. (2025). *PhishGuard AI – Risk Edition: Multijezični NLP model za detekciju prijetnji u elektronskoj pošti.* > Hugging Face Model Repository. [https://huggingface.co/MujMej/phishguard-ai](https://huggingface.co/MujMej/phishguard-ai) --- ## Etički aspekt / Ethical Use Model je razvijen isključivo za **edukativne i defanzivne** svrhe u oblasti sajber bezbjednosti. Zabranjeno je korištenje u svrhe napada, masovnog skeniranja ili distribucije phishing sadržaja. Svi podaci korišteni u treningu su javno dostupni i ne sadrže lične informacije. --- ## 📬 Kontakt / Contact **Autor / Author:** Mejra Mujanović **Projekat / Project:** S.AF.E — Security Awareness for Families & Education **Email:** mejrajob@gmail.com **Model:** [https://huggingface.co/MujMej/phishguard-ai](https://huggingface.co/MujMej/phishguard-ai)