--- license: gpl-3.0 datasets: - ruslanmv/italian-dataset-mini language: - it library_name: transformers tags: - DAC - data-ai - DATA-AI - transformer - experimental base_model: - Mattimax/PicoDAC --- # PicoDAC-IT (Instruction-Tuned) ![Logo di PicoDAC](https://huggingface.co/Mattimax/PicoDAC/resolve/main/PicoDAC_Logo/PicoDAC_Logo.png) ## Informazioni sul modello - **Autore:** [Mattimax](https://huggingface.co/Mattimax) - **Organizzazione:** [M.INC](https://huggingface.co/MINC01) - **Pagina GitHub:** [PicoDAC](https://github.com/M-INC-01/PicoDAC/tree/main) - **Licenza:** GPL-3.0 **Descrizione:** PicoDAC è un modello di linguaggio compatto progettato per chat in lingua italiana. Basato su una architettura Transformer leggera, è ottimizzato per essere rapido e facilmente distribuibile. Questo modello è un **esperimento** ed è ancora in fase di sviluppo, quindi le prestazioni possono essere limitate rispetto a modelli più grandi e sofisticati. **Dataset di addestramento:** Questa versione migliorata del modello è stata addestrata sul dataset [italian-dataset-mini](https://huggingface.co/datasets/ruslanmv/italian-dataset-mini) **Obiettivo:** Fornire un prototipo di chatbot italiano leggero, utile per test, sperimentazioni e applicazioni dove la dimensione del modello e la velocità sono prioritarie rispetto alla qualità generativa. --- ## Caratteristiche tecniche * Architettura: Transformer autoregressivo compatto * Dimensione del vocabolario: 1.920 token * Lunghezza massima del contesto: 64 token * Numero di strati (layers): 6 * Numero di teste di attenzione: 6 * Dimensione embedding: 240 * Quantizzazione: int8 per la maggior parte dei pesi, con embedding e layernorm ottimizzati a bit più alti --- ## Avvertenze e limitazioni * Questo modello è **ancora sperimentale**: può generare risposte incoerenti o incomplete. * Non è addestrato per conversazioni sensibili o contenuti critici. * Performance su testi lunghi o conversazioni complesse sono limitate a causa della breve lunghezza del contesto e della piccola dimensione del modello. --- ## Uso previsto * Chatbot sperimentali in italiano * Applicazioni leggere dove la dimensione del modello è critica * Prototipazione e testing di modelli di dialogo **Nota:** consigliato l’uso con input brevi e contesti semplici. --- ## Integrazione consigliata * **Applicazioni mobile**: dimensione ridotta e quantizzazione riducono il consumo di RAM e storage. * **Sperimentazione NLP**: utile per test di prompt, fine-tuning leggero o per costruire dataset sintetici. --- ## Riferimenti * Dataset: [italian-dataset-mini](https://huggingface.co/datasets/ruslanmv/italian-dataset-mini) * Autore: [Mattimax](https://huggingface.co/Mattimax) * Organizzazione: [M.INC](https://huggingface.co/MINC01)