Maris AI Model
Model Summary
Maris AI Model ir Maris AI apmācības izvads, kas tiek trenēts no Maris AI ilgtermiņa atmiņas dataset repozitorija.
Modeļa publicēšana tiek vadīta no šī repozitorija:
- treniņa konfigurācija:
huggingface/training-config.json - treniņa entrypoint:
huggingface/train.sh - publicēšanas skripts:
core-python/scripts/export_to_hf.py
Intended Use
Šis modelis ir paredzēts:
- Maris AI teksta asistenta adaptācijai uz projekta sarunām un darba plūsmām;
- iekšējai eksperimentēšanai un iteratīvai fine-tuning automatizācijai;
- turpmākai izvērtēšanai pirms publiskas vai produkcijas izvietošanas.
Training Data
Treniņdati tiek ielādēti no Hugging Face dataset repozitorija
MarisUK/maris-ai-memory.
Pipeline apstrādā šādus ierakstu tipus:
conversationierakstus kā user/assistant dialogu;- ģenerāciju ierakstus (
image,music,video,code,autonomous) kā prompt + metadata tekstuālu reprezentāciju; - jebkuru citu ierakstu kā normalizētu JSON tekstu.
Training Procedure
Training pipeline:
- ielādē Maris AI dataset repozitoriju;
- sagatavo tekstu ar vienotu chat formātu;
- sagatavo apmācības tokenus Maris AI teksta pipeline vajadzībām;
- izveido validation split, ja repo tāds nav publicēts;
- trenē modeli;
- saglabā modeli, tokenizeri un metriku JSON failus ar Maris AI identitāti;
- pēc izvēles publicē modeli uz Maris AI model repozitoriju.
Evaluation
Pipeline saglabā training-metrics.json un evaluation-metrics.json lokālajā
output direktorijā. Galvenā automātiski aprēķinātā metrika ir:
eval_lossperplexity
Risks and Limitations
- Dati var saturēt operacionālu un sensitīvu saturu, tāpēc publiska publicēšana ir jāveic tikai pēc sanitizācijas.
- Modelis nav validēts drošībai, faktu precizitātei vai bias ierobežošanai.
- Fine-tuning kvalitāte tieši atkarīga no dataset kvalitātes un filtrēšanas.
How to Use
Izmanto MarisUK/maris-ai-master kā galveno Maris AI modeļa identifikatoru.
Operational Notes
huggingface/sync.shpublicē šo failu kā modeļa repo saknesREADME.md.- GitHub Actions workflow
/.github/workflows/core-train.ymlvar palaist automātisku treniņu un publicēšanu.