pszemraj
/

nanoT5-base-65kBPE-v2

text2text-generation

text-generation-inference

Model card Files Files and versions

nanoT5-base-65kBPE-v2

This is a "raw" pretrained model intended to be fine-tuned on downstream tasks

SiLU/gated-SiLU activation
25% mask rate during pretrain
65k vocab size, adapted claude3 tokenizer

training code: https://github.com/pszemraj/nanoT5/tree/any-tokenizer

plots

more details are under checkpoints/

loss

gradients

weights

Downloads last month: 7

Safetensors

Model size

0.3B params

Tensor type

F32

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train pszemraj/nanoT5-base-65kBPE-v2