electra-moby-dick01

This model is a fine-tuned version of on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 1e-10
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 100

Training Loss	Epoch	Step	Validation Loss
3.824	3.0769	200	3.8313
3.8458	6.1538	400	3.5390
3.961	9.2308	600	2.9441
3.9327	12.3077	800	3.3420
3.7625	15.3846	1000	4.8176
3.8002	18.4615	1200	3.9790
3.849	21.5385	1400	3.0447
3.8627	24.6154	1600	4.8297

Safetensors

Model size

11.6M params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support