roberta-large_MBTI_N

This model is a fine-tuned version of roberta-large on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 1e-05
train_batch_size: 16
eval_batch_size: 16
seed: 42
distributed_type: multi-GPU
num_devices: 2
total_train_batch_size: 32
total_eval_batch_size: 32
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 400
num_epochs: 5

Training Loss	Epoch	Step	Validation Loss	F1	Threshold	F1 At 05
0.4908	0.2018	200	0.3577	0.5202	0.62	0.4642
0.4016	0.4036	400	0.2539	0.5194	0.69	0.4642
0.4080	0.6054	600	0.2399	0.5597	0.6800	0.4642
0.3491	0.8073	800	0.2765	0.5889	0.65	0.4642
0.3420	1.0091	1000	0.2844	0.6133	0.62	0.5183
0.2889	1.2109	1200	0.2586	0.6212	0.64	0.4642
0.2788	1.4127	1400	0.2621	0.6248	0.62	0.4698
0.2913	1.6145	1600	0.2251	0.6281	0.66	0.4656
0.2704	1.8163	1800	0.2375	0.6165	0.65	0.4683
0.2124	2.0182	2000	0.2985	0.6253	0.61	0.5293
0.1655	2.2200	2200	0.2409	0.6279	0.6800	0.4791
0.1953	2.4218	2400	0.2479	0.6366	0.66	0.4781
0.1747	2.6236	2600	0.2678	0.6304	0.61	0.5019
0.1788	2.8254	2800	0.3430	0.6350	0.56	0.5457
0.1526	3.0272	3000	0.2542	0.6271	0.63	0.4884
0.1260	3.2291	3200	0.2645	0.6323	0.59	0.5086
0.1204	3.4309	3400	0.2957	0.6287	0.5700	0.4833
0.1240	3.6327	3600	0.2699	0.6294	0.61	0.4766
0.1076	3.8345	3800	0.2811	0.6253	0.62	0.4992
0.1051	4.0363	4000	0.2591	0.6303	0.63	0.4862
0.0845	4.2381	4200	0.3452	0.6229	0.54	0.5933
0.0888	4.4400	4400	0.2678	0.6287	0.64	0.5403
0.0684	4.6418	4600	0.3210	0.6263	0.5700	0.5212
0.0884	4.8436	4800	0.3047	0.6223	0.61	0.5343

Safetensors

Model size

0.4B params

Tensor type

F32

Base model

Finetuned

(456)

this model