SetFit with TurkuNLP/bert-base-finnish-cased-v1

This is a SetFit model that can be used for Text Classification. This SetFit model uses TurkuNLP/bert-base-finnish-cased-v1 as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

  1. Fine-tuning a Sentence Transformer with contrastive learning.
  2. Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Sources

Model Labels

Label Examples
0
  • 'Etunimi Sukunimi jep. Suomalainen rokottamaton paha, ukrainalainen rokottamaton hyvä. Tää näkyy olevan nyt se mentaliteetti tällä hetkellä...'
  • 'Etunimi Sukunimi tilastot.'
  • 'Etunimi Sukunimi myös delta oli suurimmalle osalle myös rokottamattomille lähes oireeton, omikron kuulemma vielä lievempi👏'
1
  • 'Eikö hallitus vieläkään tee mitään. Onpa surkea tyttölauma😈😈😈'
  • 'Etunimi Sukunimi Miestä mielistelemään yrittäjiä ihmisten terveyden kustannuksella😷'
  • 'Etunimi Sukunimi Sukunimi samoin kävi minulle. Peruutin lehden joka ei muuta kuin viikosta toiseen kirjoitti koronasta pelonsekaisesti'

Evaluation

Metrics

Label Metric
all 0.8645

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("Finnish-actions/SetFit-FinBERT1-A1-accusation")
# Run inference
preds = model("Etunimi Sukunimi ei varmasti moni uskalla")

Training Details

Training Set Metrics

Training set Min Median Max
Word count 1 19.6854 213
Label Training Sample Count
0 914
1 49

Training Hyperparameters

  • batch_size: (16, 16)
  • num_epochs: (4, 4)
  • max_steps: -1
  • sampling_strategy: oversampling
  • num_iterations: 6
  • body_learning_rate: (2e-05, 1e-05)
  • head_learning_rate: 0.01
  • loss: CosineSimilarityLoss
  • distance_metric: cosine_distance
  • margin: 0.25
  • end_to_end: False
  • use_amp: False
  • warmup_proportion: 0.1
  • l2_weight: 0.01
  • seed: 42
  • evaluation_strategy: epoch
  • eval_max_steps: -1
  • load_best_model_at_end: False

Framework Versions

  • Python: 3.11.9
  • SetFit: 1.1.3
  • Sentence Transformers: 3.2.0
  • Transformers: 4.44.0
  • PyTorch: 2.4.0+cu124
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX


Downloads last month
2
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Finnish-actions/SetFit-FinBERT1-A1-accusation

Finetuned
(34)
this model

Paper for Finnish-actions/SetFit-FinBERT1-A1-accusation

Evaluation results