SetFit with deutsche-telekom/gbert-large-paraphrase-cosine

This is a SetFit model that can be used for Text Classification. This SetFit model uses deutsche-telekom/gbert-large-paraphrase-cosine as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

Fine-tuning a Sentence Transformer with contrastive learning.
Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Type: SetFit
Sentence Transformer body: deutsche-telekom/gbert-large-paraphrase-cosine
Classification head: a LogisticRegression instance
Maximum Sequence Length: 512 tokens
Number of Classes: 2 classes

Model Sources

Repository: SetFit on GitHub
Paper: Efficient Few-Shot Learning Without Prompts
Blogpost: SetFit: Efficient Few-Shot Learning Without Prompts

Model Labels

Label	Examples
0	'Deshalb ist beim Arbeitslosengeld die Anspruchsdauer im Grundtarif auf zwölf Monate angelegt.' 'Die Belastung mit Sozialversicherungsabgaben ist die höchste in der Geschichte der Bundesrepublik' 'In den sozialen Sicherungssystemen muss vielmehr durch eine neue Balance von Eigenverantwortung, privater Risikovorsorge und Solidarität die Ausgabendynamik gedrosselt werden.'
1	'o Vor den Problemen, die in mancher Schule durch Inklusion zum Beispiel erziehungsschwieriger Schüler entstehen, verschließen wir nicht die Augen.' 'Dadurch wird die Arbeit wieder attraktiver.' 'Um allen einen bezahlbaren Versicherungsschutz zu gewährleisten, muß jedes Krankenversicherungsunternehmen einen Pauschaltarif mit Kontrahierungszwang anbieten, der weder nach Alter, Geschlecht, Risiko oder sonstigen Kriterien differenziert.'

Label

Examples

'Deshalb ist beim Arbeitslosengeld die Anspruchsdauer im Grundtarif auf zwölf Monate angelegt.'
'Die Belastung mit Sozialversicherungsabgaben ist die höchste in der Geschichte der Bundesrepublik'
'In den sozialen Sicherungssystemen muss vielmehr durch eine neue Balance von Eigenverantwortung, privater Risikovorsorge und Solidarität die Ausgabendynamik gedrosselt werden.'

'o Vor den Problemen, die in mancher Schule durch Inklusion zum Beispiel erziehungsschwieriger Schüler entstehen, verschließen wir nicht die Augen.'
'Dadurch wird die Arbeit wieder attraktiver.'
'Um allen einen bezahlbaren Versicherungsschutz zu gewährleisten, muß jedes Krankenversicherungsunternehmen einen Pauschaltarif mit Kontrahierungszwang anbieten, der weder nach Alter, Geschlecht, Risiko oder sonstigen Kriterien differenziert.'

Evaluation

Metrics

Label	F1	Precision	Recall
all	0.8323	0.8360	0.8316

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("GeorgHCundK/gbert-large-stance-socialpolicy")
# Run inference
preds = model("Daran wollen wir anknüpfen und die Teilhabeleistungen stetig weiterentwickeln.")

Training Details

Training Set Metrics

Training set	Min	Median	Max
Word count	2	15.1124	50

Label	Training Sample Count
0	392
1	364

Training Hyperparameters

batch_size: (64, 64)
num_epochs: (1, 1)
max_steps: -1
sampling_strategy: oversampling
body_learning_rate: (1e-05, 1e-05)
head_learning_rate: 0.01
loss: CosineSimilarityLoss
distance_metric: cosine_distance
margin: 0.25
end_to_end: False
use_amp: False
warmup_proportion: 0.1
l2_weight: 0.01
seed: 42
eval_max_steps: -1
load_best_model_at_end: True

Training Results

Epoch	Step	Training Loss	Validation Loss
0.0002	1	0.3708	-
0.0112	50	0.2974	0.2649
0.0223	100	0.2567	0.2522
0.0335	150	0.2392	0.2338
0.0446	200	0.1895	0.1996
0.0558	250	0.0703	0.1907
0.0669	300	0.0126	0.2218
0.0781	350	0.0026	0.1964
0.0892	400	0.0009	0.2404

Framework Versions

Python: 3.11.11
SetFit: 1.1.1
Sentence Transformers: 3.4.1
Transformers: 4.48.3
PyTorch: 2.5.1+cu124
Datasets: 3.3.2
Tokenizers: 0.21.0

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}

Downloads last month: -

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for CundK/gbert-large-stance-socialpolicy

Base model

deepset/gbert-large

Finetuned

deutsche-telekom/gbert-large-paraphrase-cosine

Finetuned

(11)

this model

Paper for CundK/gbert-large-stance-socialpolicy

Efficient Few-Shot Learning Without Prompts

Paper • 2209.11055 • Published Sep 22, 2022 • 4

Evaluation results

F1 on Unknown
test set self-reported

0.832
Precision on Unknown
test set self-reported

0.836
Recall on Unknown
test set self-reported

0.832