|
|
--- |
|
|
license: cc-by-4.0 |
|
|
library_name: transformers |
|
|
language: |
|
|
- de |
|
|
pipeline_tag: text-classification |
|
|
--- |
|
|
|
|
|
# Model Card for Model ID |
|
|
|
|
|
This model is a fine-tuned version of [XLM-R Large](https://huggingface.co/FacebookAI/xlm-roberta-large). It is trained to classify common disinformation narratives, a task that is important to automated fact-checking. It was trained in a weakly-supervised fashion using GPT-4o. The datasets are German, however, the underlying model is multilingual. It was not tested how the model performs in other languages. For testing a sample of fact-checks from German fact-checking organizations was inspected and if the checked claim supported one of the narratives, the social media posts with the original text were extracted. |
|
|
|
|
|
|
|
|
|
|
|
## Model Details |
|
|
Disinformation often follows a set of common narratives, such as "All immigrants are criminals". Fact-checkers from different German organizations provided a list of narratives that they commonly encounter. The trained model is able to recognize if a given text supports one of these narratives. |
|
|
|
|
|
|
|
|
## Bias, Risks, and Limitations |
|
|
|
|
|
|
|
|
[More Information Needed] |
|
|
|
|
|
|
|
|
## How to Get Started with the Model |
|
|
|
|
|
Use the code below to get started with the model. |
|
|
|
|
|
```python |
|
|
from transformers import pipeline |
|
|
|
|
|
texts = [ |
|
|
'Wer Klimaschutz sagt muss Bäume pflanzen und nicht für Windräder ganze Wälder roden!', |
|
|
'Deutschland produziert nur 0,000028 Prozent des weltweiten Kohlendioxids (CO₂) in der Luft.', |
|
|
'Liebe IMBFLINGE habt ihr euch schon die FRAGE gestellt wieso ihr KEIN BLUT mehr spenden dürft ???', |
|
|
'Für diejenigen die meinen das die aktuellen Temperaturen etwas ungewöhnliches wären. Das war vor 44 Jahren !', |
|
|
'Nach Angaben der Bundesanstalt für Arbeit sind 52,8 Prozent der Bürgergeldempfänger deutsche Staatsangehörige.', |
|
|
'Windräder zerstören die Landschaft und den Wald. Der Wald nimmt mehr Co2 auf , als ein Windrad einsparen soll.', |
|
|
'A law should be made immediately that tenants cannot be kicked out of their apartments for taking in migrants.', |
|
|
'nicht zu Lasten der Umwelt... seit wann kümmern die Grünen wieder die Umwelt? Roden ganze Wälder für Windräder.', |
|
|
'Der Stimmzettel ist ungültig, weil die obere Ecke abgeschnitten ist und die Urne sei nicht ausreichend versiegelt.', |
|
|
'Zwei der wichtigsten Maßnahmen zum Infektionsschutz sind: Abstand halten und Maske tragen. Deren Wirksamkeit ist mehrfach bewiesen worden.', |
|
|
'Stimmzettel, die gelocht oder deren Ecken beschädigt sind, sind ungültig. Ausweise werden ungültig gemacht, indem man die Ecken abschneidet. ', |
|
|
'Amerikanisches Rotes Kreuz: Geimpfte Menschen können kein Blut spenden, weil der Impfstoff ihre natürlichen Antikörper vollständig zerstört...', |
|
|
'Es gibt keinen wissenschaftlichen Nachweis dafür, dass Mobilfunkstrahlung unterhalb der geltenden Grenzwerte Menschen gesundheitlich schädigt. ', |
|
|
'5G beziehungsweise Mobilfunkstrahlung generell schadet der Gesundheit oder ist noch nicht genügend erforscht, um solchen Schaden auszuschließen.', |
|
|
'Baerbock sprach sich nicht für die Abschaffung von Bargeld aus, sondern für ein Verbot von Bargeldkäufen in großem Maßstab - etwa von Immobilien.', |
|
|
'Um das Land vor der globalen Erwärmung zu retten, hat Schottland gerade 14 Millionen Bäume abgeholzt, um Platz für 21 Windkraftanlagen zu schaffen. ', |
|
|
'Ségolène Royal hat gesagt, Wolodymyr Selenskyj ist ein Lügner und die „Geschichten“ über die Entbindungsstation in Mariupol und Butscha sind „falsch“. ', |
|
|
'Übrigens, abgesehen vom falsch gefalteten Wahlschein ist auch die Wahlurne nicht richtig zu... Damit müsste die Urne entleert und als ungültig erklärt werden...'] |
|
|
|
|
|
checkpoint = "Sami92/XLM-R-Large-Disinfo-Narrative-Classifier" |
|
|
tokenizer_kwargs = {'padding':True,'truncation':True,'max_length':512} |
|
|
narrative_classification = pipeline("text-classification", model = checkpoint, tokenizer =checkpoint, **tokenizer_kwargs, device="cuda") |
|
|
narrative_classification(texts) |
|
|
|
|
|
``` |
|
|
|
|
|
## Training Details |
|
|
|
|
|
### Training Data |
|
|
|
|
|
The training dataset is a combination of two other datasets. First, a [synthetically generated dataset](https://huggingface.co/datasets/Sami92/german-disinformation-narratives-synthetic) for the given disinformation narratives. Second, a weakly-annotated dataset. For the weak annotation Telegram posts were used. The data was taken from Telegram. More specifically a sample from about 200 channels that have been subject to a fact-check from either Correctiv, dpa, Faktenfuchs or AFP. GPT-4o was prompted to identify which of the narratives is supported by the post if it supports any at all. The exact prompt can be found [here](https://huggingface.co/Sami92/XLM-R-Large-Disinfo-Narrative-Classifier/blob/main/GPT-4o-Prompt.txt). |
|
|
|
|
|
#### Training Hyperparameters |
|
|
|
|
|
- Epochs: 10 |
|
|
- Batch size: 16 |
|
|
- learning_rate: 2e-5 |
|
|
- weight_decay: 0.01 |
|
|
- fp16: True |
|
|
|
|
|
## Evaluation |
|
|
|
|
|
|
|
|
### Testing Data |
|
|
|
|
|
The test data consists of texts from social media posts that were linked in articles from German fact-checking organizations. In other words, the texts are claims that have been fact-checked. They were selected if they supported one of the disinformation narratives. Due to the aim of selecting naturally occurring claims, the dataset is imbalanced and not all classes are included. |
|
|
|
|
|
|
|
|
### Results |
|
|
|
|
|
| Category | Precision | Recall | F1-Score | Support | |
|
|
|------------------------------------------------------------------------------------------------------------------------------|:---------:|:------:|:--------:|:-------:| |
|
|
| 5G verursacht Krankheiten für Menschen und Tiere. | 1.00 | 0.83 | 0.91 | 6 | |
|
|
| Ausländer sind krimineller als Deutsche, werden geringer bestraft und begehen mehr Straftaten, und das wird uns verheimlicht. | 1.00 | 0.67 | 0.80 | 3 | |
|
|
| Ausländer und Migranten bekommen mehr Leistungen oder Wohnungen vom Staat als Deutsche. | 1.00 | 1.00 | 1.00 | 9 | |
|
|
| Bargeld soll abgeschafft werden. | 0.67 | 1.00 | 0.80 | 2 | |
|
|
| Das Wetter war früher überhaupt nicht anders und Naturphänomene wie Vulkanausbrüche sind schuld am Klimawandel. | 1.00 | 1.00 | 1.00 | 7 | |
|
|
| Der Anteil des Menschen an den Treibhausgasen ist nur gering und die Wahrheit über den Klimawandel wird verheimlicht. | 1.00 | 1.00 | 1.00 | 7 | |
|
|
| Der WHO-Pandemievertrag hebt die Souveränität von Staaten auf und führt zu einer WHO-Diktatur. | 1.00 | 1.00 | 1.00 | 1 | |
|
|
| Der Westen hat ein Friedensabkommen zwischen Russland und der Ukraine verhindert. | 0.00 | 0.00 | 0.00 | 0 | |
|
|
| Deutschland wird von Faschisten regiert. | 1.00 | 1.00 | 1.00 | 1 | |
|
|
| Die Covid-19-Impfung ist nicht ausreichend erforscht und verursacht Nebenwirkungen. | 0.91 | 0.83 | 0.87 | 12 | |
|
|
| Die Regierung will gezielt Migranten ins Land holen und schickt Geld ins Ausland während unsere Leute leiden. | 0.67 | 1.00 | 0.80 | 2 | |
|
|
| Die Stimmzettel, Urnen und Briefwahl sind manipuliert und Wahlhelfer lassen Stimmen verschwinden. | 1.00 | 1.00 | 1.00 | 16 | |
|
|
| Die Wahrheit über die Corona-Maßnahmen, Todesopfer und Covid-Impfung wird verheimlicht. | 0.75 | 1.00 | 0.86 | 3 | |
|
|
| E-Mobilität ist schlechter für die Umwelt als Verbrenner Autos. | 1.00 | 1.00 | 1.00 | 2 | |
|
|
| Gewisse Lebensmittel, Leitungswasser oder Gentechnik sind gesundheitsschädlich und machen unfruchtbar. | 1.00 | 1.00 | 1.00 | 10 | |
|
|
| Hilfsgüter an die Ukraine werden in Wahrheit weggeworfen oder zerstört. | 1.00 | 1.00 | 1.00 | 3 | |
|
|
| Keins der Narrative trifft zu. | 0.00 | 0.00 | 0.00 | 0 | |
|
|
| Selensky ist korrupt und drogenabhängig und die Ukraine wird von Nazis regiert. | 1.00 | 0.33 | 0.50 | 3 | |
|
|
| Windräder töten hunderttausende Vögel, verursachen Luftwirbel und Dürre und es werden Wälder für die Windräder gerohdet. | 1.00 | 1.00 | 1.00 | 9 | |
|
|
| **Accuracy** | | | 0.94 | 96 | |
|
|
| **Macro avg** | 0.84 | 0.82 | 0.82 | 96 | |
|
|
| **Weighted avg** | 0.97 | 0.94 | 0.94 | 96 | |