Instructions to use Sami92/multiling-e5-large-instruct-claim-matching with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Sami92/multiling-e5-large-instruct-claim-matching with sentence-transformers:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("Sami92/multiling-e5-large-instruct-claim-matching")

sentences = [
"Instruct: Retrieve semantically similar text.\nQuery: Medwedew über die Entsendung von NATO-Truppen in die Ukraine: „Die Entsendung von NATO-Truppen auf das Territorium der Ukraine wird den direkten Eintritt dieser Länder in den Krieg bedeuten, worauf wir (Russland) mit (...) reagieren müssen. Es wird eine Weltkatastrophe werden.“",
"Dipl.-Pol. Udo Walendy (1927-2022) spricht klare Worte über die machtpolitischen Hintergründe der gegen Deutschland gerichteten Greuelpropaganda und Geschichtsfälschung... Anmerkung: In dem konkreten Fall verbreitete Kohl (alias Henoch Kohn) die Mär vom Zigeuner-Massenmord. Während Walendy noch ungestraft nachfragen konnte, woher denn die angeblichen Opferzahlen stammten, hat man ja bspw. Ursula Haverbeck direkt vor Gericht gezerrt... Der Unterschied war bloß: Es waren ein paar Jahrzehnte dazwischen. Die Geschichtslügen wurden ja zwischenzeitlich strafrechtlich abgesichert und quasi manifestiert. (§130) Beachtenswert ist natürlich der Umstand, daß vermeintlich \"deutsche\" Politiker von Brandt bis Scholz diese (Sieger-Propaganda-) Lügen gebetsmühlenartig wiederholen... EIGENE Politiker?!... MITNICHTEN!",
"Der Pharmamafia !!! Um Umsatz und Gewinne für die Zunkunft nicht nur zu sichern, sondern exorbitant zu steigern, gilt es alle gesunden Kinder weltweit, direkt nach der Geburt krank zu spritzen. ‼ HIER WIR IMPFEN NICHT ! Dokumentarfilm ‼ Denn Impfen wirkt, nur halt anders als behauptet. Ganz wichtig ist dabei ist es nach Möglichkeit die Spritzen zur allgemeinen Pflicht zu erklären, denn nur so können die verhindern, daß dieses abschäuliche Treiben, wegen einer ungeimpften Kontrollgruppe, augenscheinlich ist. <URL> <URL>",
"UPDATE Nach Angaben des Militärministeriums werden Einheiten des südlichen Militärbezirks, der Luftstreitkräfte und der Marine an den Übungen teilnehmen. Der Zweck der Übungen wird als Reaktion auf Provokationen und Bedrohungen durch westliche Länder bezeichnet. Das bedeutet, dass der südliche Militärbezirk, der ziemlich direkt an der Spezialoperation beteiligt ist, umfassende Übungen zum Einsatz taktischer Atomwaffen als Reaktion auf bestimmte Pläne westlicher Länder durchführen wird. Damit sind natürlich die kürzlich geäußerten Überlegungen zur Entsendung von NATO-Truppen in die Ukraine gemeint. Diese Aussage ist eine ernstzunehmende Steigerung sowohl dessen, was offiziell rhetorisch akzeptabel ist, als auch dessen, was bei den Übungen demonstriert wird. Ebenso wie das, was während dieser Übungen praktiziert wird. Quelle: 136 BRIGADE Abonniere: Übersicht Ukraine ©Ansichten der Kanalbetreiber"
]
embeddings = model.encode(sentences)

similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]

Notebooks
Google Colab
Kaggle

Sami92 commited on Aug 15, 2024

Commit

426f593

verified ·

1 Parent(s): 610be85

Update README.md

Browse files

Files changed (1) hide show

README.md +14 -3

README.md CHANGED Viewed

@@ -399,7 +399,6 @@ You can finetune this model on your own dataset.
 ### Metrics
 #### Binary Classification
-* Dataset: `FineTuned_8`
 * Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
 | Metric                       | Value      |
@@ -440,6 +439,15 @@ You can finetune this model on your own dataset.
 | max_recall                   | 0.3936     |
 | **max_ap**                   | **0.5012** |
 <!--
 ## Bias, Risks and Limitations
@@ -455,6 +463,9 @@ You can finetune this model on your own dataset.
 ## Training Details
 ### Training Dataset
 #### Unnamed Dataset
@@ -481,8 +492,8 @@ You can finetune this model on your own dataset.
   ```
 ### Evaluation Dataset
-#### Unnamed Dataset
 * Size: 18,355 evaluation samples

 ### Metrics
 #### Binary Classification
 * Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
 | Metric                       | Value      |
 | max_recall                   | 0.3936     |
 | **max_ap**                   | **0.5012** |
+The following figure depicts f1, recall, and precision on the test data for different thresholds.
+![](./threshold_scores.jpg)
+The following figure depicts how well matches and mismatches in the test data are separated by the model. For results with a minimum of false positives, a threshold higher than 0.91 is recommended. For the optimal F1 score, the right treshold is 0.9050.
+![](./similarity_histogram.jpg)
 <!--
 ## Bias, Risks and Limitations
 ## Training Details
 ### Training Dataset
+The model was trained on a weakly annotated dataset. The data was taken from Telegram. More specifically from a set of about 200 channels that have been subject to a fact-check from either Correctiv, dpa, Faktenfuchs or AFP.
+Weak annotation was performed using GPT-4o. The model was prompted to find semantically identical posts using this [prompt](https://huggingface.co/Sami92/multiling-e5-large-instruct-claim-matching/blob/main/prompt.txt). For non-matches the cosine similarity was reduced by 1.2 for training and for matches it was frozen to 0.98.
 #### Unnamed Dataset
   ```
 ### Evaluation Dataset
+Evaluation was performed on a dataset from the same Telegram channels as the training data. Again, GPT-4o was used to identify matching claims. However, for the test data, trained annotators validated the results and mismatches that were classified as matches by GPT-4o were removed. A ratio of 1:30 was chosen. In other words, for 1 match there are 30 mismatches. This is supposed to reflect a realistic scenario in which there are much more posts that are not identical to a query-post.
+#### Manually checked Telegram Dataset
 * Size: 18,355 evaluation samples