helinivan
/

multilingual-sarcasm-detector

Text Classification

sarcasm-detection

Model card Files Files and versions

helinivan commited on Dec 3, 2022

Commit

9780bac

·

1 Parent(s): e0ce3cc

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -5,14 +5,14 @@ tags:
 - sarcasm-detection
 - text-classification
 widget:
-- text: "Auto, stop a diesel e benzina dal 2035. Ecco cosa cambia per i consumatori"
 - text: "CIA Realizes It's Been Using Black Highlighters All These Years."
 - text: "We deden een man een nacht in een vat met cola en nu is hij dood"
 ---
 # Multilingual Sarcasm Detector
-Multilingual Sarcasm Detector is a text classification model built to detect sarcasm from news article titles. It is fine-tuned on [bert-multilingual-uncased](https://huggingface.co/bert-base-multilingual-uncased) and the training data consists of ready-made datasets available on Kaggle as well scraped data from multiple newspapers in English, Dutch and Italian.
 <b>Labels</b>:
@@ -53,7 +53,7 @@ tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
 model = AutoModelForSequenceClassification.from_pretrained(MODEL_PATH)
 text = "CIA Realizes It's Been Using Black Highlighters All These Years."
-tokenized_text = tokenizer([preprocess_data(text)], padding=True, truncation=True, max_length=512, return_tensors="pt")
 output = model(**tokenized_text)
 probs = output.logits.softmax(dim=-1).tolist()[0]
 confidence = max(probs)
@@ -65,7 +65,7 @@ results = {"is_sarcastic": prediction, "confidence": confidence}
 Output:
 ```
-{'is_sarcastic': 1, 'confidence': 0.9999909400939941}
 ```
 ## Performance

 - sarcasm-detection
 - text-classification
 widget:
+- text: "Gli Usa a un passo dalla recessione"
 - text: "CIA Realizes It's Been Using Black Highlighters All These Years."
 - text: "We deden een man een nacht in een vat met cola en nu is hij dood"
 ---
 # Multilingual Sarcasm Detector
+Multilingual Sarcasm Detector is a text classification model built to detect sarcasm from news article titles. It is fine-tuned on [bert-base-multilingual-uncased](https://huggingface.co/bert-base-multilingual-uncased) and the training data consists of ready-made datasets available on Kaggle as well scraped data from multiple newspapers in English, Dutch and Italian.
 <b>Labels</b>:
 model = AutoModelForSequenceClassification.from_pretrained(MODEL_PATH)
 text = "CIA Realizes It's Been Using Black Highlighters All These Years."
+tokenized_text = tokenizer([preprocess_data(text)], padding=True, truncation=True, max_length=256, return_tensors="pt")
 output = model(**tokenized_text)
 probs = output.logits.softmax(dim=-1).tolist()[0]
 confidence = max(probs)
 Output:
 ```
+{'is_sarcastic': 1, 'confidence': 0.9374828934669495}
 ```
 ## Performance