Rrubaa
/

claim2vec

@@ -1,113 +1,113 @@
----
-language:
-- multilingual
-license: mit
-library_name: sentence-transformers
-tags:
-- claim2vec
-- embedding-model
-- fact-checking
-- claim-clustering
-- semantic-search
-- misinformation
-- contrastive-learning
-- multilingual-nlp
----
-# 🧠 Claim2Vec
-**Claim2Vec** is a multilingual embedding model designed specifically for **fact-checked claim representation and clustering** in misinformation detection systems.
-It learns a semantic embedding space where recurrent and semantically equivalent claims are mapped close together, enabling improved grouping and retrieval of fact-checkable information across languages.
----
-## 🎯 Motivation
-Recurrent claims are a major challenge for automated fact-checking systems, especially in multilingual environments. While existing approaches focus on pairwise claim matching, they often fail to capture global structures of semantically equivalent claims.
-Claim2Vec addresses this gap by learning embeddings optimized for **claim clustering**, enabling better organization of repeated misinformation narratives across datasets and languages.
----
-## 🚀 Key Features
-- 🌍 Multilingual claim representation
-- 🔗 Optimized for claim clustering tasks
-- 🧠 Contrastive learning with semantically similar claim pairs
-- 📊 Improved embedding geometry for cluster separation
-- 🔄 Strong cross-lingual knowledge transfer
-- ⚡ Designed for scalable fact-checking pipelines
----
-## 🧪 Training Objective
-Claim2Vec is trained using contrastive learning, encouraging semantically similar claims to have closer embeddings while pushing unrelated claims apart.
----
-## 📊 Experimental Results
-Evaluation across:
-- 3 benchmark datasets
-- 14 embedding baselines
-- 7 clustering algorithms
-shows that Claim2Vec consistently improves:
-- Cluster label alignment
-- Embedding space structure
-- Robustness across clustering configurations
----
-## 🌐 Multilingual Performance
-Claim2Vec demonstrates strong performance in multilingual settings, where clusters containing multiple languages benefit significantly from fine-tuning, indicating effective cross-lingual semantic transfer.
----
-## 💡 Use Cases
-- Fact-checking systems
-- Misinformation detection pipelines
-- Claim deduplication
-- Evidence grouping for RAG systems
-- News verification tools
-- Cross-lingual semantic clustering
----
-## 🧬 Usage
-```python
-from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("your-username/claim2vec")
-claims = [
-    "COVID vaccines cause infertility",
-    "Studies show no link between COVID vaccines and infertility"
-]
-embeddings = model.encode(claims)
-print(embeddings.shape)
-```
-## 📄 Citation
-If you use Claim2Vec in your work, please cite:
-```bibtex
-@misc{claim2vec2026,
-  title={Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering},
-  author={Panchendrarajan, Rrubaa and Zubiaga, Arkaitz},
-  year={2026},
-  eprint={2604.09812},
-  archivePrefix={arXiv},
-  primaryClass={cs.CL},
-  url={https://arxiv.org/abs/2604.09812}
-}
-```
-📄 arXiv: https://arxiv.org/abs/2604.09812

+---
+language:
+- multilingual
+license: mit
+library_name: sentence-transformers
+tags:
+- claim2vec
+- embedding-model
+- fact-checking
+- claim-clustering
+- semantic-search
+- misinformation
+- contrastive-learning
+- multilingual-nlp
+---
+# 🧠 Claim2Vec
+**Claim2Vec** is a multilingual embedding model designed specifically for **fact-checked claim representation and clustering** in misinformation detection systems.
+It learns a semantic embedding space where recurrent and semantically equivalent claims are mapped close together, enabling improved grouping and retrieval of fact-checkable information across languages.
+---
+## 🎯 Motivation
+Recurrent claims are a major challenge for automated fact-checking systems, especially in multilingual environments. While existing approaches focus on pairwise claim matching, they often fail to capture global structures of semantically equivalent claims.
+Claim2Vec addresses this gap by learning embeddings optimized for **claim clustering**, enabling better organization of repeated misinformation narratives across datasets and languages.
+---
+## 🚀 Key Features
+- 🌍 Multilingual claim representation
+- 🔗 Optimized for claim clustering tasks
+- 🧠 Contrastive learning with semantically similar claim pairs
+- 📊 Improved embedding geometry for cluster separation
+- 🔄 Strong cross-lingual knowledge transfer
+- ⚡ Designed for scalable fact-checking pipelines
+---
+## 🧪 Training Objective
+Claim2Vec is trained using contrastive learning, encouraging semantically similar claims to have closer embeddings while pushing unrelated claims apart.
+---
+## 📊 Experimental Results
+Evaluation across:
+- 3 benchmark datasets
+- 14 embedding baselines
+- 7 clustering algorithms
+shows that Claim2Vec consistently improves:
+- Cluster label alignment
+- Embedding space structure
+- Robustness across clustering configurations
+---
+## 🌐 Multilingual Performance
+Claim2Vec demonstrates strong performance in multilingual settings, where clusters containing multiple languages benefit significantly from fine-tuning, indicating effective cross-lingual semantic transfer.
+---
+## 💡 Use Cases
+- Fact-checking systems
+- Misinformation detection pipelines
+- Claim deduplication
+- Evidence grouping for RAG systems
+- News verification tools
+- Cross-lingual semantic clustering
+---
+## 🧬 Usage
+```python
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("your-username/claim2vec")
+claims = [
+    "COVID vaccines cause infertility",
+    "Studies show no link between COVID vaccines and infertility"
+]
+embeddings = model.encode(claims)
+print(embeddings.shape)
+```
+## 📄 Citation
+If you use Claim2Vec in your work, please cite:
+```bibtex
+@misc{claim2vec2026,
+  title={Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering},
+  author={Panchendrarajan, Rrubaa and Zubiaga, Arkaitz},
+  year={2026},
+  eprint={2604.09812},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL},
+  url={https://arxiv.org/abs/2604.09812}
+}
+```
+📄 arXiv: https://arxiv.org/abs/2604.09812