Blablablab
/

multilingual-style-representation

Sentence Similarity

sentence-transformers

feature-extraction

text-embeddings-inference

Model card Files Files and versions

multilingual-style-representation / README.md

junghwankim's picture

Added cross-reference

b0147bb verified 3 months ago

|

history blame contribute delete

1.97 kB

	---
	tags:
	- sentence-transformers
	- sentence-similarity
	- feature-extraction
	base_model: FacebookAI/xlm-roberta-large
	pipeline_tag: sentence-similarity
	library_name: sentence-transformers
	---

	# Multilingual Style Representation

	This is the Style Representation model, presented in ``Leveraging Multilingual Training for Authorship Representation:
	Enhancing Generalization across Languages and Domains``.

	The Style Representation model encodes documents written by the same author as nearby vectors in the embedding space.
	The model can be used for authorship attribution, style similarity, machine-generated text detection, and more.

	For training and evaluation code, refer to our repository [here](https://github.com/junghwanjkim/multilingual_aa).

	For the Style Representation model based on Llama-3.2, refer to [Blablablab/multilingual-style-representation-Llama-3.2](https://huggingface.co/Blablablab/multilingual-style-representation-Llama-3.2).

	## Model Details
	- Model Type: [Sentence Transformer](https://www.SBERT.net)
	- Base model: [FacebookAI/xlm-roberta-large](https://huggingface.co/FacebookAI/xlm-roberta-large)
	- Maximum Sequence Length: 512 tokens
	- Output Dimensionality: 1024 dimensions
	- Similarity Function: Cosine Similarity

	## Usage

	First install the Sentence Transformers library:

	```bash
	pip install -U sentence-transformers
	```

	Then you can load this model and run inference.
	```python
	from sentence_transformers import SentenceTransformer

	# Download from the 🤗 Hub
	model = SentenceTransformer("Blablablab/multilingual-style-representation")
	# Run inference
	sentences = [
	'The weather is lovely today.',
	"It's so sunny outside!",
	'He drove to the stadium.',
	]
	embeddings = model.encode(sentences)
	print(embeddings.shape)
	# [3, 1024]

	# Get the similarity scores for the embeddings
	similarities = model.similarity(embeddings, embeddings)
	print(similarities.shape)
	# [3, 3]
	```

	<!--
	## Citation
	-->