Ponimash
/

gpt_text_embd

Sentence Similarity

sentence-transformers

feature-extraction

Model card Files Files and versions

gpt_text_embd / README.md

Ponimash's picture

Update README.md

a0b0689 verified over 1 year ago

|

history blame contribute delete

3.43 kB

	---
	language:
	- ru
	library_name: sentence-transformers
	pipeline_tag: sentence-similarity
	tags:
	- sentence-transformers
	- sentence-similarity
	- feature-extraction
	widget: []
	license: cc-by-nc-2.0
	metrics:
	- mse
	base_model: ai-forever/rugpt3medium_based_on_gpt2
	---

	Эксперимент по использованию модели, наподобие GPT-2, в качестве эмбеддера. Базовая модель: `ai-forever/rugpt3medium_based_on_gpt2`, извлечено первые 6 слоев.

	# SentenceTransformer

	Это модель [sentence-transformers](https://www.SBERT.net), которая обучена для преобразования предложений и абзацев в плотное векторное пространство размерностью 1024. Она может использоваться для семантического сопоставления текста, семантического поиска, поиска парафраз, классификации текста, кластеризации и других задач.

	## Описание Модели

	### Основные Характеристики
	- Тип модели: Sentence Transformer
	- Максимальная длина последовательности: 2048 токенов
	- Размерность выхода: 1024

	### Полная Архитектура Модели

	```python
	SentenceTransformer(
	(0): Transformer({'max_seq_length': 2048, 'do_lower_case': False}) with Transformer model: GPT2Model
	(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
	)
	```

	## Использование

	### Прямое Использование (Sentence Transformers)

	Для начала установите библиотеку Sentence Transformers:

	```bash
	pip install -U sentence-transformers
	```

	Затем загрузите эту модель и выполните инференс.

	```python
	from sentence_transformers import SentenceTransformer

	# Загрузка модели с 🤗 Hub
	model = SentenceTransformer("Ponimash/gpt_text_embd")
	# Запуск инференса
	sentences = [
	'Погода сегодня прекрасная.',
	'На улице так солнечно!',
	'Он поехал на стадион.',
	]
	embeddings = model.encode(sentences)
	print(embeddings.shape)
	# [3, 1024]

	# Получение оценок схожести для эмбеддингов
	similarities = model.similarity(embeddings, embeddings)
	print(similarities.shape)
	# [3, 3]
	```

	### Результаты

	```python
	# Выходная размерность: 1024
	tensor([[1.0000, 0.6575, 0.4605],
	[0.6575, 1.0000, 0.4683],
	[0.4605, 0.4683, 1.0000]])

	SentenceTransformer(
	(0): Transformer({'max_seq_length': 2048, 'do_lower_case': False}) with Transformer model: GPT2Model
	(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
	)
	```