Librarian Bot: Update dataset YAML metadata for model

2076437 about 3 years ago

1.87 kB

	---
	language:
	- ru
	license: mit
	datasets: Den4ikAI/fact_detection
	widget:
	- если вы хотите процитировать поэму или часть из нее, тогда вам следует придерживаться
	первоначального формата строк, чтобы передать первоначальный смысл
	- ' резко вдавленный газ и знакомый свист шин унес машину прочь, превратив ее в маленькую
	постепенно движущуюся точку'
	---

	Модель rubert-base-cased от Deeppavlov. Обучена на датасете из предложений. В качестве фактов использовались предложения из Википедии, а в качестве негативных - худлит и новости

	Датасет: [Den4ikAI/fact_detection](https://huggingface.co/datasets/Den4ikAI/fact_detection)

	Простейший код инференса:

	```python
	import torch
	from transformers import AutoTokenizer, AutoModelForSequenceClassification

	txt = 'Пулмен — бывший рабочий посёлок вагоностроительной компании «Пульман», построенный в 1880-е годы к югу от Чикаго.'
	tokenizer = AutoTokenizer.from_pretrained('Den4ikAI/ruBert_base_fact_detection')
	model = AutoModelForSequenceClassification.from_pretrained('Den4ikAI/ruBert_base_fact_detection')
	inputs = tokenizer(txt, max_length=128, add_special_tokens=False, return_tensors='pt')
	with torch.inference_mode():
	logits = model(**inputs).logits
	probas = torch.sigmoid(logits)[0].cpu().detach().numpy()
	is_fact, no_fact = probas
	print(f'[TEXT] --> {txt}')
	print(f'[IS_FACT] --> {is_fact}')
	print(f'[NO_FACT] --> {no_fact}')
	```