| | --- |
| | language: |
| | - ru |
| | license: mit |
| | datasets: Den4ikAI/fact_detection |
| | widget: |
| | - если вы хотите процитировать поэму или часть из нее, тогда вам следует придерживаться |
| | первоначального формата строк, чтобы передать первоначальный смысл |
| | - ' резко вдавленный газ и знакомый свист шин унес машину прочь, превратив ее в маленькую |
| | постепенно движущуюся точку' |
| | --- |
| | |
| | Модель rubert-base-cased от Deeppavlov. Обучена на датасете из предложений. В качестве фактов использовались предложения из Википедии, а в качестве негативных - худлит и новости |
| |
|
| | Датасет: [Den4ikAI/fact_detection](https://huggingface.co/datasets/Den4ikAI/fact_detection) |
| |
|
| | Простейший код инференса: |
| |
|
| | ```python |
| | import torch |
| | from transformers import AutoTokenizer, AutoModelForSequenceClassification |
| | |
| | txt = 'Пулмен — бывший рабочий посёлок вагоностроительной компании «Пульман», построенный в 1880-е годы к югу от Чикаго.' |
| | tokenizer = AutoTokenizer.from_pretrained('Den4ikAI/ruBert_base_fact_detection') |
| | model = AutoModelForSequenceClassification.from_pretrained('Den4ikAI/ruBert_base_fact_detection') |
| | inputs = tokenizer(txt, max_length=128, add_special_tokens=False, return_tensors='pt') |
| | with torch.inference_mode(): |
| | logits = model(**inputs).logits |
| | probas = torch.sigmoid(logits)[0].cpu().detach().numpy() |
| | is_fact, no_fact = probas |
| | print(f'[TEXT] --> {txt}') |
| | print(f'[IS_FACT] --> {is_fact}') |
| | print(f'[NO_FACT] --> {no_fact}') |
| | ``` |
| |
|
| |
|