pasha commited on
Commit
668ae64
·
1 Parent(s): f211e1f

Readme updated

Browse files
Files changed (1) hide show
  1. README.md +4 -7
README.md CHANGED
@@ -4,13 +4,13 @@ license: mit
4
 
5
  # morphemizer - Morpheme-based Russian Tokenizer
6
 
7
- В репозитории содержится только токенизатор.
8
 
9
- На данный момент проект на ранней стадии разработки.
10
 
11
  ## Как пользоваться
12
 
13
- Для начала необходимо скачать пару библиотке:
14
 
15
  ```shell
16
  pip install transformers rumorpheme
@@ -21,11 +21,8 @@ pip install transformers rumorpheme
21
  ```python
22
  from transformers import AutoTokenizer
23
 
24
- # Wrap it with RuMorphemeTokenizerFast for compatibility with transformers
25
- tokenizer = AutoTokenizer.from_pretrained("./tokenizer", trust_remote_code=True)
26
-
27
  test_text = "Философское восприятие мира."
28
- # test_text = "Привет! Как твои дела?"
29
  input_ids = tokenizer.encode(test_text)
30
 
31
  print("Text:", test_text)
 
4
 
5
  # morphemizer - Morpheme-based Russian Tokenizer
6
 
7
+ Репозитории содержи только токенизатор русского текста, он преобразует входные данные в последовательность токенов, каждый из которых представляет из себя морфемы слов.
8
 
9
+ В данный момент проект на ранней стадии разработки.
10
 
11
  ## Как пользоваться
12
 
13
+ Для начала необходимо скачать пару библиотек:
14
 
15
  ```shell
16
  pip install transformers rumorpheme
 
21
  ```python
22
  from transformers import AutoTokenizer
23
 
24
+ tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True)
 
 
25
  test_text = "Философское восприятие мира."
 
26
  input_ids = tokenizer.encode(test_text)
27
 
28
  print("Text:", test_text)