pasha commited on
Commit ·
668ae64
1
Parent(s): f211e1f
Readme updated
Browse files
README.md
CHANGED
|
@@ -4,13 +4,13 @@ license: mit
|
|
| 4 |
|
| 5 |
# morphemizer - Morpheme-based Russian Tokenizer
|
| 6 |
|
| 7 |
-
|
| 8 |
|
| 9 |
-
|
| 10 |
|
| 11 |
## Как пользоваться
|
| 12 |
|
| 13 |
-
Для начала необходимо скачать пару библиот
|
| 14 |
|
| 15 |
```shell
|
| 16 |
pip install transformers rumorpheme
|
|
@@ -21,11 +21,8 @@ pip install transformers rumorpheme
|
|
| 21 |
```python
|
| 22 |
from transformers import AutoTokenizer
|
| 23 |
|
| 24 |
-
|
| 25 |
-
tokenizer = AutoTokenizer.from_pretrained("./tokenizer", trust_remote_code=True)
|
| 26 |
-
|
| 27 |
test_text = "Философское восприятие мира."
|
| 28 |
-
# test_text = "Привет! Как твои дела?"
|
| 29 |
input_ids = tokenizer.encode(test_text)
|
| 30 |
|
| 31 |
print("Text:", test_text)
|
|
|
|
| 4 |
|
| 5 |
# morphemizer - Morpheme-based Russian Tokenizer
|
| 6 |
|
| 7 |
+
Репозитории содержи только токенизатор русского текста, он преобразует входные данные в последовательность токенов, каждый из которых представляет из себя морфемы слов.
|
| 8 |
|
| 9 |
+
В данный момент проект на ранней стадии разработки.
|
| 10 |
|
| 11 |
## Как пользоваться
|
| 12 |
|
| 13 |
+
Для начала необходимо скачать пару библиотек:
|
| 14 |
|
| 15 |
```shell
|
| 16 |
pip install transformers rumorpheme
|
|
|
|
| 21 |
```python
|
| 22 |
from transformers import AutoTokenizer
|
| 23 |
|
| 24 |
+
tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True)
|
|
|
|
|
|
|
| 25 |
test_text = "Философское восприятие мира."
|
|
|
|
| 26 |
input_ids = tokenizer.encode(test_text)
|
| 27 |
|
| 28 |
print("Text:", test_text)
|