Commit
·
323adfd
1
Parent(s):
b5c4208
Updated the readme
Browse files
README.md
CHANGED
|
@@ -84,7 +84,7 @@ This project:
|
|
| 84 |
|
| 85 |
## 💻 Try it out
|
| 86 |
|
| 87 |
-
Құшақтап тұрған бет арқылы тікелей пайдаланыңыз 🤗
|
| 88 |
|
| 89 |
```python
|
| 90 |
from transformers import pipeline
|
|
@@ -111,13 +111,13 @@ DalaT5 екі өте маңызды деректер жиынын пайдала
|
|
| 111 |
2. Сол қалтадағы `generate_cyr_lat_pairs.py` файлын іске қосыңыз / Run the `generate_cyr_lat_pairs.py` file in the same folder
|
| 112 |
3. Қазақ корпус файлын тазалау үшін `generate_clean_corpus.sh` іске қосыңыз / Run `generate_clean_corpus.sh` to clean the Kazakh corpus file
|
| 113 |
|
| 114 |
-
Егер сіз Windows жүйесінде болсаңыз, `get_data.sh` сценарийі жұмыс істемеуі мүмкін. Дегенмен, файлдағы сілтемелерді орындап, ондағы қадамдарды қолмен орындау арқылы әлі де деректерді алуға болады. Сол сияқты, `generate_clean_corpus.sh` файлында да қате пайда болады, бұл сізге `kazakh_latin_corpus.json` файлындағы бос немесе бос жолдарды сүзу үшін баламалы Windows функциясын табуды талап етеді. Оған қоса, `wikiextractor` бумасын алдын ала орнатқаныңызға сенімді болыңыз (нақты пайдаланылған нұсқаны `requirements.txt` файлынан табуға болады)
|
| 115 |
|
| 116 |
---
|
| 117 |
|
| 118 |
## 📚 Credits
|
| 119 |
|
| 120 |
-
Егер сіз DalaT5-ті туынды жұмыстарды зерттеуде қолдансаңыз, мыналарды
|
| 121 |
|
| 122 |
```
|
| 123 |
@misc{crossroderick_dalat5_2025,
|
|
|
|
| 84 |
|
| 85 |
## 💻 Try it out
|
| 86 |
|
| 87 |
+
Құшақтап тұрған бет арқылы тікелей пайдаланыңыз 🤗 Трансформерлер / Use directly via Hugging Face 🤗 Transformers:
|
| 88 |
|
| 89 |
```python
|
| 90 |
from transformers import pipeline
|
|
|
|
| 111 |
2. Сол қалтадағы `generate_cyr_lat_pairs.py` файлын іске қосыңыз / Run the `generate_cyr_lat_pairs.py` file in the same folder
|
| 112 |
3. Қазақ корпус файлын тазалау үшін `generate_clean_corpus.sh` іске қосыңыз / Run `generate_clean_corpus.sh` to clean the Kazakh corpus file
|
| 113 |
|
| 114 |
+
Егер сіз Windows жүйесінде болсаңыз, `get_data.sh` сценарийі жұмыс істемеуі мүмкін. Дегенмен, файлдағы сілтемелерді орындап, ондағы қадамдарды қолмен орындау арқылы әлі де деректерді алуға болады. Сол сияқты, `generate_clean_corpus.sh` файлында да қате пайда болады, бұл сізге `kazakh_latin_corpus.json` файлындағы бос немесе бос жолдарды сүзу үшін баламалы Windows функциясын табуды талап етеді. Оған қоса, `wikiextractor` бумасын алдын ала орнатқаныңызға сенімді болыңыз (нақты пайдаланылған нұсқаны `requirements.txt` файлынан табуға болады) / If you're on Windows, the `get_data.sh` script likely won't work. However, you can still get the data by following the links in the file and manually doing the steps in there. Likewise, `generate_clean_corpus.sh` will also error out, requiring you to find an equivalent Windows functionality to filter out blank or empty lines in the `kazakh_latin_corpus.json` file. Additionally, be sure to install the `wikiextractor` package beforehand (the exact version used can be found in the `requirements.txt` file).
|
| 115 |
|
| 116 |
---
|
| 117 |
|
| 118 |
## 📚 Credits
|
| 119 |
|
| 120 |
+
Егер сіз DalaT5-ті туынды жұмыстарды зерттеуде қолдансаңыз, мыналарды келтіріңіз / If you use DalaT5 in research of derivative works, feel free to cite:
|
| 121 |
|
| 122 |
```
|
| 123 |
@misc{crossroderick_dalat5_2025,
|