Update README.md
Browse files
README.md
CHANGED
|
@@ -7,4 +7,54 @@ sdk: static
|
|
| 7 |
pinned: false
|
| 8 |
---
|
| 9 |
|
| 10 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 7 |
pinned: false
|
| 8 |
---
|
| 9 |
|
| 10 |
+
# 📦 ViSoLex Toolkit — Vietnamese Text Normalization & Processing
|
| 11 |
+
|
| 12 |
+
**ViSoLex** là một toolkit mạnh mẽ dành cho **chuẩn hóa và xử lý văn bản tiếng Việt**, được thiết kế tối ưu cho môi trường **NLP** và dễ dàng cài đặt qua **PyPI**.
|
| 13 |
+
Các tài nguyên (datasets, models) được lưu trữ và quản lý trực tiếp trên [Hugging Face Hub](https://huggingface.co/visolex).
|
| 14 |
+
|
| 15 |
+
---
|
| 16 |
+
|
| 17 |
+
## 🚀 Tính năng chính
|
| 18 |
+
|
| 19 |
+
### 1. 🔧 **Basic Normalizer** — Chuẩn hóa văn bản cơ bản
|
| 20 |
+
|
| 21 |
+
* **Case folding**: chuyển toàn bộ văn bản về lowercase/uppercase/capitalize.
|
| 22 |
+
* **Tone normalization**: chuẩn hóa dấu thanh tiếng Việt.
|
| 23 |
+
* **Basic preprocessing**: loại bỏ khoảng trắng thừa, ký tự đặc biệt, định dạng câu.
|
| 24 |
+
|
| 25 |
+
### 2. 😀 **Emoji Handler** — Xử lý emoji
|
| 26 |
+
|
| 27 |
+
* **Detect emojis**: phát hiện emoji trong văn bản.
|
| 28 |
+
* **Split emoji text**: tách emoji ra khỏi câu.
|
| 29 |
+
* **Remove emojis**: loại bỏ toàn bộ emoji.
|
| 30 |
+
|
| 31 |
+
### 3. 📊 **Resource Management** — Quản lý dữ liệu
|
| 32 |
+
|
| 33 |
+
* `list_datasets()` — Liệt kê datasets có sẵn.
|
| 34 |
+
* `load_dataset()` — Tải dataset từ Hugging Face.
|
| 35 |
+
* `get_dataset_info()` — Xem thông tin chi tiết dataset.
|
| 36 |
+
|
| 37 |
+
### 4. 🧠 **Task Models** — Mô hình xử lý tác vụ
|
| 38 |
+
|
| 39 |
+
* **SpamReviewDetection** — Phát hiện spam.
|
| 40 |
+
* **HateSpeechDetection** — Phát hiện hate speech.
|
| 41 |
+
* **EmotionRecognition** — Nhận diện cảm xúc.
|
| 42 |
+
* **AspectSentimentAnalysis** — Phân tích sentiment theo từng khía cạnh.
|
| 43 |
+
|
| 44 |
+
### 5. 🧪 **Advanced Usage** — Kết hợp & Tùy chỉnh
|
| 45 |
+
|
| 46 |
+
* Tạo **multi-step pipelines** cho chuẩn hóa và phân tích.
|
| 47 |
+
* Tùy chỉnh từng bước xử lý theo nhu cầu.
|
| 48 |
+
|
| 49 |
+
### 6. ✏ **Lexical Normalization** — Chuẩn hóa văn bản mạng xã hội
|
| 50 |
+
|
| 51 |
+
* `detect_nsw()` — Phát hiện từ phi chuẩn (non-standard words).
|
| 52 |
+
* `normalize_sentence()` — Chuẩn hóa câu chứa từ phi chuẩn.
|
| 53 |
+
|
| 54 |
+
---
|
| 55 |
+
|
| 56 |
+
## 📥 Cài đặt
|
| 57 |
+
|
| 58 |
+
```bash
|
| 59 |
+
pip install visolex-toolkit
|
| 60 |
+
```
|