AnnyNguyen commited on
Commit
2e92d02
·
verified ·
1 Parent(s): 31cef10

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +51 -1
README.md CHANGED
@@ -7,4 +7,54 @@ sdk: static
7
  pinned: false
8
  ---
9
 
10
- Edit this `README.md` markdown file to author your organization card.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7
  pinned: false
8
  ---
9
 
10
+ # 📦 ViSoLex Toolkit Vietnamese Text Normalization & Processing
11
+
12
+ **ViSoLex** là một toolkit mạnh mẽ dành cho **chuẩn hóa và xử lý văn bản tiếng Việt**, được thiết kế tối ưu cho môi trường **NLP** và dễ dàng cài đặt qua **PyPI**.
13
+ Các tài nguyên (datasets, models) được lưu trữ và quản lý trực tiếp trên [Hugging Face Hub](https://huggingface.co/visolex).
14
+
15
+ ---
16
+
17
+ ## 🚀 Tính năng chính
18
+
19
+ ### 1. 🔧 **Basic Normalizer** — Chuẩn hóa văn bản cơ bản
20
+
21
+ * **Case folding**: chuyển toàn bộ văn bản về lowercase/uppercase/capitalize.
22
+ * **Tone normalization**: chuẩn hóa dấu thanh tiếng Việt.
23
+ * **Basic preprocessing**: loại bỏ khoảng trắng thừa, ký tự đặc biệt, định dạng câu.
24
+
25
+ ### 2. 😀 **Emoji Handler** — Xử lý emoji
26
+
27
+ * **Detect emojis**: phát hiện emoji trong văn bản.
28
+ * **Split emoji text**: tách emoji ra khỏi câu.
29
+ * **Remove emojis**: loại bỏ toàn bộ emoji.
30
+
31
+ ### 3. 📊 **Resource Management** — Quản lý dữ liệu
32
+
33
+ * `list_datasets()` — Liệt kê datasets có sẵn.
34
+ * `load_dataset()` — Tải dataset từ Hugging Face.
35
+ * `get_dataset_info()` — Xem thông tin chi tiết dataset.
36
+
37
+ ### 4. 🧠 **Task Models** — Mô hình xử lý tác vụ
38
+
39
+ * **SpamReviewDetection** — Phát hiện spam.
40
+ * **HateSpeechDetection** — Phát hiện hate speech.
41
+ * **EmotionRecognition** — Nhận diện cảm xúc.
42
+ * **AspectSentimentAnalysis** — Phân tích sentiment theo từng khía cạnh.
43
+
44
+ ### 5. 🧪 **Advanced Usage** — Kết hợp & Tùy chỉnh
45
+
46
+ * Tạo **multi-step pipelines** cho chuẩn hóa và phân tích.
47
+ * Tùy chỉnh từng bước xử lý theo nhu cầu.
48
+
49
+ ### 6. ✏ **Lexical Normalization** — Chuẩn hóa văn bản mạng xã hội
50
+
51
+ * `detect_nsw()` — Phát hiện từ phi chuẩn (non-standard words).
52
+ * `normalize_sentence()` — Chuẩn hóa câu chứa từ phi chuẩn.
53
+
54
+ ---
55
+
56
+ ## 📥 Cài đặt
57
+
58
+ ```bash
59
+ pip install visolex-toolkit
60
+ ```