htg2501 commited on
Commit
8fdb8bf
·
verified ·
1 Parent(s): 21b70be

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +90 -83
README.md CHANGED
@@ -1,84 +1,91 @@
1
- # VNU Summarizer - Hệ thống tóm tắt đa văn bản tiếng Việt
2
-
3
- ![Logo UET](./Logo_UET.png)
4
-
5
- ## Giới thiệu
6
-
7
- VNU Summarizer là một ứng dụng web được phát triển nhằm cung cấp giải pháp tóm tắt đa văn bản cho tiếng Việt. Hệ thống này được xây dựng trên nền tảng Streamlit, cung cấp giao diện trực quan và dễ sử dụng cho người dùng.
8
-
9
- ## Mục tiêu
10
-
11
- - Tạo các bản tóm tắt chất lượng cao từ nhiều tài liệu đầu vào
12
- - Hỗ trợ cả hai phương pháp tóm tắt: trích lược (extractive) và trích rút (abstractive)
13
- - Cung cấp công cụ đánh giá chất lượng tóm tắt dựa trên các chỉ số ROUGE
14
- - Tạo giao diện người dùng thân thiện, dễ sử dụng
15
-
16
- ## Chức năng chính
17
-
18
- ### 1. Nhập liệu đa dạng
19
- - **Nhập văn bản trực tiếp**: Người dùng thể thêm nhiều vùng nhập văn bản
20
- - **Tải lên tệp**: Hỗ trợ nhiều định dạng tệp phổ biến (txt, pdf, docx)
21
-
22
- ### 2. Phương pháp tóm tắt
23
- - **Tóm tắt trích lược (Extractive Summarization)**: Trích xuất các câu quan trọng từ văn bản gốc
24
- - **Tóm tắt trích rút (Abstractive Summarization)**: Tạo ra bản tóm tắt mới với cách diễn đạt riêng
25
-
26
- ### 3. Tùy chỉnh tham số
27
- - **Tỷ lệ rút gọn**: Người dùng thể chọn tỷ lệ rút gọn từ 0-50%
28
- - **Số câu đầu ra**: Người dùng có thể chỉ định số câu cần xuất ra trong bản tóm tắt
29
-
30
- ### 4. Đánh giá chất lượng
31
- - **Chỉ số ROUGE**: Hệ thống cung cấp các chỉ số ROUGE-1, ROUGE-2, ROUGE-L để đánh giá chất lượng tóm tắt
32
- - **Tóm tắt mẫu**: Người dùng có thể nhập tóm tắt mẫu để so sánh với kết quả tóm tắt của hệ thống
33
-
34
- ## Cách sử dụng
35
-
36
- 1. **Nhập văn bản**:
37
- - Chọn phương thức nhập liệu (nhập trực tiếp hoặc tải tệp lên)
38
- - Nếu nhập trực tiếp, sử dụng nút "Thêm vùng nhập văn bản" để thêm nhiều văn bản
39
- - Nếu tải tệp, kéo thả các tệp vào vùng quy định
40
-
41
- 2. **Nhập tóm tắt mẫu** (không bắt buộc):
42
- - Nhập bản tóm tắt mẫu cho phương pháp trích lược
43
- - Nhập bản tóm tắt mẫu cho phương pháp trích rút
44
-
45
- 3. **Cấu hình tóm tắt**:
46
- - Chọn phương thức rút gọn (tỷ lệ hoặc số câu)
47
- - Điều chỉnh tỷ lệ rút gọn hoặc số câu đầu ra theo nhu cầu
48
-
49
- 4. **Xem kết quả**:
50
- - Nhấn nút "Tóm tắt" để xem kết quả
51
- - Kết quả sẽ hiển thị cả hai phương pháp tóm tắt cùng các chỉ số đánh giá ROUGE
52
-
53
- ## Cấu trúc nguồn
54
-
55
- Ứng dụng được xây dựng dựa trên các thành phần chính sau:
56
- - `streamlit`: Framework để xây dựng giao diện web
57
- - `api.summarization.MultiDocSummarizationAPI`: API chính để xử tóm tắt đa văn bản
58
- - `fitz`: Thư viện xử tệp PDF
59
- - `docx`: Thư viện xử lý tệp Word
60
-
61
- ## Yêu cầu hệ thống
62
-
63
- - Python 3.11
64
- - Streamlit
65
- - PyMuPDF (fitz)
66
- - python-docx
67
- - Các thư viện phụ thuộc khác được liệt kê trong tệp requirements.txt
68
-
69
- ## Cài đặt và chạy
70
-
71
- ```bash
72
- # Clone repository
73
- git clone <repository-url>
74
-
75
- # Di chuyển vào thư mục dự án
76
- cd vnu-summarizer
77
-
78
- # Cài đặt các thư viện phụ thuộc
79
- pip install -r requirements.txt
80
-
81
- # Chạy ứng dụng
82
- streamlit run app.py
83
-
 
 
 
 
 
 
 
84
  Tải thêm checkpoint-2200 trên notion
 
1
+ ---
2
+ title: Vietnamese Multi-Document Summarization
3
+ sdk: streamlit
4
+ app_file: app.py
5
+ ---
6
+
7
+
8
+ # VNU Summarizer - Hệ thống tóm tắt đa văn bản tiếng Việt
9
+
10
+ ![Logo UET](./Logo_UET.png)
11
+
12
+ ## Giới thiệu
13
+
14
+ VNU Summarizer là một ứng dụng web được phát triển nhằm cung cấp giải pháp tóm tắt đa văn bản cho tiếng Việt. Hệ thống này được xây dựng trên nền tảng Streamlit, cung cấp giao diện trực quan dễ sử dụng cho người dùng.
15
+
16
+ ## Mục tiêu
17
+
18
+ - Tạo các bản tóm tắt chất lượng cao từ nhiều tài liệu đầu vào
19
+ - Hỗ trợ cả hai phương pháp tóm tắt: trích lược (extractive) trích rút (abstractive)
20
+ - Cung cấp công cụ đánh giá chất lượng tóm tắt dựa trên các chỉ số ROUGE
21
+ - Tạo giao diện người dùng thân thiện, dễ sử dụng
22
+
23
+ ## Chức năng chính
24
+
25
+ ### 1. Nhập liệu đa dạng
26
+ - **Nhập văn bản trực tiếp**: Người dùng có thể thêm nhiều vùng nhập văn bản
27
+ - **Tải lên tệp**: Hỗ trợ nhiều định dạng tệp phổ biến (txt, pdf, docx)
28
+
29
+ ### 2. Phương pháp tóm tắt
30
+ - **Tóm tắt trích lược (Extractive Summarization)**: Trích xuất các câu quan trọng từ văn bản gốc
31
+ - **Tóm tắt trích rút (Abstractive Summarization)**: Tạo ra bản tóm tắt mới với cách diễn đạt riêng
32
+
33
+ ### 3. Tùy chỉnh tham số
34
+ - **Tỷ lệ rút gọn**: Người dùng có thể chọn tỷ lệ rút gọn từ 0-50%
35
+ - **Số câu đầu ra**: Người dùng có thể chỉ định số câu cần xuất ra trong bản tóm tắt
36
+
37
+ ### 4. Đánh giá chất lượng
38
+ - **Chỉ số ROUGE**: Hệ thống cung cấp các chỉ số ROUGE-1, ROUGE-2, ROUGE-L để đánh giá chất lượng tóm tắt
39
+ - **Tóm tắt mẫu**: Người dùng thể nhập tóm tắt mẫu để so sánh với kết quả tóm tắt của hệ thống
40
+
41
+ ## Cách sử dụng
42
+
43
+ 1. **Nhập văn bản**:
44
+ - Chọn phương thức nhập liệu (nhập trực tiếp hoặc tải tệp lên)
45
+ - Nếu nhập trực tiếp, sử dụng nút "Thêm vùng nhập văn bản" để thêm nhiều văn bản
46
+ - Nếu tải tệp, kéo thả các tệp vào vùng quy định
47
+
48
+ 2. **Nhập tóm tắt mẫu** (không bắt buộc):
49
+ - Nhập bản tóm tắt mẫu cho phương pháp trích lược
50
+ - Nhập bản tóm tắt mẫu cho phương pháp trích rút
51
+
52
+ 3. **Cấu hình tóm tắt**:
53
+ - Chọn phương thức rút gọn (tỷ lệ hoặc số câu)
54
+ - Điều chỉnh tỷ lệ rút gọn hoặc số câu đầu ra theo nhu cầu
55
+
56
+ 4. **Xem kết quả**:
57
+ - Nhấn nút "Tóm tắt" để xem kết quả
58
+ - Kết quả sẽ hiển thị cả hai phương pháp tóm tắt cùng các chỉ số đánh giá ROUGE
59
+
60
+ ## Cấu trúc mã nguồn
61
+
62
+ Ứng dụng được xây dựng dựa trên các thành phần chính sau:
63
+ - `streamlit`: Framework để xây dựng giao diện web
64
+ - `api.summarization.MultiDocSummarizationAPI`: API chính để xử lý tóm tắt đa văn bản
65
+ - `fitz`: Thư viện xử lý tệp PDF
66
+ - `docx`: Thư viện xử lý tệp Word
67
+
68
+ ## Yêu cầu hệ thống
69
+
70
+ - Python 3.11
71
+ - Streamlit
72
+ - PyMuPDF (fitz)
73
+ - python-docx
74
+ - Các thư viện phụ thuộc khác được liệt kê trong tệp requirements.txt
75
+
76
+ ## Cài đặt và chạy
77
+
78
+ ```bash
79
+ # Clone repository
80
+ git clone <repository-url>
81
+
82
+ # Di chuyển vào thư mục dự án
83
+ cd vnu-summarizer
84
+
85
+ # Cài đặt các thư viện phụ thuộc
86
+ pip install -r requirements.txt
87
+
88
+ # Chạy ứng dụng
89
+ streamlit run app.py
90
+
91
  Tải thêm checkpoint-2200 trên notion