Spaces:
Running
Running
Commit
·
de4b4f0
1
Parent(s):
7402e0f
Improve normalize prompt
Browse files
app/services/enrichment/normalize.py
CHANGED
|
@@ -44,18 +44,19 @@ async def normalize_text(raw_text: str) -> str:
|
|
| 44 |
|
| 45 |
prompt = f"""
|
| 46 |
Bạn là một hệ thống Xử lý Hậu kỳ NLP (NLP Post-Processing) Tiếng Việt.
|
| 47 |
-
Đầu vào là văn bản thô (raw transcript), có thể thiếu dấu câu
|
| 48 |
|
| 49 |
Nhiệm vụ:
|
| 50 |
- Sửa lỗi chính tả do ASR.
|
| 51 |
- Thêm dấu câu phù hợp.
|
| 52 |
- Viết hoa đúng chuẩn tiếng Việt (đầu câu, tên riêng nếu suy luận được).
|
| 53 |
-
- Loại bỏ các t
|
| 54 |
- Giữ nguyên nội dung và ý nghĩa gốc, không rút gọn, không thêm thông tin mới.
|
| 55 |
|
| 56 |
YÊU CẦU ĐẦU RA:
|
| 57 |
- Chỉ trả về văn bản đã chuẩn hóa
|
| 58 |
- KHÔNG JSON, KHÔNG giải thích, KHÔNG markdown
|
|
|
|
| 59 |
|
| 60 |
Văn bản đầu vào:
|
| 61 |
\"\"\"{raw_text}\"\"\"
|
|
|
|
| 44 |
|
| 45 |
prompt = f"""
|
| 46 |
Bạn là một hệ thống Xử lý Hậu kỳ NLP (NLP Post-Processing) Tiếng Việt.
|
| 47 |
+
Đầu vào là văn bản thô (raw transcript), có thể thiếu dấu câu, sai chính tả, Lặp từ, lặp cụm từ, hoặc lặp cả đoạn do lỗi nhận dạng giọng nói.
|
| 48 |
|
| 49 |
Nhiệm vụ:
|
| 50 |
- Sửa lỗi chính tả do ASR.
|
| 51 |
- Thêm dấu câu phù hợp.
|
| 52 |
- Viết hoa đúng chuẩn tiếng Việt (đầu câu, tên riêng nếu suy luận được).
|
| 53 |
+
- Loại bỏ hoàn toàn các phần bị lặp (từ, cụm từ, câu hoặc đoạn), chỉ giữ MỘT phiên bản hợp lý.
|
| 54 |
- Giữ nguyên nội dung và ý nghĩa gốc, không rút gọn, không thêm thông tin mới.
|
| 55 |
|
| 56 |
YÊU CẦU ĐẦU RA:
|
| 57 |
- Chỉ trả về văn bản đã chuẩn hóa
|
| 58 |
- KHÔNG JSON, KHÔNG giải thích, KHÔNG markdown
|
| 59 |
+
- KHÔNG thêm lời dẫn, giải thích, nhận xét hay meta-text.
|
| 60 |
|
| 61 |
Văn bản đầu vào:
|
| 62 |
\"\"\"{raw_text}\"\"\"
|