bichnhan2701 commited on
Commit
de4b4f0
·
1 Parent(s): 7402e0f

Improve normalize prompt

Browse files
app/services/enrichment/normalize.py CHANGED
@@ -44,18 +44,19 @@ async def normalize_text(raw_text: str) -> str:
44
 
45
  prompt = f"""
46
  Bạn là một hệ thống Xử lý Hậu kỳ NLP (NLP Post-Processing) Tiếng Việt.
47
- Đầu vào là văn bản thô (raw transcript), có thể thiếu dấu câu sai chính tả do nhận dạng giọng nói.
48
 
49
  Nhiệm vụ:
50
  - Sửa lỗi chính tả do ASR.
51
  - Thêm dấu câu phù hợp.
52
  - Viết hoa đúng chuẩn tiếng Việt (đầu câu, tên riêng nếu suy luận được).
53
- - Loại bỏ các từ/cụm từ bị lặp lại nghĩa.
54
  - Giữ nguyên nội dung và ý nghĩa gốc, không rút gọn, không thêm thông tin mới.
55
 
56
  YÊU CẦU ĐẦU RA:
57
  - Chỉ trả về văn bản đã chuẩn hóa
58
  - KHÔNG JSON, KHÔNG giải thích, KHÔNG markdown
 
59
 
60
  Văn bản đầu vào:
61
  \"\"\"{raw_text}\"\"\"
 
44
 
45
  prompt = f"""
46
  Bạn là một hệ thống Xử lý Hậu kỳ NLP (NLP Post-Processing) Tiếng Việt.
47
+ Đầu vào là văn bản thô (raw transcript), có thể thiếu dấu câu, sai chính tả, Lặp từ, lặp cụm từ, hoặc lặp cả đoạn do lỗi nhận dạng giọng nói.
48
 
49
  Nhiệm vụ:
50
  - Sửa lỗi chính tả do ASR.
51
  - Thêm dấu câu phù hợp.
52
  - Viết hoa đúng chuẩn tiếng Việt (đầu câu, tên riêng nếu suy luận được).
53
+ - Loại bỏ hoàn toàn các phần bị lặp (từ, cụm từ, câu hoặc đoạn), chỉ giữ MỘT phiên bản hợp lý.
54
  - Giữ nguyên nội dung và ý nghĩa gốc, không rút gọn, không thêm thông tin mới.
55
 
56
  YÊU CẦU ĐẦU RA:
57
  - Chỉ trả về văn bản đã chuẩn hóa
58
  - KHÔNG JSON, KHÔNG giải thích, KHÔNG markdown
59
+ - KHÔNG thêm lời dẫn, giải thích, nhận xét hay meta-text.
60
 
61
  Văn bản đầu vào:
62
  \"\"\"{raw_text}\"\"\"