update stopwords
Browse files- app/constants.py +4 -3
- app/llm.py +4 -4
app/constants.py
CHANGED
|
@@ -113,18 +113,19 @@ VEHICLE_KEYWORD_TO_COLUMN = {
|
|
| 113 |
# Bạn có thể thêm/bớt các từ trong danh sách này tùy ý
|
| 114 |
VIETNAMESE_STOP_WORDS = {
|
| 115 |
"bị", "bởi", "cả", "các", "cái", "cần", "càng", "chỉ", "chiếc", "cho",
|
| 116 |
-
"chứ", "
|
| 117 |
"do", "đó", "được", "gì", "khi", "là", "lại", "lên", "lúc",
|
| 118 |
"mà", "mỗi", "một", "nên", "nếu", "ngay", "như", "nhưng", "những",
|
| 119 |
"nơi", "nữa", "phải", "qua", "ra", "rằng", "rất", "rồi", "sau", "sẽ",
|
| 120 |
"thì", "trên", "trước", "từ", "từng", "và", "vẫn", "vào", "vậy", "về",
|
| 121 |
-
"vì", "việc", "với", "xong"
|
| 122 |
# ... thêm các từ khác bạn muốn loại bỏ
|
| 123 |
}
|
| 124 |
|
| 125 |
# Stop phrases (multi-word stop words) for Vietnamese
|
| 126 |
VIETNAMESE_STOP_PHRASES = [
|
| 127 |
-
"có thể", "vi phạm", "phạt tiền", "mức phạt tiền", "áp dụng", "đối với",
|
|
|
|
| 128 |
# ... thêm các từ khác bạn muốn loại bỏ
|
| 129 |
]
|
| 130 |
|
|
|
|
| 113 |
# Bạn có thể thêm/bớt các từ trong danh sách này tùy ý
|
| 114 |
VIETNAMESE_STOP_WORDS = {
|
| 115 |
"bị", "bởi", "cả", "các", "cái", "cần", "càng", "chỉ", "chiếc", "cho",
|
| 116 |
+
"chứ", "có", "cứ", "cùng", "cũng", "đã", "đang", "để",
|
| 117 |
"do", "đó", "được", "gì", "khi", "là", "lại", "lên", "lúc",
|
| 118 |
"mà", "mỗi", "một", "nên", "nếu", "ngay", "như", "nhưng", "những",
|
| 119 |
"nơi", "nữa", "phải", "qua", "ra", "rằng", "rất", "rồi", "sau", "sẽ",
|
| 120 |
"thì", "trên", "trước", "từ", "từng", "và", "vẫn", "vào", "vậy", "về",
|
| 121 |
+
"vì", "việc", "với", "xong"
|
| 122 |
# ... thêm các từ khác bạn muốn loại bỏ
|
| 123 |
}
|
| 124 |
|
| 125 |
# Stop phrases (multi-word stop words) for Vietnamese
|
| 126 |
VIETNAMESE_STOP_PHRASES = [
|
| 127 |
+
"có thể", "vi phạm", "phạt tiền", "mức phạt tiền", "áp dụng", "đối với",
|
| 128 |
+
"hành vi", "bao nhiêu", "thế nào", "mức xử phạt", "xử phạt"
|
| 129 |
# ... thêm các từ khác bạn muốn loại bỏ
|
| 130 |
]
|
| 131 |
|
app/llm.py
CHANGED
|
@@ -129,8 +129,8 @@ class LLMClient:
|
|
| 129 |
Tạo text từ prompt sử dụng LLM.
|
| 130 |
"""
|
| 131 |
logger.info(
|
| 132 |
-
|
| 133 |
-
f"[LLM] generate_text - provider: {self.provider}\n\t prompt: {prompt}"
|
| 134 |
)
|
| 135 |
try:
|
| 136 |
if self.provider == "openai":
|
|
@@ -422,8 +422,8 @@ class LLMClient:
|
|
| 422 |
""".strip()
|
| 423 |
|
| 424 |
response = await self.generate_text(prompt, **kwargs)
|
| 425 |
-
|
| 426 |
-
logger.info(f"[LLM][RAW][analyze] Kết quả trả về từ generate_text: {response}")
|
| 427 |
|
| 428 |
try:
|
| 429 |
parsed = _parse_json_from_text(response or "")
|
|
|
|
| 129 |
Tạo text từ prompt sử dụng LLM.
|
| 130 |
"""
|
| 131 |
logger.info(
|
| 132 |
+
f"[LLM] generate_text - provider: {self.provider}\n\t prompt: {_safe_truncate(prompt)}"
|
| 133 |
+
# f"[LLM] generate_text - provider: {self.provider}\n\t prompt: {prompt}"
|
| 134 |
)
|
| 135 |
try:
|
| 136 |
if self.provider == "openai":
|
|
|
|
| 422 |
""".strip()
|
| 423 |
|
| 424 |
response = await self.generate_text(prompt, **kwargs)
|
| 425 |
+
logger.info(f"[LLM][RAW][analyze] Kết quả trả về từ generate_text: {_safe_truncate(response)}")
|
| 426 |
+
# logger.info(f"[LLM][RAW][analyze] Kết quả trả về từ generate_text: {response}")
|
| 427 |
|
| 428 |
try:
|
| 429 |
parsed = _parse_json_from_text(response or "")
|