VietCat commited on
Commit
24543f7
·
1 Parent(s): 372caf9

update stopwords

Browse files
Files changed (2) hide show
  1. app/constants.py +4 -3
  2. app/llm.py +4 -4
app/constants.py CHANGED
@@ -113,18 +113,19 @@ VEHICLE_KEYWORD_TO_COLUMN = {
113
  # Bạn có thể thêm/bớt các từ trong danh sách này tùy ý
114
  VIETNAMESE_STOP_WORDS = {
115
  "bị", "bởi", "cả", "các", "cái", "cần", "càng", "chỉ", "chiếc", "cho",
116
- "chứ", "chưa", "có", "cứ", "cùng", "cũng", "đã", "đang", "để",
117
  "do", "đó", "được", "gì", "khi", "là", "lại", "lên", "lúc",
118
  "mà", "mỗi", "một", "nên", "nếu", "ngay", "như", "nhưng", "những",
119
  "nơi", "nữa", "phải", "qua", "ra", "rằng", "rất", "rồi", "sau", "sẽ",
120
  "thì", "trên", "trước", "từ", "từng", "và", "vẫn", "vào", "vậy", "về",
121
- "vì", "việc", "với", "xong", "phạt", "xử", "xe"
122
  # ... thêm các từ khác bạn muốn loại bỏ
123
  }
124
 
125
  # Stop phrases (multi-word stop words) for Vietnamese
126
  VIETNAMESE_STOP_PHRASES = [
127
- "có thể", "vi phạm", "phạt tiền", "mức phạt tiền", "áp dụng", "đối với", "hành vi", "bao nhiêu", "thế nào", "mức xử phạt"
 
128
  # ... thêm các từ khác bạn muốn loại bỏ
129
  ]
130
 
 
113
  # Bạn có thể thêm/bớt các từ trong danh sách này tùy ý
114
  VIETNAMESE_STOP_WORDS = {
115
  "bị", "bởi", "cả", "các", "cái", "cần", "càng", "chỉ", "chiếc", "cho",
116
+ "chứ", "có", "cứ", "cùng", "cũng", "đã", "đang", "để",
117
  "do", "đó", "được", "gì", "khi", "là", "lại", "lên", "lúc",
118
  "mà", "mỗi", "một", "nên", "nếu", "ngay", "như", "nhưng", "những",
119
  "nơi", "nữa", "phải", "qua", "ra", "rằng", "rất", "rồi", "sau", "sẽ",
120
  "thì", "trên", "trước", "từ", "từng", "và", "vẫn", "vào", "vậy", "về",
121
+ "vì", "việc", "với", "xong"
122
  # ... thêm các từ khác bạn muốn loại bỏ
123
  }
124
 
125
  # Stop phrases (multi-word stop words) for Vietnamese
126
  VIETNAMESE_STOP_PHRASES = [
127
+ "có thể", "vi phạm", "phạt tiền", "mức phạt tiền", "áp dụng", "đối với",
128
+ "hành vi", "bao nhiêu", "thế nào", "mức xử phạt", "xử phạt"
129
  # ... thêm các từ khác bạn muốn loại bỏ
130
  ]
131
 
app/llm.py CHANGED
@@ -129,8 +129,8 @@ class LLMClient:
129
  Tạo text từ prompt sử dụng LLM.
130
  """
131
  logger.info(
132
- # f"[LLM] generate_text - provider: {self.provider}\n\t prompt: {_safe_truncate(prompt)}"
133
- f"[LLM] generate_text - provider: {self.provider}\n\t prompt: {prompt}"
134
  )
135
  try:
136
  if self.provider == "openai":
@@ -422,8 +422,8 @@ class LLMClient:
422
  """.strip()
423
 
424
  response = await self.generate_text(prompt, **kwargs)
425
- # logger.info(f"[LLM][RAW][analyze] Kết quả trả về từ generate_text: {_safe_truncate(response)}")
426
- logger.info(f"[LLM][RAW][analyze] Kết quả trả về từ generate_text: {response}")
427
 
428
  try:
429
  parsed = _parse_json_from_text(response or "")
 
129
  Tạo text từ prompt sử dụng LLM.
130
  """
131
  logger.info(
132
+ f"[LLM] generate_text - provider: {self.provider}\n\t prompt: {_safe_truncate(prompt)}"
133
+ # f"[LLM] generate_text - provider: {self.provider}\n\t prompt: {prompt}"
134
  )
135
  try:
136
  if self.provider == "openai":
 
422
  """.strip()
423
 
424
  response = await self.generate_text(prompt, **kwargs)
425
+ logger.info(f"[LLM][RAW][analyze] Kết quả trả về từ generate_text: {_safe_truncate(response)}")
426
+ # logger.info(f"[LLM][RAW][analyze] Kết quả trả về từ generate_text: {response}")
427
 
428
  try:
429
  parsed = _parse_json_from_text(response or "")