File size: 658 Bytes
34b531b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
from __future__ import annotations

import re


TEXT_EXTENSIONS = {".txt", ".html", ".csv", ".json", ".md"}
PDF_EXTENSIONS = {".pdf"}
IMAGE_EXTENSIONS = {".png", ".jpg", ".jpeg", ".webp"}
TOKEN_PATTERN = re.compile(r"[\wÀ-ỹ]+|[^\w\s]", flags=re.UNICODE)
BOILERPLATE_LINES = {
    "viết bài",
    "tiện ích",
    "sách",
    "cá nhân hóa",
    "tùy chỉnh",
    "dành cho bạn",
    "live",
    "xem thêm",
    "tải về",
    "đang tải",
    "bình luận",
    "video",
    "mới",
    "hot nhất",
    "mới nhất",
    "liên hệ",
    "về chúng tôi",
    "chính sách và điều khoản",
}