from __future__ import annotations import re TEXT_EXTENSIONS = {".txt", ".html", ".csv", ".json", ".md"} PDF_EXTENSIONS = {".pdf"} IMAGE_EXTENSIONS = {".png", ".jpg", ".jpeg", ".webp"} TOKEN_PATTERN = re.compile(r"[\wÀ-ỹ]+|[^\w\s]", flags=re.UNICODE) BOILERPLATE_LINES = { "viết bài", "tiện ích", "sách", "cá nhân hóa", "tùy chỉnh", "dành cho bạn", "live", "xem thêm", "tải về", "đang tải", "bình luận", "video", "mới", "hot nhất", "mới nhất", "liên hệ", "về chúng tôi", "chính sách và điều khoản", }