from langchain_community.document_loaders import PyPDFLoader from langchain_text_splitters import RecursiveCharacterTextSplitter import re def clean_text(text: str) -> str: """ Membersihkan teks PDF dari newline (\n) yang memotong kalimat. Menyisakan double newline (\n\n) sebagai batas paragraf. """ # Mengganti single newline dengan spasi (menggabungkan kalimat yang terputus) text = re.sub(r'(?