# PDF Processor

In [None]:
# Split pdf into smaller pieces
import os
import math
from PyPDF2 import PdfReader, PdfWriter

PART_SIZE = 10
PART_OVERLAP = 0

def split_pdf(pdf_file_path: str, output_dir: str, pages_per_part: int = 30, overlap: int = 5):
    """
    Splits a PDF file into multiple parts with overlapping pages.

    Args:
        pdf_file_path (str): The full path to the source PDF file.
        output_dir (str): The directory where the output parts will be saved.
        pages_per_part (int): The number of pages each output part should have.
        overlap (int): The number of pages that should overlap between consecutive parts.
    """
    if not os.path.exists(pdf_file_path):
        print(f"Error: The file '{pdf_file_path}' was not found.")
        return

    if overlap >= pages_per_part:
        print("Error: Overlap must be smaller than the number of pages per part.")
        return

    try:
        os.makedirs(output_dir, exist_ok=True)
        reader = PdfReader(pdf_file_path)
        total_pages = len(reader.pages)
        if total_pages == 0:
            print("Error: The source PDF has no pages.")
            return
    except Exception as e:
        print(f"An error occurred while reading the PDF: {e}")
        return

    step = pages_per_part - overlap
    if step <= 0:
        print("Error: (pages_per_part - overlap) must be a positive number.")
        return
        
    total_parts = math.ceil((total_pages - pages_per_part) / step) + 1 if total_pages > pages_per_part else 1
    base_filename = os.path.splitext(os.path.basename(pdf_file_path))[0]
    
    for part_num in range(total_parts):
        start_page = part_num * step
        end_page = min(start_page + pages_per_part, total_pages)

        output_filename = f"{base_filename}_Part{part_num + 1}_of_{total_parts}.pdf"
        output_filepath = os.path.join(output_dir, output_filename)
        # print(f"Creating '{output_filename}' (pages {start_page + 1}-{end_page})...")

        writer = PdfWriter()
        for page_index in range(start_page, end_page):
            writer.add_page(reader.pages[page_index])

        try:
            with open(output_filepath, "wb") as out_pdf:
                writer.write(out_pdf)
        except Exception as e:
            print(f"Could not write file '{output_filepath}'. Reason: {e}")

    # print("\nPDF splitting complete.")


if __name__ == '__main__':
    pdf_dir = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\RAG_Data\Download sach y\Scan"

    pdf_files = [f for f in os.listdir(pdf_dir) if f.endswith('.pdf')]
    pdf_files = [os.path.join(pdf_dir, f) for f in pdf_files]
    
    from tqdm import tqdm

    # output_directory = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\RAG_Data\Download sach y\Scan\Splitted"
    # for pdf_to_split in tqdm(pdf_files, desc="Processing PDFs", total=len(pdf_files)):
    #     split_pdf(
    #         pdf_file_path=pdf_to_split,
    #         output_dir=output_directory,
    #         pages_per_part=PART_SIZE,
    #         overlap=PART_OVERLAP
    #     )


In [10]:
import os
import PyPDF2
import pyperclip
import pandas as pd

pdf_dir = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\RAG_Data\Download sach y\Not Scan"

pdf_files = [f for f in os.listdir(pdf_dir) if f.endswith('.pdf')]
pdf_files = [os.path.join(pdf_dir, f) for f in pdf_files]

data = []
for pdf_file in pdf_files:
    file_name = os.path.basename(pdf_file)
    file_size = os.path.getsize(pdf_file) / (1024 * 1024)

    print(file_name)
    try:
        with open(pdf_file, 'rb') as f:
            reader = PyPDF2.PdfReader(f)
            num_pages = len(reader.pages)
    except Exception as e:
        print(f"Error reading {file_name}: {e}")
        num_pages = -1

    data.append({
        'file_name': file_name,
        'file_size': round(file_size, 2),
        'num_pages': num_pages
    })

df = pd.DataFrame(data)
pyperclip.copy(df.to_csv(index=False, sep='\t'))
df

Abrams Angiography Interventional Radiology-LWW (2013).pdf
Benh Mach Vanh - Nguyen Huy Dung.pdf
Braunwald's Heart Disease Review and Assessment 11e.pdf
Braunwald's Heart Disease-A Textbook of Cardiovascular Medicine, 2-Volume Set, 11e.pdf
Cardiac Electrophysiology From Cell to Bedside 6e.pdf
Cardiology An Illustrated Textbook (Jaypee) (2013).pdf
Cardiology Board Review 2019.pdf
Cardiovascular Intervention - A Companion to Braunwald’s Heart Disease 1e.pdf
Chronic Coronary Artery Disease - A Companion to Braunwald’s Heart Disease.pdf
Clinical Arrhythmology and Electrophysiology - A Companion to Braunwald's Heart Disease 3rd Edition 2019.pdf
Error reading Clinical Arrhythmology and Electrophysiology - A Companion to Braunwald's Heart Disease 3rd Edition 2019.pdf: Invalid Elementary Object starting with b'\xd4' @13655304: b'\xc7z\xfb\xc6\xd4\xd6\xdc\x8d\x8a\xf2=j\xca\xc4\x9dS\x0c\xb4 \xfb\xd4\xbei\x07\xa5\xab{e\xd4\xcd\x07\x1eN\xe6\xd6\ny\xa0\xd7&/\xf1\x1eF9?\xbe\xd2\xb7\xf7\x959}\x12"\x94

Unnamed: 0,file_name,file_size,num_pages
0,Abrams Angiography Interventional Radiology-LW...,128.5,1240
1,Benh Mach Vanh - Nguyen Huy Dung.pdf,120.24,475
2,Braunwald's Heart Disease Review and Assessmen...,26.97,315
3,Braunwald's Heart Disease-A Textbook of Cardio...,529.44,2350
4,Cardiac Electrophysiology From Cell to Bedside...,295.21,1320
5,Cardiology An Illustrated Textbook (Jaypee) (2...,72.42,2174
6,Cardiology Board Review 2019.pdf,10.97,234
7,Cardiovascular Intervention - A Companion to B...,53.59,653
8,Chronic Coronary Artery Disease - A Companion ...,51.18,514
9,Clinical Arrhythmology and Electrophysiology -...,89.97,-1


In [3]:
import os
from mistralai import Mistral

class Mistral_OCR:
    def __init__(self, api_key=None):
        if api_key is None:
            api_key = os.environ.get("MISTRAL_API_KEY")
        if not api_key:
            raise ValueError("API key must be provided either as an argument or in the environment variable MISTRAL_API_KEY")
        self.client = Mistral(api_key=api_key)

    def upload(self, file_path):
        uploaded_file = self.client.files.upload(
            file={
                "file_name": file_path,
                "content": open(file_path, "rb"),
            },
            purpose="ocr"
        )
        return uploaded_file

    def get_ocr(self, file_id):
        signed_url = self.client.files.get_signed_url(file_id=file_id)
        ocr_response = self.client.ocr.process(
            model="mistral-ocr-latest",
            document={
                "type": "document_url",
                "document_url": signed_url.url,
            },
            include_image_base64=True
        )
        return ocr_response

    def view_uploaded(self, file_id):
        retrieved_file = self.client.files.retrieve(file_id=file_id)
        return retrieved_file

In [4]:
def extract_part_index(text):
    parts = text.split('_')
    for part in parts:
        if part.startswith('Part'):
            return part.split('Part')[1].split('_of')[0]
    return None

In [None]:
import os

ocr_processor = Mistral_OCR()
directory_path = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\RAG_Data\Download sach y\Not Scan\Splitted"
ocr_file_path = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\RAG_Data\Download sach y\OCR"

from tqdm import tqdm

all_files = [filename for filename in os.listdir(directory_path) if filename.endswith(".pdf")]

os.makedirs(ocr_file_path, exist_ok=True)

from concurrent.futures import ThreadPoolExecutor, as_completed
from tqdm import tqdm

def process_file(file_name, directory_path, ocr_file_path, ocr_processor):
    output_path = os.path.join(ocr_file_path, file_name.replace(".pdf", ".txt"))
    if os.path.exists(output_path):
        return
    # print(output_path)
    file_path = os.path.join(directory_path, file_name)
    uploaded_file = ocr_processor.upload(file_path)
    ocr_response = ocr_processor.get_ocr(uploaded_file.id)
    part_index = extract_part_index(file_name)
    with open(os.path.join(ocr_file_path, file_name.replace(".pdf", ".txt")), "w", encoding="utf-8") as f:
        for i, page in enumerate(ocr_response.pages):
            f.write(f"--start page {(part_index-1)*PART_SIZE + i+1}--\n\n")
            f.write(page.markdown + "\n\n")

def process_files_parallel(all_files, directory_path, ocr_file_path, ocr_processor, max_workers):
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = {executor.submit(process_file, file_name, directory_path, ocr_file_path, ocr_processor): file_name for file_name in all_files}
        for future in tqdm(as_completed(futures), total=len(all_files), desc="Processing files"):
            future.result()  # This will raise any exceptions caught during the execution

# Example usage
max_workers = 10  # Set the number of parallel workers
process_files_parallel(all_files, directory_path, ocr_file_path, ocr_processor, max_workers)

Processing files:   0%|          | 0/2652 [00:09<?, ?it/s]


# Database Procressor

In [1]:
from langchain_huggingface import HuggingFaceEmbeddings
embed_model = HuggingFaceEmbeddings(
        model_name = 'alibaba-nlp/gte-multilingual-base',
        model_kwargs = {'device': 'cuda', 'trust_remote_code': True},
        encode_kwargs = {'normalize_embeddings': False}
    )

  from .autonotebook import tqdm as notebook_tqdm
Some weights of the model checkpoint at alibaba-nlp/gte-multilingual-base were not used when initializing NewModel: ['classifier.bias', 'classifier.weight']
- This IS expected if you are initializing NewModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing NewModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [2]:
import importlib, ragdb
importlib.reload(ragdb)
from ragdb import TextRAG

vectorstore_path = 'rag_index_md'
rag = TextRAG(embed_model=embed_model,
              vectorstore_dir=vectorstore_path)

source_dir = [ 
    r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\RAG_Data\Download sach y\OCR"
]

# rag._clear()
# for sd in source_dir:
#     rag.consume(sd, chunk_size=2048, chunk_overlap=256, chunk_method = "markdown")



Found existing vector store at 'rag_index_md', loading...
Successfully loaded RAG state from rag_index_md


In [3]:
query = "Tôi sẽ thực hiện theo các bước như sau:\n\n1. Đọc lại câu hỏi và các lựa chọn:\nTrong các bệnh lý tim mạch, bệnh nào sau đây có liên quan đến sự dày lên bất thường của thành tâm thất, đặc biệt là tâm thất trái?\n\nLựa chọn: ['Bệnh cơ tim phì đại', 'Bệnh cơ tim giãn nở', 'Bệnh cơ tim hạn chế', 'Viêm màng ngoài tim']\n\n2. Xác định thông tin cần thiết để trả lời câu hỏi:\nĐể trả lời câu hỏi này, tôi cần biết về các bệnh lý tim mạch liên quan đến sự dày lên bất thường của thành tâm thất.\n\n3. Viết câu hỏi truy vấn để tìm kiếm tài liệu:\nquery trong tiếng Việt: \"sự dày lên bất thường của thành tâm thất và các bệnh lý tim mạch liên quan\"\nquery trong tiếng Anh: \"unusual thickening of the ventricular wall and related cardiovascular diseases\"\n\nTài liệu cần thiết sẽ giúp tôi hiểu rõ hơn về các bệnh lý tim mạch liên quan đến sự dày lên bất thường của thành tâm thất, đặc biệt là tâm thất trái."
# query = "Trong các bệnh lý tim mạch, bệnh nào sau đây có liên quan đến sự dày lên bất thường của thành tâm thất, đặc biệt là tâm thất trái? A. Bệnh cơ tim phì đại B. Bệnh cơ tim giãn nở C. Bệnh cơ tim hạn chế D. Viêm màng ngoài tim"

id = 'AB30f35eb29025'
results = rag.search(query, "bm25", k=10, threshold=0)
results


  return bm25_retriever.get_relevant_documents(query, k=k)


[Document(metadata={'Header 1': 'B. Triệu chứng thực thể', 'Header 2': 'IV. Các xét nghiệm chẩn đoán'}, page_content='## IV. Các xét nghiệm chẩn đoán  \n1. Điện tâm đồ (ĐTĐ): ĐTĐ bất thường trong khoảng 90 đến $95 \\%$ các trường hợp. Tuy nhiên không có dấu hiệu ĐTĐ đặc hiệu cho bệnh cơ tim phì đại. Dày thất trái với tăng biên độ của phức bộ QRS và biến đổi bất thường đoạn ST, T là các dấu hiệu thường gặp. Cũng hay gặp bloc phân nhánh trái trước và sóng $Q$ sâu ở các chuyển đạo phía sau, sóng $T$ đảo ngược, dầy nhĩ trái và dấu hiệu giả nhồi máu với giảm biên độ sóng $R$ ở các chuyển đạo trước tim bên phải.\n2. Chụp tim phổi: Bóng tim to với chỉ số tim ngực lớn. Phù phổi là dấu hiệu có thể thấy trên phim do tăng áp ở hệ tĩnh mạch phổi. Giãn buồng nhĩ trái cũng hay gặp. Tuy nhiên bóng tim to ít có giá trị trong việc đánh giá sự tiến triển của bệnh, người ta thường sử dụng siêu âm Doppler tim để đánh giá vấn đề này.\n3. Siêu âm tim: Là phương pháp hữu hiệu nhất để chẩn đoán và theo dõi ti

# USAGE

In [4]:
import importlib, evaluator, prompt, chatbot
importlib.reload(evaluator)
importlib.reload(prompt)
importlib.reload(chatbot)

from evaluator import Evaluator
from chatbot import Chatbot

In [5]:
evaluator = Evaluator(
    chatbot=Chatbot("qwen3:8b", max_token=100000),
    rag=rag,
    search_type="similarity"
)

In [6]:
# qa_dir = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\QA Data\MedMCQA\medmcqa_cardiovascular_subset.jsonl"

# import json
# with open(qa_dir, 'r', encoding="utf-8") as file:
#     data = [json.loads(line) for line in file][:500]
# ids = [item['id'] for item in data]
# questions = [item['question'] for item in data]
# answers = [chr(item['cop']+65) for item in data]
# choices = [[item['opa'], item['opb'], item['opc'], item['opd'], " "] for item in data]

In [7]:
qa_dir = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\QA Data\MedAB\MedABv2.jsonl"
query_dir = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\query.jsonl"

import json
with open(qa_dir, 'r', encoding="utf-8") as file:
    data = [json.loads(line) for line in file]
ids = [item['uuid'] for item in data]
questions = [item['question'] for item in data]
answers = [item['answer'] for item in data]
choices = [[item['A'], item['B'], item['C'], item['D'], item['E']] for item in data]

with open(query_dir, 'r', encoding="utf-8") as file:
    queries = [json.loads(line)['query'] for line in file]


In [8]:
# qa_dir = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\QA Data\random.jsonl"
# import json
# with open(qa_dir, 'r', encoding="utf-8") as file:
#     data = [json.loads(line) for line in file]
# questions = [item['question'] for item in data]

In [9]:
evaluator.eval(ids, questions, choices, answers, [None]*len(questions), max_workers=1, suppress_error=True, k=0, threshold=0)

100%|██████████| 276/276 [53:28<00:00, 11.63s/it] 


0.8804347826086957

In [10]:
evaluator.eval(ids, questions, choices, answers, queries, max_workers=1, suppress_error=True, k=4, threshold=0.5)

100%|██████████| 276/276 [1:02:40<00:00, 13.62s/it]


0.8731884057971014

In [None]:
evaluator.eval(ids, questions, choices, answers, queries, max_workers=2, suppress_error=True, k=10, threshold=0.5)

  2%|▏         | 6/276 [01:01<47:24, 10.54s/it]  

# Mess up with dataset

In [None]:
qa_dir = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\QA Data\MedMCQA\hard_questions.jsonl"
out_dir = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\QA Data\MedMCQA\translated_hard_questions.jsonl"

from prompt import translate_prompt
from chatbot import Chatbot
cb = Chatbot("mistral", max_token=10000)

import json
from tqdm import tqdm

with open(qa_dir, 'r', encoding='utf-8') as f:
    lines = [json.loads(line) for line in f]
    elements = [f"{line['question']} @ {line['opa']} @ {line['opb']} @ {line['opc']} @ {line['opd']} @ {line['cop']} @ T{line['id']}" for line in lines]

from concurrent.futures import ThreadPoolExecutor

def translate_element(e):
    response = cb.chat(translate_prompt.format(query=e), suppress_error=True)

    while response.find("@") == -1:
        response = cb.chat(translate_prompt.format(query=e), suppress_error=True)

    with open('logxxx.txt', 'a', encoding='utf-8') as f:
        f.write(response + '\n')

with ThreadPoolExecutor(max_workers=4) as executor:
    translated_elements = list(tqdm(executor.map(translate_element, elements), total=len(elements)))

with open(out_dir, 'w', encoding='utf-8') as f:
    for line, translated in zip(lines, translated_elements):
        ttt = translated.split('@')
        translated_line = {
            'question': ttt[0],
            'opa': ttt[1],
            'opb': ttt[2],
            'opc': ttt[3],
            'opd': ttt[4],
            'ans': ttt[5],
            'id' : ttt[6],
        }
        f.write(json.dumps(translated_line, ensure_ascii=False) + '\n')


100%|██████████| 368/368 [05:55<00:00,  1.03it/s]


AttributeError: 'NoneType' object has no attribute 'split'

In [2]:
translated_elements = []

with open('logxxx.txt', 'r', encoding='utf-8') as f:
    translated_elements = f.readlines()

with open(out_dir, 'w', encoding='utf-8') as f:
    for translated in translated_elements:
        if translated == '\n':
            continue
        print(translated)
        ttt = translated.split('@')
        translated_line = {
            'question': ttt[0],
            'opa': ttt[1],
            'opb': ttt[2],
            'opc': ttt[3],
            'opd': ttt[4],
            'ans': ttt[5],
            'id' : ttt[6][:-2],
        }
        f.write(json.dumps(translated_line, ensure_ascii=False) + '\n')

Điều đúng về phẫu thuật Trendelenburg là @ Lột tĩnh mạch giãn nở nông @ Thắt các tĩnh mạch xuyên @ Thắt ngang tĩnh mạch giãn nở nông @ Thắt tĩnh mạch hiển lớn @ 2 @ T5951c8e6-c7e7-4104-b20d-66732a26532a

U nang Baker là một loại: @ Thoát vị đẩy của khớp gối @ U nang giữ lại @ Viêm bursa @ Khối u lành tính @ 0 @ Td37c8381-7042-41f1-aa7a-3322147d9acc

Độc tính Digoxin có thể tăng lên bởi tất cả trừ @ Suy thận @ Tăng kali máu @ Tăng magiê máu @ Tăng canxi máu @ 1 @ T505db5f5-7e22-425c-af33-62fcbb1ebdaf

Áp lực máu đo bằng huyết áp kế @ Thấp hơn áp lực trong động mạch @ Cao hơn áp lực trong động mạch @ Giống như áp lực trong động mạch @ Giống nhau với các kích cỡ vòng bít khác nhau @ 1 @ T60a3c729-6898-4d1f-a086-dcf6a998bc38

Thời gian bán hủy của digoxin là? @ 24 giờ @ 40 giờ @ 48 giờ @ 60 giờ @ 1 @ Tf38737e4-491f-4272-8b6e-1f2e34f0ebfc

Bình luận về chẩn đoán từ ECG được hiển thị dưới đây: @ Tắc RCA do huyết khối @ Tắc LAD do huyết khối @ Tắc LCX do huyết khối @ Aefact @ 0 @ T546c3d32-0f

In [4]:
qa_dir = r"C:\Users\vuvan\Desktop\An_Plaza\ViMedLLM\Vietnamese-Medical-LLM\dataset\QA Data\MedAB\MedABv2.jsonl"

import json
import pyperclip

with open(qa_dir, 'r', encoding='utf-8') as f:
    data = [json.loads(line) for line in f]

formatted_data = []
for item in data:
    question = item.get('question', '')
    opa = item.get('A', '')
    opb = item.get('B', '')
    opc = item.get('C', '')
    opd = item.get('D', '')
    ope = item.get('E', '')
    ans = item.get('answer', '')
    id = item.get('uuid', '')
    formatted_data.append(f"{question}\t{opa}\t{opb}\t{opc}\t{opd}\t{ope}\t{ans}\t{id}")

# Copy to clipboard
pyperclip.copy('\n'.join(formatted_data))