magiv2

File size: 22,212 Bytes

b3f1331
 
bfcd54f
b3f1331
bfcd54f
b3f1331
 
bfcd54f
b3f1331
cd77b9d
b3f1331
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b3f1331
 
cd77b9d
 
bfcd54f
 
b3f1331
 
cd77b9d
 
bfcd54f
 
b3f1331
 
cd77b9d
 
 
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b3f1331
 
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
cd77b9d
bfcd54f
 
 
 
 
 
 
 
 
 
 
cd77b9d
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b3f1331
cd77b9d
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b3f1331
bfcd54f
 
 
 
b3f1331
 
bfcd54f
 
b3f1331
bfcd54f
 
 
b3f1331
 
bfcd54f
b3f1331
 
bfcd54f
 
b3f1331
 
 
 
 
bfcd54f
 
b3f1331
 
 
 
 
 
bfcd54f
 
b3f1331
 
 
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b3f1331
bfcd54f
 
cd77b9d
b3f1331
 
cd77b9d
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b3f1331
bfcd54f
 
b3f1331
 
 
 
 
 
bfcd54f
 
cd77b9d
 
bfcd54f
 
 
 
 
 
b3f1331
bfcd54f
 
 
 
b3f1331
 
bfcd54f
 
b3f1331
 
bfcd54f
 
b3f1331
bfcd54f
cd77b9d
 
bfcd54f
 
cd77b9d
 
b3f1331
cd77b9d
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b3f1331
bfcd54f
 
cd77b9d
b3f1331
 
 
 
 
 
bfcd54f
 
cd77b9d
 
bfcd54f
 
 
 
 
 
b3f1331
bfcd54f
 
 
 
 
b3f1331
bfcd54f
b3f1331
 
 
bfcd54f
b3f1331
 
 
bfcd54f
 
cd77b9d
 
b3f1331
cd77b9d
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b3f1331
bfcd54f
 
cd77b9d
b3f1331
 
 
 
bfcd54f
b3f1331
bfcd54f
 
cd77b9d
 
bfcd54f
 
 
 
 
 
b3f1331
bfcd54f
 
 
 
 
 
 
 
b3f1331
 
bfcd54f
b3f1331
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
cd77b9d
bfcd54f
 
 
 
 
 
 
 
b3f1331
 
bfcd54f
b3f1331
bfcd54f
 
b3f1331
bfcd54f
b3f1331
 
 
bfcd54f
b3f1331
 
bfcd54f
b3f1331
 
bfcd54f
b3f1331
 
 
 
cd77b9d
bfcd54f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b3f1331
 
 
 
 
 
 
 
 
bfcd54f
b3f1331
 
 
bfcd54f
 
b3f1331
 
 
 
bfcd54f
b3f1331
 
bfcd54f
 
b3f1331
 
bfcd54f
b3f1331
bfcd54f
 
b3f1331

from transformers import ConditionalDetrImageProcessor, TrOCRProcessor, ViTImageProcessor
import torch
from typing import List, Dict, Any, Optional, Tuple
from shapely.geometry import box
from shapely.geometry.polygon import Polygon
from .utils import x1y1x2y2_to_xywh
import numpy as np
from numpy.typing import NDArray


class Magiv2Processor():
    """
    Procesor danych dla modelu Magiv2 - obsługuje preprocessing i postprocessing.

    Klasa odpowiedzialna za przygotowanie danych wejściowych dla różnych modułów
    Magiv2 (detekcja, OCR, embeddingi) oraz przetwarzanie outputów. Zawiera również
    metody pomocnicze do filtrowania detekcji i konwersji formatów anotacji.

    Attributes:
        config: Konfiguracja modelu Magiv2
        detection_image_preprocessor: Preprocessor dla obrazów do detekcji obiektów
        ocr_preprocessor: Preprocessor dla obrazów do OCR
        crop_embedding_image_preprocessor: Preprocessor dla wyciętych fragmentów obrazu
    """

    def __init__(self, config: Any) -> None:
        """
        Inicjalizuje procesor z podaną konfiguracją.

        Tworzy preprocessory dla modułów, które są aktywne zgodnie z konfiguracją:
        - Detekcja obiektów: ConditionalDetrImageProcessor
        - OCR: TrOCRProcessor
        - Embeddingi crops: ViTImageProcessor

        Args:
            config: Obiekt konfiguracji Magiv2Config z parametrami preprocessingu
        """
        self.config: Any = config
        self.detection_image_preprocessor: Optional[ConditionalDetrImageProcessor] = None
        self.ocr_preprocessor: Optional[TrOCRProcessor] = None
        self.crop_embedding_image_preprocessor: Optional[ViTImageProcessor] = None

        # Inicjalizacja preprocessora dla detekcji obiektów (jeśli aktywny)
        if not config.disable_detections:
            assert config.detection_image_preprocessing_config is not None
            self.detection_image_preprocessor = ConditionalDetrImageProcessor.from_dict(
                config.detection_image_preprocessing_config)

        # Inicjalizacja preprocessora dla OCR (jeśli aktywny)
        if not config.disable_ocr:
            assert config.ocr_pretrained_processor_path is not None
            self.ocr_preprocessor = TrOCRProcessor.from_pretrained(
                config.ocr_pretrained_processor_path)

        # Inicjalizacja preprocessora dla embeddingów crops (jeśli aktywny)
        if not config.disable_crop_embeddings:
            assert config.crop_embedding_image_preprocessing_config is not None
            self.crop_embedding_image_preprocessor = ViTImageProcessor.from_dict(
                config.crop_embedding_image_preprocessing_config)

    def preprocess_inputs_for_detection(
        self,
        images: List[NDArray[np.uint8]],
        annotations: Optional[List[Dict[str, Any]]] = None
    ) -> Dict[str, torch.Tensor]:
        """
        Preprocessuje obrazy do formatu wymaganego przez moduł detekcji obiektów.

        Wykonuje normalizację, resize i padding obrazów. Jeśli podano anotacje,
        konwertuje je do formatu COCO i skaluje współrzędnie bbox zgodnie z resize.

        Args:
            images: Lista obrazów jako numpy arrays (format HWC)
            annotations: Opcjonalne anotacje ground truth w formacie:
                        [{"image_id": int, "bboxes_as_x1y1x2y2": List, "labels": List}]

        Returns:
            Słownik z kluczami:
            - "pixel_values": torch.Tensor z preprocessowanymi obrazami
            - "pixel_mask": torch.Tensor z maską paddingu
            - "labels": List[Dict] z przetworzonymi anotacjami (jeśli podano)
        """
        images_list: List[NDArray[np.uint8]] = list(images)
        assert isinstance(images_list[0], np.ndarray)
        # Konwersja anotacji do formatu COCO (bbox w formacie xywh zamiast x1y1x2y2)
        coco_annotations: Optional[List[Dict[str, Any]]
                                   ] = self._convert_annotations_to_coco_format(annotations)
        # Preprocessing obrazów i anotacji
        inputs: Dict[str, torch.Tensor] = self.detection_image_preprocessor(
            images_list, annotations=coco_annotations, return_tensors="pt")
        return inputs

    def preprocess_inputs_for_ocr(self, images: List[NDArray[np.uint8]]) -> torch.Tensor:
        """
        Preprocessuje obrazy do formatu wymaganego przez moduł OCR.

        Wykonuje normalizację i resize obrazów tekstowych dla modelu TrOCR.

        Args:
            images: Lista obrazów jako numpy arrays (fragmenty z tekstem)

        Returns:
            Tensor z preprocessowanymi obrazami [batch, channels, height, width]
        """
        images_list: List[NDArray[np.uint8]] = list(images)
        assert isinstance(images_list[0], np.ndarray)
        return self.ocr_preprocessor(images_list, return_tensors="pt").pixel_values

    def preprocess_inputs_for_crop_embeddings(self, images: List[NDArray[np.uint8]]) -> torch.Tensor:
        """
        Preprocessuje wycięte fragmenty obrazów dla modułu embeddingów.

        Wykonuje normalizację i resize crops dla modelu ViT-MAE.

        Args:
            images: Lista wyciętych fragmentów obrazów jako numpy arrays

        Returns:
            Tensor z preprocessowanymi crops [batch, channels, height, width]
        """
        images_list: List[NDArray[np.uint8]] = list(images)
        assert isinstance(images_list[0], np.ndarray)
        return self.crop_embedding_image_preprocessor(images_list, return_tensors="pt").pixel_values

    def postprocess_ocr_tokens(
        self,
        generated_ids: torch.Tensor,
        skip_special_tokens: bool = True
    ) -> List[str]:
        """
        Dekoduje tokeny wygenerowane przez model OCR na tekst.

        Args:
            generated_ids: Tensor z ID tokenów wygenerowanych przez decoder OCR
            skip_special_tokens: Czy pomijać specjalne tokeny (PAD, BOS, EOS) w wyniku

        Returns:
            Lista stringów z rozpoznanym tekstem
        """
        return self.ocr_preprocessor.batch_decode(generated_ids, skip_special_tokens=skip_special_tokens)

    def crop_image(
        self,
        image: NDArray[np.uint8],
        bboxes: List[List[float]]
    ) -> List[NDArray[np.uint8]]:
        """
        Wycina fragmenty obrazu zgodnie z podanymi bounding boxami.

        Metoda automatycznie naprawia nieprawidłowe bounding boxy:
        - Ogranicza współrzędne do granic obrazu
        - Zapewnia minimalny rozmiar 10x10 pikseli
        - Zamienia współrzędne jeśli są w nieprawidłowej kolejności

        Args:
            image: Obraz źródłowy jako numpy array (format HWC)
            bboxes: Lista bounding boxów w formacie [x1, y1, x2, y2]

        Returns:
            Lista wyciętych fragmentów obrazu (każdy jako numpy array)
        """
        crops_for_image: List[NDArray[np.uint8]] = []
        for bbox in bboxes:
            x1: float
            y1: float
            x2: float
            y2: float
            x1, y1, x2, y2 = bbox

            # Naprawa bounding boxa w przypadku gdy jest poza granicami lub za mały
            # Konwersja do int
            x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)
            # Upewnienie się że x1<x2 i y1<y2 (na wypadek odwróconej kolejności)
            x1, y1, x2, y2 = min(x1, x2), min(y1, y2), max(x1, x2), max(y1, y2)
            # Ograniczenie do granic obrazu (minimum)
            x1, y1 = max(0, x1), max(0, y1)
            x1, y1 = min(image.shape[1], x1), min(image.shape[0], y1)
            # Ograniczenie do granic obrazu (maksimum)
            x2, y2 = max(0, x2), max(0, y2)
            x2, y2 = min(image.shape[1], x2), min(image.shape[0], y2)

            # Zapewnienie minimalnej szerokości 10 pikseli
            if x2 - x1 < 10:
                if image.shape[1] - x1 > 10:
                    x2 = x1 + 10
                else:
                    x1 = x2 - 10

            # Zapewnienie minimalnej wysokości 10 pikseli
            if y2 - y1 < 10:
                if image.shape[0] - y1 > 10:
                    y2 = y1 + 10
                else:
                    y1 = y2 - 10

            # Wycięcie fragmentu obrazu
            crop: NDArray[np.uint8] = image[y1:y2, x1:x2]
            crops_for_image.append(crop)
        return crops_for_image

    def _get_indices_of_characters_to_keep(
        self,
        batch_scores: torch.Tensor,
        batch_labels: torch.Tensor,
        batch_bboxes: torch.Tensor,
        character_detection_threshold: float
    ) -> List[torch.Tensor]:
        """
        Filtruje detekcje postaci na podstawie progu prawdopodobieństwa.

        Zachowuje tylko detekcje z etykietą 0 (postać) i score powyżej progu.

        Args:
            batch_scores: Tensor ze scorami prawdopodobieństwa [batch, num_queries]
            batch_labels: Tensor z etykietami klas [batch, num_queries]
            batch_bboxes: Tensor z bounding boxami [batch, num_queries, 4]
            character_detection_threshold: Minimalny score do zachowania detekcji (0-1)

        Returns:
            Lista tensorów z indeksami postaci do zachowania dla każdego obrazu
        """
        indices_of_characters_to_keep: List[torch.Tensor] = []
        for scores, labels, _ in zip(batch_scores, batch_labels, batch_bboxes):
            # Filtrowanie: label=0 (postać) AND score > próg
            indices: torch.Tensor = torch.where((labels == 0) & (
                scores > character_detection_threshold))[0]
            indices_of_characters_to_keep.append(indices)
        return indices_of_characters_to_keep

    def _get_indices_of_panels_to_keep(
        self,
        batch_scores: torch.Tensor,
        batch_labels: torch.Tensor,
        batch_bboxes: torch.Tensor,
        panel_detection_threshold: float
    ) -> List[List[int]]:
        """
        Filtruje detekcje paneli z zastosowaniem NMS (Non-Maximum Suppression).

        Zachowuje tylko panele z etykietą 2 i score powyżej progu. Dodatkowo
        stosuje NMS aby usunąć nakładające się panele - jeśli nowy panel
        pokrywa się w >50% z już zaakceptowanymi panelami, jest odrzucany.

        Args:
            batch_scores: Tensor ze scorami [batch, num_queries]
            batch_labels: Tensor z etykietami [batch, num_queries]
            batch_bboxes: Tensor z bboxami [batch, num_queries, 4]
            panel_detection_threshold: Minimalny score do zachowania panelu

        Returns:
            Lista list indeksów paneli do zachowania (po NMS) dla każdego obrazu
        """
        indices_of_panels_to_keep: List[List[int]] = []
        for scores, labels, bboxes in zip(batch_scores, batch_labels, batch_bboxes):
            # Wybranie tylko detekcji z label=2 (panel)
            indices: torch.Tensor = torch.where(labels == 2)[0]
            bboxes = bboxes[indices]
            scores = scores[indices]
            labels = labels[indices]
            if len(indices) == 0:
                indices_of_panels_to_keep.append([])
                continue

            # Sortowanie paneli malejąco po score (najlepsze pierwsze)
            scores, labels, indices, bboxes = zip(
                *sorted(zip(scores, labels, indices, bboxes), reverse=True))

            panels_to_keep: List[Tuple[torch.Tensor,
                                       torch.Tensor, torch.Tensor, torch.Tensor]] = []
            # Unia wszystkich zaakceptowanych paneli (do sprawdzania nakładania)
            union_of_panels_so_far: Polygon = box(0, 0, 0, 0)

            for ps, pb, pl, pi in zip(scores, bboxes, labels, indices):
                # Konwersja bbox na polygon Shapely
                panel_polygon: Polygon = box(pb[0], pb[1], pb[2], pb[3])

                # Odrzuć jeśli score poniżej progu
                if ps < panel_detection_threshold:
                    continue

                # Odrzuć jeśli panel nakłada się >50% z już zaakceptowanymi panelami (NMS)
                if union_of_panels_so_far.intersection(panel_polygon).area / panel_polygon.area > 0.5:
                    continue

                # Zaakceptuj panel
                panels_to_keep.append((ps, pl, pb, pi))
                # Dodaj do unii zaakceptowanych paneli
                union_of_panels_so_far = union_of_panels_so_far.union(
                    panel_polygon)

            # Wyciągnięcie indeksów zaakceptowanych paneli
            indices_of_panels_to_keep.append(
                [p[3].item() for p in panels_to_keep])
        return indices_of_panels_to_keep

    def _get_indices_of_texts_to_keep(
        self,
        batch_scores: torch.Tensor,
        batch_labels: torch.Tensor,
        batch_bboxes: torch.Tensor,
        text_detection_threshold: float
    ) -> List[List[int]]:
        """
        Filtruje detekcje tekstu z zastosowaniem NMS (Non-Maximum Suppression).

        Zachowuje tylko tekst z etykietą 1 i score powyżej progu. Stosuje NMS
        aby usunąć duplikaty - jeśli nowy tekst ma IoU >0.5 z już zaakceptowanym
        tekstem, jest odrzucany.

        Args:
            batch_scores: Tensor ze scorami [batch, num_queries]
            batch_labels: Tensor z etykietami [batch, num_queries]
            batch_bboxes: Tensor z bboxami [batch, num_queries, 4]
            text_detection_threshold: Minimalny score do zachowania tekstu

        Returns:
            Lista list indeksów tekstów do zachowania (po NMS) dla każdego obrazu
        """
        indices_of_texts_to_keep: List[List[int]] = []
        for scores, labels, bboxes in zip(batch_scores, batch_labels, batch_bboxes):
            # Filtrowanie: label=1 (tekst) AND score > próg
            indices: torch.Tensor = torch.where((labels == 1) & (
                scores > text_detection_threshold))[0]
            bboxes = bboxes[indices]
            scores = scores[indices]
            labels = labels[indices]
            if len(indices) == 0:
                indices_of_texts_to_keep.append([])
                continue

            # Sortowanie tekstów malejąco po score (najlepsze pierwsze)
            scores, labels, indices, bboxes = zip(
                *sorted(zip(scores, labels, indices, bboxes), reverse=True))

            texts_to_keep: List[Tuple[torch.Tensor,
                                      torch.Tensor, torch.Tensor, torch.Tensor]] = []
            # Lista polygonów zaakceptowanych tekstów (do sprawdzania nakładania)
            texts_to_keep_as_shapely_objects: List[Polygon] = []

            for ts, tb, tl, ti in zip(scores, bboxes, labels, indices):
                # Konwersja bbox na polygon Shapely
                text_polygon: Polygon = box(tb[0], tb[1], tb[2], tb[3])
                should_append: bool = True

                # Sprawdź nakładanie z już zaakceptowanymi tekstami
                for t in texts_to_keep_as_shapely_objects:
                    # Jeśli IoU > 0.5, odrzuć (to duplikat)
                    if t.intersection(text_polygon).area / t.union(text_polygon).area > 0.5:
                        should_append = False
                        break

                if should_append:
                    texts_to_keep.append((ts, tl, tb, ti))
                    texts_to_keep_as_shapely_objects.append(text_polygon)

            # Wyciągnięcie indeksów zaakceptowanych tekstów
            indices_of_texts_to_keep.append(
                [t[3].item() for t in texts_to_keep])
        return indices_of_texts_to_keep

    def _get_indices_of_tails_to_keep(
        self,
        batch_scores: torch.Tensor,
        batch_labels: torch.Tensor,
        batch_bboxes: torch.Tensor,
        text_detection_threshold: float
    ) -> List[List[int]]:
        """
        Filtruje detekcje ogonów dymków z zastosowaniem NMS (Non-Maximum Suppression).

        Zachowuje tylko ogony z etykietą 3 i score powyżej progu. Stosuje NMS
        aby usunąć duplikaty - jeśli nowy ogon ma IoU >0.5 z już zaakceptowanym
        ogonem, jest odrzucany.

        Args:
            batch_scores: Tensor ze scorami [batch, num_queries]
            batch_labels: Tensor z etykietami [batch, num_queries]
            batch_bboxes: Tensor z bboxami [batch, num_queries, 4]
            text_detection_threshold: Minimalny score do zachowania ogona

        Returns:
            Lista list indeksów ogonów do zachowania (po NMS) dla każdego obrazu
        """
        indices_of_tails_to_keep: List[List[int]] = []
        for scores, labels, bboxes in zip(batch_scores, batch_labels, batch_bboxes):
            # Filtrowanie: label=3 (ogon dymku) AND score > próg
            indices: torch.Tensor = torch.where((labels == 3) & (
                scores > text_detection_threshold))[0]
            bboxes = bboxes[indices]
            scores = scores[indices]
            labels = labels[indices]
            if len(indices) == 0:
                indices_of_tails_to_keep.append([])
                continue

            # Sortowanie ogonów malejąco po score (najlepsze pierwsze)
            scores, labels, indices, bboxes = zip(
                *sorted(zip(scores, labels, indices, bboxes), reverse=True))

            tails_to_keep: List[Tuple[torch.Tensor,
                                      torch.Tensor, torch.Tensor, torch.Tensor]] = []
            # Lista polygonów zaakceptowanych ogonów (do sprawdzania nakładania)
            tails_to_keep_as_shapely_objects: List[Polygon] = []

            for ts, tb, tl, ti in zip(scores, bboxes, labels, indices):
                # Konwersja bbox na polygon Shapely
                tail_polygon: Polygon = box(tb[0], tb[1], tb[2], tb[3])
                should_append: bool = True

                # Sprawdź nakładanie z już zaakceptowanymi ogonami
                for t in tails_to_keep_as_shapely_objects:
                    # Jeśli IoU > 0.5, odrzuć (to duplikat)
                    if t.intersection(tail_polygon).area / t.union(tail_polygon).area > 0.5:
                        should_append = False
                        break

                if should_append:
                    tails_to_keep.append((ts, tl, tb, ti))
                    tails_to_keep_as_shapely_objects.append(tail_polygon)

            # Wyciągnięcie indeksów zaakceptowanych ogonów
            indices_of_tails_to_keep.append(
                [t[3].item() for t in tails_to_keep])
        return indices_of_tails_to_keep

    def _convert_annotations_to_coco_format(
        self,
        annotations: Optional[List[Dict[str, Any]]]
    ) -> Optional[List[Dict[str, Any]]]:
        """
        Konwertuje anotacje z formatu x1y1x2y2 do formatu COCO (xywh).

        Format COCO używa bbox jako [x, y, width, height] zamiast [x1, y1, x2, y2].
        Dodatkowo oblicza pole powierzchni dla każdego bbox.

        Args:
            annotations: Lista anotacji w formacie:
                        [{"image_id": int, "bboxes_as_x1y1x2y2": List, "labels": List}]
                        lub None

        Returns:
            Lista anotacji w formacie COCO lub None jeśli input był None
        """
        if annotations is None:
            return None
        # Weryfikacja poprawności formatu anotacji
        self._verify_annotations_are_in_correct_format(annotations)

        coco_annotations: List[Dict[str, Any]] = []
        for annotation in annotations:
            coco_annotation: Dict[str, Any] = {
                "image_id": annotation["image_id"],
                "annotations": [],
            }
            # Konwersja każdego bbox z x1y1x2y2 na xywh
            for bbox, label in zip(annotation["bboxes_as_x1y1x2y2"], annotation["labels"]):
                coco_annotation["annotations"].append({
                    # [x1,y1,x2,y2] -> [x,y,w,h]
                    "bbox": x1y1x2y2_to_xywh(bbox),
                    "category_id": label,
                    # width * height
                    "area": (bbox[2] - bbox[0]) * (bbox[3] - bbox[1]),
                })
            coco_annotations.append(coco_annotation)
        return coco_annotations

    def _verify_annotations_are_in_correct_format(self, annotations: Optional[List[Dict[str, Any]]]) -> None:
        """
        Weryfikuje poprawność formatu anotacji.

        Sprawdza czy anotacje są w oczekiwanym formacie:
        - Lista/tupla słowników
        - Każdy słownik zawiera klucze: "image_id", "bboxes_as_x1y1x2y2", "labels"
        - Labels: 0=postać, 1=tekst, 2=panel, 3=ogon

        Args:
            annotations: Anotacje do weryfikacji lub None

        Raises:
            ValueError: Jeśli format anotacji jest nieprawidłowy
        """
        error_msg: str = """
        Annotations must be in the following format:
        [
            {
                "image_id": 0,
                "bboxes_as_x1y1x2y2": [[0, 0, 10, 10], [10, 10, 20, 20], [20, 20, 30, 30]],
                "labels": [0, 1, 2],
            },
            ...
        ]
        Labels: 0 for characters, 1 for text, 2 for panels, 3 for tails.
        """
        if annotations is None:
            return

        # Sprawdzenie czy to lista lub tupla
        if not isinstance(annotations, List) and not isinstance(annotations, tuple):
            raise ValueError(
                f"{error_msg} Expected a List/Tuple, found {type(annotations)}."
            )

        if len(annotations) == 0:
            return

        # Sprawdzenie czy elementy to słowniki
        if not isinstance(annotations[0], dict):
            raise ValueError(
                f"{error_msg} Expected a List[Dict], found {type(annotations[0])}."
            )

        # Sprawdzenie wymaganych kluczy w słowniku
        if "image_id" not in annotations[0]:
            raise ValueError(
                f"{error_msg} Dict must contain 'image_id'."
            )
        if "bboxes_as_x1y1x2y2" not in annotations[0]:
            raise ValueError(
                f"{error_msg} Dict must contain 'bboxes_as_x1y1x2y2'."
            )
        if "labels" not in annotations[0]:
            raise ValueError(
                f"{error_msg} Dict must contain 'labels'."
            )