update readme

by xiaofanghf - opened Aug 17, 2025

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

-1310

Files changed (9) hide show

FasterRCNN/configs/faster_rcnn/faster-rcnn.py +0 -407
README.md +1 -13
ViTDet/projects/ViTDet/configs/vitdet.py +0 -432
YOLOv5/configs/yolov5/yolov5.py +0 -218
YOLOv8/configs/yolov8/yolov8.py +0 -240
FasterRCNN/best_coco_bbox_mAP_50_epoch_7.pth → faster-rcnn.pth +0 -0
ViTDet/best_coco_bbox_mAP_50_iter_16000.pth → vitdet.pth +0 -0
YOLOv5/best_coco_bbox_mAP_50_epoch_429.pth → yolov5.pth +0 -0
YOLOv8/best_coco_bbox_mAP_50_epoch_32.pth → yolov8.pth +0 -0

FasterRCNN/configs/faster_rcnn/faster-rcnn.py DELETED Viewed

@@ -1,407 +0,0 @@
-_base_ = [
-    '../_base_/models/faster-rcnn_r50_fpn.py',
-    '../_base_/datasets/coco_detection.py',
-    '../_base_/schedules/schedule_2x.py', '../_base_/default_runtime.py'
-]
-# TRAIN DATASET
-data_root_train = 'YOUR_PATH_TO_REAL_LINZ_TRAIN'
-# VAL DATASET
-data_root_val   = 'YOUR_PATH_TO_REAL_LINZ_VAL'
-# TEST DATASET
-## LINZ
-data_root_test  = 'YOUR_PATH_TO_REAL_LINZ_TEST'
-max_epochs = 1000 # 40
-train_batch_size_per_gpu = 64
-validation_batch_size_per_gpu = 64
-test_batch_size_per_gpu = 64
-num_workers = 8
-class_name = ('small',)
-num_classes = len(class_name)
-metainfo = dict(classes=class_name, palette=[(20, 220, 60)])
-img_scale = (128, 128)
-affine_scale = 0.9
-load_from = 'https://download.openxlab.org.cn/models/mmdetection/FasterR-CNN/weight/faster-rcnn_r50_fpn_2x_coco'
-# model settings
-model = dict(
-    type='FasterRCNN',
-    data_preprocessor=dict(
-        type='DetDataPreprocessor',
-        mean=[123.675, 116.28, 103.53],
-        std=[58.395, 57.12, 57.375],
-        bgr_to_rgb=True,
-        pad_size_divisor=32),
-    backbone=dict(
-        type='ResNet',
-        depth=50,
-        num_stages=4,
-        out_indices=(0, 1, 2, 3),
-        frozen_stages=1,
-        norm_cfg=dict(type='BN', requires_grad=True),
-        norm_eval=True,
-        style='pytorch',
-        init_cfg=dict(type='Pretrained', checkpoint='torchvision://resnet50')),
-    neck=dict(
-        type='FPN',
-        in_channels=[256, 512, 1024, 2048],
-        out_channels=256,
-        num_outs=5),
-    rpn_head=dict(
-        type='RPNHead',
-        in_channels=256,
-        feat_channels=256,
-        anchor_generator=dict(
-            type='AnchorGenerator',
-            scales=[8],
-            ratios=[0.5, 1.0, 2.0],
-            strides=[4, 8, 16, 32, 64]),
-        bbox_coder=dict(
-            type='DeltaXYWHBBoxCoder',
-            target_means=[.0, .0, .0, .0],
-            target_stds=[1.0, 1.0, 1.0, 1.0]),
-        loss_cls=dict(
-            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
-        loss_bbox=dict(type='L1Loss', loss_weight=1.0)),
-    roi_head=dict(
-        type='StandardRoIHead',
-        bbox_roi_extractor=dict(
-            type='SingleRoIExtractor',
-            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
-            out_channels=256,
-            featmap_strides=[4, 8, 16, 32]),
-        bbox_head=dict(
-            type='Shared2FCBBoxHead',
-            in_channels=256,
-            fc_out_channels=1024,
-            roi_feat_size=7,
-            num_classes=num_classes,
-            bbox_coder=dict(
-                type='DeltaXYWHBBoxCoder',
-                target_means=[0., 0., 0., 0.],
-                target_stds=[0.1, 0.1, 0.2, 0.2]),
-            reg_class_agnostic=False,
-            loss_cls=dict(
-                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
-            loss_bbox=dict(type='L1Loss', loss_weight=1.0))),
-    # model training and testing settings
-    train_cfg=dict(
-        rpn=dict(
-            assigner=dict(
-                type='MaxIoUAssigner',
-                pos_iou_thr=0.7,
-                neg_iou_thr=0.3,
-                min_pos_iou=0.3,
-                match_low_quality=True,
-                ignore_iof_thr=-1),
-            sampler=dict(
-                type='RandomSampler',
-                num=256,
-                pos_fraction=0.5,
-                neg_pos_ub=-1,
-                add_gt_as_proposals=False),
-            allowed_border=-1,
-            pos_weight=-1,
-            debug=False),
-        rpn_proposal=dict(
-            nms_pre=2000,
-            max_per_img=1000,
-            nms=dict(type='nms', iou_threshold=0.7),
-            min_bbox_size=0),
-        rcnn=dict(
-            assigner=dict(
-                type='MaxIoUAssigner',
-                pos_iou_thr=0.5,
-                neg_iou_thr=0.5,
-                min_pos_iou=0.5,
-                match_low_quality=False,
-                ignore_iof_thr=-1),
-            sampler=dict(
-                type='RandomSampler',
-                num=512,
-                pos_fraction=0.25,
-                neg_pos_ub=-1,
-                add_gt_as_proposals=True),
-            pos_weight=-1,
-            debug=False)),
-    test_cfg=dict(
-        rpn=dict(
-            nms_pre=1000,
-            max_per_img=1000,
-            nms=dict(type='nms', iou_threshold=0.7),
-            min_bbox_size=0),
-        rcnn=dict(
-            score_thr=0.05,
-            nms=dict(type='nms', iou_threshold=0.5),
-            max_per_img=100)
-        # soft-nms is also supported for rcnn testing
-        # e.g., nms=dict(type='soft_nms', iou_threshold=0.5, min_score=0.05)
-    ))
-dataset_type = 'CocoDataset'
-backend_args = None
-# Original
-# train_pipeline = [
-#     dict(type='LoadImageFromFile', backend_args=backend_args),
-#     dict(type='LoadAnnotations', with_bbox=True),
-#     dict(type='Resize', scale=img_scale, keep_ratio=True),
-#     dict(type='RandomFlip', prob=0.5),
-#     dict(type='PackDetInputs')
-# ]
-pre_transform = [
-    dict(type='LoadImageFromFile', backend_args=backend_args),
-    dict(type='LoadAnnotations', with_bbox=True)
-]
-albu_train_transforms = [
-    dict(type='Blur', p=0.01),
-    dict(type='MedianBlur', p=0.01),
-    dict(type='ToGray', p=0.01),
-    dict(type='CLAHE', p=0.01)
-]
-last_transform = [
-    dict(
-        type='Albu',
-        transforms=albu_train_transforms,
-        bbox_params=dict(
-            type='BboxParams',
-            format='pascal_voc',
-            label_fields=['gt_bboxes_labels', 'gt_ignore_flags']),
-        keymap={
-            'img': 'image',
-            'gt_bboxes': 'bboxes'
-        }),
-    dict(type='YOLOXHSVRandomAug'), # ???
-    dict(type='RandomFlip', prob=0.5),
-    dict(
-        type='PackDetInputs',
-        meta_keys=(
-            'img_id',
-            'img_path',
-            'ori_shape',
-            'img_shape',
-            'flip',
-            'flip_direction'
-        )
-    )
-]
-mosaic_affine_transform = [
-    dict(
-        type='Mosaic',
-        img_scale=img_scale,
-        pad_val=114.0,
-    ),
-    dict(
-        type='RandomAffine',
-        max_rotate_degree=0.0,
-        max_shear_degree=0.0,
-        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
-        # img_scale is (width, height)
-        border=(-img_scale[0] // 2, -img_scale[1] // 2),
-        border_val=(114, 114, 114))
-]
-train_pipeline = [
-    *pre_transform,
-    *mosaic_affine_transform,
-    dict(
-        type='MixUp',
-        img_scale=img_scale,
-    ),
-    *last_transform
-]
-# Original
-# train_dataloader = dict(
-#     batch_size=train_batch_size_per_gpu,
-#     num_workers=num_workers,
-#     persistent_workers=True,
-#     sampler=dict(type='DefaultSampler', shuffle=True),
-#     batch_sampler=dict(type='AspectRatioBatchSampler'),
-#     dataset=dict(
-#         type=dataset_type,
-#         data_root=data_root_train,
-#         ann_file='annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500_BalancedRatio:0.2000.json',
-#         data_prefix=dict(img='images/'),
-#         filter_cfg=dict(filter_empty_gt=False, min_size=32),
-#         pipeline=train_pipeline,
-#         metainfo=metainfo,
-#         backend_args=backend_args
-#     )
-# )
-train_dataloader = dict(
-    batch_size=train_batch_size_per_gpu,
-    num_workers=num_workers,
-    persistent_workers=True,
-    sampler=dict(type='DefaultSampler', shuffle=True),
-    batch_sampler=dict(type='AspectRatioBatchSampler'),
-    dataset=dict(
-        _delete_=True,
-        type='MultiImageMixDataset',
-        dataset=dict(
-            type=dataset_type,
-            data_root=data_root_train,
-            ann_file='annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-            data_prefix=dict(img='images/'),
-            filter_cfg=dict(filter_empty_gt=False, min_size=32),
-            metainfo=metainfo,
-            backend_args=backend_args,
-            pipeline=pre_transform
-        ),
-        pipeline=train_pipeline,
-    )
-)
-test_pipeline = [
-    dict(type='LoadImageFromFile', backend_args=backend_args),
-    dict(type='Resize', scale=img_scale, keep_ratio=True),
-    # If you don't have a gt annotation, delete the pipeline
-    dict(type='LoadAnnotations', with_bbox=True),
-    dict(
-        type='PackDetInputs',
-        meta_keys=(
-            'img_id', 'img_path', 'ori_shape', 'img_shape',
-            'scale_factor'
-        )
-    )
-]
-val_dataloader = dict(
-    batch_size=validation_batch_size_per_gpu,
-    num_workers=num_workers,
-    persistent_workers=True,
-    drop_last=False,
-    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=dict(
-        type=dataset_type,
-        data_root=data_root_val,
-        ann_file='annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-        data_prefix=dict(img='images/'),
-        filter_cfg=dict(filter_empty_gt=False, min_size=32),
-        test_mode=True,
-        pipeline=test_pipeline,
-        metainfo=metainfo,
-        backend_args=backend_args
-    )
-)
-test_dataloader = dict(
-    batch_size=test_batch_size_per_gpu,
-    num_workers=num_workers,
-    persistent_workers=True,
-    drop_last=False,
-    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=dict(
-        type=dataset_type,
-        data_root=data_root_test,
-        ann_file='annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-        data_prefix=dict(img='images/'),
-        filter_cfg=dict(filter_empty_gt=False, min_size=32),
-        test_mode=True,
-        pipeline=test_pipeline,
-        metainfo=metainfo,
-        backend_args=backend_args
-    )
-)
-# test_dataloader = val_dataloader
-val_evaluator = dict(
-    type='CocoMetric',
-    ann_file=data_root_val + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-    metric='bbox',
-    format_only=False,
-    backend_args=backend_args
-)
-test_evaluator = dict(
-    type='CocoMetric',
-    ann_file=data_root_test + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-    metric='bbox',
-    format_only=False,
-    backend_args=backend_args
-)
-# test_evaluator = val_evaluator
-# training schedule for 2x
-train_cfg = dict(type='EpochBasedTrainLoop', max_epochs=max_epochs, val_interval=1)
-val_cfg = dict(type='ValLoop')
-test_cfg = dict(type='TestLoop')
-# learning rate
-param_scheduler = [
-    dict(
-        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0, end=500),
-    dict(
-        type='MultiStepLR',
-        begin=0,
-        end=max_epochs,
-        by_epoch=True,
-        milestones=[16, 22],
-        gamma=0.1)
-]
-# optimizer
-optim_wrapper = dict(
-    type='OptimWrapper',
-    optimizer=dict(
-        type='SGD',
-        lr=0.2,
-        momentum=0.9,
-        weight_decay=0.0001
-    )
-)
-# Default setting for scaling LR automatically
-#   - `enable` means enable scaling LR automatically
-#       or not by default.
-#   - `base_batch_size` = (8 GPUs) x (2 samples per GPU)
-auto_scale_lr = dict(enable=False, base_batch_size=train_batch_size_per_gpu)
-default_hooks = dict(
-    checkpoint=dict(
-        interval=1,
-        max_keep_ckpts=1,
-        save_best=['coco/bbox_mAP', 'coco/bbox_mAP_50']
-    ),
-    # The warmup_mim_iter parameter is critical.
-    # The default value is 1000 which is not suitable for cat datasets.
-    # param_scheduler=dict(
-    #     max_epochs=max_epochs,
-    #     warmup_mim_iter=1000,
-    #     lr_factor=lr_factor
-    # ),
-    logger=dict(type='LoggerHook', interval=5))
-vis_backends = [dict(type='LocalVisBackend'), dict(type='TensorboardVisBackend')]
-visualizer = dict(
-    type='DetLocalVisualizer', vis_backends=vis_backends, name='visualizer')

README.md CHANGED Viewed

@@ -3,16 +3,4 @@ license: cc-by-nc-4.0
 language:
 - en
 pipeline_tag: object-detection
-library_name: mmdetection
----
-## Introduction
-We introduce a real-world aerial view dataset, LINZ, captured in Selwyn (New Zealand). The dataset has ground sampling distance (GSD) of 12.5 cm per px and has been sampled to 112 px × 112 px image size. For data annotation, we label only the small vehicle centers. To leverage the abundance of bounding box-based open-source object detection frameworks, we define a fixed-size ground truth bounding box of 42.36 px × 42.36 px centered at each vehicle. Annotations are provided in COCO format [x, y, w, h], where "small" in the annotation json files denotes the small vehicle class and (x, y) denotes the top-left corner of the bounding box. We use AP50 as the evaluation metric.
-## Model Usage
-This folder contains four detectors trained on Real LINZ data and tested on Real LINZ data, along with configuration files we use for training and testing.
-## References
-➡️ **Paper:** [Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision](https://arxiv.org/abs/2507.20976)
-➡️ **Project Page:** [Webpage](https://humansensinglab.github.io/AGenDA/)
-➡️ **Data:** [AGenDA](https://github.com/humansensinglab/AGenDA/tree/main/Data)

 language:
 - en
 pipeline_tag: object-detection
+---

ViTDet/projects/ViTDet/configs/vitdet.py DELETED Viewed

@@ -1,432 +0,0 @@
-_base_ = [
-    '../../../configs/_base_/default_runtime.py',
-    '../../../configs/_base_/models/mask-rcnn_r50_fpn.py',
-]
-custom_imports = dict(imports=['projects.ViTDet.vitdet'])
-## TRAIN DATASET
-data_root_train = 'YOUR_PATH_TO_REAL_LINZ_TRAIN'
-## VALIDATION DATASET
-data_root_val  = 'YOUR_PATH_TO_REAL_LINZ_VAL'
-# TEST DATASET
-## LINZ
-data_root_test  = 'YOUR_PATH_TO_REAL_LINZ_TEST'
-train_batch_size_per_gpu = 24
-val_batch_size_per_gpu = 12
-test_batch_size_per_gpu = 60
-num_workers = 8
-max_epochs = 100
-# img_scale = (1024, 1024)
-# img_scale = (384, 384)
-img_scale = (128, 128)
-affine_scale = 0.9
-class_name = ('small',)
-num_classes = len(class_name)
-metainfo = dict(classes=class_name, palette=[(20, 220, 60)])
-load_from = 'https://download.openmmlab.com/mmdetection/v3.0/vitdet/vitdet_mask-rcnn_vit-b-mae_lsj-100e/vitdet_mask-rcnn_vit-b-mae_lsj-100e_20230328_153519-e15fe294.pth'
-# MODEL SETTINGS
-backbone_norm_cfg = dict(type='LN', requires_grad=True)
-norm_cfg = dict(type='LN2d', requires_grad=True)
-batch_augments = [
-    dict(type='BatchFixedSizePad', size=img_scale, pad_mask=True)
-]
-model = dict(
-    data_preprocessor=dict(pad_size_divisor=32, batch_augments=batch_augments),
-    backbone=dict(
-        _delete_=True,
-        type='ViT',
-        # img_size=1024,
-        # img_size=384,
-        img_size=img_scale[0],
-        patch_size=16,
-        embed_dim=768,
-        depth=12,
-        num_heads=12,
-        drop_path_rate=0.1,
-        window_size=14,
-        mlp_ratio=4,
-        qkv_bias=True,
-        norm_cfg=backbone_norm_cfg,
-        window_block_indexes=[
-            0,
-            1,
-            3,
-            4,
-            6,
-            7,
-            9,
-            10,
-        ],
-        use_rel_pos=True,
-        init_cfg=dict(
-            type='Pretrained',
-            # checkpoint='mae_pretrain_vit_base.pth'
-            # checkpoint='detectron2://ImageNetPretrained/MAE/mae_pretrain_vit_base.pth'
-            checkpoint='vitdet_mask-rcnn_vit-b-mae_lsj-100e_20230328_153519-e15fe294.pth'
-        )
-    ),
-    neck=dict(
-        _delete_=True,
-        type='SimpleFPN',
-        backbone_channel=768,
-        in_channels=[192, 384, 768, 768],
-        out_channels=256,
-        num_outs=5,
-        norm_cfg=norm_cfg),
-    rpn_head=dict(num_convs=2),
-    roi_head=dict(
-        bbox_head=dict(
-            type='Shared4Conv1FCBBoxHead',
-            conv_out_channels=256,
-            norm_cfg=norm_cfg,
-            num_classes=num_classes
-        ),
-        # mask_head=dict(         # No masks as used
-        #     norm_cfg=norm_cfg,
-        #     num_classes=1,
-        #     loss_mask=dict(
-        #         use_mask=False
-        #     ),
-        # )
-        mask_head=None
-    )
-)
-custom_hooks = [dict(type='Fp16CompresssionHook')]
-##
-dataset_type = 'CocoDataset'
-backend_args = None
-# Original
-# train_pipeline = [
-#     dict(type='LoadImageFromFile', backend_args=backend_args),
-#     dict(
-#         type='LoadAnnotations',
-#         with_bbox=True,
-#         # with_mask=True
-#         with_mask=False
-#     ),
-#     dict(type='RandomFlip', prob=0.5),
-#     dict(
-#         type='RandomResize',
-#         scale=img_scale,
-#         ratio_range=(0.1, 2.0),
-#         keep_ratio=True),
-#     dict(
-#         type='RandomCrop',
-#         crop_type='absolute_range',
-#         crop_size=img_scale,
-#         recompute_bbox=True,
-#         allow_negative_crop=True),
-#     dict(type='FilterAnnotations', min_gt_bbox_wh=(1e-2, 1e-2)),
-#     dict(type='Pad', size=img_scale, pad_val=dict(img=(114, 114, 114))),
-#     dict(type='PackDetInputs')
-# ]
-pre_transform = [
-    dict(type='LoadImageFromFile', backend_args=backend_args),
-    dict(type='LoadAnnotations', with_bbox=True, with_mask=False)
-]
-albu_train_transforms = [
-    dict(type='Blur', p=0.01),
-    dict(type='MedianBlur', p=0.01),
-    dict(type='ToGray', p=0.01),
-    dict(type='CLAHE', p=0.01)
-]
-last_transform = [
-    dict(
-        type='Albu',
-        transforms=albu_train_transforms,
-        bbox_params=dict(
-            type='BboxParams',
-            format='pascal_voc',
-            label_fields=['gt_bboxes_labels', 'gt_ignore_flags']),
-        keymap={
-            'img': 'image',
-            'gt_bboxes': 'bboxes'
-        }),
-    dict(type='YOLOXHSVRandomAug'), # ???
-    dict(type='RandomFlip', prob=0.5),
-    dict(
-        type='PackDetInputs',
-        meta_keys=(
-            'img_id',
-            'img_path',
-            'ori_shape',
-            'img_shape',
-            'flip',
-            'flip_direction'
-        )
-    )
-]
-mosaic_affine_transform = [
-    dict(
-        type='Mosaic',
-        img_scale=img_scale,
-        pad_val=114.0,
-    ),
-    dict(
-        type='RandomAffine',
-        max_rotate_degree=0.0,
-        max_shear_degree=0.0,
-        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
-        # img_scale is (width, height)
-        border=(-img_scale[0] // 2, -img_scale[1] // 2),
-        border_val=(114, 114, 114))
-]
-train_pipeline = [
-    *pre_transform,
-    *mosaic_affine_transform,
-    dict(
-        type='MixUp',
-        img_scale=img_scale,
-    ),
-    *last_transform
-]
-# Original
-# train_dataloader = dict(
-#     batch_size=train_batch_size_per_gpu,
-#     num_workers=num_workers,
-#     persistent_workers=True,
-#     sampler=dict(type='DefaultSampler', shuffle=True),
-#     dataset=dict(
-#         type=dataset_type,
-#         data_root=data_root_train,
-#         ann_file=data_root_train + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-#         data_prefix=dict(img='images/'),
-#         # filter_cfg=dict(filter_empty_gt=True, min_size=32),
-#         filter_cfg=dict(filter_empty_gt=False),
-#         pipeline=train_pipeline,
-#         metainfo=metainfo,
-#     )
-# )
-train_dataloader = dict(
-    batch_size=train_batch_size_per_gpu,
-    num_workers=num_workers,
-    persistent_workers=True,
-    sampler=dict(type='DefaultSampler', shuffle=True),
-    batch_sampler=dict(type='AspectRatioBatchSampler'),
-    dataset=dict(
-        # _delete_=True,
-        type='MultiImageMixDataset',
-        dataset=dict(
-            type=dataset_type,
-            data_root=data_root_train,
-            ann_file=data_root_train + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-            data_prefix=dict(img='images/'),
-            filter_cfg=dict(filter_empty_gt=False, min_size=32),
-            metainfo=metainfo,
-            backend_args=backend_args,
-            pipeline=pre_transform
-        ),
-        pipeline=train_pipeline,
-    )
-)
-test_pipeline = [
-    dict(type='LoadImageFromFile', backend_args=backend_args),
-    dict(type='Resize', scale=img_scale, keep_ratio=True),
-    dict(type='Pad', size=img_scale, pad_val=dict(img=(114, 114, 114))),
-    dict(
-        type='LoadAnnotations',
-        with_bbox=True,
-        # with_mask=True
-        with_mask=False
-    ),
-    dict(
-        type='PackDetInputs',
-        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
-                   'scale_factor'))
-]
-val_dataloader = dict(
-    batch_size=val_batch_size_per_gpu,
-    num_workers=num_workers,
-    persistent_workers=True,
-    drop_last=False,
-    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=dict(
-        type=dataset_type,
-        data_root=data_root_val,
-        ann_file=data_root_val + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-        data_prefix=dict(img='images/'),
-        test_mode=True,
-        pipeline=test_pipeline,
-        metainfo=metainfo,
-    )
-)
-# test_dataloader = val_dataloader
-test_dataloader = dict(
-    batch_size=test_batch_size_per_gpu,
-    num_workers=num_workers,
-    persistent_workers=True,
-    drop_last=False,
-    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=dict(
-        type=dataset_type,
-        data_root=data_root_test,
-        ann_file=data_root_test + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-        data_prefix=dict(img='images/'),
-        test_mode=True,
-        pipeline=test_pipeline,
-        metainfo=metainfo,
-    )
-)
-val_evaluator = dict(
-    type='CocoMetric',
-    ann_file=data_root_val + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-    metric='bbox',
-    format_only=False)
-# test_evaluator = val_evaluator
-test_evaluator = dict(
-    type='CocoMetric',
-    ann_file=data_root_test + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-    metric='bbox',
-    format_only=False
-)
-optim_wrapper = dict(
-    type='AmpOptimWrapper',
-    constructor='LayerDecayOptimizerConstructor',
-    paramwise_cfg={
-        'decay_rate': 0.7,
-        'decay_type': 'layer_wise',
-        'num_layers': 12,
-    },
-    optimizer=dict(
-        type='AdamW',
-        # lr=0.0001,
-        # lr=0.01,
-        lr=0.001,
-        betas=(0.9, 0.999),
-        weight_decay=0.1,
-    ))
-# 100 ep = 184375 iters * 64 images/iter / 118000 images/ep
-# max_iters = 184375
-# interval = 5000
-max_iters = 100000
-# interval = 2000
-interval = 1000
-dynamic_intervals = [(max_iters // interval * interval + 1, max_iters)]
-param_scheduler = [
-    dict(
-        type='LinearLR',
-        start_factor=0.001,
-        by_epoch=False,
-        begin=0,
-        end=250
-    ),
-    dict(
-        type='MultiStepLR',
-        begin=0,
-        end=max_iters,
-        # end=max_epochs,
-        by_epoch=False,
-        # by_epoch=True,
-        # 88 ep = [163889 iters * 64 images/iter / 118000 images/ep
-        # 96 ep = [177546 iters * 64 images/iter / 118000 images/ep
-        # milestones=[20, 29],
-        # milestones=[5000, 6000],
-        milestones=[1000, 2000],
-        gamma=0.1
-    )
-]
-train_cfg = dict(
-    type='IterBasedTrainLoop',
-    max_iters=max_iters,
-    val_interval=interval,
-    dynamic_intervals=dynamic_intervals
-)
-# train_cfg = dict(
-#     type='EpochBasedTrainLoop',
-#     max_epochs=max_epochs,
-#     val_interval=1
-# )
-val_cfg = dict(type='ValLoop')
-test_cfg = dict(type='TestLoop')
-default_hooks = dict(
-    logger=dict(
-        type='LoggerHook',
-        interval=50,
-        log_metric_by_epoch=False
-    ),
-    checkpoint=dict(
-        type='CheckpointHook',
-        by_epoch=False,
-        # by_epoch=True,
-        save_last=True,
-        # interval=1,
-        interval=interval,
-        save_best=['coco/bbox_mAP', 'coco/bbox_mAP_50'],
-        max_keep_ckpts=2
-    )
-)
-vis_backends = [
-    dict(type='LocalVisBackend'),
-    dict(type='TensorboardVisBackend')
-]
-visualizer = dict(
-    type='DetLocalVisualizer',
-    vis_backends=vis_backends,
-    name='visualizer'
-)
-log_processor = dict(
-    type='LogProcessor',
-    window_size=50,
-    by_epoch=False
-    # by_epoch=True
-)
-auto_scale_lr = dict(base_batch_size=64)

YOLOv5/configs/yolov5/yolov5.py DELETED Viewed

@@ -1,218 +0,0 @@
-_base_ = './yolov5_m-v61_syncbn_fast_8xb16-300e_coco.py'
-deepen_factor = 0.67
-widen_factor = 0.75
-# TRAIN DATASET
-data_root_train = 'YOUR_PATH_TO_REAL_LINZ_TRAIN'
-# VAL DATASET
-data_root_val   = 'YOUR_PATH_TO_REAL_LINZ_VAL'
-# TEST DATASET
-## LINZ
-data_root_test  = 'YOUR_PATH_TO_REAL_LINZ_TEST'
-class_name = ('small',)
-num_classes = len(class_name)
-metainfo = dict(classes=class_name, palette=[(20, 220, 60)])
-img_scale = (128, 128)
-# img_scale = (112, 112)
-# Estimated with " python ./tools/analysis_tools/optimize_anchors.py --input-shape 128 128 --augment-args 0.1 1.9  --algorithm v5-k-means configs/..."
-# anchors = [[(25, 32), (53, 69), (159, 220)], [(235, 166), (242, 242), (310, 337)], [(365, 375), (230, 681), (679, 324)]]
-# anchors = [[(157, 155), (239, 133), (136, 238)], [(240, 165), (170, 237), (236, 191)], [(206, 240), (241, 217), (242, 242)]]
-anchors = [[(31, 28), (32, 37), (27, 48)], [(48, 27), (47, 34), (34, 48)], [(41, 48), (49, 41), (48, 48)]]
-max_epochs = 1000 # 40
-train_batch_size_per_gpu = 200
-validation_batch_size_per_gpu = 100
-test_batch_size_per_gpu = 200 #768 #384
-train_num_workers = 8
-num_det_layers = 3
-# Learning rate
-base_lr   = 0.01 #0.01
-lr_factor = 0.1
-load_from = 'https://download.openmmlab.com/mmyolo/v0/yolov5/yolov5_m-v61_syncbn_fast_8xb16-300e_coco/yolov5_m-v61_syncbn_fast_8xb16-300e_coco_20220917_204944-516a710f.pth'
-batch_shapes_cfg = dict(
-    img_size=img_scale[0],
-    batch_size=train_batch_size_per_gpu
-)
-pre_transform = _base_.pre_transform
-affine_scale = _base_.affine_scale
-mosaic_affine_pipeline = [
-    dict(
-        type='Mosaic',
-        img_scale=img_scale,
-        pad_val=114.0,
-        pre_transform=pre_transform),
-    dict(
-        type='YOLOv5RandomAffine',
-        max_rotate_degree=0.0,
-        max_shear_degree=0.0,
-        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
-        # img_scale is (width, height)
-        border=(-img_scale[0] // 2, -img_scale[1] // 2),
-        border_val=(114, 114, 114))
-]
-train_pipeline = [
-    *pre_transform,
-    *mosaic_affine_pipeline,
-    dict(
-        type='YOLOv5MixUp',
-        prob=_base_.mixup_prob,
-        pre_transform=[*pre_transform, *mosaic_affine_pipeline]),
-    dict(
-        type='mmdet.Albu',
-        transforms=_base_.albu_train_transforms,
-        bbox_params=dict(
-            type='BboxParams',
-            format='pascal_voc',
-            label_fields=['gt_bboxes_labels', 'gt_ignore_flags']),
-        keymap={
-            'img': 'image',
-            'gt_bboxes': 'bboxes'
-        }),
-    dict(type='YOLOv5HSVRandomAug'),
-    dict(type='mmdet.RandomFlip', prob=0.5),
-    dict(
-        type='mmdet.PackDetInputs',
-        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape', 'flip',
-                   'flip_direction'))
-]
-_base_.test_pipeline[next(i for i, v in enumerate(_base_.test_pipeline) if v.type=='YOLOv5KeepRatioResize')].scale = img_scale
-_base_.test_pipeline[next(i for i, v in enumerate(_base_.test_pipeline) if v.type=='LetterResize')].scale = img_scale
-model = dict(
-    backbone=dict(
-        deepen_factor=deepen_factor,
-        widen_factor=widen_factor,
-    ),
-    neck=dict(
-        deepen_factor=deepen_factor,
-        widen_factor=widen_factor,
-        in_channels=[256, 512, 1024],
-        out_channels=[256, 512, 1024],
-        num_csp_blocks=3,
-    ),
-    bbox_head=dict(
-        head_module=dict(
-            widen_factor=widen_factor,
-            num_classes=num_classes,
-            featmap_strides=[8, 16, 32],
-            in_channels=[256, 512, 1024],
-            num_base_priors=3
-        ),
-        prior_generator=dict(
-            base_sizes=anchors,
-            strides=[
-                8,
-                16,
-                32,
-            ],
-        ),
-        loss_obj=dict(
-            loss_weight=_base_.loss_obj_weight * ((img_scale[0] / 640)**2 * 3 / num_det_layers)
-        ),
-        loss_cls=dict(
-            loss_weight=_base_.loss_cls_weight * (num_classes / 80 * 3 / num_det_layers)
-        ),
-        loss_bbox=dict(
-            loss_weight=_base_.loss_bbox_weight * (3 / num_det_layers),
-        ),
-        obj_level_weights=[
-            4.0,
-            1.0,
-            0.4,
-        ],
-    ),
-    test_cfg=dict(
-        nms=dict(type='nms', iou_threshold=0.65),  # NMS type and threshold
-        multi_label=False,
-    ),
-)
-train_dataloader = dict(
-    batch_size=train_batch_size_per_gpu,
-    num_workers=train_num_workers,
-    dataset=dict(
-        _delete_=True,
-        type='RepeatDataset',
-        times=1,
-        dataset=dict(
-            type='YOLOv5CocoDataset',
-            data_root=data_root_train,
-            ann_file=data_root_train + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-            data_prefix=dict(img='images/'),
-            metainfo=metainfo,
-            filter_cfg=dict(filter_empty_gt=False),
-            pipeline=train_pipeline
-        )
-    )
-)
-val_dataloader = dict(
-    batch_size=validation_batch_size_per_gpu,
-    num_workers=train_num_workers,
-    dataset=dict(
-        data_root=data_root_val,
-        metainfo=metainfo,
-        ann_file=data_root_val+'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-        data_prefix=dict(img='images/'),
-        pipeline=_base_.test_pipeline
-    )
-)
-test_dataloader = dict(
-    batch_size=test_batch_size_per_gpu,
-    num_workers=train_num_workers,
-    dataset=dict(
-        data_root=data_root_test,
-        metainfo=metainfo,
-        ann_file=data_root_test+'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-        data_prefix=dict(img='images/'),
-        batch_shapes_cfg=batch_shapes_cfg,
-        pipeline=_base_.test_pipeline
-    )
-)
-_base_.optim_wrapper.optimizer.batch_size_per_gpu = train_batch_size_per_gpu
-_base_.optim_wrapper.optimizer.lr = base_lr
-val_evaluator  = dict(
-    ann_file=data_root_val+'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-)
-test_evaluator = dict(
-    ann_file=data_root_test+'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
-)
-default_hooks = dict(
-    checkpoint=dict(
-        interval=1,
-        max_keep_ckpts=1,
-        save_best=['coco/bbox_mAP', 'coco/bbox_mAP_50']
-    ),
-    # The warmup_mim_iter parameter is critical.
-    # The default value is 1000 which is not suitable for cat datasets.
-    param_scheduler=dict(
-        max_epochs=max_epochs,
-        warmup_mim_iter=1000,
-        lr_factor=lr_factor
-    ),
-    logger=dict(type='LoggerHook', interval=5))
-train_cfg = dict(max_epochs=max_epochs, val_interval=1)
-visualizer = dict(vis_backends=[dict(type='LocalVisBackend'), dict(type='TensorboardVisBackend')])

YOLOv8/configs/yolov8/yolov8.py DELETED Viewed

@@ -1,240 +0,0 @@
-_base_ = './yolov8_s_syncbn_fast_8xb16-500e_coco.py'
-# ========================modified parameters======================
-deepen_factor = 0.67
-widen_factor = 0.75
-last_stage_out_channels = 768
-affine_scale = 0.9
-mixup_prob = 0.1
-img_scale = (128, 128) #_base_.img_scale
-# img_scale = (640, 640) #_base_.img_scale
-num_classes = 1
-class_name = ('small',)
-num_classes = len(class_name)
-metainfo = dict(classes=class_name, palette=[(20, 220, 60)])
-train_batch_size_per_gpu = 512
-val_batch_size_per_gpu = 128
-test_batch_size_per_gpu = 128
-train_num_workers = 16
-val_num_workers = 16
-test_num_workers = 16
-# -----train val related-----
-# Base learning rate for optim_wrapper. Corresponding to 8xb16=64 bs
-base_lr = 0.001
-lr_factor = 0.01  # Learning rate scaling factor
-max_epochs = 1000  # Maximum training epochs
-# Disable mosaic augmentation for final 10 epochs (stage 2)
-close_mosaic_epochs = 10
-save_epoch_intervals = 1
-max_keep_ckpts = 2
-# validation intervals in stage 2
-val_interval_stage2 = 1
-# TRAIN DATASET
-data_root_train = 'YOUR_PATH_TO_REAL_LINZ_TRAIN'
-ann_file_train = 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json'
-# VAL DATASET
-data_root_val = 'YOUR_PATH_TO_REAL_LINZ_VAL'
-ann_file_val = 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json'
-# TEST DATASET
-## LINZ
-data_root_test  = 'YOUR_PATH_TO_REAL_LINZ_TEST'
-ann_file_test = 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json'
-load_from = 'https://download.openmmlab.com/mmyolo/v0/yolov8/yolov8_m_syncbn_fast_8xb16-500e_coco/yolov8_m_syncbn_fast_8xb16-500e_coco_20230115_192200-c22e560a.pth'
-# =======================Unmodified in most cases==================
-pre_transform = _base_.pre_transform
-last_transform = _base_.last_transform
-model = dict(
-    backbone=dict(
-        last_stage_out_channels=last_stage_out_channels,
-        deepen_factor=deepen_factor,
-        widen_factor=widen_factor
-    ),
-    neck=dict(
-        deepen_factor=deepen_factor,
-        widen_factor=widen_factor,
-        in_channels=[256, 512, last_stage_out_channels],
-        out_channels=[256, 512, last_stage_out_channels]
-    ),
-    bbox_head=dict(
-        head_module=dict(
-            num_classes=num_classes,
-            widen_factor=widen_factor,
-            in_channels=[256, 512, last_stage_out_channels])
-    ),
-    train_cfg=dict(
-        assigner=dict(
-            num_classes=num_classes
-        )
-    )
-)
-mosaic_affine_transform = [
-    dict(
-        type='Mosaic',
-        img_scale=img_scale,
-        pad_val=114.0,
-        pre_transform=pre_transform),
-    dict(
-        type='YOLOv5RandomAffine',
-        max_rotate_degree=0.0,
-        max_shear_degree=0.0,
-        max_aspect_ratio=100,
-        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
-        # img_scale is (width, height)
-        border=(-img_scale[0] // 2, -img_scale[1] // 2),
-        border_val=(114, 114, 114))
-]
-# enable mixup
-train_pipeline = [
-    *pre_transform, *mosaic_affine_transform,
-    dict(
-        type='YOLOv5MixUp',
-        prob=mixup_prob,
-        pre_transform=[*pre_transform, *mosaic_affine_transform]),
-    *last_transform
-]
-train_pipeline_stage2 = [
-    *pre_transform,
-    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
-    dict(
-        type='LetterResize',
-        scale=img_scale,
-        allow_scale_up=True,
-        pad_val=dict(img=114.0)
-    ),
-    dict(
-        type='YOLOv5RandomAffine',
-        max_rotate_degree=0.0,
-        max_shear_degree=0.0,
-        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
-        max_aspect_ratio=100,
-        border_val=(114, 114, 114)
-    ),
-    *last_transform
-]
-train_dataloader = dict(
-    batch_size=train_batch_size_per_gpu,
-    num_workers=train_num_workers,
-    dataset=dict(
-        data_root=data_root_train,
-        ann_file=data_root_train+ann_file_train,
-        data_prefix=dict(img='images/'),
-        filter_cfg=dict(filter_empty_gt=False),
-        metainfo=metainfo,
-        pipeline=train_pipeline
-    )
-)
-# _base_.test_pipeline[1].img_scale = img_scale
-# _base_.test_pipeline[2].scale = img_scale
-test_pipeline = [
-    dict(type='LoadImageFromFile', backend_args=_base_.backend_args),
-    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
-    dict(
-        type='LetterResize',
-        scale=img_scale,
-        allow_scale_up=False,
-        pad_val=dict(img=114)),
-    dict(type='LoadAnnotations', with_bbox=True, _scope_='mmdet'),
-    dict(
-        type='mmdet.PackDetInputs',
-        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
-                   'scale_factor', 'pad_param'))
-]
-val_dataloader = dict(
-    batch_size=val_batch_size_per_gpu,
-    num_workers=val_num_workers,
-    dataset=dict(
-        data_root=data_root_val,
-        ann_file=data_root_val+ann_file_val,
-        data_prefix=dict(img='images/'),
-        metainfo=metainfo,
-        # filter_cfg=dict(filter_empty_gt=False), # Does this make a change?
-        filter_cfg=dict(filter_empty_gt=True), # Does this make a change?
-        pipeline=test_pipeline,
-    )
-)
-test_dataloader = dict(
-    batch_size=test_batch_size_per_gpu,
-    num_workers=test_num_workers,
-    dataset=dict(
-        data_root=data_root_test,
-        ann_file=data_root_test+ann_file_test,
-        data_prefix=dict(img='images/'),
-        metainfo=metainfo,
-        filter_cfg=dict(filter_empty_gt=False),  # Does this make a change?
-        pipeline=test_pipeline,
-    )
-)
-optim_wrapper = dict(
-    optimizer=dict(
-        lr=base_lr,
-        batch_size_per_gpu=train_batch_size_per_gpu
-    ),
-)
-default_hooks = dict(
-    param_scheduler=dict(
-        lr_factor=lr_factor,
-        max_epochs=max_epochs
-    ),
-    checkpoint=dict(
-        interval=save_epoch_intervals,
-        max_keep_ckpts=max_keep_ckpts,
-        save_best=['coco/bbox_mAP', 'coco/bbox_mAP_50']
-    )
-)
-_base_.custom_hooks[1].switch_epoch = max_epochs - close_mosaic_epochs
-_base_.custom_hooks[1].switch_pipeline = train_pipeline_stage2
-val_evaluator = dict(
-    ann_file=data_root_val + ann_file_val,
-)
-test_evaluator = dict(
-    ann_file= data_root_test + ann_file_test,
-)
-train_cfg = dict(
-    max_epochs=max_epochs,
-    val_interval=save_epoch_intervals,
-    dynamic_intervals=[
-        ((max_epochs - close_mosaic_epochs),
-                        val_interval_stage2)
-    ]
-)
-visualizer = dict(
-    vis_backends=[
-        dict(type='LocalVisBackend'),
-        dict(type='TensorboardVisBackend')
-    ]
-)

FasterRCNN/best_coco_bbox_mAP_50_epoch_7.pth → faster-rcnn.pth RENAMED Viewed

File without changes

ViTDet/best_coco_bbox_mAP_50_iter_16000.pth → vitdet.pth RENAMED Viewed

File without changes

YOLOv5/best_coco_bbox_mAP_50_epoch_429.pth → yolov5.pth RENAMED Viewed

File without changes

YOLOv8/best_coco_bbox_mAP_50_epoch_32.pth → yolov8.pth RENAMED Viewed

File without changes