Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

FasterRCNN/best_coco_bbox_mAP_50_epoch_7.pth +2 -2
FasterRCNN/configs/faster_rcnn/faster-rcnn.py +407 -0
README.md +9 -1
ViTDet/best_coco_bbox_mAP_50_iter_16000.pth +2 -2
ViTDet/projects/ViTDet/configs/vitdet.py +432 -0
YOLOv5/best_coco_bbox_mAP_50_epoch_429.pth +2 -2
YOLOv5/configs/yolov5/yolov5.py +218 -0
YOLOv8/best_coco_bbox_mAP_50_epoch_32.pth +2 -2
YOLOv8/configs/yolov8/yolov8.py +240 -0

FasterRCNN/best_coco_bbox_mAP_50_epoch_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa172df9b6e3ddb3c258aabba90cb970cc44fe3037bdf4f81e361fa0a45ba1fc
-size 165917385

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3ea5ae3361c0b0bc75235ce9ae7a4629ad280ee86aa56c1ab130dcbbf53bfc9
+size 134

FasterRCNN/configs/faster_rcnn/faster-rcnn.py ADDED Viewed

	@@ -0,0 +1,407 @@

+_base_ = [
+    '../_base_/models/faster-rcnn_r50_fpn.py',
+    '../_base_/datasets/coco_detection.py',
+    '../_base_/schedules/schedule_2x.py', '../_base_/default_runtime.py'
+]
+# TRAIN DATASET
+data_root_train = 'YOUR_PATH_TO_REAL_LINZ_TRAIN'
+# VAL DATASET
+data_root_val   = 'YOUR_PATH_TO_REAL_LINZ_VAL'
+# TEST DATASET
+## LINZ
+data_root_test  = 'YOUR_PATH_TO_REAL_LINZ_TEST'
+max_epochs = 1000 # 40
+train_batch_size_per_gpu = 64
+validation_batch_size_per_gpu = 64
+test_batch_size_per_gpu = 64
+num_workers = 8
+class_name = ('small',)
+num_classes = len(class_name)
+metainfo = dict(classes=class_name, palette=[(20, 220, 60)])
+img_scale = (128, 128)
+affine_scale = 0.9
+load_from = 'https://download.openxlab.org.cn/models/mmdetection/FasterR-CNN/weight/faster-rcnn_r50_fpn_2x_coco'
+# model settings
+model = dict(
+    type='FasterRCNN',
+    data_preprocessor=dict(
+        type='DetDataPreprocessor',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        bgr_to_rgb=True,
+        pad_size_divisor=32),
+    backbone=dict(
+        type='ResNet',
+        depth=50,
+        num_stages=4,
+        out_indices=(0, 1, 2, 3),
+        frozen_stages=1,
+        norm_cfg=dict(type='BN', requires_grad=True),
+        norm_eval=True,
+        style='pytorch',
+        init_cfg=dict(type='Pretrained', checkpoint='torchvision://resnet50')),
+    neck=dict(
+        type='FPN',
+        in_channels=[256, 512, 1024, 2048],
+        out_channels=256,
+        num_outs=5),
+    rpn_head=dict(
+        type='RPNHead',
+        in_channels=256,
+        feat_channels=256,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[.0, .0, .0, .0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(type='L1Loss', loss_weight=1.0)),
+    roi_head=dict(
+        type='StandardRoIHead',
+        bbox_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=dict(
+            type='Shared2FCBBoxHead',
+            in_channels=256,
+            fc_out_channels=1024,
+            roi_feat_size=7,
+            num_classes=num_classes,
+            bbox_coder=dict(
+                type='DeltaXYWHBBoxCoder',
+                target_means=[0., 0., 0., 0.],
+                target_stds=[0.1, 0.1, 0.2, 0.2]),
+            reg_class_agnostic=False,
+            loss_cls=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
+            loss_bbox=dict(type='L1Loss', loss_weight=1.0))),
+    # model training and testing settings
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=-1,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_pre=2000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=512,
+                pos_fraction=0.25,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False)),
+    test_cfg=dict(
+        rpn=dict(
+            nms_pre=1000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.5),
+            max_per_img=100)
+        # soft-nms is also supported for rcnn testing
+        # e.g., nms=dict(type='soft_nms', iou_threshold=0.5, min_score=0.05)
+    ))
+dataset_type = 'CocoDataset'
+backend_args = None
+# Original
+# train_pipeline = [
+#     dict(type='LoadImageFromFile', backend_args=backend_args),
+#     dict(type='LoadAnnotations', with_bbox=True),
+#     dict(type='Resize', scale=img_scale, keep_ratio=True),
+#     dict(type='RandomFlip', prob=0.5),
+#     dict(type='PackDetInputs')
+# ]
+pre_transform = [
+    dict(type='LoadImageFromFile', backend_args=backend_args),
+    dict(type='LoadAnnotations', with_bbox=True)
+]
+albu_train_transforms = [
+    dict(type='Blur', p=0.01),
+    dict(type='MedianBlur', p=0.01),
+    dict(type='ToGray', p=0.01),
+    dict(type='CLAHE', p=0.01)
+]
+last_transform = [
+    dict(
+        type='Albu',
+        transforms=albu_train_transforms,
+        bbox_params=dict(
+            type='BboxParams',
+            format='pascal_voc',
+            label_fields=['gt_bboxes_labels', 'gt_ignore_flags']),
+        keymap={
+            'img': 'image',
+            'gt_bboxes': 'bboxes'
+        }),
+    dict(type='YOLOXHSVRandomAug'), # ???
+    dict(type='RandomFlip', prob=0.5),
+    dict(
+        type='PackDetInputs',
+        meta_keys=(
+            'img_id',
+            'img_path',
+            'ori_shape',
+            'img_shape',
+            'flip',
+            'flip_direction'
+        )
+    )
+]
+mosaic_affine_transform = [
+    dict(
+        type='Mosaic',
+        img_scale=img_scale,
+        pad_val=114.0,
+    ),
+    dict(
+        type='RandomAffine',
+        max_rotate_degree=0.0,
+        max_shear_degree=0.0,
+        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
+        # img_scale is (width, height)
+        border=(-img_scale[0] // 2, -img_scale[1] // 2),
+        border_val=(114, 114, 114))
+]
+train_pipeline = [
+    *pre_transform,
+    *mosaic_affine_transform,
+    dict(
+        type='MixUp',
+        img_scale=img_scale,
+    ),
+    *last_transform
+]
+# Original
+# train_dataloader = dict(
+#     batch_size=train_batch_size_per_gpu,
+#     num_workers=num_workers,
+#     persistent_workers=True,
+#     sampler=dict(type='DefaultSampler', shuffle=True),
+#     batch_sampler=dict(type='AspectRatioBatchSampler'),
+#     dataset=dict(
+#         type=dataset_type,
+#         data_root=data_root_train,
+#         ann_file='annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500_BalancedRatio:0.2000.json',
+#         data_prefix=dict(img='images/'),
+#         filter_cfg=dict(filter_empty_gt=False, min_size=32),
+#         pipeline=train_pipeline,
+#         metainfo=metainfo,
+#         backend_args=backend_args
+#     )
+# )
+train_dataloader = dict(
+    batch_size=train_batch_size_per_gpu,
+    num_workers=num_workers,
+    persistent_workers=True,
+    sampler=dict(type='DefaultSampler', shuffle=True),
+    batch_sampler=dict(type='AspectRatioBatchSampler'),
+    dataset=dict(
+        _delete_=True,
+        type='MultiImageMixDataset',
+        dataset=dict(
+            type=dataset_type,
+            data_root=data_root_train,
+            ann_file='annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+            data_prefix=dict(img='images/'),
+            filter_cfg=dict(filter_empty_gt=False, min_size=32),
+            metainfo=metainfo,
+            backend_args=backend_args,
+            pipeline=pre_transform
+        ),
+        pipeline=train_pipeline,
+    )
+)
+test_pipeline = [
+    dict(type='LoadImageFromFile', backend_args=backend_args),
+    dict(type='Resize', scale=img_scale, keep_ratio=True),
+    # If you don't have a gt annotation, delete the pipeline
+    dict(type='LoadAnnotations', with_bbox=True),
+    dict(
+        type='PackDetInputs',
+        meta_keys=(
+            'img_id', 'img_path', 'ori_shape', 'img_shape',
+            'scale_factor'
+        )
+    )
+]
+val_dataloader = dict(
+    batch_size=validation_batch_size_per_gpu,
+    num_workers=num_workers,
+    persistent_workers=True,
+    drop_last=False,
+    sampler=dict(type='DefaultSampler', shuffle=False),
+    dataset=dict(
+        type=dataset_type,
+        data_root=data_root_val,
+        ann_file='annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+        data_prefix=dict(img='images/'),
+        filter_cfg=dict(filter_empty_gt=False, min_size=32),
+        test_mode=True,
+        pipeline=test_pipeline,
+        metainfo=metainfo,
+        backend_args=backend_args
+    )
+)
+test_dataloader = dict(
+    batch_size=test_batch_size_per_gpu,
+    num_workers=num_workers,
+    persistent_workers=True,
+    drop_last=False,
+    sampler=dict(type='DefaultSampler', shuffle=False),
+    dataset=dict(
+        type=dataset_type,
+        data_root=data_root_test,
+        ann_file='annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+        data_prefix=dict(img='images/'),
+        filter_cfg=dict(filter_empty_gt=False, min_size=32),
+        test_mode=True,
+        pipeline=test_pipeline,
+        metainfo=metainfo,
+        backend_args=backend_args
+    )
+)
+# test_dataloader = val_dataloader
+val_evaluator = dict(
+    type='CocoMetric',
+    ann_file=data_root_val + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+    metric='bbox',
+    format_only=False,
+    backend_args=backend_args
+)
+test_evaluator = dict(
+    type='CocoMetric',
+    ann_file=data_root_test + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+    metric='bbox',
+    format_only=False,
+    backend_args=backend_args
+)
+# test_evaluator = val_evaluator
+# training schedule for 2x
+train_cfg = dict(type='EpochBasedTrainLoop', max_epochs=max_epochs, val_interval=1)
+val_cfg = dict(type='ValLoop')
+test_cfg = dict(type='TestLoop')
+# learning rate
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0, end=500),
+    dict(
+        type='MultiStepLR',
+        begin=0,
+        end=max_epochs,
+        by_epoch=True,
+        milestones=[16, 22],
+        gamma=0.1)
+]
+# optimizer
+optim_wrapper = dict(
+    type='OptimWrapper',
+    optimizer=dict(
+        type='SGD',
+        lr=0.2,
+        momentum=0.9,
+        weight_decay=0.0001
+    )
+)
+# Default setting for scaling LR automatically
+#   - `enable` means enable scaling LR automatically
+#       or not by default.
+#   - `base_batch_size` = (8 GPUs) x (2 samples per GPU)
+auto_scale_lr = dict(enable=False, base_batch_size=train_batch_size_per_gpu)
+default_hooks = dict(
+    checkpoint=dict(
+        interval=1,
+        max_keep_ckpts=1,
+        save_best=['coco/bbox_mAP', 'coco/bbox_mAP_50']
+    ),
+    # The warmup_mim_iter parameter is critical.
+    # The default value is 1000 which is not suitable for cat datasets.
+    # param_scheduler=dict(
+    #     max_epochs=max_epochs,
+    #     warmup_mim_iter=1000,
+    #     lr_factor=lr_factor
+    # ),
+    logger=dict(type='LoggerHook', interval=5))
+vis_backends = [dict(type='LocalVisBackend'), dict(type='TensorboardVisBackend')]
+visualizer = dict(
+    type='DetLocalVisualizer', vis_backends=vis_backends, name='visualizer')

README.md CHANGED Viewed

@@ -3,8 +3,16 @@ license: cc-by-nc-4.0
 language:
 - en
 pipeline_tag: object-detection
 ---
 ## References
-* [Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision](https://arxiv.org/abs/2507.20976)

 language:
 - en
 pipeline_tag: object-detection
+library_name: mmdetection
 ---
+## Introduction
+We introduce a real-world aerial view datasets, LINZ, captured in Selwyn (New Zealand). The dataset has ground sampling distance (GSD) of 12.5 cm per px and have been sampled to 112 px × 112 px image size. For data annotation, we label only the small vehicle centers. To leverage the abundance of bounding box-based open-source object detection frameworks, we define a fixed-size ground truth bounding box of 42.36 px × 42.36 px center at each vehicle. Annotations are provided in COCO format [x, y, w, h], where "small" in the annotation json files denotes the small vehicle class and (x, y) denotes the top-left corner of the bounding box. We use AP50 as evaluation metrics.
+## Model Usage
+This folder contains four detectors trained on Real LINZ data and tested on Real LINZ data, along with configuration files we use for training and testing.
 ## References
+➡️ **Paper:** [Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision](https://arxiv.org/abs/2507.20976)
+➡️ **Project Page:** [Webpage](https://humansensinglab.github.io/AGenDA/)
+➡️ **Data:** [AGenDA](https://github.com/humansensinglab/AGenDA/tree/main/Data)

ViTDet/best_coco_bbox_mAP_50_iter_16000.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d60857c5f22007ce2a8711bcf3d27a77818888fbea48ff8b529dd6f5ee7b397
-size 434474871

 version https://git-lfs.github.com/spec/v1
+oid sha256:657c55b1a0b3177d5a754720a26d7a8433ef3005a58fe482dbd78857efd4204b
+size 134

ViTDet/projects/ViTDet/configs/vitdet.py ADDED Viewed

	@@ -0,0 +1,432 @@

+_base_ = [
+    '../../../configs/_base_/default_runtime.py',
+    '../../../configs/_base_/models/mask-rcnn_r50_fpn.py',
+]
+custom_imports = dict(imports=['projects.ViTDet.vitdet'])
+## TRAIN DATASET
+data_root_train = 'YOUR_PATH_TO_REAL_LINZ_TRAIN'
+## VALIDATION DATASET
+data_root_val  = 'YOUR_PATH_TO_REAL_LINZ_VAL'
+# TEST DATASET
+## LINZ
+data_root_test  = 'YOUR_PATH_TO_REAL_LINZ_TEST'
+train_batch_size_per_gpu = 24
+val_batch_size_per_gpu = 12
+test_batch_size_per_gpu = 60
+num_workers = 8
+max_epochs = 100
+# img_scale = (1024, 1024)
+# img_scale = (384, 384)
+img_scale = (128, 128)
+affine_scale = 0.9
+class_name = ('small',)
+num_classes = len(class_name)
+metainfo = dict(classes=class_name, palette=[(20, 220, 60)])
+load_from = 'https://download.openmmlab.com/mmdetection/v3.0/vitdet/vitdet_mask-rcnn_vit-b-mae_lsj-100e/vitdet_mask-rcnn_vit-b-mae_lsj-100e_20230328_153519-e15fe294.pth'
+# MODEL SETTINGS
+backbone_norm_cfg = dict(type='LN', requires_grad=True)
+norm_cfg = dict(type='LN2d', requires_grad=True)
+batch_augments = [
+    dict(type='BatchFixedSizePad', size=img_scale, pad_mask=True)
+]
+model = dict(
+    data_preprocessor=dict(pad_size_divisor=32, batch_augments=batch_augments),
+    backbone=dict(
+        _delete_=True,
+        type='ViT',
+        # img_size=1024,
+        # img_size=384,
+        img_size=img_scale[0],
+        patch_size=16,
+        embed_dim=768,
+        depth=12,
+        num_heads=12,
+        drop_path_rate=0.1,
+        window_size=14,
+        mlp_ratio=4,
+        qkv_bias=True,
+        norm_cfg=backbone_norm_cfg,
+        window_block_indexes=[
+            0,
+            1,
+            3,
+            4,
+            6,
+            7,
+            9,
+            10,
+        ],
+        use_rel_pos=True,
+        init_cfg=dict(
+            type='Pretrained',
+            # checkpoint='mae_pretrain_vit_base.pth'
+            # checkpoint='detectron2://ImageNetPretrained/MAE/mae_pretrain_vit_base.pth'
+            checkpoint='vitdet_mask-rcnn_vit-b-mae_lsj-100e_20230328_153519-e15fe294.pth'
+        )
+    ),
+    neck=dict(
+        _delete_=True,
+        type='SimpleFPN',
+        backbone_channel=768,
+        in_channels=[192, 384, 768, 768],
+        out_channels=256,
+        num_outs=5,
+        norm_cfg=norm_cfg),
+    rpn_head=dict(num_convs=2),
+    roi_head=dict(
+        bbox_head=dict(
+            type='Shared4Conv1FCBBoxHead',
+            conv_out_channels=256,
+            norm_cfg=norm_cfg,
+            num_classes=num_classes
+        ),
+        # mask_head=dict(         # No masks as used
+        #     norm_cfg=norm_cfg,
+        #     num_classes=1,
+        #     loss_mask=dict(
+        #         use_mask=False
+        #     ),
+        # )
+        mask_head=None
+    )
+)
+custom_hooks = [dict(type='Fp16CompresssionHook')]
+##
+dataset_type = 'CocoDataset'
+backend_args = None
+# Original
+# train_pipeline = [
+#     dict(type='LoadImageFromFile', backend_args=backend_args),
+#     dict(
+#         type='LoadAnnotations',
+#         with_bbox=True,
+#         # with_mask=True
+#         with_mask=False
+#     ),
+#     dict(type='RandomFlip', prob=0.5),
+#     dict(
+#         type='RandomResize',
+#         scale=img_scale,
+#         ratio_range=(0.1, 2.0),
+#         keep_ratio=True),
+#     dict(
+#         type='RandomCrop',
+#         crop_type='absolute_range',
+#         crop_size=img_scale,
+#         recompute_bbox=True,
+#         allow_negative_crop=True),
+#     dict(type='FilterAnnotations', min_gt_bbox_wh=(1e-2, 1e-2)),
+#     dict(type='Pad', size=img_scale, pad_val=dict(img=(114, 114, 114))),
+#     dict(type='PackDetInputs')
+# ]
+pre_transform = [
+    dict(type='LoadImageFromFile', backend_args=backend_args),
+    dict(type='LoadAnnotations', with_bbox=True, with_mask=False)
+]
+albu_train_transforms = [
+    dict(type='Blur', p=0.01),
+    dict(type='MedianBlur', p=0.01),
+    dict(type='ToGray', p=0.01),
+    dict(type='CLAHE', p=0.01)
+]
+last_transform = [
+    dict(
+        type='Albu',
+        transforms=albu_train_transforms,
+        bbox_params=dict(
+            type='BboxParams',
+            format='pascal_voc',
+            label_fields=['gt_bboxes_labels', 'gt_ignore_flags']),
+        keymap={
+            'img': 'image',
+            'gt_bboxes': 'bboxes'
+        }),
+    dict(type='YOLOXHSVRandomAug'), # ???
+    dict(type='RandomFlip', prob=0.5),
+    dict(
+        type='PackDetInputs',
+        meta_keys=(
+            'img_id',
+            'img_path',
+            'ori_shape',
+            'img_shape',
+            'flip',
+            'flip_direction'
+        )
+    )
+]
+mosaic_affine_transform = [
+    dict(
+        type='Mosaic',
+        img_scale=img_scale,
+        pad_val=114.0,
+    ),
+    dict(
+        type='RandomAffine',
+        max_rotate_degree=0.0,
+        max_shear_degree=0.0,
+        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
+        # img_scale is (width, height)
+        border=(-img_scale[0] // 2, -img_scale[1] // 2),
+        border_val=(114, 114, 114))
+]
+train_pipeline = [
+    *pre_transform,
+    *mosaic_affine_transform,
+    dict(
+        type='MixUp',
+        img_scale=img_scale,
+    ),
+    *last_transform
+]
+# Original
+# train_dataloader = dict(
+#     batch_size=train_batch_size_per_gpu,
+#     num_workers=num_workers,
+#     persistent_workers=True,
+#     sampler=dict(type='DefaultSampler', shuffle=True),
+#     dataset=dict(
+#         type=dataset_type,
+#         data_root=data_root_train,
+#         ann_file=data_root_train + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+#         data_prefix=dict(img='images/'),
+#         # filter_cfg=dict(filter_empty_gt=True, min_size=32),
+#         filter_cfg=dict(filter_empty_gt=False),
+#         pipeline=train_pipeline,
+#         metainfo=metainfo,
+#     )
+# )
+train_dataloader = dict(
+    batch_size=train_batch_size_per_gpu,
+    num_workers=num_workers,
+    persistent_workers=True,
+    sampler=dict(type='DefaultSampler', shuffle=True),
+    batch_sampler=dict(type='AspectRatioBatchSampler'),
+    dataset=dict(
+        # _delete_=True,
+        type='MultiImageMixDataset',
+        dataset=dict(
+            type=dataset_type,
+            data_root=data_root_train,
+            ann_file=data_root_train + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+            data_prefix=dict(img='images/'),
+            filter_cfg=dict(filter_empty_gt=False, min_size=32),
+            metainfo=metainfo,
+            backend_args=backend_args,
+            pipeline=pre_transform
+        ),
+        pipeline=train_pipeline,
+    )
+)
+test_pipeline = [
+    dict(type='LoadImageFromFile', backend_args=backend_args),
+    dict(type='Resize', scale=img_scale, keep_ratio=True),
+    dict(type='Pad', size=img_scale, pad_val=dict(img=(114, 114, 114))),
+    dict(
+        type='LoadAnnotations',
+        with_bbox=True,
+        # with_mask=True
+        with_mask=False
+    ),
+    dict(
+        type='PackDetInputs',
+        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
+                   'scale_factor'))
+]
+val_dataloader = dict(
+    batch_size=val_batch_size_per_gpu,
+    num_workers=num_workers,
+    persistent_workers=True,
+    drop_last=False,
+    sampler=dict(type='DefaultSampler', shuffle=False),
+    dataset=dict(
+        type=dataset_type,
+        data_root=data_root_val,
+        ann_file=data_root_val + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+        data_prefix=dict(img='images/'),
+        test_mode=True,
+        pipeline=test_pipeline,
+        metainfo=metainfo,
+    )
+)
+# test_dataloader = val_dataloader
+test_dataloader = dict(
+    batch_size=test_batch_size_per_gpu,
+    num_workers=num_workers,
+    persistent_workers=True,
+    drop_last=False,
+    sampler=dict(type='DefaultSampler', shuffle=False),
+    dataset=dict(
+        type=dataset_type,
+        data_root=data_root_test,
+        ann_file=data_root_test + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+        data_prefix=dict(img='images/'),
+        test_mode=True,
+        pipeline=test_pipeline,
+        metainfo=metainfo,
+    )
+)
+val_evaluator = dict(
+    type='CocoMetric',
+    ann_file=data_root_val + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+    metric='bbox',
+    format_only=False)
+# test_evaluator = val_evaluator
+test_evaluator = dict(
+    type='CocoMetric',
+    ann_file=data_root_test + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+    metric='bbox',
+    format_only=False
+)
+optim_wrapper = dict(
+    type='AmpOptimWrapper',
+    constructor='LayerDecayOptimizerConstructor',
+    paramwise_cfg={
+        'decay_rate': 0.7,
+        'decay_type': 'layer_wise',
+        'num_layers': 12,
+    },
+    optimizer=dict(
+        type='AdamW',
+        # lr=0.0001,
+        # lr=0.01,
+        lr=0.001,
+        betas=(0.9, 0.999),
+        weight_decay=0.1,
+    ))
+# 100 ep = 184375 iters * 64 images/iter / 118000 images/ep
+# max_iters = 184375
+# interval = 5000
+max_iters = 100000
+# interval = 2000
+interval = 1000
+dynamic_intervals = [(max_iters // interval * interval + 1, max_iters)]
+param_scheduler = [
+    dict(
+        type='LinearLR',
+        start_factor=0.001,
+        by_epoch=False,
+        begin=0,
+        end=250
+    ),
+    dict(
+        type='MultiStepLR',
+        begin=0,
+        end=max_iters,
+        # end=max_epochs,
+        by_epoch=False,
+        # by_epoch=True,
+        # 88 ep = [163889 iters * 64 images/iter / 118000 images/ep
+        # 96 ep = [177546 iters * 64 images/iter / 118000 images/ep
+        # milestones=[20, 29],
+        # milestones=[5000, 6000],
+        milestones=[1000, 2000],
+        gamma=0.1
+    )
+]
+train_cfg = dict(
+    type='IterBasedTrainLoop',
+    max_iters=max_iters,
+    val_interval=interval,
+    dynamic_intervals=dynamic_intervals
+)
+# train_cfg = dict(
+#     type='EpochBasedTrainLoop',
+#     max_epochs=max_epochs,
+#     val_interval=1
+# )
+val_cfg = dict(type='ValLoop')
+test_cfg = dict(type='TestLoop')
+default_hooks = dict(
+    logger=dict(
+        type='LoggerHook',
+        interval=50,
+        log_metric_by_epoch=False
+    ),
+    checkpoint=dict(
+        type='CheckpointHook',
+        by_epoch=False,
+        # by_epoch=True,
+        save_last=True,
+        # interval=1,
+        interval=interval,
+        save_best=['coco/bbox_mAP', 'coco/bbox_mAP_50'],
+        max_keep_ckpts=2
+    )
+)
+vis_backends = [
+    dict(type='LocalVisBackend'),
+    dict(type='TensorboardVisBackend')
+]
+visualizer = dict(
+    type='DetLocalVisualizer',
+    vis_backends=vis_backends,
+    name='visualizer'
+)
+log_processor = dict(
+    type='LogProcessor',
+    window_size=50,
+    by_epoch=False
+    # by_epoch=True
+)
+auto_scale_lr = dict(base_batch_size=64)

YOLOv5/best_coco_bbox_mAP_50_epoch_429.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89a69bbeb369be3ee42ae83b32ad691c22a9cae5173abb999fc46080b73b19e0
-size 173121983

 version https://git-lfs.github.com/spec/v1
+oid sha256:2425e8520bd355a827a65fe5f3b0cd42f52796078e8acb3175f97d2861fdeedf
+size 134

YOLOv5/configs/yolov5/yolov5.py ADDED Viewed

	@@ -0,0 +1,218 @@

+_base_ = './yolov5_m-v61_syncbn_fast_8xb16-300e_coco.py'
+deepen_factor = 0.67
+widen_factor = 0.75
+# TRAIN DATASET
+data_root_train = 'YOUR_PATH_TO_REAL_LINZ_TRAIN'
+# VAL DATASET
+data_root_val   = 'YOUR_PATH_TO_REAL_LINZ_VAL'
+# TEST DATASET
+## LINZ
+data_root_test  = 'YOUR_PATH_TO_REAL_LINZ_TEST'
+class_name = ('small',)
+num_classes = len(class_name)
+metainfo = dict(classes=class_name, palette=[(20, 220, 60)])
+img_scale = (128, 128)
+# img_scale = (112, 112)
+# Estimated with " python ./tools/analysis_tools/optimize_anchors.py --input-shape 128 128 --augment-args 0.1 1.9  --algorithm v5-k-means configs/..."
+# anchors = [[(25, 32), (53, 69), (159, 220)], [(235, 166), (242, 242), (310, 337)], [(365, 375), (230, 681), (679, 324)]]
+# anchors = [[(157, 155), (239, 133), (136, 238)], [(240, 165), (170, 237), (236, 191)], [(206, 240), (241, 217), (242, 242)]]
+anchors = [[(31, 28), (32, 37), (27, 48)], [(48, 27), (47, 34), (34, 48)], [(41, 48), (49, 41), (48, 48)]]
+max_epochs = 1000 # 40
+train_batch_size_per_gpu = 200
+validation_batch_size_per_gpu = 100
+test_batch_size_per_gpu = 200 #768 #384
+train_num_workers = 8
+num_det_layers = 3
+# Learning rate
+base_lr   = 0.01 #0.01
+lr_factor = 0.1
+load_from = 'https://download.openmmlab.com/mmyolo/v0/yolov5/yolov5_m-v61_syncbn_fast_8xb16-300e_coco/yolov5_m-v61_syncbn_fast_8xb16-300e_coco_20220917_204944-516a710f.pth'
+batch_shapes_cfg = dict(
+    img_size=img_scale[0],
+    batch_size=train_batch_size_per_gpu
+)
+pre_transform = _base_.pre_transform
+affine_scale = _base_.affine_scale
+mosaic_affine_pipeline = [
+    dict(
+        type='Mosaic',
+        img_scale=img_scale,
+        pad_val=114.0,
+        pre_transform=pre_transform),
+    dict(
+        type='YOLOv5RandomAffine',
+        max_rotate_degree=0.0,
+        max_shear_degree=0.0,
+        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
+        # img_scale is (width, height)
+        border=(-img_scale[0] // 2, -img_scale[1] // 2),
+        border_val=(114, 114, 114))
+]
+train_pipeline = [
+    *pre_transform,
+    *mosaic_affine_pipeline,
+    dict(
+        type='YOLOv5MixUp',
+        prob=_base_.mixup_prob,
+        pre_transform=[*pre_transform, *mosaic_affine_pipeline]),
+    dict(
+        type='mmdet.Albu',
+        transforms=_base_.albu_train_transforms,
+        bbox_params=dict(
+            type='BboxParams',
+            format='pascal_voc',
+            label_fields=['gt_bboxes_labels', 'gt_ignore_flags']),
+        keymap={
+            'img': 'image',
+            'gt_bboxes': 'bboxes'
+        }),
+    dict(type='YOLOv5HSVRandomAug'),
+    dict(type='mmdet.RandomFlip', prob=0.5),
+    dict(
+        type='mmdet.PackDetInputs',
+        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape', 'flip',
+                   'flip_direction'))
+]
+_base_.test_pipeline[next(i for i, v in enumerate(_base_.test_pipeline) if v.type=='YOLOv5KeepRatioResize')].scale = img_scale
+_base_.test_pipeline[next(i for i, v in enumerate(_base_.test_pipeline) if v.type=='LetterResize')].scale = img_scale
+model = dict(
+    backbone=dict(
+        deepen_factor=deepen_factor,
+        widen_factor=widen_factor,
+    ),
+    neck=dict(
+        deepen_factor=deepen_factor,
+        widen_factor=widen_factor,
+        in_channels=[256, 512, 1024],
+        out_channels=[256, 512, 1024],
+        num_csp_blocks=3,
+    ),
+    bbox_head=dict(
+        head_module=dict(
+            widen_factor=widen_factor,
+            num_classes=num_classes,
+            featmap_strides=[8, 16, 32],
+            in_channels=[256, 512, 1024],
+            num_base_priors=3
+        ),
+        prior_generator=dict(
+            base_sizes=anchors,
+            strides=[
+                8,
+                16,
+                32,
+            ],
+        ),
+        loss_obj=dict(
+            loss_weight=_base_.loss_obj_weight * ((img_scale[0] / 640)**2 * 3 / num_det_layers)
+        ),
+        loss_cls=dict(
+            loss_weight=_base_.loss_cls_weight * (num_classes / 80 * 3 / num_det_layers)
+        ),
+        loss_bbox=dict(
+            loss_weight=_base_.loss_bbox_weight * (3 / num_det_layers),
+        ),
+        obj_level_weights=[
+            4.0,
+            1.0,
+            0.4,
+        ],
+    ),
+    test_cfg=dict(
+        nms=dict(type='nms', iou_threshold=0.65),  # NMS type and threshold
+        multi_label=False,
+    ),
+)
+train_dataloader = dict(
+    batch_size=train_batch_size_per_gpu,
+    num_workers=train_num_workers,
+    dataset=dict(
+        _delete_=True,
+        type='RepeatDataset',
+        times=1,
+        dataset=dict(
+            type='YOLOv5CocoDataset',
+            data_root=data_root_train,
+            ann_file=data_root_train + 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+            data_prefix=dict(img='images/'),
+            metainfo=metainfo,
+            filter_cfg=dict(filter_empty_gt=False),
+            pipeline=train_pipeline
+        )
+    )
+)
+val_dataloader = dict(
+    batch_size=validation_batch_size_per_gpu,
+    num_workers=train_num_workers,
+    dataset=dict(
+        data_root=data_root_val,
+        metainfo=metainfo,
+        ann_file=data_root_val+'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+        data_prefix=dict(img='images/'),
+        pipeline=_base_.test_pipeline
+    )
+)
+test_dataloader = dict(
+    batch_size=test_batch_size_per_gpu,
+    num_workers=train_num_workers,
+    dataset=dict(
+        data_root=data_root_test,
+        metainfo=metainfo,
+        ann_file=data_root_test+'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+        data_prefix=dict(img='images/'),
+        batch_shapes_cfg=batch_shapes_cfg,
+        pipeline=_base_.test_pipeline
+    )
+)
+_base_.optim_wrapper.optimizer.batch_size_per_gpu = train_batch_size_per_gpu
+_base_.optim_wrapper.optimizer.lr = base_lr
+val_evaluator  = dict(
+    ann_file=data_root_val+'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+)
+test_evaluator = dict(
+    ann_file=data_root_test+'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json',
+)
+default_hooks = dict(
+    checkpoint=dict(
+        interval=1,
+        max_keep_ckpts=1,
+        save_best=['coco/bbox_mAP', 'coco/bbox_mAP_50']
+    ),
+    # The warmup_mim_iter parameter is critical.
+    # The default value is 1000 which is not suitable for cat datasets.
+    param_scheduler=dict(
+        max_epochs=max_epochs,
+        warmup_mim_iter=1000,
+        lr_factor=lr_factor
+    ),
+    logger=dict(type='LoggerHook', interval=5))
+train_cfg = dict(max_epochs=max_epochs, val_interval=1)
+visualizer = dict(vis_backends=[dict(type='LocalVisBackend'), dict(type='TensorboardVisBackend')])

YOLOv8/best_coco_bbox_mAP_50_epoch_32.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5f825c0b53ef12637277dc17b6b7ea9a3375bba2c1a4d7d700e83229edae25d
-size 209487703

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a20a476ff5a5b9ff6cfe690877a080b38981fe7b5d22132c261e293bc8c324d
+size 134

YOLOv8/configs/yolov8/yolov8.py ADDED Viewed

	@@ -0,0 +1,240 @@

+_base_ = './yolov8_s_syncbn_fast_8xb16-500e_coco.py'
+# ========================modified parameters======================
+deepen_factor = 0.67
+widen_factor = 0.75
+last_stage_out_channels = 768
+affine_scale = 0.9
+mixup_prob = 0.1
+img_scale = (128, 128) #_base_.img_scale
+# img_scale = (640, 640) #_base_.img_scale
+num_classes = 1
+class_name = ('small',)
+num_classes = len(class_name)
+metainfo = dict(classes=class_name, palette=[(20, 220, 60)])
+train_batch_size_per_gpu = 512
+val_batch_size_per_gpu = 128
+test_batch_size_per_gpu = 128
+train_num_workers = 16
+val_num_workers = 16
+test_num_workers = 16
+# -----train val related-----
+# Base learning rate for optim_wrapper. Corresponding to 8xb16=64 bs
+base_lr = 0.001
+lr_factor = 0.01  # Learning rate scaling factor
+max_epochs = 1000  # Maximum training epochs
+# Disable mosaic augmentation for final 10 epochs (stage 2)
+close_mosaic_epochs = 10
+save_epoch_intervals = 1
+max_keep_ckpts = 2
+# validation intervals in stage 2
+val_interval_stage2 = 1
+# TRAIN DATASET
+data_root_train = 'YOUR_PATH_TO_REAL_LINZ_TRAIN'
+ann_file_train = 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json'
+# VAL DATASET
+data_root_val = 'YOUR_PATH_TO_REAL_LINZ_VAL'
+ann_file_val = 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json'
+# TEST DATASET
+## LINZ
+data_root_test  = 'YOUR_PATH_TO_REAL_LINZ_TEST'
+ann_file_test = 'annotations_coco_FakeBBoxes:42.36px_ForIoU:0.500.json'
+load_from = 'https://download.openmmlab.com/mmyolo/v0/yolov8/yolov8_m_syncbn_fast_8xb16-500e_coco/yolov8_m_syncbn_fast_8xb16-500e_coco_20230115_192200-c22e560a.pth'
+# =======================Unmodified in most cases==================
+pre_transform = _base_.pre_transform
+last_transform = _base_.last_transform
+model = dict(
+    backbone=dict(
+        last_stage_out_channels=last_stage_out_channels,
+        deepen_factor=deepen_factor,
+        widen_factor=widen_factor
+    ),
+    neck=dict(
+        deepen_factor=deepen_factor,
+        widen_factor=widen_factor,
+        in_channels=[256, 512, last_stage_out_channels],
+        out_channels=[256, 512, last_stage_out_channels]
+    ),
+    bbox_head=dict(
+        head_module=dict(
+            num_classes=num_classes,
+            widen_factor=widen_factor,
+            in_channels=[256, 512, last_stage_out_channels])
+    ),
+    train_cfg=dict(
+        assigner=dict(
+            num_classes=num_classes
+        )
+    )
+)
+mosaic_affine_transform = [
+    dict(
+        type='Mosaic',
+        img_scale=img_scale,
+        pad_val=114.0,
+        pre_transform=pre_transform),
+    dict(
+        type='YOLOv5RandomAffine',
+        max_rotate_degree=0.0,
+        max_shear_degree=0.0,
+        max_aspect_ratio=100,
+        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
+        # img_scale is (width, height)
+        border=(-img_scale[0] // 2, -img_scale[1] // 2),
+        border_val=(114, 114, 114))
+]
+# enable mixup
+train_pipeline = [
+    *pre_transform, *mosaic_affine_transform,
+    dict(
+        type='YOLOv5MixUp',
+        prob=mixup_prob,
+        pre_transform=[*pre_transform, *mosaic_affine_transform]),
+    *last_transform
+]
+train_pipeline_stage2 = [
+    *pre_transform,
+    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
+    dict(
+        type='LetterResize',
+        scale=img_scale,
+        allow_scale_up=True,
+        pad_val=dict(img=114.0)
+    ),
+    dict(
+        type='YOLOv5RandomAffine',
+        max_rotate_degree=0.0,
+        max_shear_degree=0.0,
+        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
+        max_aspect_ratio=100,
+        border_val=(114, 114, 114)
+    ),
+    *last_transform
+]
+train_dataloader = dict(
+    batch_size=train_batch_size_per_gpu,
+    num_workers=train_num_workers,
+    dataset=dict(
+        data_root=data_root_train,
+        ann_file=data_root_train+ann_file_train,
+        data_prefix=dict(img='images/'),
+        filter_cfg=dict(filter_empty_gt=False),
+        metainfo=metainfo,
+        pipeline=train_pipeline
+    )
+)
+# _base_.test_pipeline[1].img_scale = img_scale
+# _base_.test_pipeline[2].scale = img_scale
+test_pipeline = [
+    dict(type='LoadImageFromFile', backend_args=_base_.backend_args),
+    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
+    dict(
+        type='LetterResize',
+        scale=img_scale,
+        allow_scale_up=False,
+        pad_val=dict(img=114)),
+    dict(type='LoadAnnotations', with_bbox=True, _scope_='mmdet'),
+    dict(
+        type='mmdet.PackDetInputs',
+        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
+                   'scale_factor', 'pad_param'))
+]
+val_dataloader = dict(
+    batch_size=val_batch_size_per_gpu,
+    num_workers=val_num_workers,
+    dataset=dict(
+        data_root=data_root_val,
+        ann_file=data_root_val+ann_file_val,
+        data_prefix=dict(img='images/'),
+        metainfo=metainfo,
+        # filter_cfg=dict(filter_empty_gt=False), # Does this make a change?
+        filter_cfg=dict(filter_empty_gt=True), # Does this make a change?
+        pipeline=test_pipeline,
+    )
+)
+test_dataloader = dict(
+    batch_size=test_batch_size_per_gpu,
+    num_workers=test_num_workers,
+    dataset=dict(
+        data_root=data_root_test,
+        ann_file=data_root_test+ann_file_test,
+        data_prefix=dict(img='images/'),
+        metainfo=metainfo,
+        filter_cfg=dict(filter_empty_gt=False),  # Does this make a change?
+        pipeline=test_pipeline,
+    )
+)
+optim_wrapper = dict(
+    optimizer=dict(
+        lr=base_lr,
+        batch_size_per_gpu=train_batch_size_per_gpu
+    ),
+)
+default_hooks = dict(
+    param_scheduler=dict(
+        lr_factor=lr_factor,
+        max_epochs=max_epochs
+    ),
+    checkpoint=dict(
+        interval=save_epoch_intervals,
+        max_keep_ckpts=max_keep_ckpts,
+        save_best=['coco/bbox_mAP', 'coco/bbox_mAP_50']
+    )
+)
+_base_.custom_hooks[1].switch_epoch = max_epochs - close_mosaic_epochs
+_base_.custom_hooks[1].switch_pipeline = train_pipeline_stage2
+val_evaluator = dict(
+    ann_file=data_root_val + ann_file_val,
+)
+test_evaluator = dict(
+    ann_file= data_root_test + ann_file_test,
+)
+train_cfg = dict(
+    max_epochs=max_epochs,
+    val_interval=save_epoch_intervals,
+    dynamic_intervals=[
+        ((max_epochs - close_mosaic_epochs),
+                        val_interval_stage2)
+    ]
+)
+visualizer = dict(
+    vis_backends=[
+        dict(type='LocalVisBackend'),
+        dict(type='TensorboardVisBackend')
+    ]
+)