Spaces:

himipo
/

gpu_symbol

Sleeping

App Files Files Community

himipo commited on Dec 3, 2025

Commit

63e9186

1 Parent(s): 11aa70b

first

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

configs/base/dataloader.yml +39 -0
configs/base/deim.yml +48 -0
configs/base/deimv2.yml +144 -0
configs/base/dfine_hgnetv2.yml +90 -0
configs/base/optimizer.yml +35 -0
configs/base/rt_deim.yml +49 -0
configs/base/rt_optimizer.yml +37 -0
configs/base/rtdetrv2_r50vd.yml +90 -0
configs/{coco_detection.yml → dataset/coco_detection.yml} +0 -0
configs/dataset/crowdhuman_detection.yml +41 -0
configs/dataset/custom_detection.yml +41 -0
configs/dataset/obj365_detection.yml +41 -0
configs/dataset/voc_detection.yml +40 -0
configs/deim_dfine/deim_hgnetv2_l_coco.yml +37 -0
configs/deim_dfine/deim_hgnetv2_m_coco.yml +39 -0
configs/deim_dfine/deim_hgnetv2_n_coco.yml +44 -0
configs/deim_dfine/deim_hgnetv2_s_coco.yml +39 -0
configs/deim_dfine/deim_hgnetv2_x_coco.yml +37 -0
configs/deim_dfine/dfine_hgnetv2_l_coco.yml +44 -0
configs/deim_dfine/dfine_hgnetv2_m_coco.yml +60 -0
configs/deim_dfine/dfine_hgnetv2_n_coco.yml +82 -0
configs/deim_dfine/dfine_hgnetv2_s_coco.yml +61 -0
configs/deim_dfine/dfine_hgnetv2_x_coco.yml +56 -0
configs/deim_dfine/object365/deim_hgnetv2_x_obj2coco_24e.yml +50 -0
configs/deim_dfine/object365/dfine_hgnetv2_x_obj2coco.yml +57 -0
configs/deim_rtdetrv2/deim_r101vd_60e_coco.yml +36 -0
configs/deim_rtdetrv2/deim_r18vd_120e_coco.yml +32 -0
configs/deim_rtdetrv2/deim_r34vd_120e_coco.yml +36 -0
configs/deim_rtdetrv2/deim_r50vd_60e_coco.yml +35 -0
configs/deim_rtdetrv2/deim_r50vd_m_60e_coco.yml +39 -0
configs/deim_rtdetrv2/rtdetrv2_r101vd_6x_coco.yml +40 -0
configs/deim_rtdetrv2/rtdetrv2_r18vd_120e_coco.yml +44 -0
configs/deim_rtdetrv2/rtdetrv2_r34vd_120e_coco.yml +57 -0
configs/deim_rtdetrv2/rtdetrv2_r50vd_6x_coco.yml +25 -0
configs/deim_rtdetrv2/rtdetrv2_r50vd_m_7x_coco.yml +43 -0
configs/deimv2/deimv2_dinov3_l_coco.yml +104 -0
configs/deimv2/deimv2_dinov3_m_coco.yml +107 -0
configs/{deimv2_floorplan.yaml → deimv2/deimv2_dinov3_s_coco.yml} +31 -112
configs/deimv2/deimv2_dinov3_x_coco.yml +94 -0
configs/deimv2/deimv2_hgnetv2_atto_coco.yml +123 -0
configs/deimv2/deimv2_hgnetv2_femto_coco.yml +128 -0
configs/deimv2/deimv2_hgnetv2_l_coco.yml +24 -0
configs/deimv2/deimv2_hgnetv2_m_coco.yml +72 -0
configs/deimv2/deimv2_hgnetv2_n_coco.yml +96 -0
configs/deimv2/deimv2_hgnetv2_pico_coco.yml +128 -0
configs/deimv2/deimv2_hgnetv2_s_coco.yml +76 -0
configs/deimv2/deimv2_hgnetv2_x_coco.yml +60 -0
configs/runtime.yml +20 -0
engine/__init__.py +13 -10
engine/backbone/vit_tiny.py +15 -40

configs/base/dataloader.yml ADDED Viewed

	@@ -0,0 +1,39 @@

+train_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [640, 640], }
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      policy:
+        name: stop_epoch
+        epoch: 72 # epoch in [71, ~) stop `ops`
+        ops: ['RandomPhotometricDistort', 'RandomZoomOut', 'RandomIoUCrop']  # Mosaicを除外
+  collate_fn:
+    type: BatchImageCollateFunction
+    base_size: 640
+    base_size_repeat: 3
+    stop_epoch: 72 # epoch in [72, ~) stop `multiscales`
+  shuffle: True
+  total_batch_size: 32 # total batch size equals to 32 (4 * 8)
+  num_workers: 4
+val_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Resize, size: [640, 640], }
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+  shuffle: False
+  total_batch_size: 64
+  num_workers: 4

configs/base/deim.yml ADDED Viewed

	@@ -0,0 +1,48 @@

+# Dense O2O
+train_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Mosaic, output_size: 320, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: True, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [640, 640], }
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      policy:
+        epoch: [4, 29, 50]   # list
+        ops: ['Mosaic', 'RandomPhotometricDistort', 'RandomZoomOut', 'RandomIoUCrop']
+      mosaic_prob: 0.5
+  collate_fn:
+    mixup_prob: 0.5
+    mixup_epochs: [4, 29]
+    stop_epoch: 50    # epoch in [72, ~) stop `multiscales`
+# Unfreezing BN
+HGNetv2:
+  freeze_at: -1         # 0 default
+  freeze_norm: False    # True default
+# Activation
+DFINETransformer:
+  activation: silu
+  mlp_act: silu
+## Our LR-Scheduler
+lrsheduler: flatcosine
+lr_gamma: 0.5
+warmup_iter: 2000
+flat_epoch: 29    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 8
+## Our Loss
+DEIMCriterion:
+  weight_dict: {loss_mal: 1, loss_bbox: 5, loss_giou: 2, loss_fgl: 0.15, loss_ddf: 1.5}
+  losses: ['mal', 'boxes', 'local']
+  gamma: 1.5

configs/base/deimv2.yml ADDED Viewed

	@@ -0,0 +1,144 @@

+task: detection
+model: DEIM
+criterion: DEIMCriterion
+postprocessor: PostProcessor
+use_focal_loss: True
+eval_spatial_size: [640, 640] # h w
+checkpoint_freq: 5    # save freq
+DEIM:
+  backbone: HGNetv2
+  encoder: HybridEncoder
+  decoder: DEIMTransformer
+HGNetv2:
+  name: 'B4'
+  return_idx: [1, 2, 3]
+  freeze_at: -1         # 0 default
+  freeze_stem_only: True
+  freeze_norm: False    # True default
+  pretrained: True
+  local_model_dir: ./weight/hgnetv2/
+HybridEncoder:
+  in_channels: [512, 1024, 2048]
+  feat_strides: [8, 16, 32]
+  # intra
+  hidden_dim: 256
+  use_encoder_idx: [2]
+  num_encoder_layers: 1
+  nhead: 8
+  dim_feedforward: 1024
+  dropout: 0.
+  enc_act: 'gelu'
+  # cross
+  expansion: 1.0
+  depth_mult: 1
+  act: 'silu'
+  # New
+  version: deim
+  csp_type: csp2
+  fuse_op: sum
+DEIMTransformer:
+  feat_channels: [256, 256, 256]
+  feat_strides: [8, 16, 32]
+  hidden_dim: 256
+  num_levels: 3
+  num_layers: 6
+  eval_idx: -1
+  num_queries: 300
+  num_denoising: 100
+  label_noise_ratio: 0.5
+  box_noise_scale: 1.0
+  reg_max: 32
+  reg_scale: 4
+  layer_scale: 1  # 2
+  num_points: [3, 6, 3] # [4, 4, 4] [3, 6, 3]
+  cross_attn_method: default # default, discrete
+  query_select_method: default # default, agnostic
+  # Act
+  activation: silu
+  mlp_act: silu
+  # FFN
+  dim_feedforward: 2048
+PostProcessor:
+  num_top_queries: 300
+## DEIM LR-Scheduler
+epoches: 58 # 72 + 2n  # Increase to search for the optimal ema
+lrsheduler: flatcosine
+lr_gamma: 0.5
+warmup_iter: 2000
+flat_epoch: 29    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 8
+## Dense O2O: Mosaic + Mixup + CopyBlend
+train_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Mosaic, output_size: 320, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: True, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [640, 640], }
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      # Mosaic options
+      policy:
+        epoch: [4, 29, 50]   # list
+        ops: ['Mosaic', 'RandomPhotometricDistort', 'RandomZoomOut', 'RandomIoUCrop']
+      mosaic_prob: 0.5
+  collate_fn:
+    # Mixup options
+    mixup_prob: 0.5
+    mixup_epochs: [4, 29]
+    stop_epoch: 50    # epoch in [72, ~) stop `multiscales`
+    # CopyBlend options
+    copyblend_prob: 0.5
+    copyblend_epochs: [4, 50]
+    area_threshold: 100
+    num_objects: 3
+    with_expand: True
+    expand_ratios: [0.1, 0.25]
+    ema_restart_decay: 0.9999
+    base_size_repeat: 4
+## DEIM Loss
+DEIMCriterion:
+  weight_dict: {loss_mal: 1, loss_bbox: 5, loss_giou: 2, loss_fgl: 0.15, loss_ddf: 1.5}
+  losses: ['mal', 'boxes', 'local']
+  gamma: 1.5
+  alpha: 0.75
+  reg_max: 32
+  matcher:
+    type: HungarianMatcher
+    weight_dict: {cost_class: 2, cost_bbox: 5, cost_giou: 2}
+    alpha: 0.25
+    gamma: 2.0
+    # change matcher
+    change_matcher: True
+    iou_order_alpha: 4.0
+    matcher_change_epoch: 45

configs/base/dfine_hgnetv2.yml ADDED Viewed

	@@ -0,0 +1,90 @@

+task: detection
+model: DEIM
+criterion: DEIMCriterion
+postprocessor: PostProcessor
+use_focal_loss: True
+eval_spatial_size: [640, 640] # h w
+checkpoint_freq: 4    # save freq
+DEIM:
+  backbone: HGNetv2
+  encoder: HybridEncoder
+  decoder: DFINETransformer
+# Add, default for step lr scheduler
+lrsheduler: flatcosine
+lr_gamma: 1
+warmup_iter: 500
+flat_epoch: 4000000
+no_aug_epoch: 0
+HGNetv2:
+  pretrained: True
+  local_model_dir: ../RT-DETR-main/D-FINE/weight/hgnetv2/
+HybridEncoder:
+  in_channels: [512, 1024, 2048]
+  feat_strides: [8, 16, 32]
+  # intra
+  hidden_dim: 256
+  use_encoder_idx: [2]
+  num_encoder_layers: 1
+  nhead: 8
+  dim_feedforward: 1024
+  dropout: 0.
+  enc_act: 'gelu'
+  # cross
+  expansion: 1.0
+  depth_mult: 1
+  act: 'silu'
+DFINETransformer:
+  feat_channels: [256, 256, 256]
+  feat_strides: [8, 16, 32]
+  hidden_dim: 256
+  num_levels: 3
+  num_layers: 6
+  eval_idx: -1
+  num_queries: 300
+  num_denoising: 100
+  label_noise_ratio: 0.5
+  box_noise_scale: 1.0
+  # NEW
+  reg_max: 32
+  reg_scale: 4
+  # Auxiliary decoder layers dimension scaling
+  # "eg. If num_layers: 6 eval_idx: -4,
+  # then layer 3, 4, 5 are auxiliary decoder layers."
+  layer_scale: 1  # 2
+  num_points: [3, 6, 3] # [4, 4, 4] [3, 6, 3]
+  cross_attn_method: default # default, discrete
+  query_select_method: default # default, agnostic
+PostProcessor:
+  num_top_queries: 300
+DEIMCriterion:
+  weight_dict: {loss_vfl: 1, loss_bbox: 5, loss_giou: 2, loss_fgl: 0.15, loss_ddf: 1.5}
+  losses: ['vfl', 'boxes', 'local']
+  alpha: 0.75
+  gamma: 2.0
+  reg_max: 32
+  matcher:
+    type: HungarianMatcher
+    weight_dict: {cost_class: 2, cost_bbox: 5, cost_giou: 2}
+    alpha: 0.25
+    gamma: 2.0

configs/base/optimizer.yml ADDED Viewed

	@@ -0,0 +1,35 @@

+use_amp: True
+use_ema: True
+ema:
+  type: ModelEMA
+  decay: 0.9999
+  warmups: 1000
+  start: 0
+epoches: 72
+clip_max_norm: 0.1
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm).*$'
+      lr: 0.0000125
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.00025
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+lr_scheduler:
+  type: MultiStepLR
+  milestones: [500]
+  gamma: 0.1
+lr_warmup_scheduler:
+  type: LinearWarmup
+  warmup_duration: 500

configs/base/rt_deim.yml ADDED Viewed

	@@ -0,0 +1,49 @@

+# Dense O2O
+train_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Mosaic, output_size: 320, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: False, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [640, 640], }
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      policy:
+        epoch: [4, 29, 50]   # list
+        ops: ['Mosaic', 'RandomPhotometricDistort', 'RandomZoomOut', 'RandomIoUCrop']
+      mosaic_prob: 0.5
+  collate_fn:
+    mixup_prob: 0.5
+    mixup_epochs: [4, 29]
+    stop_epoch: 50    # epoch in [72, ~) stop `multiscales`
+# Unfreezing BN
+PResNet:
+  freeze_at: -1     # default 0
+  freeze_norm: False   # default True
+# Activation
+RTDETRTransformerv2:
+  query_pos_method: as_reg
+  activation: silu
+  mlp_act: silu
+## Our LR-Scheduler
+lrsheduler: flatcosine
+lr_gamma: 0.5
+warmup_iter: 2000
+flat_epoch: 29    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 8
+## Our Loss
+DEIMCriterion:
+  weight_dict: {loss_mal: 1, loss_bbox: 5, loss_giou: 2}
+  losses: ['mal', 'boxes', ]
+  gamma: 1.5

configs/base/rt_optimizer.yml ADDED Viewed

	@@ -0,0 +1,37 @@

+use_amp: True
+use_ema: True
+ema:
+  type: ModelEMA
+  decay: 0.9999
+  warmups: 2000
+  start: 0
+epoches: 72
+clip_max_norm: 0.1
+train_dataloader:
+  total_batch_size: 16
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm).*$'
+      lr: 0.00001
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0001
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+lr_scheduler:
+  type: MultiStepLR
+  milestones: [1000]
+  gamma: 0.1
+lr_warmup_scheduler:
+  type: LinearWarmup
+  warmup_duration: 2000

configs/base/rtdetrv2_r50vd.yml ADDED Viewed

	@@ -0,0 +1,90 @@

+task: detection
+model: DEIM
+criterion: DEIMCriterion
+postprocessor: PostProcessor
+use_focal_loss: True
+eval_spatial_size: [640, 640] # h w
+checkpoint_freq: 4    # save freq
+DEIM:
+  backbone: PResNet
+  encoder: HybridEncoder
+  decoder: RTDETRTransformerv2
+# Add, default for step lr scheduler
+lrsheduler: flatcosine
+lr_gamma: 1
+warmup_iter: 2000
+flat_epoch: 4000000
+no_aug_epoch: 0
+PResNet:
+  depth: 50
+  variant: d
+  freeze_at: 0
+  return_idx: [1, 2, 3]
+  num_stages: 4
+  freeze_norm: True
+  pretrained: True
+  local_model_dir: ../RT-DETR-main/rtdetrv2_pytorch/INK1k/
+HybridEncoder:
+  in_channels: [512, 1024, 2048]
+  feat_strides: [8, 16, 32]
+  # intra
+  hidden_dim: 256
+  use_encoder_idx: [2]
+  num_encoder_layers: 1
+  nhead: 8
+  dim_feedforward: 1024
+  dropout: 0.
+  enc_act: 'gelu'
+  # cross
+  expansion: 1.0
+  depth_mult: 1
+  act: 'silu'
+  version: rt_detrv2    # pay attention to this
+RTDETRTransformerv2:
+  feat_channels: [256, 256, 256]
+  feat_strides: [8, 16, 32]
+  hidden_dim: 256
+  num_levels: 3
+  num_layers: 6
+  num_queries: 300
+  num_denoising: 100
+  label_noise_ratio: 0.5
+  box_noise_scale: 1.0    # 1.0 0.4
+  eval_idx: -1
+  # NEW, can be chosen
+  num_points: [4, 4, 4]     # [3,3,3] [2,2,2]
+  cross_attn_method: default  # default, discrete
+  query_select_method: default  # default, agnostic
+PostProcessor:
+  num_top_queries: 300
+DEIMCriterion:
+  weight_dict: {loss_vfl: 1, loss_bbox: 5, loss_giou: 2,}
+  losses: ['vfl', 'boxes', ]
+  alpha: 0.75
+  gamma: 2.0
+  use_uni_set: False
+  matcher:
+    type: HungarianMatcher
+    weight_dict: {cost_class: 2, cost_bbox: 5, cost_giou: 2}
+    alpha: 0.25
+    gamma: 2.0

configs/{coco_detection.yml → dataset/coco_detection.yml} RENAMED Viewed

File without changes

configs/dataset/crowdhuman_detection.yml ADDED Viewed

	@@ -0,0 +1,41 @@

+task: detection
+evaluator:
+  type: CocoEvaluator
+  iou_types: ['bbox', ]
+num_classes: 2 # your dataset classes
+remap_mscoco_category: False
+train_dataloader:
+  type: DataLoader
+  dataset:
+    type: CocoDetection
+    img_folder: /datassd/coco/crowd_human_coco/CrowdHuman_train
+    ann_file: /datassd/coco/crowd_human_coco/Chuman-train.json
+    return_masks: False
+    transforms:
+      type: Compose
+      ops: ~
+  shuffle: True
+  num_workers: 4
+  drop_last: True
+  collate_fn:
+    type: BatchImageCollateFunction
+val_dataloader:
+  type: DataLoader
+  dataset:
+    type: CocoDetection
+    img_folder: /datassd/coco/crowd_human_coco/CrowdHuman_val
+    ann_file: /datassd/coco/crowd_human_coco/Chuman-val.json
+    return_masks: False
+    transforms:
+      type: Compose
+      ops: ~
+  shuffle: False
+  num_workers: 4
+  drop_last: False
+  collate_fn:
+    type: BatchImageCollateFunction

configs/dataset/custom_detection.yml ADDED Viewed

	@@ -0,0 +1,41 @@

+task: detection
+evaluator:
+  type: CocoEvaluator
+  iou_types: ['bbox', ]
+num_classes: 777 # your dataset classes
+remap_mscoco_category: False
+train_dataloader:
+  type: DataLoader
+  dataset:
+    type: CocoDetection
+    img_folder: /data/yourdataset/train
+    ann_file: /data/yourdataset/train/train.json
+    return_masks: False
+    transforms:
+      type: Compose
+      ops: ~
+  shuffle: True
+  num_workers: 4
+  drop_last: True
+  collate_fn:
+    type: BatchImageCollateFunction
+val_dataloader:
+  type: DataLoader
+  dataset:
+    type: CocoDetection
+    img_folder: /data/yourdataset/val
+    ann_file: /data/yourdataset/val/val.json
+    return_masks: False
+    transforms:
+      type: Compose
+      ops: ~
+  shuffle: False
+  num_workers: 4
+  drop_last: False
+  collate_fn:
+    type: BatchImageCollateFunction

configs/dataset/obj365_detection.yml ADDED Viewed

	@@ -0,0 +1,41 @@

+task: detection
+evaluator:
+  type: CocoEvaluator
+  iou_types: ['bbox', ]
+num_classes: 366
+remap_mscoco_category: False
+train_dataloader:
+  type: DataLoader
+  dataset:
+    type: CocoDetection
+    img_folder: /home/Dataset/objects365/train
+    ann_file: /home/Dataset/objects365/train/new_zhiyuan_objv2_train_resized640.json
+    return_masks: False
+    transforms:
+      type: Compose
+      ops: ~
+  shuffle: True
+  num_workers: 4
+  drop_last: True
+  collate_fn:
+    type: BatchImageCollateFunction
+val_dataloader:
+  type: DataLoader
+  dataset:
+    type: CocoDetection
+    img_folder: /home/Dataset/objects365/val
+    ann_file: /home/Dataset/objects365/val/new_zhiyuan_objv2_val_resized640.json
+    return_masks: False
+    transforms:
+      type: Compose
+      ops: ~
+  shuffle: False
+  num_workers: 4
+  drop_last: False
+  collate_fn:
+    type: BatchImageCollateFunction

configs/dataset/voc_detection.yml ADDED Viewed

	@@ -0,0 +1,40 @@

+task: detection
+evaluator:
+  type: CocoEvaluator
+  iou_types: ['bbox', ]
+num_classes: 20
+train_dataloader:
+  type: DataLoader
+  dataset:
+    type: VOCDetection
+    root: ./dataset/voc/
+    ann_file: trainval.txt
+    label_file: label_list.txt
+    transforms:
+      type: Compose
+      ops: ~
+  shuffle: True
+  num_workers: 4
+  drop_last: True
+  collate_fn:
+    type: BatchImageCollateFunction
+val_dataloader:
+  type: DataLoader
+  dataset:
+    type: VOCDetection
+    root: ./dataset/voc/
+    ann_file: test.txt
+    label_file: label_list.txt
+    transforms:
+      type: Compose
+      ops: ~
+  shuffle: False
+  num_workers: 4
+  drop_last: False
+  collate_fn:
+    type: BatchImageCollateFunction

configs/deim_dfine/deim_hgnetv2_l_coco.yml ADDED Viewed

	@@ -0,0 +1,37 @@

+__include__: [
+  './dfine_hgnetv2_l_coco.yml',
+  '../base/deim.yml'
+]
+output_dir: ./outputs/deim_hgnetv2_l_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.000025
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0005
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+# Increase to search for the optimal ema
+epoches: 58 # 72 + 2n
+## Our LR-Scheduler
+flat_epoch: 29    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 8
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 29, 50]   # list
+  collate_fn:
+    mixup_epochs: [4, 29]
+    stop_epoch: 50

configs/deim_dfine/deim_hgnetv2_m_coco.yml ADDED Viewed

	@@ -0,0 +1,39 @@

+__include__: [
+  './dfine_hgnetv2_m_coco.yml',
+  '../base/deim.yml'
+]
+output_dir: ./outputs/deim_hgnetv2_m_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*bn).*$'
+      lr: 0.00004
+    -
+      params: '^(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0004
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 102 # 120 + 4n
+## Our LR-Scheduler
+flat_epoch: 49    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 12
+## Our DataAug
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 49, 90]   # list
+  collate_fn:
+    mixup_epochs: [4, 49]
+    stop_epoch: 90

configs/deim_dfine/deim_hgnetv2_n_coco.yml ADDED Viewed

	@@ -0,0 +1,44 @@

+__include__: [
+  './dfine_hgnetv2_n_coco.yml',
+  '../base/deim.yml'
+]
+output_dir: ./deim_outputs/deim_hgnetv2_n_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0004
+    -
+      params: '^(?=.*backbone)(?=.*norm|bn).*$'
+      lr: 0.0004
+      weight_decay: 0.
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0008
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 160 # 148 + 12
+## Our LR-Scheduler
+flat_epoch: 7800    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 12
+lr_gamma: 1.0
+## Our DataAug
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 78, 148]   # list
+  collate_fn:
+    mixup_epochs: [4, 78]
+    stop_epoch: 148
+    base_size_repeat: ~

configs/deim_dfine/deim_hgnetv2_s_coco.yml ADDED Viewed

	@@ -0,0 +1,39 @@

+__include__: [
+  './dfine_hgnetv2_s_coco.yml',
+  '../base/deim.yml'
+]
+output_dir: ./outputs/deim_hgnetv2_s_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*bn).*$'
+      lr: 0.0002
+    -
+      params: '^(?=.*(?:norm|bn)).*$'     # except bias
+      weight_decay: 0.
+  lr: 0.0004
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 132 # 120 + 4n
+## Our LR-Scheduler
+flat_epoch: 64    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 12
+## Our DataAug
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 64, 120]   # list
+  collate_fn:
+    mixup_epochs: [4, 64]
+    stop_epoch: 120

configs/deim_dfine/deim_hgnetv2_x_coco.yml ADDED Viewed

	@@ -0,0 +1,37 @@

+__include__: [
+  './dfine_hgnetv2_x_coco.yml',
+  '../base/deim.yml'
+]
+output_dir: ./outputs/deim_hgnetv2_x_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.000005
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0005
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+# Increase to search for the optimal ema
+epoches: 58 # 72 + 2n
+## Our LR-Scheduler
+flat_epoch: 29    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 8
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 29, 50]   # list
+  collate_fn:
+    mixup_epochs: [4, 29]
+    stop_epoch: 50

configs/deim_dfine/dfine_hgnetv2_l_coco.yml ADDED Viewed

	@@ -0,0 +1,44 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/dfine_hgnetv2.yml',
+]
+output_dir: ./outputs/dfine_hgnetv2_l_coco
+HGNetv2:
+  name: 'B4'
+  return_idx: [1, 2, 3]
+  freeze_stem_only: True
+  freeze_at: 0
+  freeze_norm: True
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0000125
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.00025
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+# Increase to search for the optimal ema
+epoches: 80 # 72 + 2n
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: 72
+  collate_fn:
+    stop_epoch: 72
+    ema_restart_decay: 0.9999
+    base_size_repeat: 4

configs/deim_dfine/dfine_hgnetv2_m_coco.yml ADDED Viewed

	@@ -0,0 +1,60 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/dfine_hgnetv2.yml',
+]
+output_dir: ./output/dfine_hgnetv2_m_coco
+DEIM:
+  backbone: HGNetv2
+HGNetv2:
+  name: 'B2'
+  return_idx: [1, 2, 3]
+  freeze_at: -1
+  freeze_norm: False
+  use_lab: True
+DFINETransformer:
+  num_layers: 4  # 5 6
+  eval_idx: -1  # -2 -3
+HybridEncoder:
+  in_channels: [384, 768, 1536]
+  hidden_dim: 256
+  depth_mult: 0.67
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.00002
+    -
+      params: '^(?=.*backbone)(?=.*norm|bn).*$'
+      lr: 0.00002
+      weight_decay: 0.
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0002
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 132 # 120 + 4n
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: 120
+  collate_fn:
+    stop_epoch: 120
+    ema_restart_decay: 0.9999
+    base_size_repeat: 6

configs/deim_dfine/dfine_hgnetv2_n_coco.yml ADDED Viewed

	@@ -0,0 +1,82 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/dfine_hgnetv2.yml',
+]
+output_dir: ./output/dfine_hgnetv2_n_coco
+DEIM:
+  backbone: HGNetv2
+HGNetv2:
+  name: 'B0'
+  return_idx: [2, 3]
+  freeze_at: -1
+  freeze_norm: False
+  use_lab: True
+HybridEncoder:
+  in_channels: [512, 1024]
+  feat_strides: [16, 32]
+  # intra
+  hidden_dim: 128
+  use_encoder_idx: [1]
+  dim_feedforward: 512
+  # cross
+  expansion: 0.34
+  depth_mult: 0.5
+DFINETransformer:
+  feat_channels: [128, 128]
+  feat_strides: [16, 32]
+  hidden_dim: 128
+  dim_feedforward: 512
+  num_levels: 2
+  num_layers: 3
+  eval_idx: -1
+  num_points: [6, 6]
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0004
+    -
+      params: '^(?=.*backbone)(?=.*norm|bn).*$'
+      lr: 0.0004
+      weight_decay: 0.
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0008
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 160 # 148 + 4n
+train_dataloader:
+  total_batch_size: 128
+  dataset:
+    transforms:
+      policy:
+        epoch: 148
+  collate_fn:
+    stop_epoch: 148
+    ema_restart_decay: 0.9999
+    base_size_repeat: ~
+val_dataloader:
+  total_batch_size: 256

configs/deim_dfine/dfine_hgnetv2_s_coco.yml ADDED Viewed

	@@ -0,0 +1,61 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/dfine_hgnetv2.yml',
+]
+output_dir: ./output/dfine_hgnetv2_s_coco
+DEIM:
+  backbone: HGNetv2
+HGNetv2:
+  name: 'B0'
+  return_idx: [1, 2, 3]
+  freeze_at: -1
+  freeze_norm: False
+  use_lab: True
+DFINETransformer:
+  num_layers: 3  # 4 5 6
+  eval_idx: -1  # -2 -3 -4
+HybridEncoder:
+  in_channels: [256, 512, 1024]
+  hidden_dim: 256
+  depth_mult: 0.34
+  expansion: 0.5
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0001
+    -
+      params: '^(?=.*backbone)(?=.*norm|bn).*$'
+      lr: 0.0001
+      weight_decay: 0.
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0002
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 132 # 120 + 4n
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: 120
+  collate_fn:
+    stop_epoch: 120
+    ema_restart_decay: 0.9999
+    base_size_repeat: 20

configs/deim_dfine/dfine_hgnetv2_x_coco.yml ADDED Viewed

	@@ -0,0 +1,56 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/dfine_hgnetv2.yml',
+]
+output_dir: ./output/dfine_hgnetv2_x_coco
+DEIM:
+  backbone: HGNetv2
+HGNetv2:
+  name: 'B5'
+  return_idx: [1, 2, 3]
+  freeze_stem_only: True
+  freeze_at: 0
+  freeze_norm: True
+HybridEncoder:
+  # intra
+  hidden_dim: 384
+  dim_feedforward: 2048
+DFINETransformer:
+  feat_channels: [384, 384, 384]
+  reg_scale: 8
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0000025
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.00025
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+# Increase to search for the optimal ema
+epoches: 80 # 72 + 2n
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: 72
+  collate_fn:
+    stop_epoch: 72
+    ema_restart_decay: 0.9998
+    base_size_repeat: 3

configs/deim_dfine/object365/deim_hgnetv2_x_obj2coco_24e.yml ADDED Viewed

	@@ -0,0 +1,50 @@

+__include__: [
+  './dfine_hgnetv2_x_obj2coco.yml',
+  '../../base/deim.yml'
+]
+output_dir: ./deim_outputs/deim_hgnetv2_x_obj2coco_24e
+HGNetv2:
+  freeze_at: 0         # 0 default
+  freeze_norm: True    # True default
+# Activation
+DFINETransformer:
+  activation: relu
+  mlp_act: relu
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0000025
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.00025
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+# Increase to search for the optimal ema
+epoches: 24 # 72 + 2n
+## Our LR-Scheduler
+lrsheduler: flatcosine
+lr_gamma: 1
+warmup_iter: 0    # 0
+flat_epoch: 12000    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 4
+## Our DataAug
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [2, 12, 20]   # list
+  collate_fn:
+    mixup_epochs: [2, 12]
+    stop_epoch: 20

configs/deim_dfine/object365/dfine_hgnetv2_x_obj2coco.yml ADDED Viewed

	@@ -0,0 +1,57 @@

+__include__: [
+  '../../dataset/coco_detection.yml',
+  '../../runtime.yml',
+  '../../base/dataloader.yml',
+  '../../base/optimizer.yml',
+  '../../base/dfine_hgnetv2.yml',
+]
+output_dir: ./outputs/dfine_hgnetv2_x_obj2coco
+HGNetv2:
+  name: 'B5'
+  return_idx: [1, 2, 3]
+  freeze_stem_only: True
+  freeze_at: 0
+  freeze_norm: True
+HybridEncoder:
+  # intra
+  hidden_dim: 384
+  dim_feedforward: 2048
+DFINETransformer:
+  feat_channels: [384, 384, 384]
+  reg_scale: 8
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0000025
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.00025
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+epoches: 36 # Early stop
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: 30
+  collate_fn:
+    stop_epoch: 30
+    ema_restart_decay: 0.9999
+    base_size_repeat: 3
+ema:
+  warmups: 0
+lr_warmup_scheduler:
+  warmup_duration: 0

configs/deim_rtdetrv2/deim_r101vd_60e_coco.yml ADDED Viewed

	@@ -0,0 +1,36 @@

+__include__: [
+  './rtdetrv2_r101vd_6x_coco.yml',
+  '../base/rt_deim.yml',
+]
+output_dir: ./outputs/deim_rtdetrv2_r101vd_60e_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm).*$'
+      lr: 0.000002
+    -
+      params: '^(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0002
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# change part
+epoches: 60
+flat_epoch: 34    # 4 + 60 / 2
+no_aug_epoch: 2
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 34, 58]   # list
+  collate_fn:
+    mixup_epochs: [4, 34]
+    stop_epoch: 58

configs/deim_rtdetrv2/deim_r18vd_120e_coco.yml ADDED Viewed

	@@ -0,0 +1,32 @@

+__include__: [
+  './rtdetrv2_r18vd_120e_coco.yml',
+  '../base/rt_deim.yml',
+]
+output_dir: ./output/deim_rtdetrv2_r18vd_120e_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0002
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# change part
+epoches: 120
+flat_epoch: 64    # 4 + 120 / 2
+no_aug_epoch: 3
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 64, 117]   # list
+  collate_fn:
+    mixup_epochs: [4, 64]
+    stop_epoch: 117

configs/deim_rtdetrv2/deim_r34vd_120e_coco.yml ADDED Viewed

	@@ -0,0 +1,36 @@

+__include__: [
+  './rtdetrv2_r34vd_120e_coco.yml',
+  '../base/rt_deim.yml',
+]
+output_dir: ./outputs/deim_rtdetrv2_r34vd_120e_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm).*$'
+      lr: 0.0001
+    -
+      params: '^(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0002
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# change part
+epoches: 120
+flat_epoch: 64
+no_aug_epoch: 3
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 64, 117]   # list
+  collate_fn:
+    mixup_epochs: [4, 64]
+    stop_epoch: 117

configs/deim_rtdetrv2/deim_r50vd_60e_coco.yml ADDED Viewed

	@@ -0,0 +1,35 @@

+__include__: [
+  './rtdetrv2_r50vd_6x_coco.yml',
+  '../base/rt_deim.yml',
+]
+output_dir: ./outputs/deim_rtdetrv2_r50vd_60e_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm).*$'
+      lr: 0.00002
+    -
+      params: '^(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0002
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# change part
+epoches: 60
+flat_epoch: 34    # 4 + 60 / 2
+no_aug_epoch: 2
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 34, 58]   # list
+  collate_fn:
+    mixup_epochs: [4, 34]
+    stop_epoch: 58

configs/deim_rtdetrv2/deim_r50vd_m_60e_coco.yml ADDED Viewed

	@@ -0,0 +1,39 @@

+__include__: [
+  './rtdetrv2_r50vd_m_7x_coco.yml',
+  '../base/rt_deim.yml',
+]
+output_dir: ./outputs/deim_rtdetrv2_r50vd_m_60e_coco
+RTDETRTransformerv2:
+  eval_idx: 2 # use 3th decoder layer to eval
+  num_layers: 3
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm).*$'
+      lr: 0.00002
+    -
+      params: '^(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0002
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# change part
+epoches: 60
+flat_epoch: 34    # 4 + 60 / 2
+no_aug_epoch: 2
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 34, 58]   # list
+  collate_fn:
+    mixup_epochs: [4, 34]
+    stop_epoch: 58

configs/deim_rtdetrv2/rtdetrv2_r101vd_6x_coco.yml ADDED Viewed

	@@ -0,0 +1,40 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/rt_optimizer.yml',
+  '../base/rtdetrv2_r50vd.yml',
+]
+output_dir: ./outputs/rtdetrv2_r101vd_6x_coco
+PResNet:
+  depth: 101
+HybridEncoder:
+  # intra
+  hidden_dim: 384
+  dim_feedforward: 2048
+RTDETRTransformerv2:
+  feat_channels: [384, 384, 384]
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.000001
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'    # only encoder + decoder norm
+      weight_decay: 0.
+  lr: 0.0001
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001

configs/deim_rtdetrv2/rtdetrv2_r18vd_120e_coco.yml ADDED Viewed

	@@ -0,0 +1,44 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/rt_optimizer.yml',
+  '../base/rtdetrv2_r50vd.yml',
+]
+output_dir: ./output/rtdetrv2_r18vd_120e_coco
+PResNet:
+  depth: 18
+  freeze_at: -1
+  freeze_norm: False
+  pretrained: True
+HybridEncoder:
+  in_channels: [128, 256, 512]
+  hidden_dim: 256
+  expansion: 0.5
+RTDETRTransformerv2:
+  num_layers: 3
+epoches: 120
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: 117
+  collate_fn:
+    scales: ~

configs/deim_rtdetrv2/rtdetrv2_r34vd_120e_coco.yml ADDED Viewed

	@@ -0,0 +1,57 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/rt_optimizer.yml',
+  '../base/rtdetrv2_r50vd.yml',
+]
+output_dir: ./outputs/rtdetrv2_r34vd_120e_coco
+PResNet:
+  depth: 34
+  freeze_at: -1
+  freeze_norm: False
+  pretrained: True
+HybridEncoder:
+  in_channels: [128, 256, 512]
+  hidden_dim: 256
+  expansion: 0.5
+RTDETRTransformerv2:
+  num_layers: 4
+epoches: 120
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.00005
+    -
+      params: '^(?=.*backbone)(?=.*norm|bn).*$'
+      lr: 0.00005
+      weight_decay: 0.
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0001
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: 117
+  collate_fn:
+    stop_epoch: 117

configs/deim_rtdetrv2/rtdetrv2_r50vd_6x_coco.yml ADDED Viewed

	@@ -0,0 +1,25 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/rt_optimizer.yml',
+  '../base/rtdetrv2_r50vd.yml',
+]
+output_dir: ./outputs/rtdetrv2_r50vd_6x_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm).*$'
+      lr: 0.00001
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0001
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001

configs/deim_rtdetrv2/rtdetrv2_r50vd_m_7x_coco.yml ADDED Viewed

	@@ -0,0 +1,43 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/rt_optimizer.yml',
+  '../base/rtdetrv2_r50vd.yml',
+]
+output_dir: ./outputs/rtdetrv2_r50vd_m_6x_coco
+HybridEncoder:
+  expansion: 0.5
+RTDETRTransformerv2:
+  eval_idx: 2 # use 3th decoder layer to eval
+epoches: 84
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm).*$'
+      lr: 0.00001
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0001
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: 81
+  collate_fn:
+    stop_epoch: 81

configs/deimv2/deimv2_dinov3_l_coco.yml ADDED Viewed

	@@ -0,0 +1,104 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml',
+]
+output_dir: ./outputs/deimv2_dinov3_l_coco
+DEIM:
+  backbone: DINOv3STAs
+DINOv3STAs:
+  name: dinov3_vits16
+  weights_path: ./ckpts/dinov3_vits16_pretrain_lvd1689m-08c60483.pth
+  interaction_indexes: [5,8,11]   # only need the [1/8, 1/16, 1/32]
+  finetune: True
+  conv_inplane: 32
+  hidden_dim: 224
+HybridEncoder:
+  in_channels: [224, 224, 224]
+  hidden_dim: 224
+  dim_feedforward: 896
+DEIMTransformer:
+  feat_channels: [224, 224, 224]
+  hidden_dim: 224
+  num_layers: 4
+  eval_idx: -1
+  dim_feedforward: 1792
+## DEIM LR-Scheduler
+epoches: 68 # 72 + 2n  # Increase to search for the optimal ema
+lrsheduler: flatcosine
+lr_gamma: 0.5
+warmup_iter: 2000
+flat_epoch: 34    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 8
+## Optimizer
+optimizer:
+  type: AdamW
+  params:
+    -
+      # except norm/bn/bias in self.dinov3
+      params: '^(?=.*.dinov3)(?!.*(?:norm|bn|bias)).*$'
+      lr: 0.0000125
+    -
+      # including norm/bn/bias in self.dinov3
+      params: '^(?=.*.dinov3)(?=.*(?:norm|bn|bias)).*$'
+      lr: 0.0000125
+      weight_decay: 0.
+    -
+      # including norm/bn/bias except for the self.dinov3
+      params: '^(?=.*(?:sta|encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0005
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+## Dense O2O: Mosaic + Mixup + CopyBlend
+train_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Mosaic, output_size: 320, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: True, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [640, 640], }
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      policy:
+        epoch: [4, 34, 60]   # list
+  collate_fn:
+    mixup_epochs: [4, 34]
+    stop_epoch: 60
+    copyblend_epochs: [4, 60]
+    base_size_repeat: 3
+val_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Resize, size: [640, 640], }
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}
+## DEIM Loss
+DEIMCriterion:
+  matcher:
+    matcher_change_epoch: 50

configs/deimv2/deimv2_dinov3_m_coco.yml ADDED Viewed

	@@ -0,0 +1,107 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml',
+]
+output_dir: ./outputs/deimv2_dinov3_m_coco
+DEIM:
+  backbone: DINOv3STAs
+DINOv3STAs:
+  name: vit_tinyplus
+  embed_dim: 256
+  weights_path: ./ckpts/vittplus_distill.pt
+  interaction_indexes: [3, 7, 11]   # only need the [1/8, 1/16, 1/32]
+  num_heads: 4
+HybridEncoder:
+  in_channels: [256, 256, 256]
+  depth_mult: 1
+  expansion: 0.67
+  hidden_dim: 256
+  dim_feedforward: 512
+DEIMTransformer:
+  feat_channels: [256, 256, 256]
+  hidden_dim: 256
+  dim_feedforward: 512
+  num_layers: 4  # 4 5 6
+  eval_idx: -1  # -2 -3 -4
+optimizer:
+  type: AdamW
+  params:
+    -
+      # except norm/bn/bias in self.dinov3
+      params: '^(?=.*.dinov3)(?!.*(?:norm|bn|bias)).*$'
+      lr: 0.000025
+    -
+      # including norm/bn/bias in self.dinov3
+      params: '^(?=.*.dinov3)(?=.*(?:norm|bn|bias)).*$'
+      lr: 0.000025
+      weight_decay: 0.
+    -
+      # including norm/bn/bias except for the self.dinov3
+      params: '^(?=.*(?:sta|encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0005
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+epoches: 102 # 120 + 4n
+## Our LR-Scheduler
+flat_epoch: 49    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 12
+## Our DataAug
+train_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Mosaic, output_size: 320, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: True, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [640, 640], }
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      policy:
+        epoch: [4, 49, 90]   # list
+  collate_fn:
+    mixup_prob: 0.5
+    ema_restart_decay: 0.9999
+    base_size_repeat: 6
+    mixup_epochs: [4, 49]
+    stop_epoch: 90
+    copyblend_epochs: [4, 90]
+val_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Resize, size: [640, 640], }
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}
+DEIMCriterion:
+  matcher:
+    # new matcher
+    change_matcher: True
+    iou_order_alpha: 4.0
+    matcher_change_epoch: 80

configs/{deimv2_floorplan.yaml → deimv2/deimv2_dinov3_s_coco.yml} RENAMED Viewed

@@ -1,58 +1,21 @@
 __include__: [
-  'coco_detection.yml',  # 同じディレクトリ内
-  # '../configs/runtime.yml',  # 存在しない場合はコメントアウト
-  # '../configs/base/dataloader.yml',  # 存在しない場合はコメントアウト
-  # '../configs/base/optimizer.yml',
-  # '../configs/base/deimv2.yml',  # 存在しない場合はコメントアウト
 ]
-output_dir: ./outputs/deimv2_floorplan
-# モデル定義（engine/core.pyが参照する）
-model:
-  type: DEIM
-  backbone:
-    type: DINOv3STAs
-    name: vit_tiny
-    weights_path: ./ckpts/vitt_distill.pt
-    interaction_indexes: [3, 7, 11]
-    num_heads: 3
-    embed_dim: 192
-  encoder:
-    type: HybridEncoder
-    in_channels: [192, 192, 192]
-    depth_mult: 0.67
-    expansion: 0.34
-    hidden_dim: 192
-    dim_feedforward: 512
-  decoder:
-    type: DEIMTransformer
-    feat_channels: [192, 192, 192]
-    hidden_dim: 192
-    dim_feedforward: 512
-    num_layers: 4  # 4 5 6
-    eval_idx: -1  # -2 -3 -4
-# ポストプロセッサ定義（engine/core.pyが参照する）
-postprocessor:
-  type: PostProcessor
-# 互換性のため残す（必要に応じて）
 DEIM:
   backbone: DINOv3STAs
-Model:
-  num_classes: 16
-  class_names: ["kanki", "kanki_shikaku", "kanki_regisuta", "window1", "window2", "door1", "door2", "bathtub1", "konro1", "sink1", "toilet1", "kasaikeihou1", "kasaikeihou2", "houi1", "houi2", "houi3"]
-# eval_spatial_sizeを明示的に設定（推論時の画像サイズ）
-eval_spatial_size: [640, 640]
 DINOv3STAs:
   name: vit_tiny
   embed_dim: 192
-  weights_path: ./ckpts/vitt_distill.pt   # 事前学習を使わないなら行ごと削除
-  interaction_indexes: [3, 7, 11]
   num_heads: 3
 HybridEncoder:
@@ -93,97 +56,53 @@ optimizer:
   betas: [0.9, 0.999]
   weight_decay: 0.0001
-epoches: 400
-flat_epoch: 196
-no_aug_epoch: 46
-# optimizer.ymlから必要な設定を手動で追加
-use_amp: True
-use_ema: True
-ema:
-  type: ModelEMA
-  decay: 0.9999
-  warmups: 1000
-  start: 0
-clip_max_norm: 0.1
-sync_bn: True
-find_unused_parameters: True
-# 学習率スケジューリング設定
-# CosineAnnealingLR専用設定（パラメータを最小限に）
-lr_scheduler:
-  type: CosineAnnealingLR
-  T_max: 400
-  eta_min: 0.0000001
-lr_warmup_scheduler:
-  type: LinearWarmup
-  warmup_duration: 1000
-# 既存のflatcosineスケジューラーを無効化
-lrsheduler: null
-# deimv2.ymlのflatcosineスケジューラーも無効化
-lr_gamma: null
-warmup_iter: null
-flat_epoch: null
-no_aug_epoch: null
-# ---- Data Aug / Loader（図面＋640px＋OOM対策）----
 train_dataloader:
-  dataset:
     transforms:
       ops:
-        # 640でのピーク抑制のためMosaicは確率低め/スケール幅絞り
-        - {type: Mosaic, output_size: 640, rotation_range: 8, translation_range: [0.1, 0.1],
-           scaling_range: [0.9, 1.1], probability: 0.2, fill_value: 0, use_cache: True,
-           max_cached_images: 20, random_pop: True}
-        - {type: RandomPhotometricDistort, p: 0.2}
         - {type: RandomZoomOut, fill: 0}
-        - {type: RandomIoUCrop, p: 0.6}
         - {type: SanitizeBoundingBoxes, min_size: 1}
         - {type: RandomHorizontalFlip}
-        - {type: RandomRotation, degrees: [90, 180, 270, 360], p: 0.5}  # 修正版で有効化
-        - {type: Resize, size: [640, 640]}   # ★ 640固定
         - {type: SanitizeBoundingBoxes, min_size: 1}
         - {type: ConvertPILImage, dtype: 'float32', scale: True}
         - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}
         - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
       policy:
-        epoch: [8, 192, 352]   # 400epochに合わせて調整
-  collate_fn:      # 線画での崩れ防止＆メモリ抑制
     ema_restart_decay: 0.9999
-    base_size_repeat: 1       # ★ 1にして実質マルチスケールOFF
-    stop_epoch: 352           # 400epochの90%程度で停止
-    copyblend_epochs: [8, 352]   # 400epochに合わせて調整
-  # 実装が読む場合のみ有効。読まない場合は base/dataloader.yml ��起動引数で制御
-  total_batch_size: 4          # ★ まずは 4 に落として安定化
 val_dataloader:
   dataset:
     transforms:
       ops:
-        - {type: Resize, size: [640, 640]}
         - {type: ConvertPILImage, dtype: 'float32', scale: True}
         - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}
-  total_batch_size: 6       # 評価も同程度に
 DEIMCriterion:
   matcher:
     change_matcher: True
     iou_order_alpha: 4.0
-    matcher_change_epoch: 300
-  gamma: 1.5
-  alpha: 0.75
-  weight_dict: {loss_mal: 1, loss_bbox: 5, loss_giou: 2, loss_fgl: 0.15, loss_ddf: 1.5}
-  losses: [mal, boxes, local]
-# 出力設定 - 最後のエポック必ず保存
-output:
-  save_last: true
-  save_interval: 5    # チェックポイント保存間隔
-  checkpoint_freq: 5   # 学習ループでの保存頻度

 __include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml',
 ]
+output_dir: ./outputs/deimv2_dinov3_s_coco
 DEIM:
   backbone: DINOv3STAs
 DINOv3STAs:
   name: vit_tiny
   embed_dim: 192
+  weights_path: ./ckpts/vitt_distill.pt
+  interaction_indexes: [3, 7, 11]   # only need the [1/8, 1/16, 1/32]
   num_heads: 3
 HybridEncoder:
   betas: [0.9, 0.999]
   weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 132 # 120 + 4n
+## Our LR-Scheduler
+flat_epoch: 64    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 12
+## Our DataAug
 train_dataloader:
+  dataset:
     transforms:
       ops:
+        - {type: Mosaic, output_size: 320, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: True, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
         - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
         - {type: SanitizeBoundingBoxes, min_size: 1}
         - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [640, 640], }
         - {type: SanitizeBoundingBoxes, min_size: 1}
         - {type: ConvertPILImage, dtype: 'float32', scale: True}
         - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}
         - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
       policy:
+        epoch: [4, 64, 120]   # list
+  collate_fn:
+    base_size: 640
+    mixup_prob: 0.5
     ema_restart_decay: 0.9999
+    base_size_repeat: 20
+    mixup_epochs: [4, 64]
+    stop_epoch: 120
+    copyblend_epochs: [4, 120]
 val_dataloader:
   dataset:
     transforms:
       ops:
+        - {type: Resize, size: [640, 640], }
         - {type: ConvertPILImage, dtype: 'float32', scale: True}
         - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}
 DEIMCriterion:
   matcher:
+    # change matcher
     change_matcher: True
     iou_order_alpha: 4.0
+    matcher_change_epoch: 100

configs/deimv2/deimv2_dinov3_x_coco.yml ADDED Viewed

	@@ -0,0 +1,94 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml',
+]
+output_dir: ./outputs/deimv2_dinov3_x_coco
+DEIM:
+  backbone: DINOv3STAs
+DINOv3STAs:
+  name: dinov3_vits16plus
+  weights_path: ./ckpts/dinov3_vits16plus_pretrain_lvd1689m-4057cbaa.pth
+  interaction_indexes: [5,8,11]   # only need the [1/8, 1/16, 1/32]
+  finetune: True
+  conv_inplane: 64
+  hidden_dim: 256
+HybridEncoder:
+  in_channels: [256, 256, 256]
+  # intra
+  hidden_dim: 256
+  dim_feedforward: 1024
+  # cross
+  expansion: 1.25
+  depth_mult: 1.37
+DEIMTransformer:
+  num_layers: 6
+  eval_idx: -1
+  feat_channels: [256, 256, 256]
+  # reg_scale: 8
+  hidden_dim: 256
+  dim_feedforward: 2048
+optimizer:
+  type: AdamW
+  params:
+    -
+      # except norm/bn/bias in self.dinov3
+      params: '^(?=.*.dinov3)(?!.*(?:norm|bn|bias)).*$'
+      lr: 0.00001
+    -
+      # including norm/bn/bias in self.dinov3
+      params: '^(?=.*.dinov3)(?=.*(?:norm|bn|bias)).*$'
+      lr: 0.00001
+      weight_decay: 0.
+    -
+      # including norm/bn/bias except for the self.dinov3
+      params: '^(?=.*(?:sta|encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0005
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+## Dense O2O: Mosaic + Mixup + CopyBlend
+train_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Mosaic, output_size: 320, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: True, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [640, 640], }
+        - {type: SanitizeBoundingBoxes, min_size: 1}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      policy:
+        epoch: [4, 29, 50]   # list
+  collate_fn:
+    mixup_epochs: [4, 29]
+    stop_epoch: 50
+    copyblend_epochs: [4, 50]
+    base_size_repeat: 3
+val_dataloader:
+  dataset:
+    transforms:
+      ops:
+        - {type: Resize, size: [640, 640], }
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: Normalize, mean: [0.485, 0.456, 0.406], std: [0.229, 0.224, 0.225]}

configs/deimv2/deimv2_hgnetv2_atto_coco.yml ADDED Viewed

	@@ -0,0 +1,123 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml',
+]
+output_dir: ./outputs/deimv2_hgnetv2_atto_coco
+DEIM:
+  encoder: LiteEncoder
+HGNetv2:
+  name: 'Atto'
+  return_idx: [2]
+  freeze_at: -1
+  freeze_norm: False
+  use_lab: True
+LiteEncoder:
+  in_channels: [256]
+  feat_strides: [16]
+  # intra
+  hidden_dim: 64
+  # cross
+  expansion: 0.34
+  depth_mult: 0.5
+  act: 'silu'
+DEIMTransformer:
+  feat_channels: [64, 64]
+  feat_strides: [16, 32]
+  hidden_dim: 64
+  num_levels: 2
+  num_points: [4, 2]
+  num_layers: 3
+  eval_idx: -1
+  num_queries: 100
+  # FFN
+  dim_feedforward: 160
+  # New options for DEIMv2
+  share_bbox_head: True
+  use_gateway: False
+# Increase to search for the optimal ema
+epoches: 500 # 468 + 32
+## Our LR-Scheduler
+warmup_iter: 4000
+flat_epoch: 250    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 32
+lr_gamma: 0.5
+optimizer:
+  type: AdamW
+  params:
+    - params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.001
+    - params: '^(?=.*backbone)(?=.*norm|bn).*$'
+      lr: 0.001
+      weight_decay: 0.
+    - params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'    # except bias
+      weight_decay: 0.
+  lr: 0.002
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+eval_spatial_size: [320, 320]
+train_dataloader:
+  total_batch_size: 128
+  dataset:
+    transforms:
+      ops:
+        - {type: Mosaic, output_size: 160, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: True, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 12}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [320, 320], }
+        - {type: SanitizeBoundingBoxes, min_size: 12}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      policy:
+        epoch: [4, 250, 400]   # list
+      mosaic_prob: 0.3
+  collate_fn:
+    mixup_prob: 0.0
+    mixup_epochs: [40000, 15000]
+    copyblend_prob: 0.0
+    copyblend_epochs: [40000, 15000]
+    stop_epoch: 468 # 468 + 32
+    ema_restart_decay: 0.9999
+    base_size: 320
+    base_size_repeat: ~
+val_dataloader:
+  total_batch_size: 256
+  dataset:
+    transforms:
+      ops:
+        - {type: Resize, size: [320, 320], }
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+  shuffle: False
+  num_workers: 16
+DEIMCriterion:
+  losses: ['mal', 'boxes']    # , 'local'
+  use_uni_set: False
+  matcher:
+    matcher_change_epoch: 450   # FIX This

configs/deimv2/deimv2_hgnetv2_femto_coco.yml ADDED Viewed

	@@ -0,0 +1,128 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml',
+]
+output_dir: ./outputs/deimv2_hgnetv2_femto_coco
+DEIM:
+  encoder: LiteEncoder
+HGNetv2:
+  name: 'Femto'
+  return_idx: [2]
+  freeze_at: -1
+  freeze_norm: False
+  use_lab: True
+LiteEncoder:
+  in_channels: [512]
+  feat_strides: [16]
+  # intra
+  hidden_dim: 96
+  # cross
+  expansion: 0.34
+  depth_mult: 0.5
+  act: 'silu'
+DEIMTransformer:
+  feat_channels: [96, 96]
+  feat_strides: [16, 32]
+  hidden_dim: 96
+  num_levels: 2
+  num_points: [4, 2]
+  num_layers: 3
+  eval_idx: -1
+  num_queries: 150
+  # FFN
+  dim_feedforward: 256
+  # New options for DEIMv2
+  share_bbox_head: True
+  use_gateway: False
+# Increase to search for the optimal ema
+epoches: 500 # 468 + 32
+## Our LR-Scheduler
+warmup_iter: 4000
+flat_epoch: 250    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 32
+lr_gamma: 0.5
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0008
+    -
+      params: '^(?=.*backbone)(?=.*norm|bn).*$'
+      lr: 0.0008
+      weight_decay: 0.
+    -  # not opt
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0016
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+eval_spatial_size: [416, 416]
+train_dataloader:
+  total_batch_size: 128
+  dataset:
+    transforms:
+      ops:
+        - {type: Mosaic, output_size: 208, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: True, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 10}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [416, 416], }
+        - {type: SanitizeBoundingBoxes, min_size: 10}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      policy:
+        epoch: [4, 250, 400]   # list
+        ops: ['Mosaic', 'RandomPhotometricDistort', 'RandomZoomOut', 'RandomIoUCrop']
+      mosaic_prob: 0.5
+  collate_fn:
+    mixup_prob: 0.0
+    mixup_epochs: [40000, 15000]
+    copyblend_prob: 0.0
+    copyblend_epochs: [40000, 15000]
+    stop_epoch: 468 # 468 + 32
+    ema_restart_decay: 0.9999
+    base_size: 416
+    base_size_repeat: ~
+val_dataloader:
+  total_batch_size: 256
+  dataset:
+    transforms:
+      ops:
+        - {type: Resize, size: [416, 416], }
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+  shuffle: False
+  num_workers: 16
+DEIMCriterion:
+  losses: ['mal', 'boxes']    # , 'local'
+  use_uni_set: False
+  matcher:
+    matcher_change_epoch: 450   # FIX This

configs/deimv2/deimv2_hgnetv2_l_coco.yml ADDED Viewed

	@@ -0,0 +1,24 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml'
+]
+output_dir: ./outputs/deimv2_hgnetv2_l_coco
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.000025
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0005
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125

configs/deimv2/deimv2_hgnetv2_m_coco.yml ADDED Viewed

	@@ -0,0 +1,72 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml'
+]
+output_dir: ./outputs/deimv2_hgnetv2_m_coco
+HGNetv2:
+  name: 'B2'
+  return_idx: [1, 2, 3]
+  freeze_at: -1
+  freeze_norm: False
+  use_lab: True
+HybridEncoder:
+  in_channels: [384, 768, 1536]
+  hidden_dim: 256
+  depth_mult: 0.67
+DEIMTransformer:
+  num_layers: 4  # 5 6
+  eval_idx: -1  # -2 -3
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*bn).*$'
+      lr: 0.00004
+    -
+      params: '^(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0004
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 102 # 120 + 4n
+## Our LR-Scheduler
+flat_epoch: 49    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 12
+## Our DataAug
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 49, 90]   # list
+  collate_fn:
+    ema_restart_decay: 0.9999
+    base_size_repeat: 6
+    mixup_epochs: [4, 49]
+    stop_epoch: 90
+    copyblend_prob: 0.5
+    copyblend_epochs: [4, 90]
+    area_threshold: 100
+    num_objects: 3
+    with_expand: True
+    expand_ratios: [0.1, 0.25]
+DEIMCriterion:
+  matcher:
+    # new matcher
+    change_matcher: True
+    iou_order_alpha: 4.0
+    matcher_change_epoch: 80

configs/deimv2/deimv2_hgnetv2_n_coco.yml ADDED Viewed

	@@ -0,0 +1,96 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml'
+]
+output_dir: ./outputs/deimv2_hgnetv2_n_coco
+HGNetv2:
+  name: 'B0'
+  return_idx: [2, 3]
+  freeze_at: -1
+  freeze_norm: False
+  use_lab: True
+HybridEncoder:
+  in_channels: [512, 1024]
+  feat_strides: [16, 32]
+  # intra
+  hidden_dim: 128
+  use_encoder_idx: [1]
+  dim_feedforward: 512
+  # cross
+  expansion: 0.34
+  depth_mult: 0.5
+  version: 'dfine'
+DEIMTransformer:
+  feat_channels: [128, 128]
+  feat_strides: [16, 32]
+  hidden_dim: 128
+  num_levels: 2
+  num_points: [6, 6]
+  num_layers: 3
+  eval_idx: -1
+  # FFN
+  dim_feedforward: 512
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0004
+    -
+      params: '^(?=.*backbone)(?=.*norm|bn).*$'
+      lr: 0.0004
+      weight_decay: 0.
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0008
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 160 # 148 + 12
+## Our LR-Scheduler
+flat_epoch: 7800    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 12
+lr_gamma: 1.0
+## Our DataAug
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 78, 148]   # list
+  collate_fn:
+    ema_restart_decay: 0.9999
+    base_size_repeat: ~
+    mixup_epochs: [4, 78]
+    stop_epoch: 148
+    copyblend_prob: 0.4
+    copyblend_epochs: [4, 78]   # CP half
+    area_threshold: 100
+    num_objects: 3
+    with_expand: True
+    expand_ratios: [0.1, 0.25]
+DEIMCriterion:
+  matcher:
+    # new matcher
+    change_matcher: True
+    iou_order_alpha: 4.0
+    matcher_change_epoch: 136

configs/deimv2/deimv2_hgnetv2_pico_coco.yml ADDED Viewed

	@@ -0,0 +1,128 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml',
+]
+output_dir: ./outputs/deimv2_hgnetv2_pico_coco
+DEIM:
+  encoder: LiteEncoder
+  decoder: DEIMTransformer
+HGNetv2:
+  name: 'Pico'
+  return_idx: [2]
+  freeze_at: -1
+  freeze_norm: False
+  use_lab: True
+LiteEncoder:
+  in_channels: [512]
+  feat_strides: [16]
+  # intra
+  hidden_dim: 112
+  # cross
+  expansion: 0.34
+  depth_mult: 0.5
+  act: 'silu'
+DEIMTransformer:
+  feat_channels: [112, 112]
+  feat_strides: [16, 32]
+  hidden_dim: 112
+  num_levels: 2
+  num_points: [4, 2]
+  num_layers: 3
+  eval_idx: -1
+  num_queries: 200
+  # FFN
+  dim_feedforward: 320
+  # New options for DEIMv2
+  share_bbox_head: True
+  use_gateway: False
+# Increase to search for the optimal ema
+epoches: 500 # 468 + 32
+## Our LR-Scheduler
+warmup_iter: 4000
+flat_epoch: 250    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 32
+lr_gamma: 0.5
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.0008
+    -
+      params: '^(?=.*backbone)(?=.*norm|bn).*$'
+      lr: 0.0008
+      weight_decay: 0.
+    -  # not opt
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn|bias)).*$'
+      weight_decay: 0.
+  lr: 0.0016
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+eval_spatial_size: [640, 640]
+train_dataloader:
+  total_batch_size: 128
+  dataset:
+    transforms:
+      ops:
+        - {type: Mosaic, output_size: 320, rotation_range: 10, translation_range: [0.1, 0.1], scaling_range: [0.5, 1.5],
+           probability: 1.0, fill_value: 0, use_cache: True, max_cached_images: 50, random_pop: True}
+        - {type: RandomPhotometricDistort, p: 0.5}
+        - {type: RandomZoomOut, fill: 0}
+        - {type: RandomIoUCrop, p: 0.8}
+        - {type: SanitizeBoundingBoxes, min_size: 8}
+        - {type: RandomHorizontalFlip}
+        - {type: Resize, size: [640, 640], }
+        - {type: SanitizeBoundingBoxes, min_size: 8}
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+        - {type: ConvertBoxes, fmt: 'cxcywh', normalize: True}
+      policy:
+        epoch: [4, 250, 400]   # list
+        ops: ['Mosaic', 'RandomPhotometricDistort', 'RandomZoomOut', 'RandomIoUCrop']
+      mosaic_prob: 0.5
+  collate_fn:
+    mixup_prob: 0.0
+    mixup_epochs: [40000, 15000]
+    copyblend_prob: 0.0
+    copyblend_epochs: [40000, 15000]
+    stop_epoch: 468 # 468 + 32
+    ema_restart_decay: 0.9999
+    base_size: 640
+    base_size_repeat: ~
+val_dataloader:
+  total_batch_size: 256
+  dataset:
+    transforms:
+      ops:
+        - {type: Resize, size: [640, 640], }
+        - {type: ConvertPILImage, dtype: 'float32', scale: True}
+  shuffle: False
+  num_workers: 16
+DEIMCriterion:
+  losses: ['mal', 'boxes']    # , 'local'
+  use_uni_set: False
+  matcher:
+    matcher_change_epoch: 450   # FIX This

configs/deimv2/deimv2_hgnetv2_s_coco.yml ADDED Viewed

	@@ -0,0 +1,76 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml'
+]
+output_dir: ./outputs/deimv2_hgnetv2_s_coco
+HGNetv2:
+  name: 'B0'
+  return_idx: [1, 2, 3]
+  freeze_at: -1
+  freeze_norm: False
+  use_lab: True
+HybridEncoder:
+  in_channels: [256, 512, 1024]
+  hidden_dim: 256
+  depth_mult: 0.34
+  expansion: 0.5
+  version: 'dfine'
+DEIMTransformer:
+  num_layers: 3  # 4 5 6
+  eval_idx: -1  # -2 -3 -4
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*bn).*$'
+      lr: 0.0002
+    -
+      params: '^(?=.*(?:norm|bn)).*$'     # except bias
+      weight_decay: 0.
+  lr: 0.0004
+  betas: [0.9, 0.999]
+  weight_decay: 0.0001
+# Increase to search for the optimal ema
+epoches: 132 # 120 + 4n
+## Our LR-Scheduler
+flat_epoch: 64    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 12
+## Our DataAug
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 64, 120]   # list
+  collate_fn:
+    ema_restart_decay: 0.9999
+    base_size_repeat: 20
+    mixup_epochs: [4, 64]
+    stop_epoch: 120
+    copyblend_prob: 0.5
+    # copyblend_epochs: [4, 64]   # from v11 to v12: copy-paste continues only half epochs
+    copyblend_epochs: [4, 120]
+    area_threshold: 100
+    num_objects: 3
+    with_expand: True
+    expand_ratios: [0.1, 0.25]
+DEIMCriterion:
+  matcher:
+    # new matcher
+    change_matcher: True
+    iou_order_alpha: 4.0
+    matcher_change_epoch: 100

configs/deimv2/deimv2_hgnetv2_x_coco.yml ADDED Viewed

	@@ -0,0 +1,60 @@

+__include__: [
+  '../dataset/coco_detection.yml',
+  '../runtime.yml',
+  '../base/dataloader.yml',
+  '../base/optimizer.yml',
+  '../base/deimv2.yml'
+]
+output_dir: ./outputs/deimv2_hgnetv2_x_coco
+HGNetv2:
+  name: 'B5'
+  return_idx: [1, 2, 3]
+  freeze_stem_only: True
+  freeze_at: 0
+  freeze_norm: True
+HybridEncoder:
+  # intra
+  hidden_dim: 384
+  dim_feedforward: 2048
+DEIMTransformer:
+  feat_channels: [384, 384, 384]    # [256, 256, 256]
+  reg_scale: 8   # 4
+  # FFN
+  dim_feedforward: 2048
+optimizer:
+  type: AdamW
+  params:
+    -
+      params: '^(?=.*backbone)(?!.*norm|bn).*$'
+      lr: 0.000005
+    -
+      params: '^(?=.*(?:encoder|decoder))(?=.*(?:norm|bn)).*$'
+      weight_decay: 0.
+  lr: 0.0005
+  betas: [0.9, 0.999]
+  weight_decay: 0.000125
+# Increase to search for the optimal ema
+epoches: 58 # 72 + 2n
+## Our LR-Scheduler
+flat_epoch: 29    # 4 + epoch // 2, e.g., 40 = 4 + 72 / 2
+no_aug_epoch: 8
+train_dataloader:
+  dataset:
+    transforms:
+      policy:
+        epoch: [4, 29, 50]   # list
+  collate_fn:
+    ema_restart_decay: 0.9998
+    base_size_repeat: 3

configs/runtime.yml ADDED Viewed

	@@ -0,0 +1,20 @@

+print_freq: 500
+output_dir: './logs'
+checkpoint_freq: 12
+sync_bn: True
+find_unused_parameters: True
+use_amp: False
+scaler:
+  type: GradScaler
+  enabled: True
+use_ema: False
+ema:
+  type: ModelEMA
+  decay: 0.9999
+  warmups: 1000

engine/__init__.py CHANGED Viewed

@@ -1,13 +1,16 @@
-# engine package
-# モジュールをインポートしてレジストリに登録
-from . import backbone
-from . import deim
-from . import data
-from . import optim
-from . import misc
-# YAMLConfigをエクスポート
-from .core.yaml_config import YAMLConfig
-__all__ = ['YAMLConfig']

+"""
+Copyright (c) 2024 The DEIM Authors. All Rights Reserved.
+"""
+# for register purpose
+from . import optim
+from . import data
+from . import deim
+from .backbone import *
+from .backbone import (
+    get_activation,
+    FrozenBatchNorm2d,
+    freeze_batch_norm2d,
+)

engine/backbone/vit_tiny.py CHANGED Viewed

@@ -6,14 +6,16 @@ Modified from DINOv3 (https://github.com/facebookresearch/dinov3)
 Modified from https://huggingface.co/spaces/Hila/RobustViT/blob/main/ViT/ViT_new.py
 """
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from functools import partial
-import math
-import numpy as np
-import warnings
-from typing import Literal, Tuple
 class RopePositionEmbedding(nn.Module):
@@ -180,11 +182,11 @@ class Attention(nn.Module):
         head_dim = dim // num_heads
         self.scale = head_dim ** -0.5
         self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
-        self.attn_drop = nn.Dropout(attn_drop)
         self.proj = nn.Linear(dim, dim)
         self.proj_drop = nn.Dropout(proj_drop)
-    def forward(self, x, rope_sincos=None, register_hook=False):
         B, N, C = x.shape
         qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
         q, k, v = qkv.unbind(0)
@@ -200,13 +202,8 @@ class Attention(nn.Module):
             q = torch.cat((q_cls, q_patch), dim=2)
             k = torch.cat((k_cls, k_patch), dim=2)
-        attn = (q @ k.transpose(-2, -1)) * self.scale
-        attn = attn.softmax(dim=-1)
-        attn = self.attn_drop(attn)
-        if register_hook: attn.register_hook(self.save_attn_gradients)
-        x = (attn @ v).transpose(1, 2).reshape(B, N, C)
         x = self.proj(x)
         x = self.proj_drop(x)
         return x
@@ -220,8 +217,8 @@ class Block(nn.Module):
         self.norm2 = norm_layer(dim)
         self.mlp = Mlp(in_features=dim, hidden_features=int(dim * mlp_ratio), act_layer=act_layer, drop=drop)
-    def forward(self, x, rope_sincos=None, register_hook=False):
-        attn_output = self.attn(self.norm1(x), rope_sincos=rope_sincos, register_hook=register_hook)
         x = x + self.drop_path(attn_output)
         x = x + self.drop_path(self.mlp(self.norm2(x)))
         return x
@@ -260,7 +257,6 @@ class VisionTransformer(nn.Module):
             normalize_coords="separate", shift_coords=None, jitter_coords=None,
             rescale_coords=None, dtype=None, device=None,
         )
         self.init_weights()
     def init_weights(self):
@@ -286,28 +282,7 @@ class VisionTransformer(nn.Module):
     def feature_dim(self):
         return self.embed_dim
-    def forward_features(self, x, register_hook=False):
-        B, C, H, W = x.shape
-        x_embed = self._model.patch_embed(x)
-        cls_token = self._model.cls_token.expand(x_embed.shape[0], -1, -1)
-        x = torch.cat((cls_token, x_embed), dim=1)
-        patch_grid_h = H // self.patch_size
-        patch_grid_w = W // self.patch_size
-        rope_sincos = self._model.rope_embed(H=patch_grid_h, W=patch_grid_w)
-        for blk in self._model.blocks:
-            x = blk(x, rope_sincos=rope_sincos, register_hook=register_hook)
-        x = x[:, 1:, :]
-        return {'features': x.transpose(1, 2).reshape(-1, self.embed_dim, patch_grid_h, patch_grid_w)}
-    def forward_pool(self, x):
-        features = self.forward_features(x)['features']
-        pooled_features = features.mean(dim=[2, 3])
-        return {'pooled_features': pooled_features}
-    def forward(self, x, register_hook=False):
         outs = []
         B, C, H, W = x.shape
@@ -320,7 +295,7 @@ class VisionTransformer(nn.Module):
         rope_sincos = self._model.rope_embed(H=patch_grid_h, W=patch_grid_w)
         for i, blk in enumerate(self._model.blocks):
-            x = blk(x, rope_sincos=rope_sincos, register_hook=register_hook)
             if i in self.return_layers:
                 outs.append((x[:, 1:], x[:, 0]))
         return outs

 Modified from https://huggingface.co/spaces/Hila/RobustViT/blob/main/ViT/ViT_new.py
 """
+import math
+import warnings
+from functools import partial
+from typing import List, Literal, Tuple
+import numpy as np
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
+from torch import nn
 class RopePositionEmbedding(nn.Module):
         head_dim = dim // num_heads
         self.scale = head_dim ** -0.5
         self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
+        self.attn_drop = attn_drop
         self.proj = nn.Linear(dim, dim)
         self.proj_drop = nn.Dropout(proj_drop)
+    def forward(self, x, rope_sincos=None):
         B, N, C = x.shape
         qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
         q, k, v = qkv.unbind(0)
             q = torch.cat((q_cls, q_patch), dim=2)
             k = torch.cat((k_cls, k_patch), dim=2)
+        x = torch.nn.functional.scaled_dot_product_attention(q, k, v, dropout_p=self.attn_drop)
+        x = x.transpose(1, 2).reshape([B, N, C])
         x = self.proj(x)
         x = self.proj_drop(x)
         return x
         self.norm2 = norm_layer(dim)
         self.mlp = Mlp(in_features=dim, hidden_features=int(dim * mlp_ratio), act_layer=act_layer, drop=drop)
+    def forward(self, x, rope_sincos=None):
+        attn_output = self.attn(self.norm1(x), rope_sincos=rope_sincos)
         x = x + self.drop_path(attn_output)
         x = x + self.drop_path(self.mlp(self.norm2(x)))
         return x
             normalize_coords="separate", shift_coords=None, jitter_coords=None,
             rescale_coords=None, dtype=None, device=None,
         )
         self.init_weights()
     def init_weights(self):
     def feature_dim(self):
         return self.embed_dim
+    def forward(self, x):
         outs = []
         B, C, H, W = x.shape
         rope_sincos = self._model.rope_embed(H=patch_grid_h, W=patch_grid_w)
         for i, blk in enumerate(self._model.blocks):
+            x = blk(x, rope_sincos=rope_sincos)
             if i in self.return_layers:
                 outs.append((x[:, 1:], x[:, 0]))
         return outs