GreatBird commited on Sep 22, 2025

Commit

af20dda

verified ·

1 Parent(s): 13f9718

Upload 125 files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +26 -0
README.md +26 -0
ckpts/ViTP_InternVL_1B_med.safetensors +3 -0
ckpts/ViTP_InternVL_1B_rs.safetensors +3 -0
ckpts/ViTP_ViT_L_300M_med.safetensors +3 -0
ckpts/ViTP_ViT_L_300M_rs.safetensors +3 -0
ckpts/reduct_pth.py +31 -0
ckpts/vitp_amos_upernet_9060/20250905_141251.log +0 -0
ckpts/vitp_amos_upernet_9060/best_mDice.pth +3 -0
ckpts/vitp_amos_upernet_9060/eval_single_scale_20250906_143650.json +54 -0
ckpts/vitp_amos_upernet_9060/vitp_amos_upernet.py +218 -0
ckpts/vitp_brats_upernet_7211/20250907_130222.log +0 -0
ckpts/vitp_brats_upernet_7211/best_mDice.pth +3 -0
ckpts/vitp_brats_upernet_7211/eval_single_scale_20250908_054047.json +18 -0
ckpts/vitp_brats_upernet_7211/vitp_brats_upernet.py +201 -0
ckpts/vitp_convid_upernet_9155/20250902_103001.log +0 -0
ckpts/vitp_convid_upernet_9155/best_mDice.pth +3 -0
ckpts/vitp_convid_upernet_9155/eval_single_scale_20250902_233031.json +15 -0
ckpts/vitp_convid_upernet_9155/vitp_convid_upernet.py +207 -0
ckpts/vitp_dior_cascade_rcnn_7960/20250730_223238.log +0 -0
ckpts/vitp_dior_cascade_rcnn_7960/20250730_223238.log.json +19 -0
ckpts/vitp_dior_cascade_rcnn_7960/epoch_12.pth +3 -0
ckpts/vitp_dior_cascade_rcnn_7960/vitp_dior_cascade_rcnn.py +308 -0
ckpts/vitp_diorr_orcnn_7508/20250918_082138.log +0 -0
ckpts/vitp_diorr_orcnn_7508/epoch_12.pth +3 -0
ckpts/vitp_diorr_orcnn_7508/vitp_diorr_orcnn.py +311 -0
ckpts/vitp_dotav2_orcnn_6073/20250726_012424.log +0 -0
ckpts/vitp_dotav2_orcnn_6073/20250726_012424.log.json +61 -0
ckpts/vitp_dotav2_orcnn_6073/epoch_12.pth +3 -0
ckpts/vitp_dotav2_orcnn_6073/vitp_dotav2_orcnn.py +302 -0
ckpts/vitp_isaid_upernet_7114/20250803_154801.log +0 -0
ckpts/vitp_isaid_upernet_7114/20250803_154801.log.json +0 -0
ckpts/vitp_isaid_upernet_7114/ViTP_isaid_upernet.py +192 -0
ckpts/vitp_isaid_upernet_7114/eval_20250921_141413.json +40 -0
ckpts/vitp_isaid_upernet_7114/iter_80000.pth +3 -0
ckpts/vitp_levir_upernet_7268/20250919_030132/20250919_030132.log +0 -0
ckpts/vitp_levir_upernet_7268/20250919_030132/20250921_105914.log +485 -0
ckpts/vitp_levir_upernet_7268/iter_80000.pth +3 -0
ckpts/vitp_levir_upernet_7268/upernet_internvit_adp_levir.py +344 -0
ckpts/vitp_loveda_upernet_5428/20250807_180314.log +0 -0
ckpts/vitp_loveda_upernet_5428/20250807_180314.log.json +0 -0
ckpts/vitp_loveda_upernet_5428/iter_80000.pth +3 -0
ckpts/vitp_loveda_upernet_5428/vitp_loveda_upernet.py +208 -0
ckpts/vitp_rsar_orcnn_7231/20250716_042910.log +0 -0
ckpts/vitp_rsar_orcnn_7231/20250716_042910.log.json +241 -0
ckpts/vitp_rsar_orcnn_7231/epoch_12.pth +3 -0
ckpts/vitp_rsar_orcnn_7231/vitp_rsar_orcnn.py +300 -0
ckpts/vitp_s2looking_upernet_6989/20250915_140502/20250915_140502.log +0 -0
ckpts/vitp_s2looking_upernet_6989/best_checkpoint.pth.pth +3 -0
ckpts/vitp_s2looking_upernet_6989/vitp_s2looking_upernet.py +360 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,29 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/general_ann/docvqa_train_10k.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/general_ann/dvqa_train_200k.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/general_ann/fit_rs_vqa_100k.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/general_ann/geoqa+.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/general_ann/sharegpt4v_instruct_gpt4-vision_cap100k.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/general_ann/sharegpt4v_mix665k_cap23k_coco-ap9k_lcs3k_sam9k_div2k_novg.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/general_ann/synthdog_en.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/general_ann/vqa_rgb_rsvqahr_train_instruct_100k.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/medical_ann/huatuo_oa.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/medical_ann/huatuo_vqa.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/medical_ann/omnimedvqa.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/medical_ann/pmc_oa.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/medical_ann/pmc_vqa.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/medical_ann/quilt_1m.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/medical_ann/quilt_instruct_107k.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/medical_ann/quilt_instruct_complex_abductive.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/medical_ann/quilt_instruct_conv_desc.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/rs_ann/caption_cd_rgb_LevirCCcaptions.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/rs_ann/caption_GAIA_trainval_instruct.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/rs_ann/cls_rgb_Million-AID_CoT.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/rs_ann/cls_rgb_Million-AID.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/rs_ann/cls_rgb_NWPU-RESISC45.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/rs_ann/geochat_train.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/rs_ann/vqa_rgb_LRBEN.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/rs_ann/vqa_rgb_SAMRS.jsonl filter=lfs diff=lfs merge=lfs -text
+pretrain_data/annotations/rs_ann/vrsbench_train.jsonl filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,26 @@

+# Introduction
+Modern computer vision is converging on a closed loop in which perception, reasoning and generation mutually reinforce each other. However, this loop remains incomplete: the top-down influence of high-level reasoning on the foundational learning of low-level perceptual features is not yet underexplored. This paper addresses this gap by proposing a new paradigm for pretraining foundation models in downstream domains. We introduce **V**isual **i**ns**T**ruction **P**retraining (**ViTP**), a novel approach that directly leverages reasoning to enhance perception. ViTP embeds a Vision Transformer (ViT) backbone within a Vision-Language Model and pretrains it end-to-end using a rich corpus of visual instruction data curated from target downstream domains. ViTP is powered by our proposed Visual Robustness Learning (VRL), which compels the ViT to learn robust and domain-relevant features from a sparse set of visual tokens. Extensive experiments on 16 challenging remote sensing and medical imaging benchmarks demonstrate that ViTP establishes new state-of-the-art performance across a diverse range of downstream tasks. The code is available at [GitHub](github.com/zcablii/ViTP).
+ ----
+![image/png](docs/loop_radar.png)
+The synergistic relationship between perception, generation, and reasoning in modern CV. Our proposed ViTP forges a novel link from high-level reasoning to low-level perception, a previously underexplored connection. ViTP sets new SOTA performance across a diverse range of downstream tasks in medical imaging and remote sensing.
+----
+![image/png](docs/vitp.png)
+A conceptual illustration of the ViTP framework. A ViT backbone is embedded within a large VLM and then pretrained with domain-specific instruction following objective and Visual Robustness Learning (VRL). This process instils high-level semantic understanding into the ViT. The resulting weights are then used to initialize models for various downstream perception tasks.
+----
+```bibtex
+@misc{tongyidr,
+  author={Tongyi DeepResearch Team},
+  title={Tongyi-DeepResearch},
+  year={2025},
+  howpublished={\url{https://github.com/Alibaba-NLP/DeepResearch}}
+}
+```

ckpts/ViTP_InternVL_1B_med.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a33c06bd3a146de19b80f5bf3289fd1b7fd899fdde06cb94d39e9c7911e0dd7
+size 1876463472

ckpts/ViTP_InternVL_1B_rs.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb63f06371476844f0813d80043e83c2cdd2bfa7878c6221b37b909be2ea10a9
+size 1876463472

ckpts/ViTP_ViT_L_300M_med.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df83fabd968ac7d46280beebbee65b93bddd74860a04a09f97f58004f9dfa21e
+size 617029872

ckpts/ViTP_ViT_L_300M_rs.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d44154814bfdaf4bd5b36e7ab1a657bd065c643b3c969c135e43b8bad7589661
+size 617029872

ckpts/reduct_pth.py ADDED Viewed

	@@ -0,0 +1,31 @@

+import torch
+import glob
+# find out all pth files in the directory
+pth_files = glob.glob('**/*.pth', recursive=True)
+# loop over all pth files and overwirte them without the 'optimizer' key
+def overwirte_pth(pth_file):
+    print(f'Overwriting {pth_file}')
+    checkpoint = torch.load(pth_file)
+    # print the keys and values of the checkpoint
+    print(checkpoint.keys()) # dict_keys(['meta', 'state_dict', 'optimizer'])
+    if 'optimizer' not in checkpoint.keys():
+        print('No optimizer found in the checkpoint')
+        return
+    # delete the 'optimizer' key
+    del checkpoint['optimizer']
+    if 'param_schedulers' in checkpoint.keys(): del checkpoint['param_schedulers']
+    if 'message_hub' in checkpoint.keys(): del checkpoint['message_hub']
+    # overwirte the checkpoint without the 'optimizer' key
+    torch.save(checkpoint, pth_file)
+    print(f'Overwritten {pth_file} successfully')
+for pth_file in pth_files:
+    overwirte_pth(pth_file)

ckpts/vitp_amos_upernet_9060/20250905_141251.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_amos_upernet_9060/best_mDice.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a10e012e5c2a3bb778ec98226b0e6f73aef298a12c8832add221f1e7ddb8f3e9
+size 1809417685

ckpts/vitp_amos_upernet_9060/eval_single_scale_20250906_143650.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+    "config": "./configs/internvit_new/upernet_internvit_adp_160e_amos_2022_yx.py",
+    "metric": {
+        "aAcc": 0.9494,
+        "mIoU": 0.8334999999999999,
+        "mAcc": 0.8970999999999999,
+        "mDice": 0.9059999999999999,
+        "IoU.spleen": 0.8662000274658204,
+        "IoU.kidney_right": 0.93,
+        "IoU.kidney_left": 0.915,
+        "IoU.gallbladder": 0.7836000061035157,
+        "IoU.esophagus": 0.7613999938964844,
+        "IoU.liver": 0.9440000152587891,
+        "IoU.stomach": 0.8463999938964843,
+        "IoU.aorta": 0.9205999755859375,
+        "IoU.inferior_vena_cava": 0.7538999938964843,
+        "IoU.pancreas": 0.8077999877929688,
+        "IoU.adrenal_gland_right": 0.6437000274658203,
+        "IoU.adrenal_gland_left": 0.7948000335693359,
+        "IoU.duodenum": 0.6570999908447266,
+        "IoU.bladder": 0.960999984741211,
+        "IoU.prostate_and_uterus": 0.9162999725341797,
+        "Acc.spleen": 0.892300033569336,
+        "Acc.kidney_right": 0.9648999786376953,
+        "Acc.kidney_left": 0.9219000244140625,
+        "Acc.gallbladder": 0.844800033569336,
+        "Acc.esophagus": 0.9162999725341797,
+        "Acc.liver": 0.9783999633789062,
+        "Acc.stomach": 0.9309999847412109,
+        "Acc.aorta": 0.949800033569336,
+        "Acc.inferior_vena_cava": 0.8994000244140625,
+        "Acc.pancreas": 0.9041999816894531,
+        "Acc.adrenal_gland_right": 0.7270999908447265,
+        "Acc.adrenal_gland_left": 0.8395999908447266,
+        "Acc.duodenum": 0.7452999877929688,
+        "Acc.bladder": 0.9805000305175782,
+        "Acc.prostate_and_uterus": 0.9605000305175782,
+        "Dice.spleen": 0.9283000183105469,
+        "Dice.kidney_right": 0.9637000274658203,
+        "Dice.kidney_left": 0.9555999755859375,
+        "Dice.gallbladder": 0.8787000274658203,
+        "Dice.esophagus": 0.8645999908447266,
+        "Dice.liver": 0.9712000274658203,
+        "Dice.stomach": 0.9168000030517578,
+        "Dice.aorta": 0.9587000274658203,
+        "Dice.inferior_vena_cava": 0.8597000122070313,
+        "Dice.pancreas": 0.8937000274658203,
+        "Dice.adrenal_gland_right": 0.7831999969482422,
+        "Dice.adrenal_gland_left": 0.8856999969482422,
+        "Dice.duodenum": 0.7930999755859375,
+        "Dice.bladder": 0.9801000213623047,
+        "Dice.prostate_and_uterus": 0.9562999725341796
+    }
+}

ckpts/vitp_amos_upernet_9060/vitp_amos_upernet.py ADDED Viewed

	@@ -0,0 +1,218 @@

+dataset_type = 'AMOS2022Dataset'
+data_root = '/root/data-fs/twh/dataset/AMOS2022/mmseg_data'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+crop_size = (512, 512)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', reduce_zero_label=True),
+    dict(type='Resize', img_scale=(512, 512), ratio_range=(0.5, 2.0)),
+    dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+    dict(type='RandomFlip', prob=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=255),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(512, 512),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=255),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=2,
+    workers_per_gpu=4,
+    train=dict(
+        type='AMOS2022Dataset',
+        data_root='/root/data-fs/twh/dataset/AMOS2022/mmseg_data',
+        img_dir='img_dir/train',
+        ann_dir='ann_dir/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', reduce_zero_label=True),
+            dict(type='Resize', img_scale=(512, 512), ratio_range=(0.5, 2.0)),
+            dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+            dict(type='RandomFlip', prob=0.5),
+            dict(type='PhotoMetricDistortion'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=255),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='AMOS2022Dataset',
+        data_root='/root/data-fs/twh/dataset/AMOS2022/mmseg_data',
+        img_dir='img_dir/val',
+        ann_dir='ann_dir/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(512, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(
+                        type='Pad',
+                        size=(512, 512),
+                        pad_val=0,
+                        seg_pad_val=255),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='AMOS2022Dataset',
+        data_root='/root/data-fs/twh/dataset/AMOS2022/mmseg_data',
+        img_dir='img_dir/test',
+        ann_dir='ann_dir/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(512, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(
+                        type='Pad',
+                        size=(512, 512),
+                        pad_val=0,
+                        seg_pad_val=255),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+log_config = dict(
+    interval=50,
+    hooks=[
+        dict(
+            type='MMSegWandbHook',
+            init_kwargs=dict(
+                project='ITAP_SEG', name='upernet_internvit_adp_160e_amos'),
+            interval=1,
+            num_eval_images=0)
+    ])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+bs = 2
+pretrained = 'pretrained/ViTP_ViT_L_300M_med.safetensors'
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=None,
+    backbone=dict(
+        type='InternViTAdapter',
+        pretrain_size=448,
+        img_size=512,
+        patch_size=16,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        mlp_ratio=4.0,
+        drop_path_rate=0.1,
+        init_values=0.1,
+        with_cp=True,
+        use_flash_attn=True,
+        qk_normalization=False,
+        layerscale_force_fp32=False,
+        with_fpn=False,
+        freeze_vit=False,
+        use_final_norm=True,
+        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        qkv_bias=True,
+        norm_type='layer_norm',
+        pretrained='pretrained/ViTP_ViT_L_300M_med.safetensors',
+        pretrained_type='full'),
+    decode_head=dict(
+        type='UPerHead',
+        in_index=[0, 1, 2, 3],
+        pool_scales=(1, 2, 3, 6),
+        dropout_ratio=0.1,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        num_classes=15,
+        channels=1024,
+        ignore_index=255,
+        in_channels=[1024, 1024, 1024, 1024],
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=1024,
+        in_index=2,
+        channels=1024,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=15,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='slide', crop_size=(512, 512), stride=(256, 256)))
+optimizer = dict(
+    type='AdamW',
+    lr=2e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.9))
+optimizer_config = dict()
+lr_config = dict(
+    policy='CosineAnnealing',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    min_lr=0.0)
+runner = dict(type='EpochBasedRunner', max_epochs=160)
+checkpoint_config = dict(interval=16, max_keep_ckpts=1)
+evaluation = dict(interval=16, metric=['mIoU', 'mDice'], save_best='mDice')
+fp16 = dict(loss_scale=dict(init_scale=512))
+randomness = dict(seed=3407)
+vis_backends = [
+    dict(type='LocalVisBackend'),
+    dict(type='TensorboardVisBackend')
+]
+work_dir = './work_dirs/vitp_amos_upernet'
+gpu_ids = range(0, 8)
+auto_resume = False

ckpts/vitp_brats_upernet_7211/20250907_130222.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_brats_upernet_7211/best_mDice.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecfbb50e049d31ee649eddf0d5ffcf003464850edd46c2afa626d3d2c6cbdcec
+size 1809319893

ckpts/vitp_brats_upernet_7211/eval_single_scale_20250908_054047.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "config": "./configs/internvit_new/upernet_30e_brats_ailab4_512_5e6.py",
+    "metric": {
+        "aAcc": 0.8059000000000001,
+        "mIoU": 0.5802,
+        "mAcc": 0.7034,
+        "mDice": 0.7211,
+        "IoU.necrotic_tumor_core": 0.8151999664306641,
+        "IoU.peritumoral_edema": 0.4456999969482422,
+        "IoU.enhancing_tumor": 0.4797999954223633,
+        "Acc.necrotic_tumor_core": 0.9245999908447265,
+        "Acc.peritumoral_edema": 0.530099983215332,
+        "Acc.enhancing_tumor": 0.6555000305175781,
+        "Dice.necrotic_tumor_core": 0.8981999969482422,
+        "Dice.peritumoral_edema": 0.6165999984741211,
+        "Dice.enhancing_tumor": 0.648499984741211
+    }
+}

ckpts/vitp_brats_upernet_7211/vitp_brats_upernet.py ADDED Viewed

	@@ -0,0 +1,201 @@

+dataset_type = 'BraTS2021Dataset'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+crop_size = (512, 512)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', reduce_zero_label=True),
+    dict(type='Resize', img_scale=(512, 512), ratio_range=(0.5, 2.0)),
+    dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+    dict(type='RandomFlip', prob=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=255),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(512, 512),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data_root = '/ailab/user/tangwenhao/data/seg/brats2021/mmseg_data'
+data = dict(
+    samples_per_gpu=8,
+    workers_per_gpu=4,
+    train=dict(
+        type='BraTS2021Dataset',
+        data_root='/ailab/user/tangwenhao/data/seg/brats2021/mmseg_data',
+        img_dir='img_dir/train',
+        ann_dir='ann_dir/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', reduce_zero_label=True),
+            dict(type='Resize', img_scale=(512, 512), ratio_range=(0.5, 2.0)),
+            dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+            dict(type='RandomFlip', prob=0.5),
+            dict(type='PhotoMetricDistortion'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=255),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='BraTS2021Dataset',
+        data_root='/ailab/user/tangwenhao/data/seg/brats2021/mmseg_data',
+        img_dir='img_dir/val',
+        ann_dir='ann_dir/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(512, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='BraTS2021Dataset',
+        data_root='/ailab/user/tangwenhao/data/seg/brats2021/mmseg_data',
+        img_dir='img_dir/test',
+        ann_dir='ann_dir/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(512, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+log_config = dict(
+    interval=50,
+    hooks=[
+        dict(
+            type='MMSegWandbHook',
+            init_kwargs=dict(
+                project='ITAP_SEG',
+                name='upernet_internvit_adp_30e_brats_512'),
+            interval=1,
+            num_eval_images=0)
+    ])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+bs = 8
+pretrained = 'pretrained/ViTP_ViT_L_300M_med.safetensors'
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=None,
+    backbone=dict(
+        type='InternViTAdapter',
+        pretrain_size=448,
+        img_size=512,
+        patch_size=16,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        mlp_ratio=4.0,
+        drop_path_rate=0.1,
+        init_values=0.1,
+        with_cp=True,
+        use_flash_attn=True,
+        qk_normalization=False,
+        layerscale_force_fp32=False,
+        with_fpn=False,
+        freeze_vit=False,
+        use_final_norm=True,
+        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        qkv_bias=True,
+        norm_type='layer_norm',
+        pretrained='pretrained/ViTP_ViT_L_300M_med.safetensors',
+        pretrained_type='full'),
+    decode_head=dict(
+        type='UPerHead',
+        in_index=[0, 1, 2, 3],
+        pool_scales=(1, 2, 3, 6),
+        dropout_ratio=0.1,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        num_classes=3,
+        channels=1024,
+        in_channels=[1024, 1024, 1024, 1024],
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=1024,
+        in_index=2,
+        channels=1024,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=3,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    test_cfg=dict(mode='whole'))
+optimizer = dict(type='AdamW', lr=5e-06, betas=(0.9, 0.999), weight_decay=0.05)
+optimizer_config = dict()
+lr_config = dict(
+    policy='CosineAnnealing',
+    warmup='linear',
+    warmup_iters=375,
+    warmup_ratio=1e-08,
+    min_lr=0,
+    by_epoch=False)
+runner = dict(type='EpochBasedRunner', max_epochs=30)
+checkpoint_config = dict(interval=3, max_keep_ckpts=1)
+evaluation = dict(interval=3, metric=['mIoU', 'mDice'], save_best='mDice')
+fp16 = dict(loss_scale=dict(init_scale=512))
+randomness = dict(seed=3407)
+vis_backends = [
+    dict(type='LocalVisBackend'),
+    dict(type='TensorboardVisBackend')
+]
+work_dir = './work_dirs/vitp_brats_upernet'
+gpu_ids = range(0, 8)
+auto_resume = False

ckpts/vitp_convid_upernet_9155/20250902_103001.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_convid_upernet_9155/best_mDice.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c81fb347d19a94011bd171fe4f1343c981bc786dbf2a7e60e4bb87b3b04d481a
+size 1809310421

ckpts/vitp_convid_upernet_9155/eval_single_scale_20250902_233031.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "config": "./configs/internvit_new/upernet_internvit_adp_300e_convid_quex_v100yx_512_re_5e6_new.py",
+    "metric": {
+        "aAcc": 0.9301999999999999,
+        "mIoU": 0.8462000000000001,
+        "mAcc": 0.9157,
+        "mDice": 0.9155,
+        "IoU.lung": 0.9062000274658203,
+        "IoU.covid": 0.7862000274658203,
+        "Acc.lung": 0.9505000305175781,
+        "Acc.covid": 0.8808000183105469,
+        "Dice.lung": 0.9508000183105468,
+        "Dice.covid": 0.8802999877929687
+    }
+}

ckpts/vitp_convid_upernet_9155/vitp_convid_upernet.py ADDED Viewed

	@@ -0,0 +1,207 @@

+dataset_type = 'ConvidQuexDataset'
+data_root = '/root/data-fs/twh/dataset/convid_quex/seg_data'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+crop_size = (512, 512)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', reduce_zero_label=True),
+    dict(type='Resize', img_scale=(512, 512), ratio_range=(0.5, 2.0)),
+    dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+    dict(type='RandomFlip', prob=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=255),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(512, 512),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=2,
+    workers_per_gpu=4,
+    train=dict(
+        type='ConvidQuexDataset',
+        data_root='/root/data-fs/twh/dataset/convid_quex/seg_data',
+        img_dir='image/train',
+        ann_dir='anno/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', reduce_zero_label=True),
+            dict(type='Resize', img_scale=(512, 512), ratio_range=(0.5, 2.0)),
+            dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+            dict(type='RandomFlip', prob=0.5),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=255),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='ConvidQuexDataset',
+        data_root='/root/data-fs/twh/dataset/convid_quex/seg_data',
+        img_dir='image/val',
+        ann_dir='anno/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(512, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='ConvidQuexDataset',
+        data_root='/root/data-fs/twh/dataset/convid_quex/seg_data',
+        img_dir='image/test',
+        ann_dir='anno/test',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(512, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+log_config = dict(
+    interval=50,
+    hooks=[
+        dict(
+            type='MMSegWandbHook',
+            init_kwargs=dict(
+                project='ITAP_SEG',
+                name='upernet_internvit_adp_300e_convid_quex_re'),
+            interval=30,
+            num_eval_images=0)
+    ])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+bs = 2
+pretrained = 'pretrained/ViTP_ViT_L_300M_med.safetensors'
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=None,
+    backbone=dict(
+        type='InternViTAdapter',
+        pretrain_size=448,
+        img_size=512,
+        patch_size=16,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        mlp_ratio=4.0,
+        drop_path_rate=0.1,
+        init_values=0.1,
+        with_cp=True,
+        use_flash_attn=True,
+        qk_normalization=False,
+        layerscale_force_fp32=False,
+        with_fpn=False,
+        freeze_vit=False,
+        use_final_norm=True,
+        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        qkv_bias=True,
+        norm_type='layer_norm',
+        pretrained='pretrained/ViTP_ViT_L_300M_med.safetensors',
+        pretrained_type='full'),
+    decode_head=dict(
+        type='UPerHead',
+        in_index=[0, 1, 2, 3],
+        pool_scales=(1, 2, 3, 6),
+        dropout_ratio=0.1,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        num_classes=2,
+        channels=1024,
+        in_channels=[1024, 1024, 1024, 1024],
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=dict(
+        type='FCNHead',
+        in_channels=1024,
+        in_index=2,
+        channels=1024,
+        num_convs=1,
+        concat_input=False,
+        dropout_ratio=0.1,
+        num_classes=2,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+    test_cfg=dict(mode='whole'))
+optimizer = dict(
+    type='AdamW',
+    lr=5e-06,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.9))
+optimizer_config = dict()
+lr_config = dict(
+    policy='CosineAnnealing',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    min_lr=0.0,
+    by_epoch=False)
+runner = dict(type='EpochBasedRunner', max_epochs=300)
+checkpoint_config = dict(interval=30, max_keep_ckpts=1)
+evaluation = dict(interval=30, metric=['mIoU', 'mDice'], save_best='mDice')
+fp16 = dict(loss_scale=dict(init_scale=512))
+randomness = dict(seed=3407)
+vis_backends = [
+    dict(type='LocalVisBackend'),
+    dict(type='TensorboardVisBackend'),
+    dict(type='WandbVisBackend')
+]
+work_dir = './work_dirs/vitp_convid_upernet'
+gpu_ids = range(0, 8)
+auto_resume = False

ckpts/vitp_dior_cascade_rcnn_7960/20250730_223238.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_dior_cascade_rcnn_7960/20250730_223238.log.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{"mmdet_version": "2.25.16fc0c4e", "CLASSES": ["airplane", "airport", "baseballfield", "basketballcourt", "bridge", "chimney", "dam", "Expressway-Service-area", "Expressway-toll-station", "golffield", "groundtrackfield", "harbor", "overpass", "ship", "stadium", "storagetank", "tenniscourt", "trainstation", "vehicle", "windmill"], "env_info": "sys.platform: linux\nPython: 3.10.16 (main, Dec 11 2024, 16:24:50) [GCC 11.2.0]\nCUDA available: True\nGPU 0,1,2,3,4,5,6,7: NVIDIA GeForce RTX 3090\nCUDA_HOME: /mnt/petrelfs/share_data/liqingyun/cuda/cuda-12.4/\nGCC: gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0\nPyTorch: 1.12.0\nPyTorch compiling details: PyTorch built with:\n  - GCC 9.3\n  - C++ Version: 201402\n  - Intel(R) oneAPI Math Kernel Library Version 2024.0-Product Build 20231011 for Intel(R) 64 architecture applications\n  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)\n  - OpenMP 201511 (a.k.a. OpenMP 4.5)\n  - LAPACK is enabled (usually provided by MKL)\n  - NNPACK is enabled\n  - CPU capability usage: AVX2\n  - CUDA Runtime 11.3\n  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_37,code=compute_37\n  - CuDNN 8.3.2  (built against CUDA 11.5)\n  - Magma 2.5.2\n  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.3, CUDNN_VERSION=8.3.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-unused-local-typedefs -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.12.0, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=OFF, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF, \n\nTorchVision: 0.13.0\nOpenCV: 4.11.0\nMMCV: 1.6.1\nMMCV Compiler: GCC 9.3\nMMCV CUDA Compiler: 11.4\nMMRotate: 0.3.4+6fc0c4e", "config": "dataset_type = 'DIORDataset'\ndata_root = '/defaultShare/pubdata/remote_sensing/DIOR/'\nimg_norm_cfg = dict(\n    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)\nimg_size = 800\nangle_version = 'le90'\ntrain_pipeline = [\n    dict(type='LoadImageFromFile'),\n    dict(type='LoadAnnotations', with_bbox=True),\n    dict(type='Resize', img_scale=(800, 800), keep_ratio=False),\n    dict(type='RandomFlip', flip_ratio=0.5),\n    dict(\n        type='Normalize',\n        mean=[123.675, 116.28, 103.53],\n        std=[58.395, 57.12, 57.375],\n        to_rgb=True),\n    dict(type='Pad', size=(800, 800)),\n    dict(type='DefaultFormatBundle'),\n    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])\n]\ntest_pipeline = [\n    dict(type='LoadImageFromFile'),\n    dict(\n        type='MultiScaleFlipAug',\n        img_scale=(800, 800),\n        flip=False,\n        transforms=[\n            dict(type='Resize', keep_ratio=False),\n            dict(type='RandomFlip'),\n            dict(\n                type='Normalize',\n                mean=[123.675, 116.28, 103.53],\n                std=[58.395, 57.12, 57.375],\n                to_rgb=True),\n            dict(type='Pad', size=(800, 800)),\n            dict(type='ImageToTensor', keys=['img']),\n            dict(type='Collect', keys=['img'])\n        ])\n]\ndata = dict(\n    samples_per_gpu=1,\n    workers_per_gpu=4,\n    train=dict(\n        type='DIORDataset',\n        ann_file=\n        '/defaultShare/pubdata/remote_sensing/DIOR/Annotations/train_val.json',\n        img_prefix=\n        '/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/trainval/',\n        pipeline=[\n            dict(type='LoadImageFromFile'),\n            dict(type='LoadAnnotations', with_bbox=True),\n            dict(type='Resize', img_scale=(800, 800), keep_ratio=False),\n            dict(type='RandomFlip', flip_ratio=0.5),\n            dict(\n                type='Normalize',\n                mean=[123.675, 116.28, 103.53],\n                std=[58.395, 57.12, 57.375],\n                to_rgb=True),\n            dict(type='Pad', size=(800, 800)),\n            dict(type='DefaultFormatBundle'),\n            dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])\n        ]),\n    val=dict(\n        type='DIORDataset',\n        ann_file=\n        '/defaultShare/pubdata/remote_sensing/DIOR/Annotations/test.json',\n        img_prefix='/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/test/',\n        pipeline=[\n            dict(type='LoadImageFromFile'),\n            dict(\n                type='MultiScaleFlipAug',\n                img_scale=(800, 800),\n                flip=False,\n                transforms=[\n                    dict(type='Resize', keep_ratio=False),\n                    dict(type='RandomFlip'),\n                    dict(\n                        type='Normalize',\n                        mean=[123.675, 116.28, 103.53],\n                        std=[58.395, 57.12, 57.375],\n                        to_rgb=True),\n                    dict(type='Pad', size=(800, 800)),\n                    dict(type='ImageToTensor', keys=['img']),\n                    dict(type='Collect', keys=['img'])\n                ])\n        ]),\n    test=dict(\n        type='DIORDataset',\n        ann_file=\n        '/defaultShare/pubdata/remote_sensing/DIOR/Annotations/test.json',\n        img_prefix='/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/test/',\n        pipeline=[\n            dict(type='LoadImageFromFile'),\n            dict(\n                type='MultiScaleFlipAug',\n                img_scale=(800, 800),\n                flip=False,\n                transforms=[\n                    dict(type='Resize', keep_ratio=False),\n                    dict(type='RandomFlip'),\n                    dict(\n                        type='Normalize',\n                        mean=[123.675, 116.28, 103.53],\n                        std=[58.395, 57.12, 57.375],\n                        to_rgb=True),\n                    dict(type='Pad', size=(800, 800)),\n                    dict(type='ImageToTensor', keys=['img']),\n                    dict(type='Collect', keys=['img'])\n                ])\n        ]))\nevaluation = dict(interval=4, metric='mAP', classwise=True)\noptimizer = dict(\n    type='AdamW',\n    lr=2e-05,\n    betas=(0.9, 0.999),\n    weight_decay=0.05,\n    constructor='InternViTAdapterLayerDecayOptimizerConstructor',\n    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.9))\noptimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2))\nlr_config = dict(\n    policy='step',\n    warmup='linear',\n    warmup_iters=500,\n    warmup_ratio=0.3333333333333333,\n    step=[8, 11])\nrunner = dict(type='EpochBasedRunner', max_epochs=12)\ncheckpoint_config = dict(interval=1, max_keep_ckpts=1)\nlog_config = dict(interval=500, hooks=[dict(type='TextLoggerHook')])\ndist_params = dict(backend='nccl')\nlog_level = 'INFO'\nload_from = None\nresume_from = None\nworkflow = [('train', 1)]\nopencv_num_threads = 0\nmp_start_method = 'fork'\npretrained = 'pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors'\ngpu_number = 8\nnorm_cfg = dict(type='LN', requires_grad=True)\nnum_classes = 20\nmodel = dict(\n    type='CascadeRCNN',\n    backbone=dict(\n        type='InternViTAdapter',\n        pretrain_size=448,\n        img_size=800,\n        patch_size=16,\n        embed_dim=1024,\n        depth=24,\n        num_heads=16,\n        mlp_ratio=4.0,\n        drop_path_rate=0.1,\n        init_values=0.1,\n        with_cp=True,\n        use_flash_attn=True,\n        qk_normalization=False,\n        layerscale_force_fp32=False,\n        with_fpn=False,\n        freeze_vit=False,\n        use_final_norm=True,\n        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],\n        cffn_ratio=0.25,\n        deform_ratio=0.25,\n        qkv_bias=True,\n        norm_type='layer_norm',\n        pretrained=\n        'pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors',\n        pretrained_type='full',\n        only_feat_out=True),\n    neck=dict(\n        type='SimpleFPN',\n        in_channels=[1024, 1024, 1024, 1024],\n        out_channels=256,\n        norm_cfg=dict(type='LN', requires_grad=True),\n        use_residual=False,\n        num_outs=5),\n    rpn_head=dict(\n        type='RPNHead',\n        in_channels=256,\n        feat_channels=256,\n        anchor_generator=dict(\n            type='AnchorGenerator',\n            scales=[8],\n            ratios=[0.5, 1.0, 2.0],\n            strides=[4, 8, 16, 32, 64]),\n        bbox_coder=dict(\n            type='DeltaXYWHBBoxCoder',\n            target_means=[0.0, 0.0, 0.0, 0.0],\n            target_stds=[1.0, 1.0, 1.0, 1.0]),\n        loss_cls=dict(\n            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),\n        loss_bbox=dict(\n            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),\n    roi_head=dict(\n        type='CascadeRoIHead',\n        num_stages=3,\n        stage_loss_weights=[1, 0.5, 0.25],\n        bbox_roi_extractor=dict(\n            type='SingleRoIExtractor',\n            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),\n            out_channels=256,\n            featmap_strides=[4, 8, 16, 32]),\n        bbox_head=[\n            dict(\n                type='Shared2FCBBoxHead',\n                in_channels=256,\n                fc_out_channels=1024,\n                roi_feat_size=7,\n                num_classes=20,\n                bbox_coder=dict(\n                    type='DeltaXYWHBBoxCoder',\n                    target_means=[0.0, 0.0, 0.0, 0.0],\n                    target_stds=[0.1, 0.1, 0.2, 0.2]),\n                reg_class_agnostic=True,\n                loss_cls=dict(\n                    type='CrossEntropyLoss',\n                    use_sigmoid=False,\n                    loss_weight=1.0),\n                loss_bbox=dict(type='SmoothL1Loss', beta=1.0,\n                               loss_weight=1.0)),\n            dict(\n                type='Shared2FCBBoxHead',\n                in_channels=256,\n                fc_out_channels=1024,\n                roi_feat_size=7,\n                num_classes=20,\n                bbox_coder=dict(\n                    type='DeltaXYWHBBoxCoder',\n                    target_means=[0.0, 0.0, 0.0, 0.0],\n                    target_stds=[0.05, 0.05, 0.1, 0.1]),\n                reg_class_agnostic=True,\n                loss_cls=dict(\n                    type='CrossEntropyLoss',\n                    use_sigmoid=False,\n                    loss_weight=1.0),\n                loss_bbox=dict(type='SmoothL1Loss', beta=1.0,\n                               loss_weight=1.0)),\n            dict(\n                type='Shared2FCBBoxHead',\n                in_channels=256,\n                fc_out_channels=1024,\n                roi_feat_size=7,\n                num_classes=20,\n                bbox_coder=dict(\n                    type='DeltaXYWHBBoxCoder',\n                    target_means=[0.0, 0.0, 0.0, 0.0],\n                    target_stds=[0.033, 0.033, 0.067, 0.067]),\n                reg_class_agnostic=True,\n                loss_cls=dict(\n                    type='CrossEntropyLoss',\n                    use_sigmoid=False,\n                    loss_weight=1.0),\n                loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))\n        ]),\n    train_cfg=dict(\n        rpn=dict(\n            assigner=dict(\n                type='MaxIoUAssigner',\n                pos_iou_thr=0.7,\n                neg_iou_thr=0.3,\n                min_pos_iou=0.3,\n                match_low_quality=True,\n                ignore_iof_thr=-1),\n            sampler=dict(\n                type='RandomSampler',\n                num=256,\n                pos_fraction=0.5,\n                neg_pos_ub=-1,\n                add_gt_as_proposals=False),\n            allowed_border=0,\n            pos_weight=-1,\n            debug=False),\n        rpn_proposal=dict(\n            nms_pre=2000,\n            max_per_img=2000,\n            nms=dict(type='nms', iou_threshold=0.7),\n            min_bbox_size=0),\n        rcnn=[\n            dict(\n                assigner=dict(\n                    type='MaxIoUAssigner',\n                    pos_iou_thr=0.5,\n                    neg_iou_thr=0.5,\n                    min_pos_iou=0.5,\n                    match_low_quality=False,\n                    ignore_iof_thr=-1),\n                sampler=dict(\n                    type='RandomSampler',\n                    num=512,\n                    pos_fraction=0.25,\n                    neg_pos_ub=-1,\n                    add_gt_as_proposals=True),\n                pos_weight=-1,\n                debug=False),\n            dict(\n                assigner=dict(\n                    type='MaxIoUAssigner',\n                    pos_iou_thr=0.6,\n                    neg_iou_thr=0.6,\n                    min_pos_iou=0.6,\n                    match_low_quality=False,\n                    ignore_iof_thr=-1),\n                sampler=dict(\n                    type='RandomSampler',\n                    num=512,\n                    pos_fraction=0.25,\n                    neg_pos_ub=-1,\n                    add_gt_as_proposals=True),\n                pos_weight=-1,\n                debug=False),\n            dict(\n                assigner=dict(\n                    type='MaxIoUAssigner',\n                    pos_iou_thr=0.7,\n                    neg_iou_thr=0.7,\n                    min_pos_iou=0.7,\n                    match_low_quality=False,\n                    ignore_iof_thr=-1),\n                sampler=dict(\n                    type='RandomSampler',\n                    num=512,\n                    pos_fraction=0.25,\n                    neg_pos_ub=-1,\n                    add_gt_as_proposals=True),\n                pos_weight=-1,\n                debug=False)\n        ]),\n    test_cfg=dict(\n        rpn=dict(\n            nms_pre=1000,\n            max_per_img=1000,\n            nms=dict(type='nms', iou_threshold=0.7),\n            min_bbox_size=0),\n        rcnn=dict(\n            score_thr=0.05,\n            nms=dict(type='nms', iou_threshold=0.5),\n            max_per_img=100)))\nfp16 = dict(loss_scale=dict(init_scale=512))\nwork_dir = './work_dirs/dior_inst_tun_TMAug75_8k'\nauto_resume = False\ngpu_ids = range(0, 8)\ndevice = 'cuda'\n", "seed": 0, "exp_name": "dior_inst_tun_TMAug75_8k.py", "fp16": {"loss_scaler": {"scale": 2048.0, "growth_factor": 2.0, "backoff_factor": 0.5, "growth_interval": 2000, "_growth_tracker": 1864}}, "epoch": 4, "iter": 5864, "mmcv_version": "1.6.1", "time": "Wed Jul 30 18:25:23 2025", "hook_msgs": {"last_ckpt": "/nfs/liyuxuan/zhangyicheng/mmrotate/work_dirs/dior_inst_tun_TMAug75_8k/epoch_3.pth"}}
+{"mode": "train", "epoch": 5, "iter": 500, "lr": 0.0, "memory": 12677, "data_time": 0.01045, "loss_rpn_cls": 0.00582, "loss_rpn_bbox": 0.00764, "s0.loss_cls": 0.05271, "s0.acc": 97.94438, "s0.loss_bbox": 0.03948, "s1.loss_cls": 0.02568, "s1.acc": 98.02153, "s1.loss_bbox": 0.0621, "s2.loss_cls": 0.01527, "s2.acc": 97.57696, "s2.loss_bbox": 0.05219, "loss": 0.26089, "grad_norm": Infinity, "time": 0.77073}
+{"mode": "train", "epoch": 5, "iter": 1000, "lr": 0.0, "memory": 12677, "data_time": 0.00323, "loss_rpn_cls": 0.0059, "loss_rpn_bbox": 0.00788, "s0.loss_cls": 0.05248, "s0.acc": 97.94033, "s0.loss_bbox": 0.03961, "s1.loss_cls": 0.02571, "s1.acc": 98.00724, "s1.loss_bbox": 0.06156, "s2.loss_cls": 0.01496, "s2.acc": 97.60852, "s2.loss_bbox": 0.05159, "loss": 0.25968, "grad_norm": 9.70959, "time": 0.75422}
+{"mode": "train", "epoch": 6, "iter": 500, "lr": 0.0, "memory": 12680, "data_time": 0.00791, "loss_rpn_cls": 0.00518, "loss_rpn_bbox": 0.00718, "s0.loss_cls": 0.04721, "s0.acc": 98.17241, "s0.loss_bbox": 0.03518, "s1.loss_cls": 0.02243, "s1.acc": 98.26773, "s1.loss_bbox": 0.05572, "s2.loss_cls": 0.01297, "s2.acc": 97.95815, "s2.loss_bbox": 0.04768, "loss": 0.23354, "grad_norm": 9.22684, "time": 0.75987}
+{"mode": "train", "epoch": 6, "iter": 1000, "lr": 0.0, "memory": 12680, "data_time": 0.00303, "loss_rpn_cls": 0.00488, "loss_rpn_bbox": 0.00711, "s0.loss_cls": 0.0468, "s0.acc": 98.16084, "s0.loss_bbox": 0.03546, "s1.loss_cls": 0.02189, "s1.acc": 98.29857, "s1.loss_bbox": 0.05547, "s2.loss_cls": 0.01293, "s2.acc": 97.95175, "s2.loss_bbox": 0.04742, "loss": 0.23196, "grad_norm": Infinity, "time": 0.75293}
+{"mode": "train", "epoch": 7, "iter": 500, "lr": 0.0, "memory": 12680, "data_time": 0.00782, "loss_rpn_cls": 0.00395, "loss_rpn_bbox": 0.00645, "s0.loss_cls": 0.04222, "s0.acc": 98.33569, "s0.loss_bbox": 0.03149, "s1.loss_cls": 0.01936, "s1.acc": 98.49516, "s1.loss_bbox": 0.0514, "s2.loss_cls": 0.01139, "s2.acc": 98.21969, "s2.loss_bbox": 0.04539, "loss": 0.21164, "grad_norm": 9.5548, "time": 0.75796}
+{"mode": "train", "epoch": 7, "iter": 1000, "lr": 0.0, "memory": 12680, "data_time": 0.00291, "loss_rpn_cls": 0.00449, "loss_rpn_bbox": 0.00649, "s0.loss_cls": 0.04345, "s0.acc": 98.29019, "s0.loss_bbox": 0.03286, "s1.loss_cls": 0.02, "s1.acc": 98.45613, "s1.loss_bbox": 0.0523, "s2.loss_cls": 0.01178, "s2.acc": 98.15007, "s2.loss_bbox": 0.04496, "loss": 0.21633, "grad_norm": 9.5179, "time": 0.75234}
+{"mode": "train", "epoch": 8, "iter": 500, "lr": 0.0, "memory": 12680, "data_time": 0.00785, "loss_rpn_cls": 0.00372, "loss_rpn_bbox": 0.00585, "s0.loss_cls": 0.03913, "s0.acc": 98.46299, "s0.loss_bbox": 0.02886, "s1.loss_cls": 0.01705, "s1.acc": 98.68055, "s1.loss_bbox": 0.04656, "s2.loss_cls": 0.00996, "s2.acc": 98.43402, "s2.loss_bbox": 0.04085, "loss": 0.19199, "grad_norm": 8.43056, "time": 0.75836}
+{"mode": "train", "epoch": 8, "iter": 1000, "lr": 0.0, "memory": 12680, "data_time": 0.00285, "loss_rpn_cls": 0.00367, "loss_rpn_bbox": 0.0061, "s0.loss_cls": 0.0383, "s0.acc": 98.48643, "s0.loss_bbox": 0.02924, "s1.loss_cls": 0.01657, "s1.acc": 98.71499, "s1.loss_bbox": 0.04741, "s2.loss_cls": 0.00973, "s2.acc": 98.48204, "s2.loss_bbox": 0.04206, "loss": 0.19309, "grad_norm": 8.75413, "time": 0.75288}
+{"mode": "val", "epoch": 8, "iter": 1468, "lr": 0.0, "bbox_mAP": 0.552, "bbox_mAP_50": 0.797, "bbox_mAP_75": 0.601, "bbox_mAP_s": 0.171, "bbox_mAP_m": 0.464, "bbox_mAP_l": 0.738, "bbox_mAP_copypaste": "0.552 0.797 0.601 0.171 0.464 0.738"}
+{"mode": "train", "epoch": 9, "iter": 500, "lr": 0.0, "memory": 12680, "data_time": 0.00814, "loss_rpn_cls": 0.00287, "loss_rpn_bbox": 0.00487, "s0.loss_cls": 0.03275, "s0.acc": 98.70068, "s0.loss_bbox": 0.02321, "s1.loss_cls": 0.01318, "s1.acc": 98.98104, "s1.loss_bbox": 0.03895, "s2.loss_cls": 0.00756, "s2.acc": 98.83655, "s2.loss_bbox": 0.03562, "loss": 0.159, "grad_norm": 7.53158, "time": 0.76159}
+{"mode": "train", "epoch": 9, "iter": 1000, "lr": 0.0, "memory": 12680, "data_time": 0.003, "loss_rpn_cls": 0.00298, "loss_rpn_bbox": 0.00475, "s0.loss_cls": 0.03326, "s0.acc": 98.70029, "s0.loss_bbox": 0.02426, "s1.loss_cls": 0.01377, "s1.acc": 98.94669, "s1.loss_bbox": 0.04039, "s2.loss_cls": 0.00799, "s2.acc": 98.7764, "s2.loss_bbox": 0.0367, "loss": 0.16409, "grad_norm": 7.60728, "time": 0.75893}
+{"mode": "train", "epoch": 10, "iter": 500, "lr": 0.0, "memory": 12680, "data_time": 0.0081, "loss_rpn_cls": 0.00275, "loss_rpn_bbox": 0.00454, "s0.loss_cls": 0.03061, "s0.acc": 98.79683, "s0.loss_bbox": 0.02215, "s1.loss_cls": 0.01231, "s1.acc": 99.03177, "s1.loss_bbox": 0.03735, "s2.loss_cls": 0.00687, "s2.acc": 98.9413, "s2.loss_bbox": 0.03433, "loss": 0.15092, "grad_norm": 7.38586, "time": 0.76107}
+{"mode": "train", "epoch": 10, "iter": 1000, "lr": 0.0, "memory": 12680, "data_time": 0.00312, "loss_rpn_cls": 0.00261, "loss_rpn_bbox": 0.00469, "s0.loss_cls": 0.03044, "s0.acc": 98.81895, "s0.loss_bbox": 0.02166, "s1.loss_cls": 0.01218, "s1.acc": 99.06392, "s1.loss_bbox": 0.03619, "s2.loss_cls": 0.00683, "s2.acc": 98.95856, "s2.loss_bbox": 0.03315, "loss": 0.14775, "grad_norm": 6.83723, "time": 0.75739}
+{"mode": "train", "epoch": 11, "iter": 500, "lr": 0.0, "memory": 12680, "data_time": 0.00774, "loss_rpn_cls": 0.00255, "loss_rpn_bbox": 0.00446, "s0.loss_cls": 0.02944, "s0.acc": 98.8356, "s0.loss_bbox": 0.02092, "s1.loss_cls": 0.01161, "s1.acc": 99.09921, "s1.loss_bbox": 0.03464, "s2.loss_cls": 0.00648, "s2.acc": 98.98859, "s2.loss_bbox": 0.03173, "loss": 0.14183, "grad_norm": 6.81652, "time": 0.7619}
+{"mode": "train", "epoch": 11, "iter": 1000, "lr": 0.0, "memory": 12683, "data_time": 0.00296, "loss_rpn_cls": 0.00247, "loss_rpn_bbox": 0.00473, "s0.loss_cls": 0.02998, "s0.acc": 98.82202, "s0.loss_bbox": 0.02142, "s1.loss_cls": 0.01177, "s1.acc": 99.08769, "s1.loss_bbox": 0.03574, "s2.loss_cls": 0.00655, "s2.acc": 98.99902, "s2.loss_bbox": 0.03296, "loss": 0.14561, "grad_norm": 7.11457, "time": 0.7583}
+{"mode": "train", "epoch": 12, "iter": 500, "lr": 0.0, "memory": 12683, "data_time": 0.00791, "loss_rpn_cls": 0.00221, "loss_rpn_bbox": 0.00392, "s0.loss_cls": 0.02771, "s0.acc": 98.91255, "s0.loss_bbox": 0.01946, "s1.loss_cls": 0.01073, "s1.acc": 99.16979, "s1.loss_bbox": 0.0328, "s2.loss_cls": 0.00588, "s2.acc": 99.10159, "s2.loss_bbox": 0.03082, "loss": 0.13353, "grad_norm": 6.75006, "time": 0.76188}
+{"mode": "train", "epoch": 12, "iter": 1000, "lr": 0.0, "memory": 12683, "data_time": 0.00304, "loss_rpn_cls": 0.00255, "loss_rpn_bbox": 0.00466, "s0.loss_cls": 0.02867, "s0.acc": 98.86948, "s0.loss_bbox": 0.02018, "s1.loss_cls": 0.01103, "s1.acc": 99.1422, "s1.loss_bbox": 0.0331, "s2.loss_cls": 0.00617, "s2.acc": 99.05892, "s2.loss_bbox": 0.03062, "loss": 0.13698, "grad_norm": Infinity, "time": 0.7584}
+{"mode": "val", "epoch": 12, "iter": 1468, "lr": 0.0, "bbox_mAP": 0.557, "bbox_mAP_50": 0.796, "bbox_mAP_75": 0.61, "bbox_mAP_s": 0.175, "bbox_mAP_m": 0.474, "bbox_mAP_l": 0.747, "bbox_mAP_copypaste": "0.557 0.796 0.610 0.175 0.474 0.747"}

ckpts/vitp_dior_cascade_rcnn_7960/epoch_12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb6fd409f17f1ac0c98c7ee418c5c126c482c8753d4db467cfacc65e5fddfd61
+size 1478110605

ckpts/vitp_dior_cascade_rcnn_7960/vitp_dior_cascade_rcnn.py ADDED Viewed

	@@ -0,0 +1,308 @@

+dataset_type = 'DIORDataset'
+data_root = '/defaultShare/pubdata/remote_sensing/DIOR/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+img_size = 800
+angle_version = 'le90'
+data = dict(
+    samples_per_gpu=1,
+    workers_per_gpu=4,
+    train=dict(
+        type='DIORDataset',
+        ann_file=
+        '/defaultShare/pubdata/remote_sensing/DIOR/Annotations/train_val.json',
+        img_prefix=
+        '/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/trainval/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True),
+            dict(type='Resize', img_scale=(800, 800), keep_ratio=False),
+            dict(type='RandomFlip', flip_ratio=0.5),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size=(800, 800)),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
+        ]),
+    val=dict(
+        type='DIORDataset',
+        ann_file=
+        '/defaultShare/pubdata/remote_sensing/DIOR/Annotations/test.json',
+        img_prefix='/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/test/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(800, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=False),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size=(800, 800)),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='DIORDataset',
+        ann_file=
+        '/defaultShare/pubdata/remote_sensing/DIOR/Annotations/test.json',
+        img_prefix='/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/test/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(800, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=False),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size=(800, 800)),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+evaluation = dict(interval=4, metric='bbox', classwise=True)
+optimizer = dict(
+    type='AdamW',
+    lr=2e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.9))
+optimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2))
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.3333333333333333,
+    step=[8, 11])
+runner = dict(type='EpochBasedRunner', max_epochs=12)
+checkpoint_config = dict(interval=1, max_keep_ckpts=1)
+log_config = dict(interval=500, hooks=[dict(type='TextLoggerHook')])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+opencv_num_threads = 0
+mp_start_method = 'fork'
+pretrained = 'pretrained/ViTP_ViT_L_300M_rs.safetensors'
+gpu_number = 8
+norm_cfg = dict(type='LN', requires_grad=True)
+num_classes = 20
+model = dict(
+    type='CascadeRCNN',
+    backbone=dict(
+        type='InternViTAdapter',
+        pretrain_size=448,
+        img_size=800,
+        patch_size=16,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        mlp_ratio=4.0,
+        drop_path_rate=0.1,
+        init_values=0.1,
+        with_cp=True,
+        use_flash_attn=True,
+        qk_normalization=False,
+        layerscale_force_fp32=False,
+        with_fpn=False,
+        freeze_vit=False,
+        use_final_norm=True,
+        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        qkv_bias=True,
+        norm_type='layer_norm',
+        pretrained='pretrained/ViTP_ViT_L_300M_rs.safetensors',
+        pretrained_type='full',
+        only_feat_out=True),
+    neck=dict(
+        type='SimpleFPN',
+        in_channels=[1024, 1024, 1024, 1024],
+        out_channels=256,
+        norm_cfg=dict(type='LN', requires_grad=True),
+        use_residual=False,
+        num_outs=5),
+    rpn_head=dict(
+        type='RPNHead',
+        in_channels=256,
+        feat_channels=256,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='CascadeRoIHead',
+        num_stages=3,
+        stage_loss_weights=[1, 0.5, 0.25],
+        bbox_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=[
+            dict(
+                type='Shared2FCBBoxHead',
+                in_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=20,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.1, 0.1, 0.2, 0.2]),
+                reg_class_agnostic=True,
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='SmoothL1Loss', beta=1.0,
+                               loss_weight=1.0)),
+            dict(
+                type='Shared2FCBBoxHead',
+                in_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=20,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.05, 0.05, 0.1, 0.1]),
+                reg_class_agnostic=True,
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='SmoothL1Loss', beta=1.0,
+                               loss_weight=1.0)),
+            dict(
+                type='Shared2FCBBoxHead',
+                in_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=20,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.033, 0.033, 0.067, 0.067]),
+                reg_class_agnostic=True,
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))
+        ]),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_pre=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=[
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.5,
+                    neg_iou_thr=0.5,
+                    min_pos_iou=0.5,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.6,
+                    neg_iou_thr=0.6,
+                    min_pos_iou=0.6,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.7,
+                    neg_iou_thr=0.7,
+                    min_pos_iou=0.7,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                pos_weight=-1,
+                debug=False)
+        ]),
+    test_cfg=dict(
+        rpn=dict(
+            nms_pre=1000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.5),
+            max_per_img=100)))
+fp16 = dict(loss_scale=dict(init_scale=512))
+work_dir = './work_dirs/dior_inst_tun_TMAug75_8k'
+auto_resume = True
+gpu_ids = range(0, 8)
+device = 'cuda'

ckpts/vitp_diorr_orcnn_7508/20250918_082138.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_diorr_orcnn_7508/epoch_12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:efb778e73bb38524df174933dcb8ec40e778ed101f571810556942946b917148
+size 1373279149

ckpts/vitp_diorr_orcnn_7508/vitp_diorr_orcnn.py ADDED Viewed

	@@ -0,0 +1,311 @@

+dataset_type = 'DIORRDataset'
+data_root = '/defaultShare/pubdata/remote_sensing/DIOR/'
+angle_version = 'le90'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True),
+    dict(type='RResize', img_scale=(1024, 1024)),
+    dict(
+        type='RRandomFlip',
+        flip_ratio=[0.25, 0.25, 0.25],
+        direction=['horizontal', 'vertical', 'diagonal'],
+        version='le90'),
+    dict(
+        type='PolyRandomRotate',
+        rotate_ratio=0.5,
+        angles_range=180,
+        auto_bound=False,
+        rect_classes=[5, 15, 19],
+        version='le90'),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1024, 1024),
+        flip=False,
+        transforms=[
+            dict(type='RResize'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=1,
+    workers_per_gpu=4,
+    train=dict(
+        type='DIORRDataset',
+        ann_file=[
+            '/defaultShare/pubdata/remote_sensing/DIOR/ImageSets/train.txt',
+            '/defaultShare/pubdata/remote_sensing/DIOR/ImageSets/val.txt'
+        ],
+        ann_subdir=
+        '/defaultShare/pubdata/remote_sensing/DIOR/Annotations/Oriented Bounding Boxes/',
+        img_subdir=
+        '/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/trainval/',
+        img_prefix=
+        '/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/trainval/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True),
+            dict(type='RResize', img_scale=(1024, 1024)),
+            dict(
+                type='RRandomFlip',
+                flip_ratio=[0.25, 0.25, 0.25],
+                direction=['horizontal', 'vertical', 'diagonal'],
+                version='le90'),
+            dict(
+                type='PolyRandomRotate',
+                rotate_ratio=0.5,
+                angles_range=180,
+                auto_bound=False,
+                rect_classes=[5, 15, 19],
+                version='le90'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
+        ],
+        version='le90'),
+    val=dict(
+        type='DIORRDataset',
+        ann_file='/defaultShare/pubdata/remote_sensing/DIOR/ImageSets/test.txt',
+        ann_subdir=
+        '/defaultShare/pubdata/remote_sensing/DIOR/Annotations/Oriented Bounding Boxes/',
+        img_subdir='/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/test/',
+        img_prefix='/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/test/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1024, 1024),
+                flip=False,
+                transforms=[
+                    dict(type='RResize'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='DefaultFormatBundle'),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ],
+        version='le90'),
+    test=dict(
+        type='DIORRDataset',
+        ann_file='/defaultShare/pubdata/remote_sensing/DIOR/ImageSets/test.txt',
+        ann_subdir=
+        '/defaultShare/pubdata/remote_sensing/DIOR/Annotations/Oriented Bounding Boxes/',
+        img_subdir='/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/test/',
+        img_prefix='/defaultShare/pubdata/remote_sensing/DIOR/JPEGImages/test/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1024, 1024),
+                flip=False,
+                transforms=[
+                    dict(type='RResize'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='DefaultFormatBundle'),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ],
+        version='le90'))
+evaluation = dict(interval=1, metric='mAP')
+optimizer = dict(
+    type='AdamW',
+    lr=2.5e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.95))
+optimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2))
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.3333333333333333,
+    step=[8, 11])
+runner = dict(type='EpochBasedRunner', max_epochs=12)
+checkpoint_config = dict(interval=1, max_keep_ckpts=1)
+log_config = dict(interval=500, hooks=[dict(type='TextLoggerHook')])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+opencv_num_threads = 0
+mp_start_method = 'fork'
+pretrained = 'pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors'
+norm_cfg = dict(type='LN', requires_grad=True)
+model = dict(
+    type='OrientedRCNN',
+    backbone=dict(
+        type='InternViTAdapter',
+        pretrain_size=448,
+        img_size=1024,
+        patch_size=16,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        mlp_ratio=4.0,
+        drop_path_rate=0.1,
+        init_values=0.1,
+        with_cp=True,
+        use_flash_attn=True,
+        qk_normalization=False,
+        layerscale_force_fp32=False,
+        with_fpn=False,
+        freeze_vit=False,
+        use_final_norm=True,
+        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        qkv_bias=True,
+        norm_type='layer_norm',
+        pretrained=
+        'pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors',
+        pretrained_type='full',
+        only_feat_out=True),
+    neck=dict(
+        type='SimpleFPN',
+        in_channels=[1024, 1024, 1024, 1024],
+        out_channels=256,
+        norm_cfg=dict(type='LN', requires_grad=True),
+        use_residual=False,
+        num_outs=5),
+    rpn_head=dict(
+        type='OrientedRPNHead',
+        in_channels=256,
+        feat_channels=256,
+        version='le90',
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='MidpointOffsetCoder',
+            angle_range='le90',
+            target_means=[0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0, 0.5, 0.5]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='OrientedStandardRoIHead',
+        bbox_roi_extractor=dict(
+            type='RotatedSingleRoIExtractor',
+            roi_layer=dict(
+                type='RoIAlignRotated',
+                out_size=7,
+                sample_num=2,
+                clockwise=True),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=dict(
+            type='RotatedShared2FCBBoxHead',
+            in_channels=256,
+            fc_out_channels=1024,
+            roi_feat_size=7,
+            num_classes=20,
+            bbox_coder=dict(
+                type='DeltaXYWHAOBBoxCoder',
+                angle_range='le90',
+                norm_factor=None,
+                edge_swap=True,
+                proj_xy=True,
+                target_means=(0.0, 0.0, 0.0, 0.0, 0.0),
+                target_stds=(0.1, 0.1, 0.2, 0.2, 0.1)),
+            reg_class_agnostic=True,
+            loss_cls=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
+            loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                gpu_assign_thr=800,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_pre=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.8),
+            min_bbox_size=0),
+        rcnn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                gpu_assign_thr=800,
+                iou_calculator=dict(type='RBboxOverlaps2D'),
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RRandomSampler',
+                num=512,
+                pos_fraction=0.25,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False)),
+    test_cfg=dict(
+        rpn=dict(
+            nms_pre=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.8),
+            min_bbox_size=0),
+        rcnn=dict(
+            nms_pre=2000,
+            min_bbox_size=0,
+            score_thr=0.05,
+            nms=dict(iou_thr=0.1),
+            max_per_img=2000)))
+fp16 = dict(loss_scale=dict(init_scale=512))
+work_dir = './work_dirs/diorr_inst_tun_TMAug75_8k'
+auto_resume = False
+gpu_ids = range(0, 8)
+device = 'cuda'

ckpts/vitp_dotav2_orcnn_6073/20250726_012424.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_dotav2_orcnn_6073/20250726_012424.log.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{"env_info": "sys.platform: linux\nPython: 3.10.16 (main, Dec 11 2024, 16:24:50) [GCC 11.2.0]\nCUDA available: True\nGPU 0,1,2,3,4,5,6,7: NVIDIA GeForce RTX 3090\nCUDA_HOME: /usr/local/cuda-11\nNVCC: Cuda compilation tools, release 11.4, V11.4.120\nGCC: gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0\nPyTorch: 1.12.0\nPyTorch compiling details: PyTorch built with:\n  - GCC 9.3\n  - C++ Version: 201402\n  - Intel(R) oneAPI Math Kernel Library Version 2024.0-Product Build 20231011 for Intel(R) 64 architecture applications\n  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)\n  - OpenMP 201511 (a.k.a. OpenMP 4.5)\n  - LAPACK is enabled (usually provided by MKL)\n  - NNPACK is enabled\n  - CPU capability usage: AVX2\n  - CUDA Runtime 11.3\n  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_37,code=compute_37\n  - CuDNN 8.3.2  (built against CUDA 11.5)\n  - Magma 2.5.2\n  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.3, CUDNN_VERSION=8.3.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-unused-local-typedefs -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.12.0, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=OFF, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF, \n\nTorchVision: 0.13.0\nOpenCV: 4.11.0\nMMCV: 1.6.1\nMMCV Compiler: GCC 9.3\nMMCV CUDA Compiler: 11.4\nMMRotate: 0.3.4+6fc0c4e", "config": "dataset_type = 'DOTAv2Dataset'\ndata_root = '/defaultShare/pubdata/remote_sensing/dota_v2/'\nangle_version = 'le90'\nimg_norm_cfg = dict(\n    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)\ntrain_pipeline = [\n    dict(type='LoadImageFromFile'),\n    dict(type='LoadAnnotations', with_bbox=True),\n    dict(type='RResize', img_scale=(1024, 1024)),\n    dict(\n        type='RRandomFlip',\n        flip_ratio=[0.25, 0.25, 0.25],\n        direction=['horizontal', 'vertical', 'diagonal'],\n        version='le90'),\n    dict(\n        type='PolyRandomRotate',\n        rotate_ratio=0.5,\n        angles_range=180,\n        auto_bound=False,\n        rect_classes=[9, 11, 16],\n        version='le90'),\n    dict(\n        type='Normalize',\n        mean=[123.675, 116.28, 103.53],\n        std=[58.395, 57.12, 57.375],\n        to_rgb=True),\n    dict(type='Pad', size_divisor=32),\n    dict(type='DefaultFormatBundle'),\n    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])\n]\ntest_pipeline = [\n    dict(type='LoadImageFromFile'),\n    dict(\n        type='MultiScaleFlipAug',\n        img_scale=(1024, 1024),\n        flip=False,\n        transforms=[\n            dict(type='RResize'),\n            dict(\n                type='Normalize',\n                mean=[123.675, 116.28, 103.53],\n                std=[58.395, 57.12, 57.375],\n                to_rgb=True),\n            dict(type='Pad', size_divisor=32),\n            dict(type='DefaultFormatBundle'),\n            dict(type='Collect', keys=['img'])\n        ])\n]\ndata = dict(\n    samples_per_gpu=1,\n    workers_per_gpu=4,\n    train=dict(\n        type='DOTAv2Dataset',\n        ann_file=\n        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/trainval/annfiles/',\n        img_prefix=\n        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/trainval/images/',\n        pipeline=[\n            dict(type='LoadImageFromFile'),\n            dict(type='LoadAnnotations', with_bbox=True),\n            dict(type='RResize', img_scale=(1024, 1024)),\n            dict(\n                type='RRandomFlip',\n                flip_ratio=[0.25, 0.25, 0.25],\n                direction=['horizontal', 'vertical', 'diagonal'],\n                version='le90'),\n            dict(\n                type='PolyRandomRotate',\n                rotate_ratio=0.5,\n                angles_range=180,\n                auto_bound=False,\n                rect_classes=[9, 11, 16],\n                version='le90'),\n            dict(\n                type='Normalize',\n                mean=[123.675, 116.28, 103.53],\n                std=[58.395, 57.12, 57.375],\n                to_rgb=True),\n            dict(type='Pad', size_divisor=32),\n            dict(type='DefaultFormatBundle'),\n            dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])\n        ],\n        version='le90'),\n    val=dict(\n        type='DOTAv2Dataset',\n        ann_file=\n        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/val/annfiles/',\n        img_prefix=\n        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/val/images/',\n        pipeline=[\n            dict(type='LoadImageFromFile'),\n            dict(\n                type='MultiScaleFlipAug',\n                img_scale=(1024, 1024),\n                flip=False,\n                transforms=[\n                    dict(type='RResize'),\n                    dict(\n                        type='Normalize',\n                        mean=[123.675, 116.28, 103.53],\n                        std=[58.395, 57.12, 57.375],\n                        to_rgb=True),\n                    dict(type='Pad', size_divisor=32),\n                    dict(type='DefaultFormatBundle'),\n                    dict(type='Collect', keys=['img'])\n                ])\n        ],\n        version='le90'),\n    test=dict(\n        type='DOTAv2Dataset',\n        ann_file=\n        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/test/images/',\n        img_prefix=\n        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/test/images/',\n        pipeline=[\n            dict(type='LoadImageFromFile'),\n            dict(\n                type='MultiScaleFlipAug',\n                img_scale=(1024, 1024),\n                flip=False,\n                transforms=[\n                    dict(type='RResize'),\n                    dict(\n                        type='Normalize',\n                        mean=[123.675, 116.28, 103.53],\n                        std=[58.395, 57.12, 57.375],\n                        to_rgb=True),\n                    dict(type='Pad', size_divisor=32),\n                    dict(type='DefaultFormatBundle'),\n                    dict(type='Collect', keys=['img'])\n                ])\n        ],\n        version='le90'))\nevaluation = dict(interval=1, metric='mAP')\noptimizer = dict(\n    type='AdamW',\n    lr=2.5e-05,\n    betas=(0.9, 0.999),\n    weight_decay=0.05,\n    constructor='InternViTAdapterLayerDecayOptimizerConstructor',\n    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.95))\noptimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2))\nlr_config = dict(\n    policy='step',\n    warmup='linear',\n    warmup_iters=500,\n    warmup_ratio=0.3333333333333333,\n    step=[8, 11])\nrunner = dict(type='EpochBasedRunner', max_epochs=12)\ncheckpoint_config = dict(interval=1, max_keep_ckpts=1)\nlog_config = dict(interval=500, hooks=[dict(type='TextLoggerHook')])\ndist_params = dict(backend='nccl')\nlog_level = 'INFO'\nload_from = None\nresume_from = None\nworkflow = [('train', 1)]\nopencv_num_threads = 0\nmp_start_method = 'fork'\npretrained = 'pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors'\nnorm_cfg = dict(type='LN', requires_grad=True)\nmodel = dict(\n    type='OrientedRCNN',\n    backbone=dict(\n        type='InternViTAdapter',\n        pretrain_size=448,\n        img_size=1024,\n        patch_size=16,\n        embed_dim=1024,\n        depth=24,\n        num_heads=16,\n        mlp_ratio=4.0,\n        drop_path_rate=0.1,\n        init_values=0.1,\n        with_cp=True,\n        use_flash_attn=True,\n        qk_normalization=False,\n        layerscale_force_fp32=False,\n        with_fpn=False,\n        freeze_vit=False,\n        use_final_norm=True,\n        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],\n        cffn_ratio=0.25,\n        deform_ratio=0.25,\n        qkv_bias=True,\n        norm_type='layer_norm',\n        pretrained=\n        'pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors',\n        pretrained_type='full',\n        only_feat_out=True),\n    neck=dict(\n        type='SimpleFPN',\n        in_channels=[1024, 1024, 1024, 1024],\n        out_channels=256,\n        norm_cfg=dict(type='LN', requires_grad=True),\n        use_residual=False,\n        num_outs=5),\n    rpn_head=dict(\n        type='OrientedRPNHead',\n        in_channels=256,\n        feat_channels=256,\n        version='le90',\n        anchor_generator=dict(\n            type='AnchorGenerator',\n            scales=[8],\n            ratios=[0.5, 1.0, 2.0],\n            strides=[4, 8, 16, 32, 64]),\n        bbox_coder=dict(\n            type='MidpointOffsetCoder',\n            angle_range='le90',\n            target_means=[0.0, 0.0, 0.0, 0.0, 0.0, 0.0],\n            target_stds=[1.0, 1.0, 1.0, 1.0, 0.5, 0.5]),\n        loss_cls=dict(\n            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),\n        loss_bbox=dict(\n            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),\n    roi_head=dict(\n        type='OrientedStandardRoIHead',\n        bbox_roi_extractor=dict(\n            type='RotatedSingleRoIExtractor',\n            roi_layer=dict(\n                type='RoIAlignRotated',\n                out_size=7,\n                sample_num=2,\n                clockwise=True),\n            out_channels=256,\n            featmap_strides=[4, 8, 16, 32]),\n        bbox_head=dict(\n            type='RotatedShared2FCBBoxHead',\n            in_channels=256,\n            fc_out_channels=1024,\n            roi_feat_size=7,\n            num_classes=18,\n            bbox_coder=dict(\n                type='DeltaXYWHAOBBoxCoder',\n                angle_range='le90',\n                norm_factor=None,\n                edge_swap=True,\n                proj_xy=True,\n                target_means=(0.0, 0.0, 0.0, 0.0, 0.0),\n                target_stds=(0.1, 0.1, 0.2, 0.2, 0.1)),\n            reg_class_agnostic=True,\n            loss_cls=dict(\n                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),\n            loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))),\n    train_cfg=dict(\n        rpn=dict(\n            assigner=dict(\n                type='MaxIoUAssigner',\n                pos_iou_thr=0.7,\n                neg_iou_thr=0.3,\n                min_pos_iou=0.3,\n                match_low_quality=True,\n                gpu_assign_thr=1000,\n                ignore_iof_thr=-1),\n            sampler=dict(\n                type='RandomSampler',\n                num=256,\n                pos_fraction=0.5,\n                neg_pos_ub=-1,\n                add_gt_as_proposals=False),\n            allowed_border=0,\n            pos_weight=-1,\n            debug=False),\n        rpn_proposal=dict(\n            nms_pre=2000,\n            max_per_img=2000,\n            nms=dict(type='nms', iou_threshold=0.8),\n            min_bbox_size=0),\n        rcnn=dict(\n            assigner=dict(\n                type='MaxIoUAssigner',\n                pos_iou_thr=0.5,\n                neg_iou_thr=0.5,\n                min_pos_iou=0.5,\n                match_low_quality=False,\n                gpu_assign_thr=1000,\n                iou_calculator=dict(type='RBboxOverlaps2D'),\n                ignore_iof_thr=-1),\n            sampler=dict(\n                type='RRandomSampler',\n                num=512,\n                pos_fraction=0.25,\n                neg_pos_ub=-1,\n                add_gt_as_proposals=True),\n            pos_weight=-1,\n            debug=False)),\n    test_cfg=dict(\n        rpn=dict(\n            nms_pre=2000,\n            max_per_img=2000,\n            nms=dict(type='nms', iou_threshold=0.8),\n            min_bbox_size=0),\n        rcnn=dict(\n            nms_pre=2000,\n            min_bbox_size=0,\n            score_thr=0.05,\n            nms=dict(iou_thr=0.1),\n            max_per_img=2000)))\nfp16 = dict(loss_scale=dict(init_scale=512))\nwork_dir = './work_dirs/dotav2_ss_inst_tun_TMAug75_orcnn_8k_submit_fixed'\nauto_resume = False\ngpu_ids = range(0, 8)\ndevice = 'cuda'\n", "seed": 0, "exp_name": "dotav2_ss_inst_tun_TMAug75_orcnn_8k_submit_fixed.py"}
+{"mode": "train", "epoch": 1, "iter": 500, "lr": 1e-05, "memory": 17876, "data_time": 0.01321, "loss_rpn_cls": 0.22962, "loss_rpn_bbox": 0.23782, "loss_cls": 0.2992, "acc": 91.19155, "loss_bbox": 0.36975, "loss": 1.13638, "grad_norm": 6.84031, "time": 0.89729}
+{"mode": "train", "epoch": 1, "iter": 1000, "lr": 1e-05, "memory": 18434, "data_time": 0.00449, "loss_rpn_cls": 0.06197, "loss_rpn_bbox": 0.13979, "loss_cls": 0.27737, "acc": 89.68506, "loss_bbox": 0.32214, "loss": 0.80126, "grad_norm": 8.01017, "time": 0.92367}
+{"mode": "train", "epoch": 1, "iter": 1500, "lr": 1e-05, "memory": 18674, "data_time": 0.00473, "loss_rpn_cls": 0.04664, "loss_rpn_bbox": 0.10544, "loss_cls": 0.25047, "acc": 90.28662, "loss_bbox": 0.28368, "loss": 0.68623, "grad_norm": 7.65981, "time": 0.93148}
+{"mode": "train", "epoch": 1, "iter": 2000, "lr": 1e-05, "memory": 18674, "data_time": 0.0046, "loss_rpn_cls": 0.04112, "loss_rpn_bbox": 0.09466, "loss_cls": 0.23303, "acc": 90.85869, "loss_bbox": 0.2537, "loss": 0.62252, "grad_norm": 7.42095, "time": 0.88799}
+{"mode": "val", "epoch": 1, "iter": 507, "lr": 1e-05, "mAP": 0.55798}
+{"mode": "train", "epoch": 2, "iter": 500, "lr": 1e-05, "memory": 18674, "data_time": 0.01054, "loss_rpn_cls": 0.03452, "loss_rpn_bbox": 0.08228, "loss_cls": 0.21041, "acc": 91.63521, "loss_bbox": 0.22821, "loss": 0.55542, "grad_norm": 6.93511, "time": 0.86113}
+{"mode": "train", "epoch": 2, "iter": 1000, "lr": 1e-05, "memory": 18674, "data_time": 0.00488, "loss_rpn_cls": 0.0323, "loss_rpn_bbox": 0.07856, "loss_cls": 0.20609, "acc": 91.78198, "loss_bbox": 0.21681, "loss": 0.53376, "grad_norm": 6.61931, "time": 0.96748}
+{"mode": "train", "epoch": 2, "iter": 1500, "lr": 1e-05, "memory": 18674, "data_time": 0.00467, "loss_rpn_cls": 0.03153, "loss_rpn_bbox": 0.07904, "loss_cls": 0.19671, "acc": 92.2127, "loss_bbox": 0.20355, "loss": 0.51084, "grad_norm": 6.5069, "time": 0.88819}
+{"mode": "train", "epoch": 2, "iter": 2000, "lr": 1e-05, "memory": 18674, "data_time": 0.0045, "loss_rpn_cls": 0.02838, "loss_rpn_bbox": 0.07284, "loss_cls": 0.18933, "acc": 92.44087, "loss_bbox": 0.20238, "loss": 0.49292, "grad_norm": 6.43785, "time": 0.88837}
+{"mode": "val", "epoch": 2, "iter": 507, "lr": 1e-05, "mAP": 0.67134}
+{"mode": "train", "epoch": 3, "iter": 500, "lr": 1e-05, "memory": 18674, "data_time": 0.01028, "loss_rpn_cls": 0.02596, "loss_rpn_bbox": 0.06967, "loss_cls": 0.17774, "acc": 92.91035, "loss_bbox": 0.19083, "loss": 0.46419, "grad_norm": 6.16322, "time": 0.93415}
+{"mode": "train", "epoch": 3, "iter": 1000, "lr": 1e-05, "memory": 18674, "data_time": 0.0049, "loss_rpn_cls": 0.0243, "loss_rpn_bbox": 0.07143, "loss_cls": 0.17614, "acc": 92.94189, "loss_bbox": 0.18816, "loss": 0.46003, "grad_norm": 6.08296, "time": 0.85458}
+{"mode": "train", "epoch": 3, "iter": 1500, "lr": 1e-05, "memory": 18674, "data_time": 0.00555, "loss_rpn_cls": 0.02326, "loss_rpn_bbox": 0.07019, "loss_cls": 0.17277, "acc": 93.06279, "loss_bbox": 0.18304, "loss": 0.44925, "grad_norm": Infinity, "time": 0.93356}
+{"mode": "train", "epoch": 3, "iter": 2000, "lr": 1e-05, "memory": 18674, "data_time": 0.00419, "loss_rpn_cls": 0.02175, "loss_rpn_bbox": 0.06569, "loss_cls": 0.16608, "acc": 93.34463, "loss_bbox": 0.17497, "loss": 0.42848, "grad_norm": 5.86902, "time": 0.93196}
+{"mode": "val", "epoch": 3, "iter": 507, "lr": 1e-05, "mAP": 0.73974}
+{"mode": "train", "epoch": 4, "iter": 500, "lr": 1e-05, "memory": 18674, "data_time": 0.01021, "loss_rpn_cls": 0.0207, "loss_rpn_bbox": 0.06478, "loss_cls": 0.1601, "acc": 93.57822, "loss_bbox": 0.1722, "loss": 0.41777, "grad_norm": 5.68575, "time": 0.83728}
+{"mode": "train", "epoch": 4, "iter": 1000, "lr": 1e-05, "memory": 18674, "data_time": 0.00434, "loss_rpn_cls": 0.01994, "loss_rpn_bbox": 0.06668, "loss_cls": 0.15932, "acc": 93.60884, "loss_bbox": 0.16885, "loss": 0.41479, "grad_norm": 5.81053, "time": 0.88715}
+{"mode": "train", "epoch": 4, "iter": 1500, "lr": 1e-05, "memory": 18674, "data_time": 0.00427, "loss_rpn_cls": 0.01936, "loss_rpn_bbox": 0.06142, "loss_cls": 0.15656, "acc": 93.70991, "loss_bbox": 0.16712, "loss": 0.40445, "grad_norm": 5.80572, "time": 0.92355}
+{"mode": "train", "epoch": 4, "iter": 2000, "lr": 1e-05, "memory": 18674, "data_time": 0.0045, "loss_rpn_cls": 0.01946, "loss_rpn_bbox": 0.06579, "loss_cls": 0.15377, "acc": 93.8209, "loss_bbox": 0.16848, "loss": 0.4075, "grad_norm": 5.65134, "time": 0.91218}
+{"mode": "val", "epoch": 4, "iter": 507, "lr": 1e-05, "mAP": 0.77918}
+{"mode": "train", "epoch": 5, "iter": 500, "lr": 1e-05, "memory": 18674, "data_time": 0.01137, "loss_rpn_cls": 0.01661, "loss_rpn_bbox": 0.06183, "loss_cls": 0.14519, "acc": 94.13652, "loss_bbox": 0.16133, "loss": 0.38495, "grad_norm": 5.58271, "time": 0.83983}
+{"mode": "train", "epoch": 5, "iter": 1000, "lr": 1e-05, "memory": 18674, "data_time": 0.00575, "loss_rpn_cls": 0.01661, "loss_rpn_bbox": 0.05994, "loss_cls": 0.14637, "acc": 94.13779, "loss_bbox": 0.15861, "loss": 0.38153, "grad_norm": 5.50105, "time": 0.90623}
+{"mode": "train", "epoch": 5, "iter": 1500, "lr": 1e-05, "memory": 18684, "data_time": 0.00576, "loss_rpn_cls": 0.01698, "loss_rpn_bbox": 0.05849, "loss_cls": 0.1446, "acc": 94.17349, "loss_bbox": 0.1583, "loss": 0.37836, "grad_norm": 5.34356, "time": 0.88473}
+{"mode": "train", "epoch": 5, "iter": 2000, "lr": 1e-05, "memory": 18684, "data_time": 0.00543, "loss_rpn_cls": 0.01642, "loss_rpn_bbox": 0.05949, "loss_cls": 0.14323, "acc": 94.2292, "loss_bbox": 0.1564, "loss": 0.37555, "grad_norm": 5.26925, "time": 0.93525}
+{"mode": "val", "epoch": 5, "iter": 507, "lr": 1e-05, "mAP": 0.77819}
+{"mode": "train", "epoch": 6, "iter": 500, "lr": 1e-05, "memory": 18684, "data_time": 0.01102, "loss_rpn_cls": 0.01521, "loss_rpn_bbox": 0.05975, "loss_cls": 0.14136, "acc": 94.25312, "loss_bbox": 0.15807, "loss": 0.37439, "grad_norm": 5.27262, "time": 0.84039}
+{"mode": "train", "epoch": 6, "iter": 1000, "lr": 1e-05, "memory": 18684, "data_time": 0.00541, "loss_rpn_cls": 0.01487, "loss_rpn_bbox": 0.05635, "loss_cls": 0.13433, "acc": 94.55645, "loss_bbox": 0.14917, "loss": 0.35473, "grad_norm": Infinity, "time": 0.94292}
+{"mode": "train", "epoch": 6, "iter": 1500, "lr": 1e-05, "memory": 18684, "data_time": 0.00517, "loss_rpn_cls": 0.01424, "loss_rpn_bbox": 0.05669, "loss_cls": 0.13325, "acc": 94.6062, "loss_bbox": 0.14822, "loss": 0.35239, "grad_norm": 5.11383, "time": 0.94904}
+{"mode": "train", "epoch": 6, "iter": 2000, "lr": 1e-05, "memory": 18684, "data_time": 0.00494, "loss_rpn_cls": 0.01532, "loss_rpn_bbox": 0.05812, "loss_cls": 0.1349, "acc": 94.57983, "loss_bbox": 0.14951, "loss": 0.35784, "grad_norm": 5.09458, "time": 0.8966}
+{"mode": "val", "epoch": 6, "iter": 507, "lr": 1e-05, "mAP": 0.78846}
+{"mode": "train", "epoch": 7, "iter": 500, "lr": 1e-05, "memory": 18684, "data_time": 0.0115, "loss_rpn_cls": 0.01331, "loss_rpn_bbox": 0.05755, "loss_cls": 0.12985, "acc": 94.76611, "loss_bbox": 0.14636, "loss": 0.34707, "grad_norm": 5.24194, "time": 0.86415}
+{"mode": "train", "epoch": 7, "iter": 1000, "lr": 1e-05, "memory": 18684, "data_time": 0.00517, "loss_rpn_cls": 0.01366, "loss_rpn_bbox": 0.05277, "loss_cls": 0.12833, "acc": 94.75073, "loss_bbox": 0.14497, "loss": 0.33974, "grad_norm": 5.13276, "time": 0.88887}
+{"mode": "train", "epoch": 7, "iter": 1500, "lr": 1e-05, "memory": 18684, "data_time": 0.00541, "loss_rpn_cls": 0.01313, "loss_rpn_bbox": 0.05564, "loss_cls": 0.12753, "acc": 94.81455, "loss_bbox": 0.14402, "loss": 0.34032, "grad_norm": Infinity, "time": 0.93935}
+{"mode": "train", "epoch": 7, "iter": 2000, "lr": 1e-05, "memory": 18684, "data_time": 0.00511, "loss_rpn_cls": 0.01303, "loss_rpn_bbox": 0.05475, "loss_cls": 0.13166, "acc": 94.66523, "loss_bbox": 0.14399, "loss": 0.34343, "grad_norm": 5.21322, "time": 0.8627}
+{"mode": "val", "epoch": 7, "iter": 507, "lr": 1e-05, "mAP": 0.81797}
+{"mode": "train", "epoch": 8, "iter": 500, "lr": 1e-05, "memory": 18684, "data_time": 0.01038, "loss_rpn_cls": 0.01266, "loss_rpn_bbox": 0.05059, "loss_cls": 0.12186, "acc": 95.03833, "loss_bbox": 0.14016, "loss": 0.32527, "grad_norm": 4.9427, "time": 0.9485}
+{"mode": "train", "epoch": 8, "iter": 1000, "lr": 1e-05, "memory": 18684, "data_time": 0.005, "loss_rpn_cls": 0.01225, "loss_rpn_bbox": 0.05314, "loss_cls": 0.1225, "acc": 94.99727, "loss_bbox": 0.1376, "loss": 0.32549, "grad_norm": 4.87507, "time": 0.90573}
+{"mode": "train", "epoch": 8, "iter": 1500, "lr": 1e-05, "memory": 18684, "data_time": 0.00499, "loss_rpn_cls": 0.01257, "loss_rpn_bbox": 0.052, "loss_cls": 0.12513, "acc": 94.90845, "loss_bbox": 0.1408, "loss": 0.3305, "grad_norm": 4.96171, "time": 0.86173}
+{"mode": "train", "epoch": 8, "iter": 2000, "lr": 1e-05, "memory": 18684, "data_time": 0.00506, "loss_rpn_cls": 0.01301, "loss_rpn_bbox": 0.05485, "loss_cls": 0.12459, "acc": 94.92754, "loss_bbox": 0.14242, "loss": 0.33486, "grad_norm": 4.92717, "time": 0.95854}
+{"mode": "val", "epoch": 8, "iter": 507, "lr": 1e-05, "mAP": 0.82038}
+{"mode": "train", "epoch": 9, "iter": 500, "lr": 0.0, "memory": 18684, "data_time": 0.01025, "loss_rpn_cls": 0.01003, "loss_rpn_bbox": 0.04765, "loss_cls": 0.11069, "acc": 95.49946, "loss_bbox": 0.12562, "loss": 0.29398, "grad_norm": 4.3049, "time": 0.91349}
+{"mode": "train", "epoch": 9, "iter": 1000, "lr": 0.0, "memory": 18684, "data_time": 0.00495, "loss_rpn_cls": 0.01021, "loss_rpn_bbox": 0.04601, "loss_cls": 0.10919, "acc": 95.51021, "loss_bbox": 0.12339, "loss": 0.2888, "grad_norm": 4.20204, "time": 0.8631}
+{"mode": "train", "epoch": 9, "iter": 1500, "lr": 0.0, "memory": 18684, "data_time": 0.00576, "loss_rpn_cls": 0.00961, "loss_rpn_bbox": 0.04675, "loss_cls": 0.10608, "acc": 95.65625, "loss_bbox": 0.1228, "loss": 0.28525, "grad_norm": 4.11367, "time": 0.89445}
+{"mode": "train", "epoch": 9, "iter": 2000, "lr": 0.0, "memory": 18684, "data_time": 0.00502, "loss_rpn_cls": 0.00968, "loss_rpn_bbox": 0.04612, "loss_cls": 0.10711, "acc": 95.61128, "loss_bbox": 0.12204, "loss": 0.28495, "grad_norm": 4.12107, "time": 0.93494}
+{"mode": "val", "epoch": 9, "iter": 507, "lr": 0.0, "mAP": 0.83246}
+{"mode": "train", "epoch": 10, "iter": 500, "lr": 0.0, "memory": 18722, "data_time": 0.0103, "loss_rpn_cls": 0.009, "loss_rpn_bbox": 0.04503, "loss_cls": 0.1037, "acc": 95.71821, "loss_bbox": 0.11915, "loss": 0.27688, "grad_norm": NaN, "time": 0.86487}
+{"mode": "train", "epoch": 10, "iter": 1000, "lr": 0.0, "memory": 18722, "data_time": 0.00489, "loss_rpn_cls": 0.00899, "loss_rpn_bbox": 0.04443, "loss_cls": 0.10421, "acc": 95.70728, "loss_bbox": 0.12051, "loss": 0.27814, "grad_norm": 4.01737, "time": 0.92096}
+{"mode": "train", "epoch": 10, "iter": 1500, "lr": 0.0, "memory": 18722, "data_time": 0.00489, "loss_rpn_cls": 0.00916, "loss_rpn_bbox": 0.04545, "loss_cls": 0.10351, "acc": 95.72437, "loss_bbox": 0.11887, "loss": 0.27699, "grad_norm": 4.11703, "time": 0.93527}
+{"mode": "train", "epoch": 10, "iter": 2000, "lr": 0.0, "memory": 18722, "data_time": 0.00452, "loss_rpn_cls": 0.00918, "loss_rpn_bbox": 0.04553, "loss_cls": 0.10346, "acc": 95.7481, "loss_bbox": 0.11914, "loss": 0.27731, "grad_norm": 4.26776, "time": 0.9228}
+{"mode": "val", "epoch": 10, "iter": 507, "lr": 0.0, "mAP": 0.83925}
+{"mode": "train", "epoch": 11, "iter": 500, "lr": 0.0, "memory": 18722, "data_time": 0.0105, "loss_rpn_cls": 0.00882, "loss_rpn_bbox": 0.04445, "loss_cls": 0.09972, "acc": 95.8978, "loss_bbox": 0.11679, "loss": 0.26977, "grad_norm": 4.12779, "time": 0.93442}
+{"mode": "train", "epoch": 11, "iter": 1000, "lr": 0.0, "memory": 18722, "data_time": 0.0052, "loss_rpn_cls": 0.00876, "loss_rpn_bbox": 0.04516, "loss_cls": 0.10168, "acc": 95.81157, "loss_bbox": 0.11813, "loss": 0.27373, "grad_norm": 4.12723, "time": 0.89153}
+{"mode": "train", "epoch": 11, "iter": 1500, "lr": 0.0, "memory": 18722, "data_time": 0.00459, "loss_rpn_cls": 0.00864, "loss_rpn_bbox": 0.04431, "loss_cls": 0.09949, "acc": 95.87734, "loss_bbox": 0.11514, "loss": 0.26758, "grad_norm": 4.13996, "time": 0.90387}
+{"mode": "train", "epoch": 11, "iter": 2000, "lr": 0.0, "memory": 18722, "data_time": 0.00435, "loss_rpn_cls": 0.00881, "loss_rpn_bbox": 0.04572, "loss_cls": 0.1016, "acc": 95.80464, "loss_bbox": 0.11718, "loss": 0.27331, "grad_norm": 4.13149, "time": 0.86303}
+{"mode": "val", "epoch": 11, "iter": 507, "lr": 0.0, "mAP": 0.84054}
+{"mode": "train", "epoch": 12, "iter": 500, "lr": 0.0, "memory": 18722, "data_time": 0.01022, "loss_rpn_cls": 0.00828, "loss_rpn_bbox": 0.0456, "loss_cls": 0.09908, "acc": 95.91694, "loss_bbox": 0.11592, "loss": 0.26888, "grad_norm": 4.12893, "time": 0.93153}
+{"mode": "train", "epoch": 12, "iter": 1000, "lr": 0.0, "memory": 18722, "data_time": 0.00509, "loss_rpn_cls": 0.00866, "loss_rpn_bbox": 0.04128, "loss_cls": 0.09904, "acc": 95.91704, "loss_bbox": 0.11454, "loss": 0.26352, "grad_norm": Infinity, "time": 0.90641}
+{"mode": "train", "epoch": 12, "iter": 1500, "lr": 0.0, "memory": 18722, "data_time": 0.0044, "loss_rpn_cls": 0.00815, "loss_rpn_bbox": 0.0453, "loss_cls": 0.09877, "acc": 95.94561, "loss_bbox": 0.11316, "loss": 0.26537, "grad_norm": 3.98564, "time": 0.88759}
+{"mode": "train", "epoch": 12, "iter": 2000, "lr": 0.0, "memory": 18722, "data_time": 0.00443, "loss_rpn_cls": 0.0083, "loss_rpn_bbox": 0.04348, "loss_cls": 0.09853, "acc": 95.96401, "loss_bbox": 0.11658, "loss": 0.26689, "grad_norm": 4.07181, "time": 0.88259}
+{"mode": "val", "epoch": 12, "iter": 507, "lr": 0.0, "mAP": 0.83731}

ckpts/vitp_dotav2_orcnn_6073/epoch_12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8aa7c0b74b0b90c9e1560a679407b8fdaa6e35449c65d00ac99151d7c62ba075
+size 1373270509

ckpts/vitp_dotav2_orcnn_6073/vitp_dotav2_orcnn.py ADDED Viewed

	@@ -0,0 +1,302 @@

+dataset_type = 'DOTAv2Dataset'
+data_root = '/defaultShare/pubdata/remote_sensing/dota_v2/'
+angle_version = 'le90'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True),
+    dict(type='RResize', img_scale=(1024, 1024)),
+    dict(
+        type='RRandomFlip',
+        flip_ratio=[0.25, 0.25, 0.25],
+        direction=['horizontal', 'vertical', 'diagonal'],
+        version='le90'),
+    dict(
+        type='PolyRandomRotate',
+        rotate_ratio=0.5,
+        angles_range=180,
+        auto_bound=False,
+        rect_classes=[9, 11, 16],
+        version='le90'),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1024, 1024),
+        flip=False,
+        transforms=[
+            dict(type='RResize'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=1,
+    workers_per_gpu=4,
+    train=dict(
+        type='DOTAv2Dataset',
+        ann_file=
+        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/trainval/annfiles/',
+        img_prefix=
+        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/trainval/images/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True),
+            dict(type='RResize', img_scale=(1024, 1024)),
+            dict(
+                type='RRandomFlip',
+                flip_ratio=[0.25, 0.25, 0.25],
+                direction=['horizontal', 'vertical', 'diagonal'],
+                version='le90'),
+            dict(
+                type='PolyRandomRotate',
+                rotate_ratio=0.5,
+                angles_range=180,
+                auto_bound=False,
+                rect_classes=[9, 11, 16],
+                version='le90'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
+        ],
+        version='le90'),
+    val=dict(
+        type='DOTAv2Dataset',
+        ann_file=
+        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/val/annfiles/',
+        img_prefix=
+        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/val/images/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1024, 1024),
+                flip=False,
+                transforms=[
+                    dict(type='RResize'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='DefaultFormatBundle'),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ],
+        version='le90'),
+    test=dict(
+        type='DOTAv2Dataset',
+        ann_file=
+        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/test/images/',
+        img_prefix=
+        '/defaultShare/pubdata/remote_sensing/dota_v2/split_ss_dota/test/images/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1024, 1024),
+                flip=False,
+                transforms=[
+                    dict(type='RResize'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='DefaultFormatBundle'),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ],
+        version='le90'))
+evaluation = dict(interval=1, metric='mAP')
+optimizer = dict(
+    type='AdamW',
+    lr=2.5e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.95))
+optimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2))
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.3333333333333333,
+    step=[8, 11])
+runner = dict(type='EpochBasedRunner', max_epochs=12)
+checkpoint_config = dict(interval=1, max_keep_ckpts=1)
+log_config = dict(interval=500, hooks=[dict(type='TextLoggerHook')])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+opencv_num_threads = 0
+mp_start_method = 'fork'
+pretrained = 'pretrained/ViTP_ViT_L_300M_rs.safetensors'
+norm_cfg = dict(type='LN', requires_grad=True)
+model = dict(
+    type='OrientedRCNN',
+    backbone=dict(
+        type='InternViTAdapter',
+        pretrain_size=448,
+        img_size=1024,
+        patch_size=16,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        mlp_ratio=4.0,
+        drop_path_rate=0.1,
+        init_values=0.1,
+        with_cp=True,
+        use_flash_attn=True,
+        qk_normalization=False,
+        layerscale_force_fp32=False,
+        with_fpn=False,
+        freeze_vit=False,
+        use_final_norm=True,
+        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        qkv_bias=True,
+        norm_type='layer_norm',
+        pretrained='pretrained/ViTP_ViT_L_300M_rs.safetensors',
+        pretrained_type='full',
+        only_feat_out=True),
+    neck=dict(
+        type='SimpleFPN',
+        in_channels=[1024, 1024, 1024, 1024],
+        out_channels=256,
+        norm_cfg=dict(type='LN', requires_grad=True),
+        use_residual=False,
+        num_outs=5),
+    rpn_head=dict(
+        type='OrientedRPNHead',
+        in_channels=256,
+        feat_channels=256,
+        version='le90',
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='MidpointOffsetCoder',
+            angle_range='le90',
+            target_means=[0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0, 0.5, 0.5]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='OrientedStandardRoIHead',
+        bbox_roi_extractor=dict(
+            type='RotatedSingleRoIExtractor',
+            roi_layer=dict(
+                type='RoIAlignRotated',
+                out_size=7,
+                sample_num=2,
+                clockwise=True),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=dict(
+            type='RotatedShared2FCBBoxHead',
+            in_channels=256,
+            fc_out_channels=1024,
+            roi_feat_size=7,
+            num_classes=18,
+            bbox_coder=dict(
+                type='DeltaXYWHAOBBoxCoder',
+                angle_range='le90',
+                norm_factor=None,
+                edge_swap=True,
+                proj_xy=True,
+                target_means=(0.0, 0.0, 0.0, 0.0, 0.0),
+                target_stds=(0.1, 0.1, 0.2, 0.2, 0.1)),
+            reg_class_agnostic=True,
+            loss_cls=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
+            loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                gpu_assign_thr=1000,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_pre=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.8),
+            min_bbox_size=0),
+        rcnn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                gpu_assign_thr=1000,
+                iou_calculator=dict(type='RBboxOverlaps2D'),
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RRandomSampler',
+                num=512,
+                pos_fraction=0.25,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False)),
+    test_cfg=dict(
+        rpn=dict(
+            nms_pre=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.8),
+            min_bbox_size=0),
+        rcnn=dict(
+            nms_pre=2000,
+            min_bbox_size=0,
+            score_thr=0.05,
+            nms=dict(iou_thr=0.1),
+            max_per_img=2000)))
+fp16 = dict(loss_scale=dict(init_scale=512))
+work_dir = './work_dirs/vitp_dotav2_orcnn'
+auto_resume = False
+gpu_ids = range(0, 8)
+device = 'cuda'

ckpts/vitp_isaid_upernet_7114/20250803_154801.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_isaid_upernet_7114/20250803_154801.log.json ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_isaid_upernet_7114/ViTP_isaid_upernet.py ADDED Viewed

	@@ -0,0 +1,192 @@

+dataset_type = 'iSAIDDataset'
+data_root = '/defaultShare/pubdata/remote_sensing/iSAID'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+crop_size = (896, 896)
+data = dict(
+    samples_per_gpu=2,
+    workers_per_gpu=4,
+    train=dict(
+        type='iSAIDDataset',
+        data_root='/defaultShare/pubdata/remote_sensing/iSAID',
+        img_dir='img_dir/train',
+        ann_dir='ann_dir_old/train',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', reduce_zero_label=False),
+            dict(
+                type='Resize',
+                img_scale=(896, 896),
+                ratio_range=None,
+                keep_ratio=True),
+            dict(type='RandomCrop', crop_size=(896, 896)),
+            dict(type='RandomFlip', prob=0.5),
+            dict(type='PhotoMetricDistortion'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size=(896, 896), pad_val=0, seg_pad_val=255),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='iSAIDDataset',
+        data_root='/defaultShare/pubdata/remote_sensing/iSAID',
+        img_dir='img_dir/val',
+        ann_dir='ann_dir_old/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(896, 896),
+                flip=True,
+                img_ratios=[0.75,1.0,1.5],
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip', prob=1.0),
+                    dict(
+                        type='Pad',
+                        size=(896, 896),
+                        pad_val=0,
+                        seg_pad_val=255),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='iSAIDDataset',
+        data_root='/defaultShare/pubdata/remote_sensing/iSAID',
+        img_dir='img_dir/val',
+        ann_dir='ann_dir_old/val',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(896, 896),
+                flip=True,
+                img_ratios=[0.75,1.0,1.5],
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip', prob=1.0),
+                    dict(
+                        type='Pad',
+                        size=(896, 896),
+                        pad_val=0,
+                        seg_pad_val=255),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+log_config = dict(
+    interval=50,
+    hooks=[
+        dict(type='TextLoggerHook', by_epoch=False),
+        dict(type='TensorboardLoggerHook')
+    ])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW',
+    lr=1.5e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.9))
+optimizer_config = dict()
+lr_config = dict(
+    policy='CosineAnnealing',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    min_lr=0.0)
+runner = dict(type='IterBasedRunner', max_iters=80000)
+checkpoint_config = dict(by_epoch=False, interval=8000, max_keep_ckpts=3)
+evaluation = dict(interval=4000, metric='mIoU', pre_eval=True, metrics='mIoU')
+val_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(896, 896),
+        flip=True,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip', prob=1.0),
+            dict(type='Pad', size=(896, 896), pad_val=0, seg_pad_val=255),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+default_hooks = dict(
+    timer=dict(type='IterTimerHook'),
+    logger=dict(type='LoggerHook', interval=50, log_metric_by_epoch=False),
+    sampler_seed=dict(type='DistSamplerSeedHook'))
+pretrained = 'pretrained/ViTP_ViT_L_300M_rs.safetensors'
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    backbone=dict(
+        type='InternViTAdapter',
+        pretrain_size=448,
+        img_size=896,
+        patch_size=16,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        mlp_ratio=4.0,
+        drop_path_rate=0.1,
+        init_values=0.1,
+        with_cp=True,
+        use_flash_attn=True,
+        qk_normalization=False,
+        layerscale_force_fp32=False,
+        with_fpn=False,
+        freeze_vit=False,
+        use_final_norm=True,
+        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        qkv_bias=True,
+        norm_type='layer_norm',
+        pretrained='pretrained/ViTP_ViT_L_300M_rs.safetensors',
+        pretrained_type='full'),
+    decode_head=dict(
+        type='UPerHead',
+        in_channels=[1024, 1024, 1024, 1024],
+        num_classes=16,
+        ignore_index=255,
+        in_index=[0, 1, 2, 3],
+        pool_scales=(1, 2, 3, 6),
+        channels=512,
+        dropout_ratio=0.1,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='slide', crop_size=crop_size, stride=(crop_size[0]//2, crop_size[1]//2)))
+fp16 = dict(loss_scale=dict(init_scale=512))
+randomness = dict(seed=3407)
+work_dir = './work_dirs/ViTP_isaid_upernet'
+gpu_ids = range(0, 8)
+auto_resume = False

ckpts/vitp_isaid_upernet_7114/eval_20250921_141413.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+    "config": "./configs/internvit/upernet_internvit_adp_80k_isaid_cos_ldr90.py",
+    "metric": {
+        "aAcc": 0.9912000000000001,
+        "mIoU": 0.7114,
+        "mAcc": 0.7913,
+        "IoU.background": 0.9919000244140626,
+        "IoU.ship": 0.7715000152587891,
+        "IoU.store_tank": 0.7601000213623047,
+        "IoU.baseball_diamond": 0.8194000244140625,
+        "IoU.tennis_court": 0.9094000244140625,
+        "IoU.basketball_court": 0.7026000213623047,
+        "IoU.Ground_Track_Field": 0.65,
+        "IoU.Bridge": 0.494900016784668,
+        "IoU.Large_Vehicle": 0.7023999786376953,
+        "IoU.Small_Vehicle": 0.560099983215332,
+        "IoU.Helicopter": 0.44459999084472657,
+        "IoU.Swimming_pool": 0.5159999847412109,
+        "IoU.Roundabout": 0.7868000030517578,
+        "IoU.Soccer_ball_field": 0.7841999816894532,
+        "IoU.plane": 0.8708999633789063,
+        "IoU.Harbor": 0.6168999862670899,
+        "Acc.background": 0.9976000213623046,
+        "Acc.ship": 0.856500015258789,
+        "Acc.store_tank": 0.8390000152587891,
+        "Acc.baseball_diamond": 0.8686000061035156,
+        "Acc.tennis_court": 0.9333000183105469,
+        "Acc.basketball_court": 0.8120999908447266,
+        "Acc.Ground_Track_Field": 0.7269999694824218,
+        "Acc.Bridge": 0.5695000076293946,
+        "Acc.Large_Vehicle": 0.7880999755859375,
+        "Acc.Small_Vehicle": 0.6397000122070312,
+        "Acc.Helicopter": 0.7390000152587891,
+        "Acc.Swimming_pool": 0.5818000030517578,
+        "Acc.Roundabout": 0.8454000091552735,
+        "Acc.Soccer_ball_field": 0.8494999694824219,
+        "Acc.plane": 0.9266000366210938,
+        "Acc.Harbor": 0.6873999786376953
+    }
+}

ckpts/vitp_isaid_upernet_7114/iter_80000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71e964b20d73596832f96920fa676404294b52981ecc04824546f0522120e82d
+size 1435132133

ckpts/vitp_levir_upernet_7268/20250919_030132/20250919_030132.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_levir_upernet_7268/20250919_030132/20250921_105914.log ADDED Viewed

	@@ -0,0 +1,485 @@

+2025/09/21 10:59:18 - mmengine - INFO -
+------------------------------------------------------------
+System environment:
+    sys.platform: linux
+    Python: 3.10.16 (main, Dec 11 2024, 16:24:50) [GCC 11.2.0]
+    CUDA available: True
+    MUSA available: False
+    numpy_random_seed: 908216666
+    GPU 0,1,2,3,4,5,6,7: NVIDIA GeForce RTX 3090
+    CUDA_HOME: /mnt/petrelfs/share_data/liqingyun/cuda/cuda-12.4/
+    GCC: gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0
+    PyTorch: 1.12.0
+    PyTorch compiling details: PyTorch built with:
+  - GCC 9.3
+  - C++ Version: 201402
+  - Intel(R) oneAPI Math Kernel Library Version 2024.0-Product Build 20231011 for Intel(R) 64 architecture applications
+  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)
+  - OpenMP 201511 (a.k.a. OpenMP 4.5)
+  - LAPACK is enabled (usually provided by MKL)
+  - NNPACK is enabled
+  - CPU capability usage: AVX2
+  - CUDA Runtime 11.3
+  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_37,code=compute_37
+  - CuDNN 8.3.2  (built against CUDA 11.5)
+  - Magma 2.5.2
+  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.3, CUDNN_VERSION=8.3.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-unused-local-typedefs -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.12.0, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=OFF, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF,
+    TorchVision: 0.13.0
+    OpenCV: 4.11.0
+    MMEngine: 0.10.7
+Runtime environment:
+    cudnn_benchmark: True
+    mp_cfg: {'mp_start_method': 'fork', 'opencv_num_threads': 0}
+    dist_cfg: {'backend': 'nccl'}
+    seed: 908216666
+    Distributed launcher: pytorch
+    Distributed training: True
+    GPU number: 8
+------------------------------------------------------------
+2025/09/21 10:59:19 - mmengine - INFO - Config:
+crop_size = (
+    256,
+    256,
+)
+data_preprocessor = dict(
+    bgr_to_rgb=True,
+    mean=[
+        123.675,
+        116.28,
+        103.53,
+        123.675,
+        116.28,
+        103.53,
+    ],
+    pad_val=0,
+    seg_pad_val=255,
+    size_divisor=32,
+    std=[
+        58.395,
+        57.12,
+        57.375,
+        58.395,
+        57.12,
+        57.375,
+    ],
+    test_cfg=dict(size_divisor=32),
+    type='DualInputSegDataPreProcessor')
+data_root = '/defaultShare/pubdata/remote_sensing/LEVIR-CD-256'
+dataset_type = 'LEVIR_CD_Dataset'
+default_hooks = dict(
+    checkpoint=dict(by_epoch=False, interval=8000, type='CheckpointHook'),
+    logger=dict(interval=500, log_metric_by_epoch=False, type='LoggerHook'),
+    param_scheduler=dict(type='ParamSchedulerHook'),
+    sampler_seed=dict(type='DistSamplerSeedHook'),
+    timer=dict(type='IterTimerHook'),
+    visualization=dict(interval=1, type='CDVisualizationHook'))
+default_scope = 'opencd'
+env_cfg = dict(
+    cudnn_benchmark=True,
+    dist_cfg=dict(backend='nccl'),
+    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0))
+fp16 = dict(loss_scale=dict(init_scale=512))
+img_ratios = [
+    0.75,
+    1.0,
+    1.25,
+]
+launcher = 'pytorch'
+load_from = './work_dirs/upernet_internvit_adp_levir/iter_80000.pth'
+log_level = 'INFO'
+log_processor = dict(by_epoch=False)
+model = dict(
+    backbone=dict(
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        depth=24,
+        drop_path_rate=0.1,
+        embed_dim=1024,
+        freeze_vit=False,
+        img_size=256,
+        init_values=0.1,
+        interaction_indexes=[
+            [
+                0,
+                7,
+            ],
+            [
+                8,
+                11,
+            ],
+            [
+                12,
+                15,
+            ],
+            [
+                16,
+                23,
+            ],
+        ],
+        layerscale_force_fp32=False,
+        mlp_ratio=4.0,
+        norm_type='layer_norm',
+        num_heads=16,
+        patch_size=16,
+        pretrain_size=448,
+        pretrained=
+        '/nfs/liyuxuan/zhangyicheng/mmrotate/pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors',
+        pretrained_type='full',
+        qk_normalization=False,
+        qkv_bias=True,
+        type='InternViTAdapter',
+        use_final_norm=True,
+        use_flash_attn=False,
+        with_cp=True,
+        with_fpn=False),
+    data_preprocessor=dict(
+        bgr_to_rgb=True,
+        mean=[
+            123.675,
+            116.28,
+            103.53,
+            123.675,
+            116.28,
+            103.53,
+        ],
+        pad_val=0,
+        seg_pad_val=255,
+        size_divisor=32,
+        std=[
+            58.395,
+            57.12,
+            57.375,
+            58.395,
+            57.12,
+            57.375,
+        ],
+        test_cfg=dict(size_divisor=32),
+        type='DualInputSegDataPreProcessor'),
+    decode_head=dict(
+        align_corners=False,
+        channels=1024,
+        dropout_ratio=0.1,
+        in_channels=[
+            2048,
+            2048,
+            2048,
+            2048,
+        ],
+        in_index=[
+            0,
+            1,
+            2,
+            3,
+        ],
+        loss_decode=dict(
+            loss_weight=1.0, type='mmseg.CrossEntropyLoss', use_sigmoid=False),
+        norm_cfg=dict(requires_grad=True, type='SyncBN'),
+        num_classes=2,
+        pool_scales=(
+            1,
+            2,
+            3,
+            6,
+        ),
+        type='mmseg.UPerHead'),
+    neck=dict(policy='concat', type='FeatureFusionNeck'),
+    test_cfg=dict(crop_size=(
+        256,
+        256,
+    ), mode='slide', stride=(
+        128,
+        128,
+    )),
+    train_cfg=dict(),
+    type='SiamEncoderDecoder')
+norm_cfg = dict(requires_grad=True, type='SyncBN')
+optim_wrapper = dict(
+    clip_grad=None,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    optimizer=dict(
+        betas=(
+            0.9,
+            0.999,
+        ), lr=0.0001, type='AdamW', weight_decay=0.05),
+    paramwise_cfg=dict(layer_decay_rate=0.9, num_layers=24),
+    type='OptimWrapper')
+optimizer = dict(lr=0.01, momentum=0.9, type='SGD', weight_decay=0.0005)
+param_scheduler = [
+    dict(
+        begin=0, by_epoch=False, end=1500, start_factor=1e-06,
+        type='LinearLR'),
+    dict(
+        T_max=78500,
+        begin=1500,
+        by_epoch=False,
+        end=80000,
+        eta_min=0.0,
+        type='CosineAnnealingLR'),
+]
+pretrained = '/nfs/liyuxuan/zhangyicheng/mmrotate/pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors'
+resume = False
+test_cfg = dict(type='TestLoop')
+test_dataloader = dict(
+    batch_size=1,
+    dataset=dict(
+        data_prefix=dict(
+            img_path_from='A', img_path_to='B', seg_map_path='label'),
+        data_root='/defaultShare/pubdata/remote_sensing/LEVIR_CD/test',
+        pipeline=[
+            dict(type='MultiImgLoadImageFromFile'),
+            dict(type='MultiImgLoadAnnotations'),
+            dict(type='MultiImgPackSegInputs'),
+        ],
+        type='LEVIR_CD_Dataset'),
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(shuffle=False, type='DefaultSampler'))
+test_evaluator = dict(
+    iou_metrics=[
+        'mFscore',
+        'mIoU',
+    ], type='mmseg.IoUMetric')
+test_pipeline = [
+    dict(type='MultiImgLoadImageFromFile'),
+    dict(type='MultiImgLoadAnnotations'),
+    dict(type='MultiImgPackSegInputs'),
+]
+train_cfg = dict(max_iters=80000, type='IterBasedTrainLoop', val_interval=8000)
+train_dataloader = dict(
+    batch_size=4,
+    dataset=dict(
+        ann_file='list/train.txt',
+        data_prefix=dict(
+            img_path_from='A', img_path_to='B', seg_map_path='label'),
+        data_root='/defaultShare/pubdata/remote_sensing/LEVIR-CD-256',
+        pipeline=[
+            dict(type='MultiImgLoadImageFromFile'),
+            dict(type='MultiImgLoadAnnotations'),
+            dict(degree=180, prob=0.5, type='MultiImgRandomRotate'),
+            dict(
+                cat_max_ratio=0.75,
+                crop_size=(
+                    256,
+                    256,
+                ),
+                type='MultiImgRandomCrop'),
+            dict(direction='horizontal', prob=0.5, type='MultiImgRandomFlip'),
+            dict(direction='vertical', prob=0.5, type='MultiImgRandomFlip'),
+            dict(prob=0.5, type='MultiImgExchangeTime'),
+            dict(
+                brightness_delta=10,
+                contrast_range=(
+                    0.8,
+                    1.2,
+                ),
+                hue_delta=10,
+                saturation_range=(
+                    0.8,
+                    1.2,
+                ),
+                type='MultiImgPhotoMetricDistortion'),
+            dict(type='MultiImgPackSegInputs'),
+        ],
+        type='LEVIR_CD_Dataset'),
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(shuffle=True, type='DefaultSampler'))
+train_pipeline = [
+    dict(type='MultiImgLoadImageFromFile'),
+    dict(type='MultiImgLoadAnnotations'),
+    dict(degree=180, prob=0.5, type='MultiImgRandomRotate'),
+    dict(
+        cat_max_ratio=0.75, crop_size=(
+            256,
+            256,
+        ), type='MultiImgRandomCrop'),
+    dict(direction='horizontal', prob=0.5, type='MultiImgRandomFlip'),
+    dict(direction='vertical', prob=0.5, type='MultiImgRandomFlip'),
+    dict(prob=0.5, type='MultiImgExchangeTime'),
+    dict(
+        brightness_delta=10,
+        contrast_range=(
+            0.8,
+            1.2,
+        ),
+        hue_delta=10,
+        saturation_range=(
+            0.8,
+            1.2,
+        ),
+        type='MultiImgPhotoMetricDistortion'),
+    dict(type='MultiImgPackSegInputs'),
+]
+tta_model = dict(type='mmseg.SegTTAModel')
+tta_pipeline = [
+    dict(backend_args=None, type='MultiImgLoadImageFromFile'),
+    dict(
+        transforms=[
+            [
+                dict(
+                    keep_ratio=True, scale_factor=0.75, type='MultiImgResize'),
+                dict(keep_ratio=True, scale_factor=1.0, type='MultiImgResize'),
+                dict(
+                    keep_ratio=True, scale_factor=1.25, type='MultiImgResize'),
+            ],
+            [
+                dict(
+                    direction='horizontal',
+                    prob=0.0,
+                    type='MultiImgRandomFlip'),
+                dict(
+                    direction='horizontal',
+                    prob=1.0,
+                    type='MultiImgRandomFlip'),
+            ],
+            [
+                dict(type='MultiImgLoadAnnotations'),
+            ],
+            [
+                dict(type='MultiImgPackSegInputs'),
+            ],
+        ],
+        type='TestTimeAug'),
+]
+val_cfg = dict(type='ValLoop')
+val_dataloader = dict(
+    batch_size=1,
+    dataset=dict(
+        ann_file='list/test.txt',
+        data_prefix=dict(
+            img_path_from='A', img_path_to='B', seg_map_path='label'),
+        data_root='/defaultShare/pubdata/remote_sensing/LEVIR-CD-256',
+        pipeline=[
+            dict(type='MultiImgLoadImageFromFile'),
+            dict(type='MultiImgLoadAnnotations'),
+            dict(type='MultiImgPackSegInputs'),
+        ],
+        type='LEVIR_CD_Dataset'),
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(shuffle=False, type='DefaultSampler'))
+val_evaluator = dict(
+    iou_metrics=[
+        'mFscore',
+        'mIoU',
+    ], type='mmseg.IoUMetric')
+val_pipeline = [
+    dict(type='MultiImgLoadImageFromFile'),
+    dict(keep_ratio=True, scale=(
+        256,
+        256,
+    ), type='MultiImgResize'),
+    dict(type='MultiImgLoadAnnotations'),
+    dict(type='MultiImgPackSegInputs'),
+]
+vis_backends = [
+    dict(type='CDLocalVisBackend'),
+]
+visualizer = dict(
+    alpha=1.0,
+    name='visualizer',
+    type='CDLocalVisualizer',
+    vis_backends=[
+        dict(type='CDLocalVisBackend'),
+    ])
+work_dir = './work_dirs/upernet_internvit_adp_levir'
+2025/09/21 10:59:27 - mmengine - INFO - Hooks will be executed in the following order:
+before_run:
+(VERY_HIGH   ) RuntimeInfoHook
+(BELOW_NORMAL) LoggerHook
+ --------------------
+before_train:
+(VERY_HIGH   ) RuntimeInfoHook
+(NORMAL      ) IterTimerHook
+(VERY_LOW    ) CheckpointHook
+ --------------------
+before_train_epoch:
+(VERY_HIGH   ) RuntimeInfoHook
+(NORMAL      ) IterTimerHook
+(NORMAL      ) DistSamplerSeedHook
+ --------------------
+before_train_iter:
+(VERY_HIGH   ) RuntimeInfoHook
+(NORMAL      ) IterTimerHook
+ --------------------
+after_train_iter:
+(VERY_HIGH   ) RuntimeInfoHook
+(NORMAL      ) IterTimerHook
+(NORMAL      ) CDVisualizationHook
+(BELOW_NORMAL) LoggerHook
+(LOW         ) ParamSchedulerHook
+(VERY_LOW    ) CheckpointHook
+ --------------------
+after_train_epoch:
+(NORMAL      ) IterTimerHook
+(LOW         ) ParamSchedulerHook
+(VERY_LOW    ) CheckpointHook
+ --------------------
+before_val:
+(VERY_HIGH   ) RuntimeInfoHook
+ --------------------
+before_val_epoch:
+(NORMAL      ) IterTimerHook
+ --------------------
+before_val_iter:
+(NORMAL      ) IterTimerHook
+ --------------------
+after_val_iter:
+(NORMAL      ) IterTimerHook
+(NORMAL      ) CDVisualizationHook
+(BELOW_NORMAL) LoggerHook
+ --------------------
+after_val_epoch:
+(VERY_HIGH   ) RuntimeInfoHook
+(NORMAL      ) IterTimerHook
+(BELOW_NORMAL) LoggerHook
+(LOW         ) ParamSchedulerHook
+(VERY_LOW    ) CheckpointHook
+ --------------------
+after_val:
+(VERY_HIGH   ) RuntimeInfoHook
+ --------------------
+after_train:
+(VERY_HIGH   ) RuntimeInfoHook
+(VERY_LOW    ) CheckpointHook
+ --------------------
+before_test:
+(VERY_HIGH   ) RuntimeInfoHook
+ --------------------
+before_test_epoch:
+(NORMAL      ) IterTimerHook
+ --------------------
+before_test_iter:
+(NORMAL      ) IterTimerHook
+ --------------------
+after_test_iter:
+(NORMAL      ) IterTimerHook
+(NORMAL      ) CDVisualizationHook
+(BELOW_NORMAL) LoggerHook
+ --------------------
+after_test_epoch:
+(VERY_HIGH   ) RuntimeInfoHook
+(NORMAL      ) IterTimerHook
+(BELOW_NORMAL) LoggerHook
+ --------------------
+after_test:
+(VERY_HIGH   ) RuntimeInfoHook
+ --------------------
+after_run:
+(BELOW_NORMAL) LoggerHook
+ --------------------
+2025/09/21 10:59:27 - mmengine - WARNING - The prefix is not set in metric class IoUMetric.
+2025/09/21 10:59:34 - mmengine - INFO - Load checkpoint from ./work_dirs/upernet_internvit_adp_levir/iter_80000.pth
+2025/09/21 11:00:38 - mmengine - INFO - per class results:
+2025/09/21 11:00:38 - mmengine - INFO -
++-----------+--------+-----------+--------+-------+-------+
+|   Class   | Fscore | Precision | Recall |  IoU  |  Acc  |
++-----------+--------+-----------+--------+-------+-------+
+| unchanged | 99.61  |   99.54   | 99.68  | 99.23 | 99.68 |
+|  changed  | 92.67  |   93.92   | 91.45  | 86.34 | 91.45 |
++-----------+--------+-----------+--------+-------+-------+
+2025/09/21 11:00:38 - mmengine - INFO - Iter(test) [16/16]    aAcc: 99.2500  mFscore: 96.0900  mPrecision: 96.7300  mRecall: 95.4700  mIoU: 92.7000  mAcc: 95.4700  data_time: 0.0690  time: 3.9244

ckpts/vitp_levir_upernet_7268/iter_80000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54ac1c9895902db02909169fc1aeb19b7c8732b777a42ad2a3d16876fc53da31
+size 4569761364

ckpts/vitp_levir_upernet_7268/upernet_internvit_adp_levir.py ADDED Viewed

	@@ -0,0 +1,344 @@

+crop_size = (
+    256,
+    256,
+)
+data_preprocessor = dict(
+    bgr_to_rgb=True,
+    mean=[
+        123.675,
+        116.28,
+        103.53,
+        123.675,
+        116.28,
+        103.53,
+    ],
+    pad_val=0,
+    seg_pad_val=255,
+    size_divisor=32,
+    std=[
+        58.395,
+        57.12,
+        57.375,
+        58.395,
+        57.12,
+        57.375,
+    ],
+    test_cfg=dict(size_divisor=32),
+    type='DualInputSegDataPreProcessor')
+data_root = '/defaultShare/pubdata/remote_sensing/LEVIR-CD-256'
+dataset_type = 'LEVIR_CD_Dataset'
+default_hooks = dict(
+    checkpoint=dict(by_epoch=False, interval=8000, type='CheckpointHook'),
+    logger=dict(interval=500, log_metric_by_epoch=False, type='LoggerHook'),
+    param_scheduler=dict(type='ParamSchedulerHook'),
+    sampler_seed=dict(type='DistSamplerSeedHook'),
+    timer=dict(type='IterTimerHook'),
+    visualization=dict(interval=1, type='CDVisualizationHook'))
+default_scope = 'opencd'
+env_cfg = dict(
+    cudnn_benchmark=True,
+    dist_cfg=dict(backend='nccl'),
+    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0))
+fp16 = dict(loss_scale=dict(init_scale=512))
+img_ratios = [
+    0.75,
+    1.0,
+    1.25,
+]
+launcher = 'pytorch'
+load_from = './work_dirs/upernet_internvit_adp_levir_cos/iter_80000.pth'
+log_level = 'INFO'
+log_processor = dict(by_epoch=False)
+model = dict(
+    backbone=dict(
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        depth=24,
+        drop_path_rate=0.1,
+        embed_dim=1024,
+        freeze_vit=False,
+        img_size=256,
+        init_values=0.1,
+        interaction_indexes=[
+            [
+                0,
+                7,
+            ],
+            [
+                8,
+                11,
+            ],
+            [
+                12,
+                15,
+            ],
+            [
+                16,
+                23,
+            ],
+        ],
+        layerscale_force_fp32=False,
+        mlp_ratio=4.0,
+        norm_type='layer_norm',
+        num_heads=16,
+        patch_size=16,
+        pretrain_size=448,
+        pretrained='pretrained/ViTP_ViT_L_300M_rs.safetensors',
+        pretrained_type='full',
+        qk_normalization=False,
+        qkv_bias=True,
+        type='InternViTAdapter',
+        use_final_norm=True,
+        use_flash_attn=False,
+        with_cp=True,
+        with_fpn=False),
+    data_preprocessor=dict(
+        bgr_to_rgb=True,
+        mean=[
+            123.675,
+            116.28,
+            103.53,
+            123.675,
+            116.28,
+            103.53,
+        ],
+        pad_val=0,
+        seg_pad_val=255,
+        size_divisor=32,
+        std=[
+            58.395,
+            57.12,
+            57.375,
+            58.395,
+            57.12,
+            57.375,
+        ],
+        test_cfg=dict(size_divisor=32),
+        type='DualInputSegDataPreProcessor'),
+    decode_head=dict(
+        align_corners=False,
+        channels=1024,
+        dropout_ratio=0.1,
+        in_channels=[
+            2048,
+            2048,
+            2048,
+            2048,
+        ],
+        in_index=[
+            0,
+            1,
+            2,
+            3,
+        ],
+        loss_decode=dict(
+            loss_weight=1.0, type='mmseg.CrossEntropyLoss', use_sigmoid=False),
+        norm_cfg=dict(requires_grad=True, type='SyncBN'),
+        num_classes=2,
+        pool_scales=(
+            1,
+            2,
+            3,
+            6,
+        ),
+        type='mmseg.UPerHead'),
+    neck=dict(policy='concat', type='FeatureFusionNeck'),
+    test_cfg=dict(crop_size=(
+        256,
+        256,
+    ), mode='slide', stride=(
+        128,
+        128,
+    )),
+    train_cfg=dict(),
+    type='SiamEncoderDecoder')
+norm_cfg = dict(requires_grad=True, type='SyncBN')
+optim_wrapper = dict(
+    clip_grad=None,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    optimizer=dict(
+        betas=(
+            0.9,
+            0.999,
+        ), lr=0.0001, type='AdamW', weight_decay=0.05),
+    paramwise_cfg=dict(layer_decay_rate=0.9, num_layers=24),
+    type='OptimWrapper')
+optimizer = dict(lr=0.01, momentum=0.9, type='SGD', weight_decay=0.0005)
+param_scheduler = [
+    dict(
+        begin=0, by_epoch=False, end=1500, start_factor=1e-06,
+        type='LinearLR'),
+    dict(
+        T_max=78500,
+        begin=1500,
+        by_epoch=False,
+        end=80000,
+        eta_min=0.0,
+        type='CosineAnnealingLR'),
+]
+resume = False
+test_cfg = dict(type='TestLoop')
+test_dataloader = dict(
+    batch_size=1,
+    dataset=dict(
+        data_prefix=dict(
+            img_path_from='A', img_path_to='B', seg_map_path='label'),
+        data_root='/defaultShare/pubdata/remote_sensing/LEVIR_CD/test',
+        pipeline=[
+            dict(type='MultiImgLoadImageFromFile'),
+            dict(type='MultiImgLoadAnnotations'),
+            dict(type='MultiImgPackSegInputs'),
+        ],
+        type='LEVIR_CD_Dataset'),
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(shuffle=False, type='DefaultSampler'))
+test_evaluator = dict(
+    iou_metrics=[
+        'mFscore',
+        'mIoU',
+    ], type='mmseg.IoUMetric')
+test_pipeline = [
+    dict(type='MultiImgLoadImageFromFile'),
+    dict(type='MultiImgLoadAnnotations'),
+    dict(type='MultiImgPackSegInputs'),
+]
+train_cfg = dict(max_iters=80000, type='IterBasedTrainLoop', val_interval=8000)
+train_dataloader = dict(
+    batch_size=4,
+    dataset=dict(
+        ann_file='list/train.txt',
+        data_prefix=dict(
+            img_path_from='A', img_path_to='B', seg_map_path='label'),
+        data_root='/defaultShare/pubdata/remote_sensing/LEVIR-CD-256',
+        pipeline=[
+            dict(type='MultiImgLoadImageFromFile'),
+            dict(type='MultiImgLoadAnnotations'),
+            dict(degree=180, prob=0.5, type='MultiImgRandomRotate'),
+            dict(
+                cat_max_ratio=0.75,
+                crop_size=(
+                    256,
+                    256,
+                ),
+                type='MultiImgRandomCrop'),
+            dict(direction='horizontal', prob=0.5, type='MultiImgRandomFlip'),
+            dict(direction='vertical', prob=0.5, type='MultiImgRandomFlip'),
+            dict(prob=0.5, type='MultiImgExchangeTime'),
+            dict(
+                brightness_delta=10,
+                contrast_range=(
+                    0.8,
+                    1.2,
+                ),
+                hue_delta=10,
+                saturation_range=(
+                    0.8,
+                    1.2,
+                ),
+                type='MultiImgPhotoMetricDistortion'),
+            dict(type='MultiImgPackSegInputs'),
+        ],
+        type='LEVIR_CD_Dataset'),
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(shuffle=True, type='DefaultSampler'))
+train_pipeline = [
+    dict(type='MultiImgLoadImageFromFile'),
+    dict(type='MultiImgLoadAnnotations'),
+    dict(degree=180, prob=0.5, type='MultiImgRandomRotate'),
+    dict(
+        cat_max_ratio=0.75, crop_size=(
+            256,
+            256,
+        ), type='MultiImgRandomCrop'),
+    dict(direction='horizontal', prob=0.5, type='MultiImgRandomFlip'),
+    dict(direction='vertical', prob=0.5, type='MultiImgRandomFlip'),
+    dict(prob=0.5, type='MultiImgExchangeTime'),
+    dict(
+        brightness_delta=10,
+        contrast_range=(
+            0.8,
+            1.2,
+        ),
+        hue_delta=10,
+        saturation_range=(
+            0.8,
+            1.2,
+        ),
+        type='MultiImgPhotoMetricDistortion'),
+    dict(type='MultiImgPackSegInputs'),
+]
+tta_model = dict(type='mmseg.SegTTAModel')
+tta_pipeline = [
+    dict(backend_args=None, type='MultiImgLoadImageFromFile'),
+    dict(
+        transforms=[
+            [
+                dict(
+                    keep_ratio=True, scale_factor=0.75, type='MultiImgResize'),
+                dict(keep_ratio=True, scale_factor=1.0, type='MultiImgResize'),
+                dict(
+                    keep_ratio=True, scale_factor=1.25, type='MultiImgResize'),
+            ],
+            [
+                dict(
+                    direction='horizontal',
+                    prob=0.0,
+                    type='MultiImgRandomFlip'),
+                dict(
+                    direction='horizontal',
+                    prob=1.0,
+                    type='MultiImgRandomFlip'),
+            ],
+            [
+                dict(type='MultiImgLoadAnnotations'),
+            ],
+            [
+                dict(type='MultiImgPackSegInputs'),
+            ],
+        ],
+        type='TestTimeAug'),
+]
+val_cfg = dict(type='ValLoop')
+val_dataloader = dict(
+    batch_size=1,
+    dataset=dict(
+        ann_file='list/test.txt',
+        data_prefix=dict(
+            img_path_from='A', img_path_to='B', seg_map_path='label'),
+        data_root='/defaultShare/pubdata/remote_sensing/LEVIR-CD-256',
+        pipeline=[
+            dict(type='MultiImgLoadImageFromFile'),
+            dict(type='MultiImgLoadAnnotations'),
+            dict(type='MultiImgPackSegInputs'),
+        ],
+        type='LEVIR_CD_Dataset'),
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(shuffle=False, type='DefaultSampler'))
+val_evaluator = dict(
+    iou_metrics=[
+        'mFscore',
+        'mIoU',
+    ], type='mmseg.IoUMetric')
+val_pipeline = [
+    dict(type='MultiImgLoadImageFromFile'),
+    dict(keep_ratio=True, scale=(
+        256,
+        256,
+    ), type='MultiImgResize'),
+    dict(type='MultiImgLoadAnnotations'),
+    dict(type='MultiImgPackSegInputs'),
+]
+vis_backends = [
+    dict(type='CDLocalVisBackend'),
+]
+visualizer = dict(
+    alpha=1.0,
+    name='visualizer',
+    type='CDLocalVisualizer',
+    vis_backends=[
+        dict(type='CDLocalVisBackend'),
+    ])
+work_dir = './work_dirs/upernet_internvit_adp_levir'

ckpts/vitp_loveda_upernet_5428/20250807_180314.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_loveda_upernet_5428/20250807_180314.log.json ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_loveda_upernet_5428/iter_80000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e6abbbb371c6c42da1d1ba6809404454a8a3bdbf14e27390f66ed040cfd5648
+size 1426461989

ckpts/vitp_loveda_upernet_5428/vitp_loveda_upernet.py ADDED Viewed

	@@ -0,0 +1,208 @@

+dataset_type = 'LoveDADataset'
+data_root = '/defaultShare/pubdata/remote_sensing/loveda_dataset'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+crop_size = (512, 512)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', reduce_zero_label=True),
+    dict(
+        type='Resize',
+        img_scale=(512, 512),
+        ratio_range=(0.5, 2.0),
+        keep_ratio=True),
+    dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+    dict(type='RandomFlip', prob=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=255),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(512, 512),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=1,
+    workers_per_gpu=4,
+    train=dict(
+        type='LoveDADataset',
+        data_root='/defaultShare/pubdata/remote_sensing/loveda_dataset',
+        img_dir='trainval/images',
+        ann_dir='trainval/labels',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', reduce_zero_label=True),
+            dict(
+                type='Resize',
+                img_scale=(512, 512),
+                ratio_range=(0.5, 2.0),
+                keep_ratio=True),
+            dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+            dict(type='RandomFlip', prob=0.5),
+            dict(type='PhotoMetricDistortion'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=255),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='LoveDADataset',
+        data_root='/defaultShare/pubdata/remote_sensing/loveda_dataset',
+        img_dir='val/images',
+        ann_dir='val/labels',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(512, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='LoveDADataset',
+        data_root='/defaultShare/pubdata/remote_sensing/loveda_dataset',
+        img_dir='test/images',
+        ann_dir='test/labels',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(512, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+log_config = dict(
+    interval=50,
+    hooks=[
+        dict(type='TextLoggerHook', by_epoch=False),
+        dict(type='TensorboardLoggerHook')
+    ])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW',
+    lr=1e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.1,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.9))
+optimizer_config = dict()
+lr_config = dict(
+    policy='CosineAnnealing',
+    warmup='linear',
+    warmup_iters=1500,
+    warmup_ratio=1e-06,
+    min_lr=0.0)
+runner = dict(type='IterBasedRunner', max_iters=80000)
+checkpoint_config = dict(by_epoch=False, interval=4000, max_keep_ckpts=10)
+evaluation = dict(interval=4000, metric='mIoU', pre_eval=True, metrics='mIoU')
+default_hooks = dict(
+    timer=dict(type='IterTimerHook'),
+    logger=dict(type='LoggerHook', interval=50, log_metric_by_epoch=False),
+    sampler_seed=dict(type='DistSamplerSeedHook'),
+    visualization=dict(type='SegVisualizationHook', draw=True, interval=1000))
+pretrained = 'pretrained/ViTP_ViT_L_300M_rs.safetensors'
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+data_preprocessor = dict(
+    type='SegDataPreProcessor',
+    size=(512, 512),
+    mean=[123.675, 116.28, 103.53],
+    std=[58.395, 57.12, 57.375],
+    bgr_to_rgb=True,
+    pad_val=0,
+    seg_pad_val=255)
+model = dict(
+    type='EncoderDecoder',
+    backbone=dict(
+        type='InternViTAdapter',
+        pretrain_size=448,
+        img_size=512,
+        patch_size=16,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        mlp_ratio=4.0,
+        drop_path_rate=0.1,
+        init_values=0.1,
+        with_cp=True,
+        use_flash_attn=True,
+        qk_normalization=False,
+        layerscale_force_fp32=False,
+        with_fpn=False,
+        freeze_vit=False,
+        use_final_norm=True,
+        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        qkv_bias=True,
+        norm_type='layer_norm',
+        pretrained='pretrained/ViTP_ViT_L_300M_rs.safetensors',
+        pretrained_type='full'),
+    decode_head=dict(
+        type='UPerHead',
+        in_channels=[1024, 1024, 1024, 1024],
+        num_classes=7,
+        ignore_index=255,
+        in_index=[0, 1, 2, 3],
+        pool_scales=(1, 2, 3, 6),
+        channels=512,
+        dropout_ratio=0.1,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='slide', stride=(384, 384), crop_size=(512, 512)))
+fp16 = dict(loss_scale=dict(init_scale=512))
+randomness = dict(seed=3407)
+work_dir = './work_dirs/vitp_loveda_upernet'
+gpu_ids = range(0, 8)
+auto_resume = False

ckpts/vitp_rsar_orcnn_7231/20250716_042910.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_rsar_orcnn_7231/20250716_042910.log.json ADDED Viewed

	@@ -0,0 +1,241 @@

+{"env_info": "sys.platform: linux\nPython: 3.10.16 (main, Dec 11 2024, 16:24:50) [GCC 11.2.0]\nCUDA available: True\nGPU 0,1,2,3,4,5,6,7: NVIDIA GeForce RTX 3090\nCUDA_HOME: /mnt/petrelfs/share_data/liqingyun/cuda/cuda-12.4/\nGCC: gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0\nPyTorch: 1.12.0\nPyTorch compiling details: PyTorch built with:\n  - GCC 9.3\n  - C++ Version: 201402\n  - Intel(R) oneAPI Math Kernel Library Version 2024.0-Product Build 20231011 for Intel(R) 64 architecture applications\n  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)\n  - OpenMP 201511 (a.k.a. OpenMP 4.5)\n  - LAPACK is enabled (usually provided by MKL)\n  - NNPACK is enabled\n  - CPU capability usage: AVX2\n  - CUDA Runtime 11.3\n  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_37,code=compute_37\n  - CuDNN 8.3.2  (built against CUDA 11.5)\n  - Magma 2.5.2\n  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.3, CUDNN_VERSION=8.3.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-unused-local-typedefs -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.12.0, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=OFF, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF, \n\nTorchVision: 0.13.0\nOpenCV: 4.11.0\nMMCV: 1.6.1\nMMCV Compiler: GCC 9.3\nMMCV CUDA Compiler: 11.4\nMMRotate: 0.3.4+6fc0c4e", "config": "dataset_type = 'RSARDataset'\ndata_root = '/liyuxuan/DATA/RSAR/'\nangle_version = 'le90'\nimg_norm_cfg = dict(\n    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)\ntrain_pipeline = [\n    dict(type='LoadImageFromFile'),\n    dict(type='LoadAnnotations', with_bbox=True),\n    dict(type='RResize', img_scale=(800, 800), keep_ratio=False),\n    dict(\n        type='RRandomFlip',\n        flip_ratio=[0.25, 0.25, 0.25],\n        direction=['horizontal', 'vertical', 'diagonal'],\n        version='le90'),\n    dict(\n        type='PolyRandomRotate',\n        rotate_ratio=0.5,\n        angles_range=180,\n        auto_bound=False,\n        rect_classes=[3],\n        version='le90'),\n    dict(\n        type='Normalize',\n        mean=[123.675, 116.28, 103.53],\n        std=[58.395, 57.12, 57.375],\n        to_rgb=True),\n    dict(type='Pad', size_divisor=32),\n    dict(type='DefaultFormatBundle'),\n    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])\n]\ntest_pipeline = [\n    dict(type='LoadImageFromFile'),\n    dict(\n        type='MultiScaleFlipAug',\n        img_scale=(800, 800),\n        flip=False,\n        transforms=[\n            dict(type='RResize', img_scale=(800, 800), keep_ratio=False),\n            dict(\n                type='Normalize',\n                mean=[123.675, 116.28, 103.53],\n                std=[58.395, 57.12, 57.375],\n                to_rgb=True),\n            dict(type='Pad', size_divisor=32),\n            dict(type='DefaultFormatBundle'),\n            dict(type='Collect', keys=['img'])\n        ])\n]\ndata = dict(\n    samples_per_gpu=1,\n    workers_per_gpu=4,\n    train=dict(\n        type='RSARDataset',\n        ann_file='/liyuxuan/DATA/RSAR/train/annfiles/',\n        img_prefix='/liyuxuan/DATA/RSAR/train/images/',\n        pipeline=[\n            dict(type='LoadImageFromFile'),\n            dict(type='LoadAnnotations', with_bbox=True),\n            dict(type='RResize', img_scale=(800, 800), keep_ratio=False),\n            dict(\n                type='RRandomFlip',\n                flip_ratio=[0.25, 0.25, 0.25],\n                direction=['horizontal', 'vertical', 'diagonal'],\n                version='le90'),\n            dict(\n                type='PolyRandomRotate',\n                rotate_ratio=0.5,\n                angles_range=180,\n                auto_bound=False,\n                rect_classes=[3],\n                version='le90'),\n            dict(\n                type='Normalize',\n                mean=[123.675, 116.28, 103.53],\n                std=[58.395, 57.12, 57.375],\n                to_rgb=True),\n            dict(type='Pad', size_divisor=32),\n            dict(type='DefaultFormatBundle'),\n            dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])\n        ],\n        version='le90'),\n    val=dict(\n        type='RSARDataset',\n        ann_file='/liyuxuan/DATA/RSAR/test/annfiles/',\n        img_prefix='/liyuxuan/DATA/RSAR/test/images/',\n        pipeline=[\n            dict(type='LoadImageFromFile'),\n            dict(\n                type='MultiScaleFlipAug',\n                img_scale=(800, 800),\n                flip=False,\n                transforms=[\n                    dict(\n                        type='RResize', img_scale=(800, 800),\n                        keep_ratio=False),\n                    dict(\n                        type='Normalize',\n                        mean=[123.675, 116.28, 103.53],\n                        std=[58.395, 57.12, 57.375],\n                        to_rgb=True),\n                    dict(type='Pad', size_divisor=32),\n                    dict(type='DefaultFormatBundle'),\n                    dict(type='Collect', keys=['img'])\n                ])\n        ],\n        version='le90'),\n    test=dict(\n        type='RSARDataset',\n        ann_file='/liyuxuan/DATA/RSAR/test/images/',\n        img_prefix='/liyuxuan/DATA/RSAR/test/images/',\n        pipeline=[\n            dict(type='LoadImageFromFile'),\n            dict(\n                type='MultiScaleFlipAug',\n                img_scale=(800, 800),\n                flip=False,\n                transforms=[\n                    dict(\n                        type='RResize', img_scale=(800, 800),\n                        keep_ratio=False),\n                    dict(\n                        type='Normalize',\n                        mean=[123.675, 116.28, 103.53],\n                        std=[58.395, 57.12, 57.375],\n                        to_rgb=True),\n                    dict(type='Pad', size_divisor=32),\n                    dict(type='DefaultFormatBundle'),\n                    dict(type='Collect', keys=['img'])\n                ])\n        ],\n        version='le90'))\nevaluation = dict(interval=1, metric='mAP')\noptimizer = dict(\n    type='AdamW',\n    lr=2.5e-05,\n    betas=(0.9, 0.999),\n    weight_decay=0.05,\n    constructor='LayerDecayOptimizerConstructor',\n    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.75))\noptimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2))\nlr_config = dict(\n    policy='step',\n    warmup='linear',\n    warmup_iters=500,\n    warmup_ratio=0.3333333333333333,\n    step=[8, 11])\nrunner = dict(type='EpochBasedRunner', max_epochs=12)\ncheckpoint_config = dict(interval=1, max_keep_ckpts=1)\nlog_config = dict(interval=500, hooks=[dict(type='TextLoggerHook')])\ndist_params = dict(backend='nccl')\nlog_level = 'INFO'\nload_from = None\nresume_from = None\nworkflow = [('train', 1)]\nopencv_num_threads = 0\nmp_start_method = 'fork'\npretrained = 'pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors'\nnorm_cfg = dict(type='LN', requires_grad=True)\nmodel = dict(\n    type='OrientedRCNN',\n    backbone=dict(\n        type='InternViTAdapter',\n        pretrain_size=448,\n        img_size=800,\n        patch_size=16,\n        embed_dim=1024,\n        depth=24,\n        num_heads=16,\n        mlp_ratio=4.0,\n        drop_path_rate=0.1,\n        init_values=0.1,\n        with_cp=True,\n        use_flash_attn=True,\n        qk_normalization=False,\n        layerscale_force_fp32=False,\n        with_fpn=False,\n        freeze_vit=False,\n        use_final_norm=True,\n        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],\n        cffn_ratio=0.25,\n        deform_ratio=0.25,\n        qkv_bias=True,\n        norm_type='layer_norm',\n        pretrained=\n        'pretrained/ft_full_1b_8ksteps_instruct_tuning_as_pretrain_TMAug75.safetensors',\n        pretrained_type='full',\n        only_feat_out=True),\n    neck=dict(\n        type='SimpleFPN',\n        in_channels=[1024, 1024, 1024, 1024],\n        out_channels=256,\n        norm_cfg=dict(type='LN', requires_grad=True),\n        use_residual=False,\n        num_outs=5),\n    rpn_head=dict(\n        type='OrientedRPNHead',\n        in_channels=256,\n        feat_channels=256,\n        version='le90',\n        anchor_generator=dict(\n            type='AnchorGenerator',\n            scales=[8],\n            ratios=[0.5, 1.0, 2.0],\n            strides=[4, 8, 16, 32, 64]),\n        bbox_coder=dict(\n            type='MidpointOffsetCoder',\n            angle_range='le90',\n            target_means=[0.0, 0.0, 0.0, 0.0, 0.0, 0.0],\n            target_stds=[1.0, 1.0, 1.0, 1.0, 0.5, 0.5]),\n        loss_cls=dict(\n            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),\n        loss_bbox=dict(\n            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),\n    roi_head=dict(\n        type='OrientedStandardRoIHead',\n        bbox_roi_extractor=dict(\n            type='RotatedSingleRoIExtractor',\n            roi_layer=dict(\n                type='RoIAlignRotated',\n                out_size=7,\n                sample_num=2,\n                clockwise=True),\n            out_channels=256,\n            featmap_strides=[4, 8, 16, 32]),\n        bbox_head=dict(\n            type='RotatedShared2FCBBoxHead',\n            in_channels=256,\n            fc_out_channels=1024,\n            roi_feat_size=7,\n            num_classes=6,\n            bbox_coder=dict(\n                type='DeltaXYWHAOBBoxCoder',\n                angle_range='le90',\n                norm_factor=None,\n                edge_swap=True,\n                proj_xy=True,\n                target_means=(0.0, 0.0, 0.0, 0.0, 0.0),\n                target_stds=(0.1, 0.1, 0.2, 0.2, 0.1)),\n            reg_class_agnostic=True,\n            loss_cls=dict(\n                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),\n            loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))),\n    train_cfg=dict(\n        rpn=dict(\n            assigner=dict(\n                type='MaxIoUAssigner',\n                pos_iou_thr=0.7,\n                neg_iou_thr=0.3,\n                min_pos_iou=0.3,\n                match_low_quality=True,\n                gpu_assign_thr=1000,\n                ignore_iof_thr=-1),\n            sampler=dict(\n                type='RandomSampler',\n                num=256,\n                pos_fraction=0.5,\n                neg_pos_ub=-1,\n                add_gt_as_proposals=False),\n            allowed_border=0,\n            pos_weight=-1,\n            debug=False),\n        rpn_proposal=dict(\n            nms_pre=2000,\n            max_per_img=2000,\n            nms=dict(type='nms', iou_threshold=0.8),\n            min_bbox_size=0),\n        rcnn=dict(\n            assigner=dict(\n                type='MaxIoUAssigner',\n                pos_iou_thr=0.5,\n                neg_iou_thr=0.5,\n                min_pos_iou=0.5,\n                match_low_quality=False,\n                gpu_assign_thr=1000,\n                iou_calculator=dict(type='RBboxOverlaps2D'),\n                ignore_iof_thr=-1),\n            sampler=dict(\n                type='RRandomSampler',\n                num=512,\n                pos_fraction=0.25,\n                neg_pos_ub=-1,\n                add_gt_as_proposals=True),\n            pos_weight=-1,\n            debug=False)),\n    test_cfg=dict(\n        rpn=dict(\n            nms_pre=2000,\n            max_per_img=2000,\n            nms=dict(type='nms', iou_threshold=0.8),\n            min_bbox_size=0),\n        rcnn=dict(\n            nms_pre=2000,\n            min_bbox_size=0,\n            score_thr=0.05,\n            nms=dict(iou_thr=0.1),\n            max_per_img=2000)))\nfp16 = dict(loss_scale=dict(init_scale=512))\nwork_dir = './work_dirs/rsar_8k_TMAug75_orcnn_8k'\nauto_resume = False\ngpu_ids = range(0, 8)\ndevice = 'cuda'\n", "seed": 0, "exp_name": "rsar_8k_TMAug75_orcnn_8k.py"}
+{"mode": "train", "epoch": 1, "iter": 500, "lr": 2e-05, "memory": 9594, "data_time": 0.01252, "loss_rpn_cls": 0.14024, "loss_rpn_bbox": 0.04185, "loss_cls": 0.06949, "acc": 98.53896, "loss_bbox": 0.05972, "loss": 0.3113, "grad_norm": 2.83047, "time": 0.72335}
+{"mode": "train", "epoch": 1, "iter": 1000, "lr": 3e-05, "memory": 9609, "data_time": 0.00319, "loss_rpn_cls": 0.03151, "loss_rpn_bbox": 0.03272, "loss_cls": 0.06674, "acc": 98.07568, "loss_bbox": 0.06939, "loss": 0.20037, "grad_norm": 3.47344, "time": 0.70378}
+{"mode": "train", "epoch": 1, "iter": 1500, "lr": 3e-05, "memory": 9609, "data_time": 0.00326, "loss_rpn_cls": 0.03022, "loss_rpn_bbox": 0.03259, "loss_cls": 0.0768, "acc": 97.52959, "loss_bbox": 0.09163, "loss": 0.23124, "grad_norm": 4.1174, "time": 0.70302}
+{"mode": "train", "epoch": 1, "iter": 2000, "lr": 3e-05, "memory": 9804, "data_time": 0.00329, "loss_rpn_cls": 0.02422, "loss_rpn_bbox": 0.02749, "loss_cls": 0.08185, "acc": 97.22637, "loss_bbox": 0.10107, "loss": 0.23464, "grad_norm": 4.28043, "time": 0.70249}
+{"mode": "train", "epoch": 1, "iter": 2500, "lr": 3e-05, "memory": 9804, "data_time": 0.00323, "loss_rpn_cls": 0.02269, "loss_rpn_bbox": 0.02681, "loss_cls": 0.08763, "acc": 96.94111, "loss_bbox": 0.1116, "loss": 0.24873, "grad_norm": 4.45184, "time": 0.70266}
+{"mode": "train", "epoch": 1, "iter": 3000, "lr": 3e-05, "memory": 9804, "data_time": 0.00318, "loss_rpn_cls": 0.02193, "loss_rpn_bbox": 0.02498, "loss_cls": 0.08141, "acc": 97.06045, "loss_bbox": 0.1079, "loss": 0.23622, "grad_norm": 4.20132, "time": 0.70263}
+{"mode": "train", "epoch": 1, "iter": 3500, "lr": 3e-05, "memory": 9804, "data_time": 0.00313, "loss_rpn_cls": 0.01956, "loss_rpn_bbox": 0.02406, "loss_cls": 0.07905, "acc": 97.08457, "loss_bbox": 0.10492, "loss": 0.22758, "grad_norm": 3.9723, "time": 0.70249}
+{"mode": "train", "epoch": 1, "iter": 4000, "lr": 3e-05, "memory": 9804, "data_time": 0.00306, "loss_rpn_cls": 0.01821, "loss_rpn_bbox": 0.02268, "loss_cls": 0.08242, "acc": 96.94653, "loss_bbox": 0.10654, "loss": 0.22985, "grad_norm": 4.01182, "time": 0.7028}
+{"mode": "train", "epoch": 1, "iter": 4500, "lr": 3e-05, "memory": 9863, "data_time": 0.00303, "loss_rpn_cls": 0.02081, "loss_rpn_bbox": 0.02342, "loss_cls": 0.0812, "acc": 97.02617, "loss_bbox": 0.10412, "loss": 0.22954, "grad_norm": 3.8387, "time": 0.70321}
+{"mode": "train", "epoch": 1, "iter": 5000, "lr": 3e-05, "memory": 9863, "data_time": 0.00311, "loss_rpn_cls": 0.01721, "loss_rpn_bbox": 0.02267, "loss_cls": 0.08074, "acc": 96.88999, "loss_bbox": 0.1063, "loss": 0.22692, "grad_norm": 3.90445, "time": 0.70261}
+{"mode": "train", "epoch": 1, "iter": 5500, "lr": 3e-05, "memory": 10002, "data_time": 0.00323, "loss_rpn_cls": 0.01705, "loss_rpn_bbox": 0.02129, "loss_cls": 0.07841, "acc": 97.06235, "loss_bbox": 0.10166, "loss": 0.2184, "grad_norm": 3.74052, "time": 0.70236}
+{"mode": "train", "epoch": 1, "iter": 6000, "lr": 3e-05, "memory": 10002, "data_time": 0.00317, "loss_rpn_cls": 0.01783, "loss_rpn_bbox": 0.02099, "loss_cls": 0.08222, "acc": 96.87183, "loss_bbox": 0.10329, "loss": 0.22433, "grad_norm": 3.64682, "time": 0.70259}
+{"mode": "train", "epoch": 1, "iter": 6500, "lr": 3e-05, "memory": 10002, "data_time": 0.0032, "loss_rpn_cls": 0.01543, "loss_rpn_bbox": 0.01982, "loss_cls": 0.07824, "acc": 96.98604, "loss_bbox": 0.10209, "loss": 0.21558, "grad_norm": 3.73653, "time": 0.70237}
+{"mode": "train", "epoch": 1, "iter": 7000, "lr": 3e-05, "memory": 10002, "data_time": 0.00315, "loss_rpn_cls": 0.01463, "loss_rpn_bbox": 0.01899, "loss_cls": 0.08044, "acc": 96.89829, "loss_bbox": 0.10384, "loss": 0.2179, "grad_norm": 3.7265, "time": 0.70222}
+{"mode": "train", "epoch": 1, "iter": 7500, "lr": 3e-05, "memory": 10002, "data_time": 0.00314, "loss_rpn_cls": 0.01677, "loss_rpn_bbox": 0.01934, "loss_cls": 0.07842, "acc": 96.9874, "loss_bbox": 0.10063, "loss": 0.21516, "grad_norm": 3.47063, "time": 0.70232}
+{"mode": "train", "epoch": 1, "iter": 8000, "lr": 3e-05, "memory": 10002, "data_time": 0.00307, "loss_rpn_cls": 0.01495, "loss_rpn_bbox": 0.01959, "loss_cls": 0.07729, "acc": 97.01699, "loss_bbox": 0.10029, "loss": 0.21212, "grad_norm": 3.4604, "time": 0.70215}
+{"mode": "train", "epoch": 1, "iter": 8500, "lr": 3e-05, "memory": 10002, "data_time": 0.00308, "loss_rpn_cls": 0.01268, "loss_rpn_bbox": 0.01807, "loss_cls": 0.0763, "acc": 97.00757, "loss_bbox": 0.09835, "loss": 0.20541, "grad_norm": 3.35526, "time": 0.70215}
+{"mode": "train", "epoch": 1, "iter": 9000, "lr": 3e-05, "memory": 10002, "data_time": 0.00307, "loss_rpn_cls": 0.01364, "loss_rpn_bbox": 0.01792, "loss_cls": 0.07642, "acc": 96.99141, "loss_bbox": 0.09923, "loss": 0.20722, "grad_norm": Infinity, "time": 0.70215}
+{"mode": "train", "epoch": 1, "iter": 9500, "lr": 3e-05, "memory": 10002, "data_time": 0.00313, "loss_rpn_cls": 0.01348, "loss_rpn_bbox": 0.01866, "loss_cls": 0.07748, "acc": 96.94526, "loss_bbox": 0.10217, "loss": 0.21179, "grad_norm": 3.06029, "time": 0.70261}
+{"mode": "val", "epoch": 1, "iter": 1068, "lr": 3e-05, "mAP": 0.54913}
+{"mode": "train", "epoch": 2, "iter": 500, "lr": 3e-05, "memory": 10002, "data_time": 0.01001, "loss_rpn_cls": 0.01264, "loss_rpn_bbox": 0.01745, "loss_cls": 0.07466, "acc": 97.05649, "loss_bbox": 0.09693, "loss": 0.20169, "grad_norm": 3.06205, "time": 0.71073}
+{"mode": "train", "epoch": 2, "iter": 1000, "lr": 3e-05, "memory": 10002, "data_time": 0.00363, "loss_rpn_cls": 0.01453, "loss_rpn_bbox": 0.01903, "loss_cls": 0.07678, "acc": 96.98926, "loss_bbox": 0.10161, "loss": 0.21195, "grad_norm": 2.81391, "time": 0.70426}
+{"mode": "train", "epoch": 2, "iter": 1500, "lr": 3e-05, "memory": 10002, "data_time": 0.00342, "loss_rpn_cls": 0.01272, "loss_rpn_bbox": 0.01806, "loss_cls": 0.07582, "acc": 96.99722, "loss_bbox": 0.10491, "loss": 0.21151, "grad_norm": 2.69963, "time": 0.7033}
+{"mode": "train", "epoch": 2, "iter": 2000, "lr": 3e-05, "memory": 10002, "data_time": 0.00317, "loss_rpn_cls": 0.01317, "loss_rpn_bbox": 0.01781, "loss_cls": 0.07812, "acc": 96.9375, "loss_bbox": 0.10101, "loss": 0.2101, "grad_norm": Infinity, "time": 0.70344}
+{"mode": "train", "epoch": 2, "iter": 2500, "lr": 3e-05, "memory": 10002, "data_time": 0.0032, "loss_rpn_cls": 0.01183, "loss_rpn_bbox": 0.0188, "loss_cls": 0.07497, "acc": 97.01626, "loss_bbox": 0.10139, "loss": 0.20698, "grad_norm": Infinity, "time": 0.70333}
+{"mode": "train", "epoch": 2, "iter": 3000, "lr": 3e-05, "memory": 10002, "data_time": 0.00309, "loss_rpn_cls": 0.01219, "loss_rpn_bbox": 0.01684, "loss_cls": 0.07539, "acc": 97.01655, "loss_bbox": 0.10069, "loss": 0.20511, "grad_norm": 2.86299, "time": 0.70291}
+{"mode": "train", "epoch": 2, "iter": 3500, "lr": 3e-05, "memory": 10002, "data_time": 0.00318, "loss_rpn_cls": 0.01403, "loss_rpn_bbox": 0.01747, "loss_cls": 0.07667, "acc": 97.03076, "loss_bbox": 0.09864, "loss": 0.20681, "grad_norm": 2.91259, "time": 0.70318}
+{"mode": "train", "epoch": 2, "iter": 4000, "lr": 3e-05, "memory": 10002, "data_time": 0.00318, "loss_rpn_cls": 0.01174, "loss_rpn_bbox": 0.01663, "loss_cls": 0.07314, "acc": 97.09561, "loss_bbox": 0.09782, "loss": 0.19933, "grad_norm": 2.3958, "time": 0.70322}
+{"mode": "train", "epoch": 2, "iter": 4500, "lr": 3e-05, "memory": 10002, "data_time": 0.00321, "loss_rpn_cls": 0.01325, "loss_rpn_bbox": 0.01766, "loss_cls": 0.07407, "acc": 97.0645, "loss_bbox": 0.09748, "loss": 0.20247, "grad_norm": 2.62973, "time": 0.70296}
+{"mode": "train", "epoch": 2, "iter": 5000, "lr": 3e-05, "memory": 10002, "data_time": 0.00325, "loss_rpn_cls": 0.01175, "loss_rpn_bbox": 0.01704, "loss_cls": 0.0751, "acc": 97.01191, "loss_bbox": 0.10018, "loss": 0.20407, "grad_norm": 2.54269, "time": 0.70272}
+{"mode": "train", "epoch": 2, "iter": 5500, "lr": 3e-05, "memory": 10002, "data_time": 0.00318, "loss_rpn_cls": 0.01187, "loss_rpn_bbox": 0.01637, "loss_cls": 0.07613, "acc": 96.95884, "loss_bbox": 0.10095, "loss": 0.20532, "grad_norm": 2.58255, "time": 0.70285}
+{"mode": "train", "epoch": 2, "iter": 6000, "lr": 3e-05, "memory": 10002, "data_time": 0.00318, "loss_rpn_cls": 0.01242, "loss_rpn_bbox": 0.0171, "loss_cls": 0.07773, "acc": 96.92734, "loss_bbox": 0.10004, "loss": 0.20729, "grad_norm": 2.56368, "time": 0.70258}
+{"mode": "train", "epoch": 2, "iter": 6500, "lr": 3e-05, "memory": 10002, "data_time": 0.00322, "loss_rpn_cls": 0.01204, "loss_rpn_bbox": 0.01746, "loss_cls": 0.0758, "acc": 96.97783, "loss_bbox": 0.10155, "loss": 0.20685, "grad_norm": 2.38867, "time": 0.70278}
+{"mode": "train", "epoch": 2, "iter": 7000, "lr": 3e-05, "memory": 10002, "data_time": 0.00322, "loss_rpn_cls": 0.01155, "loss_rpn_bbox": 0.01716, "loss_cls": 0.07403, "acc": 97.05576, "loss_bbox": 0.09605, "loss": 0.19879, "grad_norm": 2.26777, "time": 0.70241}
+{"mode": "train", "epoch": 2, "iter": 7500, "lr": 3e-05, "memory": 10002, "data_time": 0.00335, "loss_rpn_cls": 0.01152, "loss_rpn_bbox": 0.01741, "loss_cls": 0.07043, "acc": 97.19365, "loss_bbox": 0.09526, "loss": 0.19462, "grad_norm": 2.26232, "time": 0.70225}
+{"mode": "train", "epoch": 2, "iter": 8000, "lr": 3e-05, "memory": 10002, "data_time": 0.00329, "loss_rpn_cls": 0.01188, "loss_rpn_bbox": 0.01723, "loss_cls": 0.07551, "acc": 96.99136, "loss_bbox": 0.09941, "loss": 0.20404, "grad_norm": Infinity, "time": 0.70277}
+{"mode": "train", "epoch": 2, "iter": 8500, "lr": 3e-05, "memory": 10002, "data_time": 0.00326, "loss_rpn_cls": 0.0112, "loss_rpn_bbox": 0.01575, "loss_cls": 0.07394, "acc": 97.05522, "loss_bbox": 0.09978, "loss": 0.20066, "grad_norm": 2.22689, "time": 0.7032}
+{"mode": "train", "epoch": 2, "iter": 9000, "lr": 3e-05, "memory": 10002, "data_time": 0.00318, "loss_rpn_cls": 0.01149, "loss_rpn_bbox": 0.01683, "loss_cls": 0.07321, "acc": 97.07358, "loss_bbox": 0.09761, "loss": 0.19915, "grad_norm": 2.31324, "time": 0.70255}
+{"mode": "train", "epoch": 2, "iter": 9500, "lr": 3e-05, "memory": 10002, "data_time": 0.00306, "loss_rpn_cls": 0.01133, "loss_rpn_bbox": 0.0162, "loss_cls": 0.07127, "acc": 97.15786, "loss_bbox": 0.09541, "loss": 0.19421, "grad_norm": 2.2412, "time": 0.70273}
+{"mode": "val", "epoch": 2, "iter": 1068, "lr": 3e-05, "mAP": 0.53252}
+{"mode": "train", "epoch": 3, "iter": 500, "lr": 3e-05, "memory": 10002, "data_time": 0.00981, "loss_rpn_cls": 0.00997, "loss_rpn_bbox": 0.01622, "loss_cls": 0.07148, "acc": 97.13555, "loss_bbox": 0.09721, "loss": 0.19488, "grad_norm": 2.10508, "time": 0.71277}
+{"mode": "train", "epoch": 3, "iter": 1000, "lr": 3e-05, "memory": 10003, "data_time": 0.00315, "loss_rpn_cls": 0.01148, "loss_rpn_bbox": 0.01587, "loss_cls": 0.07184, "acc": 97.15791, "loss_bbox": 0.09583, "loss": 0.19502, "grad_norm": 2.16656, "time": 0.70523}
+{"mode": "train", "epoch": 3, "iter": 1500, "lr": 3e-05, "memory": 10003, "data_time": 0.00307, "loss_rpn_cls": 0.01019, "loss_rpn_bbox": 0.01632, "loss_cls": 0.07246, "acc": 97.08247, "loss_bbox": 0.0952, "loss": 0.19417, "grad_norm": 2.15082, "time": 0.70447}
+{"mode": "train", "epoch": 3, "iter": 2000, "lr": 3e-05, "memory": 10003, "data_time": 0.00304, "loss_rpn_cls": 0.00923, "loss_rpn_bbox": 0.01648, "loss_cls": 0.07168, "acc": 97.10303, "loss_bbox": 0.09521, "loss": 0.19261, "grad_norm": 2.20279, "time": 0.70484}
+{"mode": "train", "epoch": 3, "iter": 2500, "lr": 3e-05, "memory": 10003, "data_time": 0.00311, "loss_rpn_cls": 0.01206, "loss_rpn_bbox": 0.01617, "loss_cls": 0.07087, "acc": 97.18853, "loss_bbox": 0.09401, "loss": 0.19311, "grad_norm": 2.11463, "time": 0.70431}
+{"mode": "train", "epoch": 3, "iter": 3000, "lr": 3e-05, "memory": 10003, "data_time": 0.0031, "loss_rpn_cls": 0.01025, "loss_rpn_bbox": 0.01513, "loss_cls": 0.0698, "acc": 97.18262, "loss_bbox": 0.09556, "loss": 0.19074, "grad_norm": Infinity, "time": 0.70573}
+{"mode": "train", "epoch": 3, "iter": 3500, "lr": 3e-05, "memory": 10003, "data_time": 0.00319, "loss_rpn_cls": 0.00986, "loss_rpn_bbox": 0.01545, "loss_cls": 0.07453, "acc": 96.99062, "loss_bbox": 0.10101, "loss": 0.20086, "grad_norm": 2.13368, "time": 0.70543}
+{"mode": "train", "epoch": 3, "iter": 4000, "lr": 3e-05, "memory": 10003, "data_time": 0.00318, "loss_rpn_cls": 0.00933, "loss_rpn_bbox": 0.01608, "loss_cls": 0.07074, "acc": 97.16372, "loss_bbox": 0.0962, "loss": 0.19235, "grad_norm": 2.08251, "time": 0.70585}
+{"mode": "train", "epoch": 3, "iter": 4500, "lr": 3e-05, "memory": 10003, "data_time": 0.0031, "loss_rpn_cls": 0.0093, "loss_rpn_bbox": 0.0148, "loss_cls": 0.06874, "acc": 97.23203, "loss_bbox": 0.09521, "loss": 0.18805, "grad_norm": 2.01941, "time": 0.70526}
+{"mode": "train", "epoch": 3, "iter": 5000, "lr": 3e-05, "memory": 10003, "data_time": 0.00308, "loss_rpn_cls": 0.00913, "loss_rpn_bbox": 0.01516, "loss_cls": 0.06954, "acc": 97.19756, "loss_bbox": 0.09339, "loss": 0.18722, "grad_norm": Infinity, "time": 0.70571}
+{"mode": "train", "epoch": 3, "iter": 5500, "lr": 3e-05, "memory": 10003, "data_time": 0.00314, "loss_rpn_cls": 0.00987, "loss_rpn_bbox": 0.01553, "loss_cls": 0.07124, "acc": 97.12363, "loss_bbox": 0.09675, "loss": 0.1934, "grad_norm": 1.8974, "time": 0.70542}
+{"mode": "train", "epoch": 3, "iter": 6000, "lr": 3e-05, "memory": 10003, "data_time": 0.00312, "loss_rpn_cls": 0.00988, "loss_rpn_bbox": 0.01508, "loss_cls": 0.07057, "acc": 97.13765, "loss_bbox": 0.09445, "loss": 0.18997, "grad_norm": 1.98686, "time": 0.7051}
+{"mode": "train", "epoch": 3, "iter": 6500, "lr": 3e-05, "memory": 10003, "data_time": 0.00311, "loss_rpn_cls": 0.00969, "loss_rpn_bbox": 0.0159, "loss_cls": 0.07231, "acc": 97.1084, "loss_bbox": 0.09718, "loss": 0.19508, "grad_norm": 1.90614, "time": 0.70588}
+{"mode": "train", "epoch": 3, "iter": 7000, "lr": 3e-05, "memory": 10003, "data_time": 0.00299, "loss_rpn_cls": 0.00856, "loss_rpn_bbox": 0.01414, "loss_cls": 0.06858, "acc": 97.20181, "loss_bbox": 0.095, "loss": 0.18629, "grad_norm": 1.8433, "time": 0.70592}
+{"mode": "train", "epoch": 3, "iter": 7500, "lr": 3e-05, "memory": 10003, "data_time": 0.00296, "loss_rpn_cls": 0.01094, "loss_rpn_bbox": 0.01469, "loss_cls": 0.07238, "acc": 97.1252, "loss_bbox": 0.0941, "loss": 0.19212, "grad_norm": Infinity, "time": 0.7066}
+{"mode": "train", "epoch": 3, "iter": 8000, "lr": 3e-05, "memory": 10003, "data_time": 0.00302, "loss_rpn_cls": 0.00917, "loss_rpn_bbox": 0.01499, "loss_cls": 0.07211, "acc": 97.07046, "loss_bbox": 0.09669, "loss": 0.19296, "grad_norm": 1.8321, "time": 0.70517}
+{"mode": "train", "epoch": 3, "iter": 8500, "lr": 3e-05, "memory": 10003, "data_time": 0.00296, "loss_rpn_cls": 0.0107, "loss_rpn_bbox": 0.016, "loss_cls": 0.07017, "acc": 97.21187, "loss_bbox": 0.09263, "loss": 0.1895, "grad_norm": Infinity, "time": 0.70567}
+{"mode": "train", "epoch": 3, "iter": 9000, "lr": 3e-05, "memory": 10003, "data_time": 0.00304, "loss_rpn_cls": 0.00963, "loss_rpn_bbox": 0.01576, "loss_cls": 0.06813, "acc": 97.2709, "loss_bbox": 0.0945, "loss": 0.18802, "grad_norm": 1.82404, "time": 0.70469}
+{"mode": "train", "epoch": 3, "iter": 9500, "lr": 3e-05, "memory": 10003, "data_time": 0.00314, "loss_rpn_cls": 0.01016, "loss_rpn_bbox": 0.01574, "loss_cls": 0.06758, "acc": 97.31445, "loss_bbox": 0.09189, "loss": 0.18537, "grad_norm": 1.73728, "time": 0.70551}
+{"mode": "val", "epoch": 3, "iter": 1068, "lr": 3e-05, "mAP": 0.6086}
+{"mode": "train", "epoch": 4, "iter": 500, "lr": 3e-05, "memory": 10003, "data_time": 0.01032, "loss_rpn_cls": 0.00869, "loss_rpn_bbox": 0.01404, "loss_cls": 0.07056, "acc": 97.15483, "loss_bbox": 0.09609, "loss": 0.18937, "grad_norm": 1.8767, "time": 0.71473}
+{"mode": "train", "epoch": 4, "iter": 1000, "lr": 3e-05, "memory": 10003, "data_time": 0.00329, "loss_rpn_cls": 0.00907, "loss_rpn_bbox": 0.01438, "loss_cls": 0.067, "acc": 97.28423, "loss_bbox": 0.09107, "loss": 0.18152, "grad_norm": 1.75521, "time": 0.70711}
+{"mode": "train", "epoch": 4, "iter": 1500, "lr": 3e-05, "memory": 10003, "data_time": 0.00318, "loss_rpn_cls": 0.00821, "loss_rpn_bbox": 0.01507, "loss_cls": 0.06811, "acc": 97.21646, "loss_bbox": 0.0941, "loss": 0.18549, "grad_norm": 1.79809, "time": 0.7077}
+{"mode": "train", "epoch": 4, "iter": 2000, "lr": 3e-05, "memory": 10003, "data_time": 0.00307, "loss_rpn_cls": 0.00864, "loss_rpn_bbox": 0.0144, "loss_cls": 0.06952, "acc": 97.19336, "loss_bbox": 0.09287, "loss": 0.18542, "grad_norm": 1.81303, "time": 0.70657}
+{"mode": "train", "epoch": 4, "iter": 2500, "lr": 3e-05, "memory": 10003, "data_time": 0.00309, "loss_rpn_cls": 0.0091, "loss_rpn_bbox": 0.01468, "loss_cls": 0.07162, "acc": 97.10884, "loss_bbox": 0.09516, "loss": 0.19055, "grad_norm": 1.80157, "time": 0.70669}
+{"mode": "train", "epoch": 4, "iter": 3000, "lr": 3e-05, "memory": 10003, "data_time": 0.00315, "loss_rpn_cls": 0.00997, "loss_rpn_bbox": 0.01518, "loss_cls": 0.07082, "acc": 97.13716, "loss_bbox": 0.09598, "loss": 0.19195, "grad_norm": Infinity, "time": 0.70753}
+{"mode": "train", "epoch": 4, "iter": 3500, "lr": 3e-05, "memory": 10003, "data_time": 0.00312, "loss_rpn_cls": 0.00887, "loss_rpn_bbox": 0.01468, "loss_cls": 0.06601, "acc": 97.33809, "loss_bbox": 0.09029, "loss": 0.17985, "grad_norm": 1.69034, "time": 0.70737}
+{"mode": "train", "epoch": 4, "iter": 4000, "lr": 3e-05, "memory": 10003, "data_time": 0.00309, "loss_rpn_cls": 0.00873, "loss_rpn_bbox": 0.01396, "loss_cls": 0.06786, "acc": 97.22559, "loss_bbox": 0.09471, "loss": 0.18526, "grad_norm": 1.71019, "time": 0.70798}
+{"mode": "train", "epoch": 4, "iter": 4500, "lr": 3e-05, "memory": 10003, "data_time": 0.0031, "loss_rpn_cls": 0.0089, "loss_rpn_bbox": 0.01543, "loss_cls": 0.0673, "acc": 97.28882, "loss_bbox": 0.09298, "loss": 0.1846, "grad_norm": 1.73542, "time": 0.70716}
+{"mode": "train", "epoch": 4, "iter": 5000, "lr": 3e-05, "memory": 10003, "data_time": 0.00304, "loss_rpn_cls": 0.00868, "loss_rpn_bbox": 0.01478, "loss_cls": 0.06884, "acc": 97.20615, "loss_bbox": 0.09509, "loss": 0.18739, "grad_norm": Infinity, "time": 0.7072}
+{"mode": "train", "epoch": 4, "iter": 5500, "lr": 3e-05, "memory": 10003, "data_time": 0.0031, "loss_rpn_cls": 0.00945, "loss_rpn_bbox": 0.01537, "loss_cls": 0.0675, "acc": 97.27456, "loss_bbox": 0.09177, "loss": 0.18408, "grad_norm": 1.70174, "time": 0.7061}
+{"mode": "train", "epoch": 4, "iter": 6000, "lr": 3e-05, "memory": 10003, "data_time": 0.00302, "loss_rpn_cls": 0.0083, "loss_rpn_bbox": 0.01522, "loss_cls": 0.06722, "acc": 97.24316, "loss_bbox": 0.09413, "loss": 0.18486, "grad_norm": 1.58961, "time": 0.70672}
+{"mode": "train", "epoch": 4, "iter": 6500, "lr": 3e-05, "memory": 10003, "data_time": 0.00299, "loss_rpn_cls": 0.00867, "loss_rpn_bbox": 0.01511, "loss_cls": 0.06884, "acc": 97.21025, "loss_bbox": 0.09541, "loss": 0.18803, "grad_norm": 1.74774, "time": 0.70614}
+{"mode": "train", "epoch": 4, "iter": 7000, "lr": 3e-05, "memory": 10003, "data_time": 0.00298, "loss_rpn_cls": 0.00855, "loss_rpn_bbox": 0.01443, "loss_cls": 0.06406, "acc": 97.42847, "loss_bbox": 0.08737, "loss": 0.17441, "grad_norm": 1.55191, "time": 0.70692}
+{"mode": "train", "epoch": 4, "iter": 7500, "lr": 3e-05, "memory": 10003, "data_time": 0.00311, "loss_rpn_cls": 0.00791, "loss_rpn_bbox": 0.01405, "loss_cls": 0.06507, "acc": 97.36416, "loss_bbox": 0.09107, "loss": 0.1781, "grad_norm": Infinity, "time": 0.70683}
+{"mode": "train", "epoch": 4, "iter": 8000, "lr": 3e-05, "memory": 10003, "data_time": 0.00293, "loss_rpn_cls": 0.00856, "loss_rpn_bbox": 0.01447, "loss_cls": 0.06834, "acc": 97.2417, "loss_bbox": 0.09381, "loss": 0.18517, "grad_norm": 1.60042, "time": 0.70698}
+{"mode": "train", "epoch": 4, "iter": 8500, "lr": 3e-05, "memory": 10003, "data_time": 0.003, "loss_rpn_cls": 0.00841, "loss_rpn_bbox": 0.01396, "loss_cls": 0.06623, "acc": 97.31113, "loss_bbox": 0.0903, "loss": 0.17891, "grad_norm": Infinity, "time": 0.70621}
+{"mode": "train", "epoch": 4, "iter": 9000, "lr": 3e-05, "memory": 10003, "data_time": 0.00315, "loss_rpn_cls": 0.00782, "loss_rpn_bbox": 0.01505, "loss_cls": 0.06803, "acc": 97.20898, "loss_bbox": 0.09263, "loss": 0.18354, "grad_norm": 1.5997, "time": 0.70617}
+{"mode": "train", "epoch": 4, "iter": 9500, "lr": 3e-05, "memory": 10003, "data_time": 0.00305, "loss_rpn_cls": 0.00786, "loss_rpn_bbox": 0.01421, "loss_cls": 0.06668, "acc": 97.28804, "loss_bbox": 0.09168, "loss": 0.18044, "grad_norm": 1.6306, "time": 0.70627}
+{"mode": "val", "epoch": 4, "iter": 1068, "lr": 3e-05, "mAP": 0.60241}
+{"mode": "train", "epoch": 5, "iter": 500, "lr": 3e-05, "memory": 10004, "data_time": 0.00982, "loss_rpn_cls": 0.00797, "loss_rpn_bbox": 0.0148, "loss_cls": 0.06447, "acc": 97.35972, "loss_bbox": 0.0921, "loss": 0.17934, "grad_norm": 1.54504, "time": 0.71315}
+{"mode": "train", "epoch": 5, "iter": 1000, "lr": 3e-05, "memory": 10004, "data_time": 0.00318, "loss_rpn_cls": 0.0074, "loss_rpn_bbox": 0.01338, "loss_cls": 0.06703, "acc": 97.26191, "loss_bbox": 0.09351, "loss": 0.18133, "grad_norm": 1.64228, "time": 0.70567}
+{"mode": "train", "epoch": 5, "iter": 1500, "lr": 3e-05, "memory": 10004, "data_time": 0.00313, "loss_rpn_cls": 0.00752, "loss_rpn_bbox": 0.01398, "loss_cls": 0.06632, "acc": 97.3188, "loss_bbox": 0.09033, "loss": 0.17815, "grad_norm": Infinity, "time": 0.70605}
+{"mode": "train", "epoch": 5, "iter": 2000, "lr": 3e-05, "memory": 10004, "data_time": 0.00316, "loss_rpn_cls": 0.00822, "loss_rpn_bbox": 0.01453, "loss_cls": 0.06723, "acc": 97.26997, "loss_bbox": 0.09379, "loss": 0.18376, "grad_norm": 1.57531, "time": 0.70583}
+{"mode": "train", "epoch": 5, "iter": 2500, "lr": 3e-05, "memory": 10004, "data_time": 0.00315, "loss_rpn_cls": 0.00659, "loss_rpn_bbox": 0.01368, "loss_cls": 0.06615, "acc": 97.30889, "loss_bbox": 0.09161, "loss": 0.17803, "grad_norm": 1.47328, "time": 0.70617}
+{"mode": "train", "epoch": 5, "iter": 3000, "lr": 3e-05, "memory": 10004, "data_time": 0.00317, "loss_rpn_cls": 0.00753, "loss_rpn_bbox": 0.01355, "loss_cls": 0.06472, "acc": 97.35776, "loss_bbox": 0.09029, "loss": 0.1761, "grad_norm": 1.4743, "time": 0.70599}
+{"mode": "train", "epoch": 5, "iter": 3500, "lr": 3e-05, "memory": 10004, "data_time": 0.00341, "loss_rpn_cls": 0.00867, "loss_rpn_bbox": 0.0137, "loss_cls": 0.06716, "acc": 97.30776, "loss_bbox": 0.09246, "loss": 0.18198, "grad_norm": 1.57557, "time": 0.7047}
+{"mode": "train", "epoch": 5, "iter": 4000, "lr": 3e-05, "memory": 10004, "data_time": 0.00329, "loss_rpn_cls": 0.00725, "loss_rpn_bbox": 0.01336, "loss_cls": 0.06399, "acc": 97.36479, "loss_bbox": 0.09183, "loss": 0.17643, "grad_norm": 1.53289, "time": 0.7041}
+{"mode": "train", "epoch": 5, "iter": 4500, "lr": 3e-05, "memory": 10004, "data_time": 0.0032, "loss_rpn_cls": 0.0077, "loss_rpn_bbox": 0.01343, "loss_cls": 0.06722, "acc": 97.27275, "loss_bbox": 0.0919, "loss": 0.18025, "grad_norm": 1.64129, "time": 0.70387}
+{"mode": "train", "epoch": 5, "iter": 5000, "lr": 3e-05, "memory": 10004, "data_time": 0.00322, "loss_rpn_cls": 0.00719, "loss_rpn_bbox": 0.01408, "loss_cls": 0.06313, "acc": 97.4249, "loss_bbox": 0.09242, "loss": 0.17681, "grad_norm": 1.48663, "time": 0.70352}
+{"mode": "train", "epoch": 5, "iter": 5500, "lr": 3e-05, "memory": 10004, "data_time": 0.0032, "loss_rpn_cls": 0.00771, "loss_rpn_bbox": 0.01382, "loss_cls": 0.06601, "acc": 97.30776, "loss_bbox": 0.09194, "loss": 0.17947, "grad_norm": 1.44187, "time": 0.70352}
+{"mode": "train", "epoch": 5, "iter": 6000, "lr": 3e-05, "memory": 10004, "data_time": 0.00319, "loss_rpn_cls": 0.00798, "loss_rpn_bbox": 0.01414, "loss_cls": 0.06534, "acc": 97.36636, "loss_bbox": 0.0932, "loss": 0.18065, "grad_norm": NaN, "time": 0.70363}
+{"mode": "train", "epoch": 5, "iter": 6500, "lr": 3e-05, "memory": 10004, "data_time": 0.00316, "loss_rpn_cls": 0.00667, "loss_rpn_bbox": 0.01421, "loss_cls": 0.06538, "acc": 97.32427, "loss_bbox": 0.09177, "loss": 0.17802, "grad_norm": 1.51969, "time": 0.70379}
+{"mode": "train", "epoch": 5, "iter": 7000, "lr": 3e-05, "memory": 10004, "data_time": 0.00314, "loss_rpn_cls": 0.00796, "loss_rpn_bbox": 0.01494, "loss_cls": 0.06666, "acc": 97.28408, "loss_bbox": 0.09254, "loss": 0.18209, "grad_norm": 1.49924, "time": 0.70353}
+{"mode": "train", "epoch": 5, "iter": 7500, "lr": 3e-05, "memory": 10004, "data_time": 0.00322, "loss_rpn_cls": 0.00761, "loss_rpn_bbox": 0.01475, "loss_cls": 0.06705, "acc": 97.26299, "loss_bbox": 0.09411, "loss": 0.18353, "grad_norm": 1.49761, "time": 0.70387}
+{"mode": "train", "epoch": 5, "iter": 8000, "lr": 3e-05, "memory": 10004, "data_time": 0.00319, "loss_rpn_cls": 0.00806, "loss_rpn_bbox": 0.01437, "loss_cls": 0.06515, "acc": 97.33442, "loss_bbox": 0.09193, "loss": 0.17951, "grad_norm": 1.39995, "time": 0.70343}
+{"mode": "train", "epoch": 5, "iter": 8500, "lr": 3e-05, "memory": 10004, "data_time": 0.00311, "loss_rpn_cls": 0.00788, "loss_rpn_bbox": 0.0141, "loss_cls": 0.06625, "acc": 97.28555, "loss_bbox": 0.09326, "loss": 0.18149, "grad_norm": 1.48954, "time": 0.70349}
+{"mode": "train", "epoch": 5, "iter": 9000, "lr": 3e-05, "memory": 10004, "data_time": 0.00309, "loss_rpn_cls": 0.00756, "loss_rpn_bbox": 0.01379, "loss_cls": 0.06828, "acc": 97.23066, "loss_bbox": 0.09411, "loss": 0.18374, "grad_norm": 1.44517, "time": 0.704}
+{"mode": "train", "epoch": 5, "iter": 9500, "lr": 3e-05, "memory": 10004, "data_time": 0.00312, "loss_rpn_cls": 0.00687, "loss_rpn_bbox": 0.01412, "loss_cls": 0.0643, "acc": 97.37168, "loss_bbox": 0.09014, "loss": 0.17544, "grad_norm": NaN, "time": 0.70304}
+{"mode": "val", "epoch": 5, "iter": 1068, "lr": 3e-05, "mAP": 0.635}
+{"mode": "train", "epoch": 6, "iter": 500, "lr": 3e-05, "memory": 10004, "data_time": 0.00969, "loss_rpn_cls": 0.00758, "loss_rpn_bbox": 0.01393, "loss_cls": 0.06761, "acc": 97.24829, "loss_bbox": 0.09384, "loss": 0.18295, "grad_norm": 1.52964, "time": 0.7108}
+{"mode": "train", "epoch": 6, "iter": 1000, "lr": 3e-05, "memory": 10004, "data_time": 0.00317, "loss_rpn_cls": 0.00741, "loss_rpn_bbox": 0.01353, "loss_cls": 0.06772, "acc": 97.2397, "loss_bbox": 0.09614, "loss": 0.18481, "grad_norm": 1.50269, "time": 0.70345}
+{"mode": "train", "epoch": 6, "iter": 1500, "lr": 3e-05, "memory": 10004, "data_time": 0.00317, "loss_rpn_cls": 0.00773, "loss_rpn_bbox": 0.01487, "loss_cls": 0.06721, "acc": 97.20547, "loss_bbox": 0.09557, "loss": 0.18539, "grad_norm": 1.4774, "time": 0.70405}
+{"mode": "train", "epoch": 6, "iter": 2000, "lr": 3e-05, "memory": 10004, "data_time": 0.00314, "loss_rpn_cls": 0.00694, "loss_rpn_bbox": 0.01344, "loss_cls": 0.06499, "acc": 97.33574, "loss_bbox": 0.09222, "loss": 0.17759, "grad_norm": 1.42718, "time": 0.70324}
+{"mode": "train", "epoch": 6, "iter": 2500, "lr": 3e-05, "memory": 10004, "data_time": 0.00315, "loss_rpn_cls": 0.00729, "loss_rpn_bbox": 0.01414, "loss_cls": 0.06448, "acc": 97.371, "loss_bbox": 0.09273, "loss": 0.17864, "grad_norm": 1.40054, "time": 0.7034}
+{"mode": "train", "epoch": 6, "iter": 3000, "lr": 3e-05, "memory": 10004, "data_time": 0.00316, "loss_rpn_cls": 0.00631, "loss_rpn_bbox": 0.01256, "loss_cls": 0.06312, "acc": 97.39292, "loss_bbox": 0.09029, "loss": 0.17228, "grad_norm": Infinity, "time": 0.70377}
+{"mode": "train", "epoch": 6, "iter": 3500, "lr": 3e-05, "memory": 10004, "data_time": 0.00306, "loss_rpn_cls": 0.00797, "loss_rpn_bbox": 0.01365, "loss_cls": 0.06694, "acc": 97.28818, "loss_bbox": 0.09198, "loss": 0.18055, "grad_norm": 1.46973, "time": 0.70329}
+{"mode": "train", "epoch": 6, "iter": 4000, "lr": 3e-05, "memory": 10004, "data_time": 0.00315, "loss_rpn_cls": 0.0067, "loss_rpn_bbox": 0.01313, "loss_cls": 0.06606, "acc": 97.29551, "loss_bbox": 0.09322, "loss": 0.1791, "grad_norm": 1.4166, "time": 0.70342}
+{"mode": "train", "epoch": 6, "iter": 4500, "lr": 3e-05, "memory": 10004, "data_time": 0.00317, "loss_rpn_cls": 0.00608, "loss_rpn_bbox": 0.01367, "loss_cls": 0.06253, "acc": 97.42217, "loss_bbox": 0.09013, "loss": 0.17241, "grad_norm": 1.3777, "time": 0.70328}
+{"mode": "train", "epoch": 6, "iter": 5000, "lr": 3e-05, "memory": 10004, "data_time": 0.00316, "loss_rpn_cls": 0.00722, "loss_rpn_bbox": 0.01366, "loss_cls": 0.06422, "acc": 97.36304, "loss_bbox": 0.08906, "loss": 0.17416, "grad_norm": NaN, "time": 0.70365}
+{"mode": "train", "epoch": 6, "iter": 5500, "lr": 3e-05, "memory": 10004, "data_time": 0.00313, "loss_rpn_cls": 0.00645, "loss_rpn_bbox": 0.01318, "loss_cls": 0.06122, "acc": 97.50303, "loss_bbox": 0.0903, "loss": 0.17115, "grad_norm": 1.33215, "time": 0.70295}
+{"mode": "train", "epoch": 6, "iter": 6000, "lr": 3e-05, "memory": 10004, "data_time": 0.00314, "loss_rpn_cls": 0.00727, "loss_rpn_bbox": 0.01344, "loss_cls": 0.06388, "acc": 97.36821, "loss_bbox": 0.0907, "loss": 0.17529, "grad_norm": 1.3809, "time": 0.70382}
+{"mode": "train", "epoch": 6, "iter": 6500, "lr": 3e-05, "memory": 10004, "data_time": 0.00319, "loss_rpn_cls": 0.00633, "loss_rpn_bbox": 0.01213, "loss_cls": 0.06113, "acc": 97.52168, "loss_bbox": 0.08842, "loss": 0.16801, "grad_norm": 1.34015, "time": 0.70386}
+{"mode": "train", "epoch": 6, "iter": 7000, "lr": 3e-05, "memory": 10004, "data_time": 0.0031, "loss_rpn_cls": 0.00712, "loss_rpn_bbox": 0.01389, "loss_cls": 0.06616, "acc": 97.30811, "loss_bbox": 0.09317, "loss": 0.18034, "grad_norm": 1.39726, "time": 0.70336}
+{"mode": "train", "epoch": 6, "iter": 7500, "lr": 3e-05, "memory": 10004, "data_time": 0.00314, "loss_rpn_cls": 0.00669, "loss_rpn_bbox": 0.01386, "loss_cls": 0.06566, "acc": 97.33442, "loss_bbox": 0.09314, "loss": 0.17935, "grad_norm": 1.43897, "time": 0.70315}
+{"mode": "train", "epoch": 6, "iter": 8000, "lr": 3e-05, "memory": 10004, "data_time": 0.00315, "loss_rpn_cls": 0.00684, "loss_rpn_bbox": 0.01376, "loss_cls": 0.06401, "acc": 97.40571, "loss_bbox": 0.09196, "loss": 0.17657, "grad_norm": 1.32909, "time": 0.70396}
+{"mode": "train", "epoch": 6, "iter": 8500, "lr": 3e-05, "memory": 10004, "data_time": 0.00318, "loss_rpn_cls": 0.0066, "loss_rpn_bbox": 0.01342, "loss_cls": 0.06328, "acc": 97.38291, "loss_bbox": 0.09124, "loss": 0.17454, "grad_norm": 1.38079, "time": 0.70355}
+{"mode": "train", "epoch": 6, "iter": 9000, "lr": 3e-05, "memory": 10004, "data_time": 0.00317, "loss_rpn_cls": 0.00644, "loss_rpn_bbox": 0.01311, "loss_cls": 0.06469, "acc": 97.32671, "loss_bbox": 0.09195, "loss": 0.1762, "grad_norm": 1.36109, "time": 0.7034}
+{"mode": "train", "epoch": 6, "iter": 9500, "lr": 3e-05, "memory": 10004, "data_time": 0.00319, "loss_rpn_cls": 0.00624, "loss_rpn_bbox": 0.0122, "loss_cls": 0.06377, "acc": 97.36157, "loss_bbox": 0.09188, "loss": 0.17409, "grad_norm": 1.31857, "time": 0.70464}
+{"mode": "val", "epoch": 6, "iter": 1068, "lr": 3e-05, "mAP": 0.63884}
+{"mode": "train", "epoch": 7, "iter": 500, "lr": 3e-05, "memory": 10004, "data_time": 0.01027, "loss_rpn_cls": 0.00685, "loss_rpn_bbox": 0.01373, "loss_cls": 0.06395, "acc": 97.36973, "loss_bbox": 0.09241, "loss": 0.17694, "grad_norm": Infinity, "time": 0.71474}
+{"mode": "train", "epoch": 7, "iter": 1000, "lr": 3e-05, "memory": 10004, "data_time": 0.00314, "loss_rpn_cls": 0.00616, "loss_rpn_bbox": 0.0136, "loss_cls": 0.06221, "acc": 97.42837, "loss_bbox": 0.09066, "loss": 0.17262, "grad_norm": 1.3114, "time": 0.70725}
+{"mode": "train", "epoch": 7, "iter": 1500, "lr": 3e-05, "memory": 10004, "data_time": 0.00316, "loss_rpn_cls": 0.00643, "loss_rpn_bbox": 0.01377, "loss_cls": 0.06172, "acc": 97.43096, "loss_bbox": 0.08918, "loss": 0.1711, "grad_norm": 1.29066, "time": 0.70709}
+{"mode": "train", "epoch": 7, "iter": 2000, "lr": 3e-05, "memory": 10004, "data_time": 0.00314, "loss_rpn_cls": 0.00601, "loss_rpn_bbox": 0.01277, "loss_cls": 0.06304, "acc": 97.40586, "loss_bbox": 0.08979, "loss": 0.1716, "grad_norm": 1.35276, "time": 0.70546}
+{"mode": "train", "epoch": 7, "iter": 2500, "lr": 3e-05, "memory": 10004, "data_time": 0.00306, "loss_rpn_cls": 0.00642, "loss_rpn_bbox": 0.01393, "loss_cls": 0.06648, "acc": 97.26895, "loss_bbox": 0.09322, "loss": 0.18005, "grad_norm": 1.38566, "time": 0.70778}
+{"mode": "train", "epoch": 7, "iter": 3000, "lr": 3e-05, "memory": 10004, "data_time": 0.00313, "loss_rpn_cls": 0.0062, "loss_rpn_bbox": 0.01256, "loss_cls": 0.06256, "acc": 97.41543, "loss_bbox": 0.08949, "loss": 0.17082, "grad_norm": NaN, "time": 0.70611}
+{"mode": "train", "epoch": 7, "iter": 3500, "lr": 3e-05, "memory": 10004, "data_time": 0.00322, "loss_rpn_cls": 0.00676, "loss_rpn_bbox": 0.01293, "loss_cls": 0.06427, "acc": 97.3709, "loss_bbox": 0.09181, "loss": 0.17578, "grad_norm": 1.3366, "time": 0.70723}
+{"mode": "train", "epoch": 7, "iter": 4000, "lr": 3e-05, "memory": 10004, "data_time": 0.00337, "loss_rpn_cls": 0.0057, "loss_rpn_bbox": 0.01296, "loss_cls": 0.06401, "acc": 97.37295, "loss_bbox": 0.0906, "loss": 0.17327, "grad_norm": 1.33023, "time": 0.70982}
+{"mode": "train", "epoch": 7, "iter": 4500, "lr": 3e-05, "memory": 10004, "data_time": 0.00325, "loss_rpn_cls": 0.00674, "loss_rpn_bbox": 0.01322, "loss_cls": 0.06736, "acc": 97.21436, "loss_bbox": 0.09479, "loss": 0.18211, "grad_norm": 1.33832, "time": 0.70937}
+{"mode": "train", "epoch": 7, "iter": 5000, "lr": 3e-05, "memory": 10004, "data_time": 0.00333, "loss_rpn_cls": 0.00679, "loss_rpn_bbox": 0.0143, "loss_cls": 0.06497, "acc": 97.30078, "loss_bbox": 0.09545, "loss": 0.18151, "grad_norm": 1.32336, "time": 0.70671}
+{"mode": "train", "epoch": 7, "iter": 5500, "lr": 3e-05, "memory": 10004, "data_time": 0.00335, "loss_rpn_cls": 0.0067, "loss_rpn_bbox": 0.01376, "loss_cls": 0.06426, "acc": 97.34722, "loss_bbox": 0.09269, "loss": 0.17742, "grad_norm": Infinity, "time": 0.70309}
+{"mode": "train", "epoch": 7, "iter": 6000, "lr": 3e-05, "memory": 10004, "data_time": 0.00344, "loss_rpn_cls": 0.0065, "loss_rpn_bbox": 0.01291, "loss_cls": 0.06326, "acc": 97.42749, "loss_bbox": 0.09275, "loss": 0.17542, "grad_norm": 1.2851, "time": 0.70416}
+{"mode": "train", "epoch": 7, "iter": 6500, "lr": 3e-05, "memory": 10004, "data_time": 0.00351, "loss_rpn_cls": 0.00605, "loss_rpn_bbox": 0.01399, "loss_cls": 0.06299, "acc": 97.40537, "loss_bbox": 0.09415, "loss": 0.17718, "grad_norm": 1.34968, "time": 0.70305}
+{"mode": "train", "epoch": 7, "iter": 7000, "lr": 3e-05, "memory": 10004, "data_time": 0.0035, "loss_rpn_cls": 0.00615, "loss_rpn_bbox": 0.01284, "loss_cls": 0.06222, "acc": 97.44932, "loss_bbox": 0.08895, "loss": 0.17016, "grad_norm": 1.2599, "time": 0.70376}
+{"mode": "train", "epoch": 7, "iter": 7500, "lr": 3e-05, "memory": 10004, "data_time": 0.00345, "loss_rpn_cls": 0.00613, "loss_rpn_bbox": 0.01281, "loss_cls": 0.064, "acc": 97.34673, "loss_bbox": 0.0924, "loss": 0.17534, "grad_norm": 1.31366, "time": 0.70371}
+{"mode": "train", "epoch": 7, "iter": 8000, "lr": 3e-05, "memory": 10004, "data_time": 0.00347, "loss_rpn_cls": 0.00594, "loss_rpn_bbox": 0.01243, "loss_cls": 0.06329, "acc": 97.40229, "loss_bbox": 0.08854, "loss": 0.17021, "grad_norm": NaN, "time": 0.70413}
+{"mode": "train", "epoch": 7, "iter": 8500, "lr": 3e-05, "memory": 10004, "data_time": 0.00389, "loss_rpn_cls": 0.00602, "loss_rpn_bbox": 0.01294, "loss_cls": 0.06216, "acc": 97.44419, "loss_bbox": 0.09134, "loss": 0.17245, "grad_norm": 1.32243, "time": 0.7034}
+{"mode": "train", "epoch": 7, "iter": 9000, "lr": 3e-05, "memory": 10004, "data_time": 0.00373, "loss_rpn_cls": 0.00637, "loss_rpn_bbox": 0.01273, "loss_cls": 0.06169, "acc": 97.45122, "loss_bbox": 0.08917, "loss": 0.16996, "grad_norm": 1.32909, "time": 0.70342}
+{"mode": "train", "epoch": 7, "iter": 9500, "lr": 3e-05, "memory": 10004, "data_time": 0.00361, "loss_rpn_cls": 0.00604, "loss_rpn_bbox": 0.01278, "loss_cls": 0.06167, "acc": 97.45146, "loss_bbox": 0.08879, "loss": 0.16928, "grad_norm": 1.24395, "time": 0.7037}
+{"mode": "val", "epoch": 7, "iter": 1068, "lr": 3e-05, "mAP": 0.65362}
+{"mode": "train", "epoch": 8, "iter": 500, "lr": 3e-05, "memory": 10004, "data_time": 0.01034, "loss_rpn_cls": 0.00607, "loss_rpn_bbox": 0.01297, "loss_cls": 0.06371, "acc": 97.37153, "loss_bbox": 0.0903, "loss": 0.17305, "grad_norm": NaN, "time": 0.71107}
+{"mode": "train", "epoch": 8, "iter": 1000, "lr": 3e-05, "memory": 10004, "data_time": 0.00319, "loss_rpn_cls": 0.00623, "loss_rpn_bbox": 0.013, "loss_cls": 0.06318, "acc": 97.40625, "loss_bbox": 0.0913, "loss": 0.17371, "grad_norm": 1.27415, "time": 0.70521}
+{"mode": "train", "epoch": 8, "iter": 1500, "lr": 3e-05, "memory": 10004, "data_time": 0.00326, "loss_rpn_cls": 0.00542, "loss_rpn_bbox": 0.01337, "loss_cls": 0.0618, "acc": 97.41802, "loss_bbox": 0.08969, "loss": 0.17029, "grad_norm": 1.25077, "time": 0.70549}
+{"mode": "train", "epoch": 8, "iter": 2000, "lr": 3e-05, "memory": 10004, "data_time": 0.00317, "loss_rpn_cls": 0.00589, "loss_rpn_bbox": 0.0127, "loss_cls": 0.06165, "acc": 97.46597, "loss_bbox": 0.0908, "loss": 0.17103, "grad_norm": 1.22051, "time": 0.70561}
+{"mode": "train", "epoch": 8, "iter": 2500, "lr": 3e-05, "memory": 10004, "data_time": 0.0032, "loss_rpn_cls": 0.00561, "loss_rpn_bbox": 0.01292, "loss_cls": 0.06164, "acc": 97.45371, "loss_bbox": 0.09063, "loss": 0.1708, "grad_norm": 1.30841, "time": 0.70471}
+{"mode": "train", "epoch": 8, "iter": 3000, "lr": 3e-05, "memory": 10004, "data_time": 0.0033, "loss_rpn_cls": 0.0059, "loss_rpn_bbox": 0.01316, "loss_cls": 0.06146, "acc": 97.45718, "loss_bbox": 0.08864, "loss": 0.16917, "grad_norm": 1.24525, "time": 0.70526}
+{"mode": "train", "epoch": 8, "iter": 3500, "lr": 3e-05, "memory": 10004, "data_time": 0.00319, "loss_rpn_cls": 0.00577, "loss_rpn_bbox": 0.01213, "loss_cls": 0.06265, "acc": 97.44863, "loss_bbox": 0.09067, "loss": 0.17121, "grad_norm": 1.23977, "time": 0.70482}
+{"mode": "train", "epoch": 8, "iter": 4000, "lr": 3e-05, "memory": 10004, "data_time": 0.00325, "loss_rpn_cls": 0.00628, "loss_rpn_bbox": 0.01313, "loss_cls": 0.06282, "acc": 97.3937, "loss_bbox": 0.09135, "loss": 0.17358, "grad_norm": 1.30069, "time": 0.70511}
+{"mode": "train", "epoch": 8, "iter": 4500, "lr": 3e-05, "memory": 10004, "data_time": 0.00313, "loss_rpn_cls": 0.00556, "loss_rpn_bbox": 0.01266, "loss_cls": 0.06305, "acc": 97.40029, "loss_bbox": 0.09225, "loss": 0.17353, "grad_norm": 1.24952, "time": 0.705}
+{"mode": "train", "epoch": 8, "iter": 5000, "lr": 3e-05, "memory": 10004, "data_time": 0.00318, "loss_rpn_cls": 0.0054, "loss_rpn_bbox": 0.01244, "loss_cls": 0.06059, "acc": 97.48159, "loss_bbox": 0.08863, "loss": 0.16706, "grad_norm": NaN, "time": 0.70445}
+{"mode": "train", "epoch": 8, "iter": 5500, "lr": 3e-05, "memory": 10004, "data_time": 0.00312, "loss_rpn_cls": 0.00524, "loss_rpn_bbox": 0.01271, "loss_cls": 0.06255, "acc": 97.41436, "loss_bbox": 0.08984, "loss": 0.17035, "grad_norm": 1.21673, "time": 0.70431}
+{"mode": "train", "epoch": 8, "iter": 6000, "lr": 3e-05, "memory": 10004, "data_time": 0.00317, "loss_rpn_cls": 0.0061, "loss_rpn_bbox": 0.0142, "loss_cls": 0.06329, "acc": 97.40269, "loss_bbox": 0.09341, "loss": 0.177, "grad_norm": 1.27723, "time": 0.70393}
+{"mode": "train", "epoch": 8, "iter": 6500, "lr": 3e-05, "memory": 10004, "data_time": 0.00312, "loss_rpn_cls": 0.0055, "loss_rpn_bbox": 0.01249, "loss_cls": 0.06222, "acc": 97.40522, "loss_bbox": 0.09164, "loss": 0.17185, "grad_norm": 1.22069, "time": 0.70418}
+{"mode": "train", "epoch": 8, "iter": 7000, "lr": 3e-05, "memory": 10004, "data_time": 0.00319, "loss_rpn_cls": 0.00561, "loss_rpn_bbox": 0.01308, "loss_cls": 0.06063, "acc": 97.50688, "loss_bbox": 0.09079, "loss": 0.17011, "grad_norm": NaN, "time": 0.70416}
+{"mode": "train", "epoch": 8, "iter": 7500, "lr": 3e-05, "memory": 10004, "data_time": 0.00312, "loss_rpn_cls": 0.00559, "loss_rpn_bbox": 0.01216, "loss_cls": 0.06069, "acc": 97.48203, "loss_bbox": 0.0894, "loss": 0.16784, "grad_norm": 1.22819, "time": 0.70464}
+{"mode": "train", "epoch": 8, "iter": 8000, "lr": 3e-05, "memory": 10004, "data_time": 0.00309, "loss_rpn_cls": 0.00609, "loss_rpn_bbox": 0.01369, "loss_cls": 0.06292, "acc": 97.39512, "loss_bbox": 0.09196, "loss": 0.17466, "grad_norm": 1.28696, "time": 0.7039}
+{"mode": "train", "epoch": 8, "iter": 8500, "lr": 3e-05, "memory": 10004, "data_time": 0.00312, "loss_rpn_cls": 0.00633, "loss_rpn_bbox": 0.01368, "loss_cls": 0.06267, "acc": 97.43198, "loss_bbox": 0.0905, "loss": 0.17319, "grad_norm": 1.22907, "time": 0.70491}
+{"mode": "train", "epoch": 8, "iter": 9000, "lr": 3e-05, "memory": 10004, "data_time": 0.00314, "loss_rpn_cls": 0.00643, "loss_rpn_bbox": 0.01311, "loss_cls": 0.06295, "acc": 97.40654, "loss_bbox": 0.09002, "loss": 0.17251, "grad_norm": 1.24505, "time": 0.70456}
+{"mode": "train", "epoch": 8, "iter": 9500, "lr": 3e-05, "memory": 10004, "data_time": 0.00316, "loss_rpn_cls": 0.00613, "loss_rpn_bbox": 0.01365, "loss_cls": 0.0627, "acc": 97.40762, "loss_bbox": 0.08999, "loss": 0.17247, "grad_norm": 1.26403, "time": 0.70388}
+{"mode": "val", "epoch": 8, "iter": 1068, "lr": 3e-05, "mAP": 0.68028}
+{"mode": "train", "epoch": 9, "iter": 500, "lr": 0.0, "memory": 10004, "data_time": 0.0096, "loss_rpn_cls": 0.00531, "loss_rpn_bbox": 0.01194, "loss_cls": 0.05948, "acc": 97.52534, "loss_bbox": 0.0875, "loss": 0.16423, "grad_norm": 1.13119, "time": 0.71111}
+{"mode": "train", "epoch": 9, "iter": 1000, "lr": 0.0, "memory": 10004, "data_time": 0.00315, "loss_rpn_cls": 0.00485, "loss_rpn_bbox": 0.01133, "loss_cls": 0.0576, "acc": 97.61523, "loss_bbox": 0.08432, "loss": 0.1581, "grad_norm": NaN, "time": 0.70328}
+{"mode": "train", "epoch": 9, "iter": 1500, "lr": 0.0, "memory": 10004, "data_time": 0.00318, "loss_rpn_cls": 0.00479, "loss_rpn_bbox": 0.01147, "loss_cls": 0.05719, "acc": 97.63667, "loss_bbox": 0.08564, "loss": 0.15909, "grad_norm": 1.10588, "time": 0.70418}
+{"mode": "train", "epoch": 9, "iter": 2000, "lr": 0.0, "memory": 10004, "data_time": 0.00328, "loss_rpn_cls": 0.00445, "loss_rpn_bbox": 0.01102, "loss_cls": 0.05777, "acc": 97.60742, "loss_bbox": 0.08281, "loss": 0.15605, "grad_norm": 1.10485, "time": 0.70377}
+{"mode": "train", "epoch": 9, "iter": 2500, "lr": 0.0, "memory": 10004, "data_time": 0.00323, "loss_rpn_cls": 0.004, "loss_rpn_bbox": 0.0104, "loss_cls": 0.05642, "acc": 97.65225, "loss_bbox": 0.08345, "loss": 0.15427, "grad_norm": 1.08479, "time": 0.70413}
+{"mode": "train", "epoch": 9, "iter": 3000, "lr": 0.0, "memory": 10009, "data_time": 0.00321, "loss_rpn_cls": 0.0043, "loss_rpn_bbox": 0.01177, "loss_cls": 0.05633, "acc": 97.63774, "loss_bbox": 0.08429, "loss": 0.15669, "grad_norm": 1.0901, "time": 0.70429}
+{"mode": "train", "epoch": 9, "iter": 3500, "lr": 0.0, "memory": 10009, "data_time": 0.00336, "loss_rpn_cls": 0.00444, "loss_rpn_bbox": 0.01165, "loss_cls": 0.05807, "acc": 97.59429, "loss_bbox": 0.08766, "loss": 0.16183, "grad_norm": 1.09523, "time": 0.70379}
+{"mode": "train", "epoch": 9, "iter": 4000, "lr": 0.0, "memory": 10009, "data_time": 0.00323, "loss_rpn_cls": 0.00416, "loss_rpn_bbox": 0.01136, "loss_cls": 0.05576, "acc": 97.6645, "loss_bbox": 0.08266, "loss": 0.15395, "grad_norm": 1.08236, "time": 0.70433}
+{"mode": "train", "epoch": 9, "iter": 4500, "lr": 0.0, "memory": 10009, "data_time": 0.00327, "loss_rpn_cls": 0.00403, "loss_rpn_bbox": 0.01108, "loss_cls": 0.05465, "acc": 97.73335, "loss_bbox": 0.0813, "loss": 0.15106, "grad_norm": 1.09286, "time": 0.70361}
+{"mode": "train", "epoch": 9, "iter": 5000, "lr": 0.0, "memory": 10009, "data_time": 0.00312, "loss_rpn_cls": 0.00432, "loss_rpn_bbox": 0.01168, "loss_cls": 0.05585, "acc": 97.68145, "loss_bbox": 0.08638, "loss": 0.15823, "grad_norm": 1.08831, "time": 0.70429}
+{"mode": "train", "epoch": 9, "iter": 5500, "lr": 0.0, "memory": 10009, "data_time": 0.00318, "loss_rpn_cls": 0.00476, "loss_rpn_bbox": 0.01131, "loss_cls": 0.05941, "acc": 97.49692, "loss_bbox": 0.08783, "loss": 0.16332, "grad_norm": NaN, "time": 0.7037}
+{"mode": "train", "epoch": 9, "iter": 6000, "lr": 0.0, "memory": 10009, "data_time": 0.00317, "loss_rpn_cls": 0.00435, "loss_rpn_bbox": 0.01112, "loss_cls": 0.05707, "acc": 97.60728, "loss_bbox": 0.08462, "loss": 0.15716, "grad_norm": 1.09507, "time": 0.70447}
+{"mode": "train", "epoch": 9, "iter": 6500, "lr": 0.0, "memory": 10009, "data_time": 0.0032, "loss_rpn_cls": 0.00469, "loss_rpn_bbox": 0.01169, "loss_cls": 0.05773, "acc": 97.60688, "loss_bbox": 0.08611, "loss": 0.16022, "grad_norm": 1.09424, "time": 0.70396}
+{"mode": "train", "epoch": 9, "iter": 7000, "lr": 0.0, "memory": 10009, "data_time": 0.00312, "loss_rpn_cls": 0.00392, "loss_rpn_bbox": 0.01088, "loss_cls": 0.05582, "acc": 97.67026, "loss_bbox": 0.08469, "loss": 0.1553, "grad_norm": 1.08446, "time": 0.70505}
+{"mode": "train", "epoch": 9, "iter": 7500, "lr": 0.0, "memory": 10009, "data_time": 0.00306, "loss_rpn_cls": 0.00398, "loss_rpn_bbox": 0.01162, "loss_cls": 0.05699, "acc": 97.62109, "loss_bbox": 0.08521, "loss": 0.15779, "grad_norm": NaN, "time": 0.7043}
+{"mode": "train", "epoch": 9, "iter": 8000, "lr": 0.0, "memory": 10009, "data_time": 0.00314, "loss_rpn_cls": 0.00398, "loss_rpn_bbox": 0.01094, "loss_cls": 0.0542, "acc": 97.7332, "loss_bbox": 0.08182, "loss": 0.15094, "grad_norm": 1.06138, "time": 0.70418}
+{"mode": "train", "epoch": 9, "iter": 8500, "lr": 0.0, "memory": 10009, "data_time": 0.00307, "loss_rpn_cls": 0.00364, "loss_rpn_bbox": 0.0109, "loss_cls": 0.05573, "acc": 97.67026, "loss_bbox": 0.08424, "loss": 0.15451, "grad_norm": 1.08848, "time": 0.70459}
+{"mode": "train", "epoch": 9, "iter": 9000, "lr": 0.0, "memory": 10009, "data_time": 0.00303, "loss_rpn_cls": 0.00388, "loss_rpn_bbox": 0.01061, "loss_cls": 0.05564, "acc": 97.67539, "loss_bbox": 0.08523, "loss": 0.15535, "grad_norm": 1.07302, "time": 0.70385}
+{"mode": "train", "epoch": 9, "iter": 9500, "lr": 0.0, "memory": 10009, "data_time": 0.00317, "loss_rpn_cls": 0.00389, "loss_rpn_bbox": 0.01115, "loss_cls": 0.05628, "acc": 97.64321, "loss_bbox": 0.08461, "loss": 0.15593, "grad_norm": NaN, "time": 0.70431}
+{"mode": "val", "epoch": 9, "iter": 1068, "lr": 0.0, "mAP": 0.70837}
+{"mode": "train", "epoch": 10, "iter": 500, "lr": 0.0, "memory": 10009, "data_time": 0.01063, "loss_rpn_cls": 0.00395, "loss_rpn_bbox": 0.01082, "loss_cls": 0.05517, "acc": 97.72305, "loss_bbox": 0.08164, "loss": 0.15158, "grad_norm": NaN, "time": 0.71268}
+{"mode": "train", "epoch": 10, "iter": 1000, "lr": 0.0, "memory": 10009, "data_time": 0.00316, "loss_rpn_cls": 0.00342, "loss_rpn_bbox": 0.0106, "loss_cls": 0.05366, "acc": 97.74199, "loss_bbox": 0.08213, "loss": 0.1498, "grad_norm": 1.07341, "time": 0.70521}
+{"mode": "train", "epoch": 10, "iter": 1500, "lr": 0.0, "memory": 10009, "data_time": 0.00305, "loss_rpn_cls": 0.00408, "loss_rpn_bbox": 0.01086, "loss_cls": 0.05396, "acc": 97.72798, "loss_bbox": 0.08246, "loss": 0.15137, "grad_norm": 1.08158, "time": 0.70519}
+{"mode": "train", "epoch": 10, "iter": 2000, "lr": 0.0, "memory": 10009, "data_time": 0.00314, "loss_rpn_cls": 0.00389, "loss_rpn_bbox": 0.01112, "loss_cls": 0.05468, "acc": 97.70991, "loss_bbox": 0.08288, "loss": 0.15256, "grad_norm": 1.09361, "time": 0.70513}
+{"mode": "train", "epoch": 10, "iter": 2500, "lr": 0.0, "memory": 10009, "data_time": 0.00309, "loss_rpn_cls": 0.00388, "loss_rpn_bbox": 0.01121, "loss_cls": 0.05566, "acc": 97.68081, "loss_bbox": 0.08443, "loss": 0.15519, "grad_norm": 1.08328, "time": 0.70546}
+{"mode": "train", "epoch": 10, "iter": 3000, "lr": 0.0, "memory": 10009, "data_time": 0.0031, "loss_rpn_cls": 0.004, "loss_rpn_bbox": 0.01074, "loss_cls": 0.05571, "acc": 97.67822, "loss_bbox": 0.08369, "loss": 0.15414, "grad_norm": 1.10646, "time": 0.70534}
+{"mode": "train", "epoch": 10, "iter": 3500, "lr": 0.0, "memory": 10009, "data_time": 0.00336, "loss_rpn_cls": 0.00415, "loss_rpn_bbox": 0.01122, "loss_cls": 0.05643, "acc": 97.65176, "loss_bbox": 0.0838, "loss": 0.1556, "grad_norm": 1.09534, "time": 0.70596}
+{"mode": "train", "epoch": 10, "iter": 4000, "lr": 0.0, "memory": 10009, "data_time": 0.0029, "loss_rpn_cls": 0.00371, "loss_rpn_bbox": 0.01119, "loss_cls": 0.05531, "acc": 97.68486, "loss_bbox": 0.08163, "loss": 0.15184, "grad_norm": 1.10048, "time": 0.70512}
+{"mode": "train", "epoch": 10, "iter": 4500, "lr": 0.0, "memory": 10009, "data_time": 0.00289, "loss_rpn_cls": 0.00382, "loss_rpn_bbox": 0.01138, "loss_cls": 0.05524, "acc": 97.67988, "loss_bbox": 0.08332, "loss": 0.15375, "grad_norm": NaN, "time": 0.70496}
+{"mode": "train", "epoch": 10, "iter": 5000, "lr": 0.0, "memory": 10009, "data_time": 0.00288, "loss_rpn_cls": 0.00357, "loss_rpn_bbox": 0.01085, "loss_cls": 0.05408, "acc": 97.7229, "loss_bbox": 0.08338, "loss": 0.15188, "grad_norm": 1.10658, "time": 0.70486}
+{"mode": "train", "epoch": 10, "iter": 5500, "lr": 0.0, "memory": 10009, "data_time": 0.00301, "loss_rpn_cls": 0.00427, "loss_rpn_bbox": 0.0111, "loss_cls": 0.05591, "acc": 97.66392, "loss_bbox": 0.08524, "loss": 0.15652, "grad_norm": 1.10742, "time": 0.70545}
+{"mode": "train", "epoch": 10, "iter": 6000, "lr": 0.0, "memory": 10009, "data_time": 0.00293, "loss_rpn_cls": 0.00393, "loss_rpn_bbox": 0.01117, "loss_cls": 0.05514, "acc": 97.68887, "loss_bbox": 0.08468, "loss": 0.15491, "grad_norm": 1.11964, "time": 0.7053}
+{"mode": "train", "epoch": 10, "iter": 6500, "lr": 0.0, "memory": 10009, "data_time": 0.00299, "loss_rpn_cls": 0.00376, "loss_rpn_bbox": 0.01106, "loss_cls": 0.05526, "acc": 97.66675, "loss_bbox": 0.08385, "loss": 0.15394, "grad_norm": NaN, "time": 0.70445}
+{"mode": "train", "epoch": 10, "iter": 7000, "lr": 0.0, "memory": 10009, "data_time": 0.00306, "loss_rpn_cls": 0.00336, "loss_rpn_bbox": 0.01008, "loss_cls": 0.05288, "acc": 97.79194, "loss_bbox": 0.08038, "loss": 0.1467, "grad_norm": 1.06805, "time": 0.70536}
+{"mode": "train", "epoch": 10, "iter": 7500, "lr": 0.0, "memory": 10009, "data_time": 0.00301, "loss_rpn_cls": 0.00388, "loss_rpn_bbox": 0.01073, "loss_cls": 0.05486, "acc": 97.67368, "loss_bbox": 0.08336, "loss": 0.15283, "grad_norm": 1.10242, "time": 0.70423}
+{"mode": "train", "epoch": 10, "iter": 8000, "lr": 0.0, "memory": 10009, "data_time": 0.00298, "loss_rpn_cls": 0.00389, "loss_rpn_bbox": 0.01098, "loss_cls": 0.05431, "acc": 97.74551, "loss_bbox": 0.08222, "loss": 0.15141, "grad_norm": 1.10702, "time": 0.70494}
+{"mode": "train", "epoch": 10, "iter": 8500, "lr": 0.0, "memory": 10009, "data_time": 0.00306, "loss_rpn_cls": 0.00372, "loss_rpn_bbox": 0.01069, "loss_cls": 0.0551, "acc": 97.67173, "loss_bbox": 0.08371, "loss": 0.15322, "grad_norm": Infinity, "time": 0.70463}
+{"mode": "train", "epoch": 10, "iter": 9000, "lr": 0.0, "memory": 10009, "data_time": 0.00307, "loss_rpn_cls": 0.00388, "loss_rpn_bbox": 0.00996, "loss_cls": 0.05326, "acc": 97.77632, "loss_bbox": 0.08341, "loss": 0.15051, "grad_norm": NaN, "time": 0.70506}
+{"mode": "train", "epoch": 10, "iter": 9500, "lr": 0.0, "memory": 10009, "data_time": 0.00305, "loss_rpn_cls": 0.00339, "loss_rpn_bbox": 0.01055, "loss_cls": 0.05413, "acc": 97.7187, "loss_bbox": 0.08359, "loss": 0.15166, "grad_norm": 1.09676, "time": 0.70465}
+{"mode": "val", "epoch": 10, "iter": 1068, "lr": 0.0, "mAP": 0.71806}
+{"mode": "train", "epoch": 11, "iter": 500, "lr": 0.0, "memory": 10009, "data_time": 0.00993, "loss_rpn_cls": 0.00358, "loss_rpn_bbox": 0.01072, "loss_cls": 0.05342, "acc": 97.76577, "loss_bbox": 0.08256, "loss": 0.15029, "grad_norm": 1.08447, "time": 0.71147}
+{"mode": "train", "epoch": 11, "iter": 1000, "lr": 0.0, "memory": 10009, "data_time": 0.00317, "loss_rpn_cls": 0.00364, "loss_rpn_bbox": 0.01064, "loss_cls": 0.05456, "acc": 97.71826, "loss_bbox": 0.08111, "loss": 0.14995, "grad_norm": 1.09291, "time": 0.70473}
+{"mode": "train", "epoch": 11, "iter": 1500, "lr": 0.0, "memory": 10009, "data_time": 0.00302, "loss_rpn_cls": 0.00372, "loss_rpn_bbox": 0.01046, "loss_cls": 0.05177, "acc": 97.85234, "loss_bbox": 0.07964, "loss": 0.14559, "grad_norm": 1.06566, "time": 0.70538}
+{"mode": "train", "epoch": 11, "iter": 2000, "lr": 0.0, "memory": 10009, "data_time": 0.0031, "loss_rpn_cls": 0.00351, "loss_rpn_bbox": 0.01054, "loss_cls": 0.05183, "acc": 97.8043, "loss_bbox": 0.07928, "loss": 0.14516, "grad_norm": 1.07884, "time": 0.70506}
+{"mode": "train", "epoch": 11, "iter": 2500, "lr": 0.0, "memory": 10009, "data_time": 0.00306, "loss_rpn_cls": 0.00432, "loss_rpn_bbox": 0.01178, "loss_cls": 0.05501, "acc": 97.68223, "loss_bbox": 0.08295, "loss": 0.15406, "grad_norm": Infinity, "time": 0.7046}
+{"mode": "train", "epoch": 11, "iter": 3000, "lr": 0.0, "memory": 10009, "data_time": 0.00302, "loss_rpn_cls": 0.00349, "loss_rpn_bbox": 0.0108, "loss_cls": 0.05439, "acc": 97.71929, "loss_bbox": 0.08185, "loss": 0.15053, "grad_norm": 1.11171, "time": 0.70499}
+{"mode": "train", "epoch": 11, "iter": 3500, "lr": 0.0, "memory": 10009, "data_time": 0.00308, "loss_rpn_cls": 0.0038, "loss_rpn_bbox": 0.01078, "loss_cls": 0.05348, "acc": 97.76387, "loss_bbox": 0.08163, "loss": 0.14969, "grad_norm": 1.10862, "time": 0.70411}
+{"mode": "train", "epoch": 11, "iter": 4000, "lr": 0.0, "memory": 10009, "data_time": 0.00311, "loss_rpn_cls": 0.00364, "loss_rpn_bbox": 0.01079, "loss_cls": 0.05264, "acc": 97.80186, "loss_bbox": 0.08219, "loss": 0.14924, "grad_norm": 1.12278, "time": 0.70511}
+{"mode": "train", "epoch": 11, "iter": 4500, "lr": 0.0, "memory": 10009, "data_time": 0.0031, "loss_rpn_cls": 0.00357, "loss_rpn_bbox": 0.01058, "loss_cls": 0.05312, "acc": 97.77192, "loss_bbox": 0.082, "loss": 0.14927, "grad_norm": 1.10774, "time": 0.70475}
+{"mode": "train", "epoch": 11, "iter": 5000, "lr": 0.0, "memory": 10009, "data_time": 0.00299, "loss_rpn_cls": 0.00374, "loss_rpn_bbox": 0.01074, "loss_cls": 0.05332, "acc": 97.76885, "loss_bbox": 0.0818, "loss": 0.14959, "grad_norm": 1.14153, "time": 0.705}
+{"mode": "train", "epoch": 11, "iter": 5500, "lr": 0.0, "memory": 10009, "data_time": 0.00308, "loss_rpn_cls": 0.004, "loss_rpn_bbox": 0.01122, "loss_cls": 0.05388, "acc": 97.73979, "loss_bbox": 0.08105, "loss": 0.15015, "grad_norm": 1.09937, "time": 0.70434}
+{"mode": "train", "epoch": 11, "iter": 6000, "lr": 0.0, "memory": 10009, "data_time": 0.00309, "loss_rpn_cls": 0.00319, "loss_rpn_bbox": 0.01023, "loss_cls": 0.05108, "acc": 97.86206, "loss_bbox": 0.07845, "loss": 0.14295, "grad_norm": 1.07846, "time": 0.70489}
+{"mode": "train", "epoch": 11, "iter": 6500, "lr": 0.0, "memory": 10009, "data_time": 0.00306, "loss_rpn_cls": 0.00338, "loss_rpn_bbox": 0.01059, "loss_cls": 0.05251, "acc": 97.77788, "loss_bbox": 0.08275, "loss": 0.14923, "grad_norm": NaN, "time": 0.70467}
+{"mode": "train", "epoch": 11, "iter": 7000, "lr": 0.0, "memory": 10009, "data_time": 0.00306, "loss_rpn_cls": 0.00346, "loss_rpn_bbox": 0.01052, "loss_cls": 0.05154, "acc": 97.83223, "loss_bbox": 0.07954, "loss": 0.14507, "grad_norm": 1.09093, "time": 0.70452}
+{"mode": "train", "epoch": 11, "iter": 7500, "lr": 0.0, "memory": 10009, "data_time": 0.00302, "loss_rpn_cls": 0.00337, "loss_rpn_bbox": 0.01088, "loss_cls": 0.05198, "acc": 97.81436, "loss_bbox": 0.0806, "loss": 0.14683, "grad_norm": NaN, "time": 0.70503}
+{"mode": "train", "epoch": 11, "iter": 8000, "lr": 0.0, "memory": 10009, "data_time": 0.00295, "loss_rpn_cls": 0.00312, "loss_rpn_bbox": 0.01076, "loss_cls": 0.05211, "acc": 97.78564, "loss_bbox": 0.08148, "loss": 0.14747, "grad_norm": 1.10249, "time": 0.70475}
+{"mode": "train", "epoch": 11, "iter": 8500, "lr": 0.0, "memory": 10009, "data_time": 0.00302, "loss_rpn_cls": 0.0035, "loss_rpn_bbox": 0.01046, "loss_cls": 0.05512, "acc": 97.67129, "loss_bbox": 0.08317, "loss": 0.15225, "grad_norm": 1.15187, "time": 0.7053}
+{"mode": "train", "epoch": 11, "iter": 9000, "lr": 0.0, "memory": 10009, "data_time": 0.00306, "loss_rpn_cls": 0.00366, "loss_rpn_bbox": 0.01094, "loss_cls": 0.05509, "acc": 97.69233, "loss_bbox": 0.08481, "loss": 0.15451, "grad_norm": 1.12321, "time": 0.70453}
+{"mode": "train", "epoch": 11, "iter": 9500, "lr": 0.0, "memory": 10009, "data_time": 0.00305, "loss_rpn_cls": 0.00345, "loss_rpn_bbox": 0.01031, "loss_cls": 0.05243, "acc": 97.80938, "loss_bbox": 0.08172, "loss": 0.1479, "grad_norm": 1.11, "time": 0.70508}
+{"mode": "val", "epoch": 11, "iter": 1068, "lr": 0.0, "mAP": 0.72434}
+{"mode": "train", "epoch": 12, "iter": 500, "lr": 0.0, "memory": 10009, "data_time": 0.01007, "loss_rpn_cls": 0.00302, "loss_rpn_bbox": 0.01048, "loss_cls": 0.05212, "acc": 97.79941, "loss_bbox": 0.08335, "loss": 0.14897, "grad_norm": 1.12888, "time": 0.71227}
+{"mode": "train", "epoch": 12, "iter": 1000, "lr": 0.0, "memory": 10009, "data_time": 0.0031, "loss_rpn_cls": 0.00344, "loss_rpn_bbox": 0.01089, "loss_cls": 0.0534, "acc": 97.74932, "loss_bbox": 0.08156, "loss": 0.1493, "grad_norm": 1.12052, "time": 0.70505}
+{"mode": "train", "epoch": 12, "iter": 1500, "lr": 0.0, "memory": 10009, "data_time": 0.00305, "loss_rpn_cls": 0.00351, "loss_rpn_bbox": 0.01095, "loss_cls": 0.05265, "acc": 97.81016, "loss_bbox": 0.08192, "loss": 0.14903, "grad_norm": 1.12187, "time": 0.70543}
+{"mode": "train", "epoch": 12, "iter": 2000, "lr": 0.0, "memory": 10009, "data_time": 0.00305, "loss_rpn_cls": 0.00358, "loss_rpn_bbox": 0.01068, "loss_cls": 0.05105, "acc": 97.85352, "loss_bbox": 0.08012, "loss": 0.14543, "grad_norm": 1.0949, "time": 0.70484}
+{"mode": "train", "epoch": 12, "iter": 2500, "lr": 0.0, "memory": 10009, "data_time": 0.00309, "loss_rpn_cls": 0.00355, "loss_rpn_bbox": 0.01052, "loss_cls": 0.05276, "acc": 97.77173, "loss_bbox": 0.08316, "loss": 0.14999, "grad_norm": 1.11161, "time": 0.70482}
+{"mode": "train", "epoch": 12, "iter": 3000, "lr": 0.0, "memory": 10009, "data_time": 0.00305, "loss_rpn_cls": 0.00347, "loss_rpn_bbox": 0.01055, "loss_cls": 0.05195, "acc": 97.81763, "loss_bbox": 0.08121, "loss": 0.14717, "grad_norm": 1.11311, "time": 0.70448}
+{"mode": "train", "epoch": 12, "iter": 3500, "lr": 0.0, "memory": 10009, "data_time": 0.00304, "loss_rpn_cls": 0.00338, "loss_rpn_bbox": 0.01077, "loss_cls": 0.05245, "acc": 97.80835, "loss_bbox": 0.08213, "loss": 0.14873, "grad_norm": 1.10862, "time": 0.70473}
+{"mode": "train", "epoch": 12, "iter": 4000, "lr": 0.0, "memory": 10009, "data_time": 0.00301, "loss_rpn_cls": 0.00279, "loss_rpn_bbox": 0.00975, "loss_cls": 0.04994, "acc": 97.91138, "loss_bbox": 0.07697, "loss": 0.13945, "grad_norm": 1.07978, "time": 0.70436}
+{"mode": "train", "epoch": 12, "iter": 4500, "lr": 0.0, "memory": 10009, "data_time": 0.00302, "loss_rpn_cls": 0.0033, "loss_rpn_bbox": 0.00993, "loss_cls": 0.05284, "acc": 97.77275, "loss_bbox": 0.08139, "loss": 0.14746, "grad_norm": NaN, "time": 0.70436}
+{"mode": "train", "epoch": 12, "iter": 5000, "lr": 0.0, "memory": 10009, "data_time": 0.00305, "loss_rpn_cls": 0.00336, "loss_rpn_bbox": 0.01, "loss_cls": 0.05166, "acc": 97.83843, "loss_bbox": 0.07827, "loss": 0.14329, "grad_norm": 1.08559, "time": 0.70442}
+{"mode": "train", "epoch": 12, "iter": 5500, "lr": 0.0, "memory": 10009, "data_time": 0.00307, "loss_rpn_cls": 0.00333, "loss_rpn_bbox": 0.01073, "loss_cls": 0.05257, "acc": 97.78047, "loss_bbox": 0.08102, "loss": 0.14765, "grad_norm": 1.11994, "time": 0.70424}
+{"mode": "train", "epoch": 12, "iter": 6000, "lr": 0.0, "memory": 10009, "data_time": 0.0031, "loss_rpn_cls": 0.00359, "loss_rpn_bbox": 0.01083, "loss_cls": 0.05184, "acc": 97.83369, "loss_bbox": 0.08052, "loss": 0.14678, "grad_norm": 1.11324, "time": 0.70492}
+{"mode": "train", "epoch": 12, "iter": 6500, "lr": 0.0, "memory": 10009, "data_time": 0.00305, "loss_rpn_cls": 0.00362, "loss_rpn_bbox": 0.01003, "loss_cls": 0.05318, "acc": 97.76509, "loss_bbox": 0.08026, "loss": 0.14709, "grad_norm": NaN, "time": 0.70432}
+{"mode": "train", "epoch": 12, "iter": 7000, "lr": 0.0, "memory": 10009, "data_time": 0.00307, "loss_rpn_cls": 0.00322, "loss_rpn_bbox": 0.01013, "loss_cls": 0.04982, "acc": 97.90566, "loss_bbox": 0.07814, "loss": 0.14131, "grad_norm": 1.07412, "time": 0.70462}
+{"mode": "train", "epoch": 12, "iter": 7500, "lr": 0.0, "memory": 10009, "data_time": 0.0031, "loss_rpn_cls": 0.00361, "loss_rpn_bbox": 0.0098, "loss_cls": 0.05257, "acc": 97.78535, "loss_bbox": 0.07989, "loss": 0.14587, "grad_norm": 1.0987, "time": 0.70449}
+{"mode": "train", "epoch": 12, "iter": 8000, "lr": 0.0, "memory": 10009, "data_time": 0.00306, "loss_rpn_cls": 0.00342, "loss_rpn_bbox": 0.01055, "loss_cls": 0.05234, "acc": 97.80322, "loss_bbox": 0.07813, "loss": 0.14443, "grad_norm": 1.10172, "time": 0.70486}
+{"mode": "train", "epoch": 12, "iter": 8500, "lr": 0.0, "memory": 10009, "data_time": 0.00307, "loss_rpn_cls": 0.00337, "loss_rpn_bbox": 0.00982, "loss_cls": 0.05132, "acc": 97.85327, "loss_bbox": 0.07973, "loss": 0.14424, "grad_norm": 1.09227, "time": 0.70446}
+{"mode": "train", "epoch": 12, "iter": 9000, "lr": 0.0, "memory": 10009, "data_time": 0.00303, "loss_rpn_cls": 0.00345, "loss_rpn_bbox": 0.01016, "loss_cls": 0.05223, "acc": 97.80249, "loss_bbox": 0.08096, "loss": 0.14681, "grad_norm": NaN, "time": 0.7044}
+{"mode": "train", "epoch": 12, "iter": 9500, "lr": 0.0, "memory": 10009, "data_time": 0.00305, "loss_rpn_cls": 0.00329, "loss_rpn_bbox": 0.01069, "loss_cls": 0.0527, "acc": 97.78486, "loss_bbox": 0.08108, "loss": 0.14776, "grad_norm": 1.09702, "time": 0.70477}
+{"mode": "val", "epoch": 12, "iter": 1068, "lr": 0.0, "mAP": 0.72313}

ckpts/vitp_rsar_orcnn_7231/epoch_12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54800c340acf4ef30dc51ef73df16fb9e39808d907a774aaedc596d657a50168
+size 1366683565

ckpts/vitp_rsar_orcnn_7231/vitp_rsar_orcnn.py ADDED Viewed

	@@ -0,0 +1,300 @@

+dataset_type = 'RSARDataset'
+data_root = '/liyuxuan/DATA/RSAR/'
+angle_version = 'le90'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True),
+    dict(type='RResize', img_scale=(800, 800), keep_ratio=False),
+    dict(
+        type='RRandomFlip',
+        flip_ratio=[0.25, 0.25, 0.25],
+        direction=['horizontal', 'vertical', 'diagonal'],
+        version='le90'),
+    dict(
+        type='PolyRandomRotate',
+        rotate_ratio=0.5,
+        angles_range=180,
+        auto_bound=False,
+        rect_classes=[3],
+        version='le90'),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(800, 800),
+        flip=False,
+        transforms=[
+            dict(type='RResize', img_scale=(800, 800), keep_ratio=False),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=1,
+    workers_per_gpu=4,
+    train=dict(
+        type='RSARDataset',
+        ann_file='/liyuxuan/DATA/RSAR/train/annfiles/',
+        img_prefix='/liyuxuan/DATA/RSAR/train/images/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True),
+            dict(type='RResize', img_scale=(800, 800), keep_ratio=False),
+            dict(
+                type='RRandomFlip',
+                flip_ratio=[0.25, 0.25, 0.25],
+                direction=['horizontal', 'vertical', 'diagonal'],
+                version='le90'),
+            dict(
+                type='PolyRandomRotate',
+                rotate_ratio=0.5,
+                angles_range=180,
+                auto_bound=False,
+                rect_classes=[3],
+                version='le90'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
+        ],
+        version='le90'),
+    val=dict(
+        type='RSARDataset',
+        ann_file='/liyuxuan/DATA/RSAR/test/annfiles/',
+        img_prefix='/liyuxuan/DATA/RSAR/test/images/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(800, 800),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='RResize', img_scale=(800, 800),
+                        keep_ratio=False),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='DefaultFormatBundle'),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ],
+        version='le90'),
+    test=dict(
+        type='RSARDataset',
+        ann_file='/liyuxuan/DATA/RSAR/test/images/',
+        img_prefix='/liyuxuan/DATA/RSAR/test/images/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(800, 800),
+                flip=False,
+                transforms=[
+                    dict(
+                        type='RResize', img_scale=(800, 800),
+                        keep_ratio=False),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='DefaultFormatBundle'),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ],
+        version='le90'))
+evaluation = dict(interval=1, metric='mAP')
+optimizer = dict(
+    type='AdamW',
+    lr=2.5e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.95))
+optimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2))
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.3333333333333333,
+    step=[8, 11])
+runner = dict(type='EpochBasedRunner', max_epochs=12)
+checkpoint_config = dict(interval=1, max_keep_ckpts=1)
+log_config = dict(interval=500, hooks=[dict(type='TextLoggerHook')])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+opencv_num_threads = 0
+mp_start_method = 'fork'
+pretrained = 'pretrained/ViTP_ViT_L_300M_rs.safetensors'
+norm_cfg = dict(type='LN', requires_grad=True)
+model = dict(
+    type='OrientedRCNN',
+    backbone=dict(
+        type='InternViTAdapter',
+        pretrain_size=448,
+        img_size=800,
+        patch_size=16,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        mlp_ratio=4.0,
+        drop_path_rate=0.1,
+        init_values=0.1,
+        with_cp=True,
+        use_flash_attn=True,
+        qk_normalization=False,
+        layerscale_force_fp32=False,
+        with_fpn=False,
+        freeze_vit=False,
+        use_final_norm=True,
+        interaction_indexes=[[0, 7], [8, 11], [12, 15], [16, 23]],
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        qkv_bias=True,
+        norm_type='layer_norm',
+        pretrained='pretrained/ViTP_ViT_L_300M_rs.safetensors',
+        pretrained_type='full',
+        only_feat_out=True),
+    neck=dict(
+        type='SimpleFPN',
+        in_channels=[1024, 1024, 1024, 1024],
+        out_channels=256,
+        norm_cfg=dict(type='LN', requires_grad=True),
+        use_residual=False,
+        num_outs=5),
+    rpn_head=dict(
+        type='OrientedRPNHead',
+        in_channels=256,
+        feat_channels=256,
+        version='le90',
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='MidpointOffsetCoder',
+            angle_range='le90',
+            target_means=[0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0, 0.5, 0.5]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='OrientedStandardRoIHead',
+        bbox_roi_extractor=dict(
+            type='RotatedSingleRoIExtractor',
+            roi_layer=dict(
+                type='RoIAlignRotated',
+                out_size=7,
+                sample_num=2,
+                clockwise=True),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=dict(
+            type='RotatedShared2FCBBoxHead',
+            in_channels=256,
+            fc_out_channels=1024,
+            roi_feat_size=7,
+            num_classes=6,
+            bbox_coder=dict(
+                type='DeltaXYWHAOBBoxCoder',
+                angle_range='le90',
+                norm_factor=None,
+                edge_swap=True,
+                proj_xy=True,
+                target_means=(0.0, 0.0, 0.0, 0.0, 0.0),
+                target_stds=(0.1, 0.1, 0.2, 0.2, 0.1)),
+            reg_class_agnostic=True,
+            loss_cls=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
+            loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                gpu_assign_thr=1000,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_pre=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.8),
+            min_bbox_size=0),
+        rcnn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                gpu_assign_thr=1000,
+                iou_calculator=dict(type='RBboxOverlaps2D'),
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RRandomSampler',
+                num=512,
+                pos_fraction=0.25,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False)),
+    test_cfg=dict(
+        rpn=dict(
+            nms_pre=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.8),
+            min_bbox_size=0),
+        rcnn=dict(
+            nms_pre=2000,
+            min_bbox_size=0,
+            score_thr=0.05,
+            nms=dict(iou_thr=0.1),
+            max_per_img=2000)))
+fp16 = dict(loss_scale=dict(init_scale=512))
+work_dir = './work_dirs/vitp_rsar_orcnn'
+auto_resume = False
+gpu_ids = range(0, 8)
+device = 'cuda'

ckpts/vitp_s2looking_upernet_6989/20250915_140502/20250915_140502.log ADDED Viewed

The diff for this file is too large to render. See raw diff

ckpts/vitp_s2looking_upernet_6989/best_checkpoint.pth.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ae8a0e0f2b75ebdaf146614481221186d01ba5efd4131edc8e4318c341bacd6
+size 1522950309

ckpts/vitp_s2looking_upernet_6989/vitp_s2looking_upernet.py ADDED Viewed

	@@ -0,0 +1,360 @@

+crop_size = (
+    512,
+    512,
+)
+data_preprocessor = dict(
+    bgr_to_rgb=True,
+    mean=[
+        123.675,
+        116.28,
+        103.53,
+        123.675,
+        116.28,
+        103.53,
+    ],
+    pad_val=0,
+    seg_pad_val=255,
+    size_divisor=32,
+    std=[
+        58.395,
+        57.12,
+        57.375,
+        58.395,
+        57.12,
+        57.375,
+    ],
+    test_cfg=dict(size_divisor=32),
+    type='DualInputSegDataPreProcessor')
+data_root = '/defaultShare/pubdata/remote_sensing/S2Looking'
+dataset_type = 'S2Looking_Dataset'
+default_hooks = dict(
+    checkpoint=dict(by_epoch=False, interval=12000, type='CheckpointHook'),
+    logger=dict(interval=50, log_metric_by_epoch=False, type='LoggerHook'),
+    param_scheduler=dict(type='ParamSchedulerHook'),
+    sampler_seed=dict(type='DistSamplerSeedHook'),
+    timer=dict(type='IterTimerHook'),
+    visualization=dict(interval=1, type='CDVisualizationHook'))
+default_scope = 'opencd'
+env_cfg = dict(
+    cudnn_benchmark=True,
+    dist_cfg=dict(backend='nccl'),
+    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0))
+fp16 = dict(loss_scale=dict(init_scale=512))
+img_ratios = [
+    0.75,
+    1.0,
+    1.25,
+]
+launcher = 'pytorch'
+load_from = None
+log_level = 'INFO'
+log_processor = dict(by_epoch=False)
+model = dict(
+    backbone=dict(
+        cffn_ratio=0.25,
+        deform_ratio=0.25,
+        depth=24,
+        drop_path_rate=0.1,
+        embed_dim=1024,
+        freeze_vit=False,
+        img_size=512,
+        init_values=0.1,
+        interaction_indexes=[
+            [
+                0,
+                7,
+            ],
+            [
+                8,
+                11,
+            ],
+            [
+                12,
+                15,
+            ],
+            [
+                16,
+                23,
+            ],
+        ],
+        layerscale_force_fp32=False,
+        mlp_ratio=4.0,
+        norm_type='layer_norm',
+        num_heads=16,
+        patch_size=16,
+        pretrain_size=448,
+        pretrained='pretrained/ViTP_ViT_L_300M_rs.safetensors',
+        pretrained_type='full',
+        qk_normalization=False,
+        qkv_bias=True,
+        type='InternViTAdapter',
+        use_final_norm=True,
+        use_flash_attn=False,
+        with_cp=True,
+        with_fpn=False),
+    data_preprocessor=dict(
+        bgr_to_rgb=True,
+        mean=[
+            123.675,
+            116.28,
+            103.53,
+            123.675,
+            116.28,
+            103.53,
+        ],
+        pad_val=0,
+        seg_pad_val=255,
+        size_divisor=32,
+        std=[
+            58.395,
+            57.12,
+            57.375,
+            58.395,
+            57.12,
+            57.375,
+        ],
+        test_cfg=dict(size_divisor=32),
+        type='DualInputSegDataPreProcessor'),
+    decode_head=dict(
+        align_corners=False,
+        channels=512,
+        dropout_ratio=0.1,
+        in_channels=[
+            2048,
+            2048,
+            2048,
+            2048,
+        ],
+        in_index=[
+            0,
+            1,
+            2,
+            3,
+        ],
+        loss_decode=dict(
+            loss_weight=1.0, type='mmseg.CrossEntropyLoss', use_sigmoid=False),
+        norm_cfg=dict(requires_grad=True, type='SyncBN'),
+        num_classes=2,
+        pool_scales=(
+            1,
+            2,
+            3,
+            6,
+        ),
+        type='mmseg.UPerHead'),
+    neck=dict(policy='concat', type='FeatureFusionNeck'),
+    test_cfg=dict(crop_size=(
+        512,
+        512,
+    ), mode='slide', stride=(
+        256,
+        256,
+    )),
+    train_cfg=dict(),
+    type='SiamEncoderDecoder')
+norm_cfg = dict(requires_grad=True, type='SyncBN')
+optim_wrapper = dict(
+    clip_grad=None,
+    constructor='InternViTAdapterLayerDecayOptimizerConstructor',
+    optimizer=dict(
+        betas=(
+            0.9,
+            0.999,
+        ), lr=2e-05, type='AdamW', weight_decay=0.05),
+    paramwise_cfg=dict(layer_decay_rate=0.9, num_layers=24),
+    type='OptimWrapper')
+optimizer = dict(lr=0.01, momentum=0.9, type='SGD', weight_decay=0.0005)
+param_scheduler = [
+    dict(
+        begin=0, by_epoch=False, end=1000, start_factor=1e-06,
+        type='LinearLR'),
+    dict(
+        begin=1000,
+        by_epoch=False,
+        end=120000,
+        eta_min=0.0,
+        power=1.0,
+        type='PolyLR'),
+]
+pretrained = 'pretrained/ViTP_ViT_L_300M_rs.safetensors'
+resume = False
+test_cfg = dict(type='TestLoop')
+test_dataloader = dict(
+    batch_size=1,
+    dataset=dict(
+        data_prefix=dict(
+            img_path_from='test/Image1',
+            img_path_to='test/Image2',
+            seg_map_path='test/label'),
+        data_root='/defaultShare/pubdata/remote_sensing/S2Looking',
+        pipeline=[
+            dict(type='MultiImgLoadImageFromFile'),
+            dict(type='MultiImgLoadAnnotations'),
+            dict(type='MultiImgPackSegInputs'),
+        ],
+        type='S2Looking_Dataset'),
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(shuffle=False, type='DefaultSampler'))
+test_evaluator = dict(
+    iou_metrics=[
+        'mFscore',
+        'mIoU',
+    ], type='mmseg.IoUMetric')
+test_pipeline = [
+    dict(type='MultiImgLoadImageFromFile'),
+    dict(type='MultiImgLoadAnnotations'),
+    dict(type='MultiImgPackSegInputs'),
+]
+train_cfg = dict(
+    max_iters=120000, type='IterBasedTrainLoop', val_interval=12000)
+train_dataloader = dict(
+    batch_size=1,
+    dataset=dict(
+        data_prefix=dict(
+            img_path_from='train/Image1',
+            img_path_to='train/Image2',
+            seg_map_path='train/label'),
+        data_root='/defaultShare/pubdata/remote_sensing/S2Looking',
+        pipeline=[
+            dict(type='MultiImgLoadImageFromFile'),
+            dict(type='MultiImgLoadAnnotations'),
+            dict(
+                degree=(
+                    -20,
+                    20,
+                ),
+                flip_prob=0.5,
+                rotate_prob=0.5,
+                type='MultiImgRandomRotFlip'),
+            dict(
+                cat_max_ratio=0.75,
+                crop_size=(
+                    512,
+                    512,
+                ),
+                type='MultiImgRandomCrop'),
+            dict(prob=0.5, type='MultiImgExchangeTime'),
+            dict(
+                brightness_delta=10,
+                contrast_range=(
+                    0.8,
+                    1.2,
+                ),
+                hue_delta=10,
+                saturation_range=(
+                    0.8,
+                    1.2,
+                ),
+                type='MultiImgPhotoMetricDistortion'),
+            dict(type='MultiImgPackSegInputs'),
+        ],
+        type='S2Looking_Dataset'),
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(shuffle=True, type='DefaultSampler'))
+train_pipeline = [
+    dict(type='MultiImgLoadImageFromFile'),
+    dict(type='MultiImgLoadAnnotations'),
+    dict(
+        degree=(
+            -20,
+            20,
+        ),
+        flip_prob=0.5,
+        rotate_prob=0.5,
+        type='MultiImgRandomRotFlip'),
+    dict(
+        cat_max_ratio=0.75, crop_size=(
+            512,
+            512,
+        ), type='MultiImgRandomCrop'),
+    dict(prob=0.5, type='MultiImgExchangeTime'),
+    dict(
+        brightness_delta=10,
+        contrast_range=(
+            0.8,
+            1.2,
+        ),
+        hue_delta=10,
+        saturation_range=(
+            0.8,
+            1.2,
+        ),
+        type='MultiImgPhotoMetricDistortion'),
+    dict(type='MultiImgPackSegInputs'),
+]
+tta_model = dict(type='mmseg.SegTTAModel')
+tta_pipeline = [
+    dict(backend_args=None, type='MultiImgLoadImageFromFile'),
+    dict(
+        transforms=[
+            [
+                dict(
+                    keep_ratio=True, scale_factor=0.75, type='MultiImgResize'),
+                dict(keep_ratio=True, scale_factor=1.0, type='MultiImgResize'),
+                dict(
+                    keep_ratio=True, scale_factor=1.25, type='MultiImgResize'),
+            ],
+            [
+                dict(
+                    direction='horizontal',
+                    prob=0.0,
+                    type='MultiImgRandomFlip'),
+                dict(
+                    direction='horizontal',
+                    prob=1.0,
+                    type='MultiImgRandomFlip'),
+            ],
+            [
+                dict(type='MultiImgLoadAnnotations'),
+            ],
+            [
+                dict(type='MultiImgPackSegInputs'),
+            ],
+        ],
+        type='TestTimeAug'),
+]
+val_cfg = dict(type='ValLoop')
+val_dataloader = dict(
+    batch_size=1,
+    dataset=dict(
+        data_prefix=dict(
+            img_path_from='val/Image1',
+            img_path_to='val/Image2',
+            seg_map_path='val/label'),
+        data_root='/defaultShare/pubdata/remote_sensing/S2Looking',
+        pipeline=[
+            dict(type='MultiImgLoadImageFromFile'),
+            dict(type='MultiImgLoadAnnotations'),
+            dict(type='MultiImgPackSegInputs'),
+        ],
+        type='S2Looking_Dataset'),
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(shuffle=False, type='DefaultSampler'))
+val_evaluator = dict(
+    iou_metrics=[
+        'mFscore',
+        'mIoU',
+    ], type='mmseg.IoUMetric')
+val_pipeline = [
+    dict(type='MultiImgLoadImageFromFile'),
+    dict(keep_ratio=True, scale=(
+        1024,
+        1024,
+    ), type='MultiImgResize'),
+    dict(type='MultiImgLoadAnnotations'),
+    dict(type='MultiImgPackSegInputs'),
+]
+vis_backends = [
+    dict(type='CDLocalVisBackend'),
+]
+visualizer = dict(
+    alpha=1.0,
+    name='visualizer',
+    type='CDLocalVisualizer',
+    vis_backends=[
+        dict(type='CDLocalVisBackend'),
+    ])
+work_dir = './work_dirs/vitp_s2looking_upernet'