Ruian7P commited on Jul 3, 2025

Commit

1567393

1 Parent(s): cb5bba9

end mmdet for now

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

mmdet/cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora/20250614_124757.log.json +0 -0
mmdet/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona/20250610_212914.log.json +0 -0
mmdet/pretrained_model/swin_base_mona_random_0.5.pth +3 -0
mmdet/pretrained_model/swin_base_mona_taylor_0.5.pth +3 -0
mmdet/pretrained_model/swin_base_mona_wanda_act_60000_0.5.pth +3 -0
mmdet/pretrained_model/swin_base_mona_wanda_act_60000_0.875.pth +3 -0
mmdet/pretrained_model/swin_base_mona_wanda_act_60000_0.875_llama_moe_7.pth +3 -0
mmdet/pretrained_model/swin_base_patch4_window7_224_22k.pth +3 -0
mmdet/results/prune_log/mona/taylor_importance.json +3 -0
mmdet/results/prune_log/mona/wanda_12000.json +3 -0
mmdet/results/prune_log/mona/wanda_6000.json +3 -0
mmdet/results/prune_log/mona/wanda_60000.json +3 -0
mmdet/results/prune_log/mona/wanda_act_60000.json +3 -0
mmdet/results/train/llama_moe_4_16_1e-4/20250620_161720.log +585 -0
mmdet/results/train/llama_moe_4_16_1e-4/20250620_161720.log.json +3 -0
mmdet/results/train/llama_moe_4_16_1e-4/cascade_mask_swin_base_3x_coco_sample_1_bs_16_llama_moe.py +438 -0
mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora → results/train/lora}/20250614_124757.log +0 -0
mmdet/results/train/lora/20250614_124757.log.json +3 -0
mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora → results/train/lora}/cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora.py +0 -0
mmdet/results/train/lora/epoch_1.pth +3 -0
mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora → results/train/lora}/epoch_36.pth +0 -0
mmdet/results/train/lora/latest.pth +1 -0
mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona → results/train/mona}/20250610_212914.log +0 -0
mmdet/results/train/mona/20250610_212914.log.json +3 -0
mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona → results/train/mona}/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona.py +0 -0
mmdet/results/train/mona/epoch_1.pth +3 -0
mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona → results/train/mona}/epoch_36.pth +0 -0
mmdet/results/train/mona/latest.pth +1 -0
mmdet/results/train/mona_llama_moe_2_8_1e-4/20250624_193305.log +0 -0
mmdet/results/train/mona_llama_moe_2_8_1e-4/20250624_193305.log.json +3 -0
mmdet/results/train/mona_llama_moe_2_8_1e-4/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_llama_moe.py +438 -0
mmdet/results/train/mona_llama_moe_2_8_1e-4/epoch_1.pth +3 -0
mmdet/results/train/mona_llama_moe_2_8_1e-4/epoch_36.pth +3 -0
mmdet/results/train/mona_llama_moe_2_8_1e-4/latest.pth +1 -0
mmdet/results/train/mona_llama_moe_5_8_1e-4/20250702_125523.log +613 -0
mmdet/results/train/mona_llama_moe_5_8_1e-4/20250702_125523.log.json +3 -0
mmdet/results/train/mona_llama_moe_5_8_1e-4/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_llama_moe.py +438 -0
mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/20250620_180057.log +0 -0
mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/20250620_180057.log.json +3 -0
mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_llama_moe_distill.py +438 -0
mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/epoch_1.pth +3 -0
mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/latest.pth +1 -0
mmdet/results/train/mona_moe_4_16_1e-4_balance/20250619_111115.log +0 -0
mmdet/results/train/mona_moe_4_16_1e-4_balance/20250619_111115.log.json +3 -0
mmdet/results/train/mona_moe_4_16_1e-4_balance/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_moe.py +438 -0
mmdet/results/train/mona_moe_4_16_1e-4_balance/epoch_1.pth +3 -0
mmdet/{checkpoints/swin_base_mona_moe_4_16_epoch_4.pth → results/train/mona_moe_4_16_1e-4_balance/epoch_2.pth} +1 -1
mmdet/results/train/mona_moe_4_16_1e-4_balance/latest.pth +1 -0
mmdet/results/train/mona_moe_4_16_1e-4_gate/20250618_110426.log +0 -0
mmdet/results/train/mona_moe_4_16_1e-4_gate/20250618_110426.log.json +3 -0

mmdet/cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora/20250614_124757.log.json DELETED Viewed

The diff for this file is too large to render. See raw diff

mmdet/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona/20250610_212914.log.json DELETED Viewed

The diff for this file is too large to render. See raw diff

mmdet/pretrained_model/swin_base_mona_random_0.5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b0c2e1fff5fdf347a6f123083168813038cf5dea2c7d4c608e7bb3292272fca
+size 483804422

mmdet/pretrained_model/swin_base_mona_taylor_0.5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57e513866a763f3d4b28a56a991d4d573c8062ee62ece1d938ddd68b2f964a3d
+size 483804422

mmdet/pretrained_model/swin_base_mona_wanda_act_60000_0.5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d48fa5fa66f359e145b79924d92631d011dfc01d9d1caf8018947fc853bfcc1
+size 483815897

mmdet/pretrained_model/swin_base_mona_wanda_act_60000_0.875.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e13ce27ca763d38ada08eabe3f4cb41e396cfda24b9c1315352689bbaf358b58
+size 399991183

mmdet/pretrained_model/swin_base_mona_wanda_act_60000_0.875_llama_moe_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86219e85cac6ea91fa5e8ca4512de5ad80877ec8909abb63134a35d61898a8ce
+size 595631763

mmdet/pretrained_model/swin_base_patch4_window7_224_22k.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15a79f43baab4503128490da8fe75817a9ceb696aef9ae66ba455f9a251dafb5
+size 438213867

mmdet/results/prune_log/mona/taylor_importance.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc1630befd7add277a1716a00dfee3dfa709947d4af137a5b7c0ca172b2e34ac
+size 552510

mmdet/results/prune_log/mona/wanda_12000.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f88d06c85374cc94f0b70a2eb710bd97fb0095a2fe347935d0e551598c065f43
+size 552510

mmdet/results/prune_log/mona/wanda_6000.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d9c298c529a7d4278df9d8637b44101d829c380f6b43ba9148cb740db5aaaa5
+size 552510

mmdet/results/prune_log/mona/wanda_60000.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea849bed5a063a2702238c5e71bfc82b5944eb31bd266f2f433ef228eb4ec8eb
+size 552510

mmdet/results/prune_log/mona/wanda_act_60000.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61c2629fde77ad5f952260155bb9d7dba036046be315ffddfc6301a8f8eecde9
+size 552510

mmdet/results/train/llama_moe_4_16_1e-4/20250620_161720.log ADDED Viewed

	@@ -0,0 +1,585 @@

+2025-06-20 16:17:20,333 - mmdet - INFO - Environment info:
+------------------------------------------------------------
+sys.platform: linux
+Python: 3.8.20 (default, Oct  3 2024, 15:24:27) [GCC 11.2.0]
+CUDA available: True
+GPU 0,1,2,3,4,5,6,7: NVIDIA GeForce RTX 4090
+CUDA_HOME: /root/autodl-tmp/cuda/cuda-11.7
+NVCC: Cuda compilation tools, release 11.7, V11.7.64
+GCC: gcc (Ubuntu 9.4.0-1ubuntu1~20.04.1) 9.4.0
+PyTorch: 1.13.1+cu117
+PyTorch compiling details: PyTorch built with:
+  - GCC 9.3
+  - C++ Version: 201402
+  - Intel(R) Math Kernel Library Version 2020.0.0 Product Build 20191122 for Intel(R) 64 architecture applications
+  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)
+  - OpenMP 201511 (a.k.a. OpenMP 4.5)
+  - LAPACK is enabled (usually provided by MKL)
+  - NNPACK is enabled
+  - CPU capability usage: AVX2
+  - CUDA Runtime 11.7
+  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86
+  - CuDNN 8.5
+  - Magma 2.6.1
+  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.7, CUDNN_VERSION=8.5.0, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -fabi-version=11 -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Werror=non-virtual-dtor -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wunused-local-typedefs -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.13.1, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=ON, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF,
+TorchVision: 0.14.1+cu117
+OpenCV: 4.11.0
+MMCV: 1.7.2
+MMCV Compiler: GCC 9.3
+MMCV CUDA Compiler: 11.7
+MMDetection: 2.11.0+b6242b2
+------------------------------------------------------------
+2025-06-20 16:17:23,940 - mmdet - INFO - Distributed training: True
+2025-06-20 16:17:27,149 - mmdet - INFO - Config:
+model = dict(
+    type='CascadeRCNN_loss',
+    pretrained=None,
+    backbone=dict(
+        type='SwinTransformer_llama_moe',
+        embed_dim=128,
+        depths=[2, 2, 18, 2],
+        num_heads=[4, 8, 16, 32],
+        window_size=7,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.3,
+        ape=False,
+        patch_norm=True,
+        out_indices=(0, 1, 2, 3),
+        use_checkpoint=False),
+    neck=dict(
+        type='FPN',
+        in_channels=[128, 256, 512, 1024],
+        out_channels=256,
+        num_outs=5),
+    rpn_head=dict(
+        type='RPNHead',
+        in_channels=256,
+        feat_channels=256,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='CascadeRoIHead',
+        num_stages=3,
+        stage_loss_weights=[1, 0.5, 0.25],
+        bbox_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=[
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.1, 0.1, 0.2, 0.2]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.05, 0.05, 0.1, 0.1]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.033, 0.033, 0.067, 0.067]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0))
+        ],
+        mask_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=14, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        mask_head=dict(
+            type='FCNMaskHead',
+            num_convs=4,
+            in_channels=256,
+            conv_out_channels=256,
+            num_classes=80,
+            loss_mask=dict(
+                type='CrossEntropyLoss', use_mask=True, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_across_levels=False,
+            nms_pre=2000,
+            nms_post=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=[
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.5,
+                    neg_iou_thr=0.5,
+                    min_pos_iou=0.5,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.6,
+                    neg_iou_thr=0.6,
+                    min_pos_iou=0.6,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.7,
+                    neg_iou_thr=0.7,
+                    min_pos_iou=0.7,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False)
+        ]),
+    test_cfg=dict(
+        rpn=dict(
+            nms_across_levels=False,
+            nms_pre=1000,
+            nms_post=1000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.5),
+            max_per_img=100,
+            mask_thr_binary=0.5)))
+dataset_type = 'CocoDataset'
+data_root = '/root/autodl-tmp/COCO2017/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(
+        type='AutoAugment',
+        policies=[[{
+            'type':
+            'Resize',
+            'img_scale': [(480, 1333), (512, 1333), (544, 1333), (576, 1333),
+                          (608, 1333), (640, 1333), (672, 1333), (704, 1333),
+                          (736, 1333), (768, 1333), (800, 1333)],
+            'multiscale_mode':
+            'value',
+            'keep_ratio':
+            True
+        }],
+                  [{
+                      'type': 'Resize',
+                      'img_scale': [(400, 1333), (500, 1333), (600, 1333)],
+                      'multiscale_mode': 'value',
+                      'keep_ratio': True
+                  }, {
+                      'type': 'RandomCrop',
+                      'crop_type': 'absolute_range',
+                      'crop_size': (384, 600),
+                      'allow_negative_crop': True
+                  }, {
+                      'type':
+                      'Resize',
+                      'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                    (576, 1333), (608, 1333), (640, 1333),
+                                    (672, 1333), (704, 1333), (736, 1333),
+                                    (768, 1333), (800, 1333)],
+                      'multiscale_mode':
+                      'value',
+                      'override':
+                      True,
+                      'keep_ratio':
+                      True
+                  }]]),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1333, 800),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=2,
+    workers_per_gpu=4,
+    train=dict(
+        type='CocoDataset',
+        ann_file=
+        '/root/autodl-tmp/COCO2017/annotations/instances_train2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/train2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+            dict(type='RandomFlip', flip_ratio=0.5),
+            dict(
+                type='AutoAugment',
+                policies=[[{
+                    'type':
+                    'Resize',
+                    'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                  (576, 1333), (608, 1333), (640, 1333),
+                                  (672, 1333), (704, 1333), (736, 1333),
+                                  (768, 1333), (800, 1333)],
+                    'multiscale_mode':
+                    'value',
+                    'keep_ratio':
+                    True
+                }],
+                          [{
+                              'type': 'Resize',
+                              'img_scale': [(400, 1333), (500, 1333),
+                                            (600, 1333)],
+                              'multiscale_mode': 'value',
+                              'keep_ratio': True
+                          }, {
+                              'type': 'RandomCrop',
+                              'crop_type': 'absolute_range',
+                              'crop_size': (384, 600),
+                              'allow_negative_crop': True
+                          }, {
+                              'type':
+                              'Resize',
+                              'img_scale': [(480, 1333), (512, 1333),
+                                            (544, 1333), (576, 1333),
+                                            (608, 1333), (640, 1333),
+                                            (672, 1333), (704, 1333),
+                                            (736, 1333), (768, 1333),
+                                            (800, 1333)],
+                              'multiscale_mode':
+                              'value',
+                              'override':
+                              True,
+                              'keep_ratio':
+                              True
+                          }]]),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(
+                type='Collect',
+                keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+        ]),
+    val=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+evaluation = dict(metric=['bbox', 'segm'], gpu_collect=True)
+optimizer = dict(
+    type='AdamW',
+    lr=0.0001,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            absolute_pos_embed=dict(decay_mult=0.0),
+            relative_position_bias_table=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0))))
+optimizer_config = dict(
+    grad_clip=None,
+    type='DistOptimizerHook',
+    update_interval=1,
+    coalesce=True,
+    bucket_size_mb=-1,
+    use_fp16=True)
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.001,
+    step=[27, 33])
+runner = dict(type='EpochBasedRunnerAmp', max_epochs=36)
+checkpoint_config = dict(interval=1)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+custom_hooks = [dict(type='NumClassCheckHook')]
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = '/root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/pretrained_model/swin_base_llama_moe_16.pth'
+resume_from = None
+workflow = [('train', 1)]
+fp16 = None
+work_dir = './results/train/llama_moe_4_16_1e-4/'
+gpu_ids = range(0, 8)
+2025-06-20 16:18:09,321 - mmdet - INFO - load checkpoint from local path: /root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/pretrained_model/swin_base_llama_moe_16.pth
+2025-06-20 16:18:09,704 - mmdet - WARNING - The model and loaded state dict do not match exactly
+unexpected key in source state_dict: backbone.norm.weight, backbone.norm.bias, backbone.head.weight, backbone.head.bias, backbone.layers.0.blocks.1.attn_mask, backbone.layers.1.blocks.1.attn_mask, backbone.layers.2.blocks.1.attn_mask, backbone.layers.2.blocks.3.attn_mask, backbone.layers.2.blocks.5.attn_mask, backbone.layers.2.blocks.7.attn_mask, backbone.layers.2.blocks.9.attn_mask, backbone.layers.2.blocks.11.attn_mask, backbone.layers.2.blocks.13.attn_mask, backbone.layers.2.blocks.15.attn_mask, backbone.layers.2.blocks.17.attn_mask
+missing keys in source state_dict: backbone.layers.0.blocks.0.mlp.fc1.gate.gate_network.0.weight, backbone.layers.0.blocks.0.mlp.fc1.gate.gate_network.2.weight, backbone.layers.0.blocks.0.mlp.fc1.gate.weight_noise.weight, backbone.layers.0.blocks.0.mlp.fc1.calculator.experts.weight_gate, backbone.layers.0.blocks.0.mlp.fc1.calculator.experts.bias_gate, backbone.layers.0.blocks.1.mlp.fc1.gate.gate_network.0.weight, backbone.layers.0.blocks.1.mlp.fc1.gate.gate_network.2.weight, backbone.layers.0.blocks.1.mlp.fc1.gate.weight_noise.weight, backbone.layers.0.blocks.1.mlp.fc1.calculator.experts.weight_gate, backbone.layers.0.blocks.1.mlp.fc1.calculator.experts.bias_gate, backbone.layers.1.blocks.0.mlp.fc1.gate.gate_network.0.weight, backbone.layers.1.blocks.0.mlp.fc1.gate.gate_network.2.weight, backbone.layers.1.blocks.0.mlp.fc1.gate.weight_noise.weight, backbone.layers.1.blocks.0.mlp.fc1.calculator.experts.weight_gate, backbone.layers.1.blocks.0.mlp.fc1.calculator.experts.bias_gate, backbone.layers.1.blocks.1.mlp.fc1.gate.gate_network.0.weight, backbone.layers.1.blocks.1.mlp.fc1.gate.gate_network.2.weight, backbone.layers.1.blocks.1.mlp.fc1.gate.weight_noise.weight, backbone.layers.1.blocks.1.mlp.fc1.calculator.experts.weight_gate, backbone.layers.1.blocks.1.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.0.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.0.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.0.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.0.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.0.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.1.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.1.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.1.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.1.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.1.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.2.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.2.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.2.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.2.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.2.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.3.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.3.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.3.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.3.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.3.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.4.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.4.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.4.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.4.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.4.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.5.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.5.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.5.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.5.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.5.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.6.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.6.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.6.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.6.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.6.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.7.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.7.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.7.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.7.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.7.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.8.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.8.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.8.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.8.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.8.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.9.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.9.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.9.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.9.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.9.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.10.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.10.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.10.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.10.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.10.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.11.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.11.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.11.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.11.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.11.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.12.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.12.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.12.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.12.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.12.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.13.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.13.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.13.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.13.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.13.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.14.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.14.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.14.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.14.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.14.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.15.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.15.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.15.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.15.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.15.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.16.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.16.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.16.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.16.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.16.mlp.fc1.calculator.experts.bias_gate, backbone.layers.2.blocks.17.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.17.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.17.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.17.mlp.fc1.calculator.experts.weight_gate, backbone.layers.2.blocks.17.mlp.fc1.calculator.experts.bias_gate, backbone.layers.3.blocks.0.mlp.fc1.gate.gate_network.0.weight, backbone.layers.3.blocks.0.mlp.fc1.gate.gate_network.2.weight, backbone.layers.3.blocks.0.mlp.fc1.gate.weight_noise.weight, backbone.layers.3.blocks.0.mlp.fc1.calculator.experts.weight_gate, backbone.layers.3.blocks.0.mlp.fc1.calculator.experts.bias_gate, backbone.layers.3.blocks.1.mlp.fc1.gate.gate_network.0.weight, backbone.layers.3.blocks.1.mlp.fc1.gate.gate_network.2.weight, backbone.layers.3.blocks.1.mlp.fc1.gate.weight_noise.weight, backbone.layers.3.blocks.1.mlp.fc1.calculator.experts.weight_gate, backbone.layers.3.blocks.1.mlp.fc1.calculator.experts.bias_gate, backbone.norm0.weight, backbone.norm0.bias, backbone.norm1.weight, backbone.norm1.bias, backbone.norm2.weight, backbone.norm2.bias, backbone.norm3.weight, backbone.norm3.bias, neck.lateral_convs.0.conv.weight, neck.lateral_convs.0.conv.bias, neck.lateral_convs.1.conv.weight, neck.lateral_convs.1.conv.bias, neck.lateral_convs.2.conv.weight, neck.lateral_convs.2.conv.bias, neck.lateral_convs.3.conv.weight, neck.lateral_convs.3.conv.bias, neck.fpn_convs.0.conv.weight, neck.fpn_convs.0.conv.bias, neck.fpn_convs.1.conv.weight, neck.fpn_convs.1.conv.bias, neck.fpn_convs.2.conv.weight, neck.fpn_convs.2.conv.bias, neck.fpn_convs.3.conv.weight, neck.fpn_convs.3.conv.bias, rpn_head.rpn_conv.weight, rpn_head.rpn_conv.bias, rpn_head.rpn_cls.weight, rpn_head.rpn_cls.bias, rpn_head.rpn_reg.weight, rpn_head.rpn_reg.bias, roi_head.bbox_head.0.fc_cls.weight, roi_head.bbox_head.0.fc_cls.bias, roi_head.bbox_head.0.fc_reg.weight, roi_head.bbox_head.0.fc_reg.bias, roi_head.bbox_head.0.shared_convs.0.conv.weight, roi_head.bbox_head.0.shared_convs.0.bn.weight, roi_head.bbox_head.0.shared_convs.0.bn.bias, roi_head.bbox_head.0.shared_convs.0.bn.running_mean, roi_head.bbox_head.0.shared_convs.0.bn.running_var, roi_head.bbox_head.0.shared_convs.1.conv.weight, roi_head.bbox_head.0.shared_convs.1.bn.weight, roi_head.bbox_head.0.shared_convs.1.bn.bias, roi_head.bbox_head.0.shared_convs.1.bn.running_mean, roi_head.bbox_head.0.shared_convs.1.bn.running_var, roi_head.bbox_head.0.shared_convs.2.conv.weight, roi_head.bbox_head.0.shared_convs.2.bn.weight, roi_head.bbox_head.0.shared_convs.2.bn.bias, roi_head.bbox_head.0.shared_convs.2.bn.running_mean, roi_head.bbox_head.0.shared_convs.2.bn.running_var, roi_head.bbox_head.0.shared_convs.3.conv.weight, roi_head.bbox_head.0.shared_convs.3.bn.weight, roi_head.bbox_head.0.shared_convs.3.bn.bias, roi_head.bbox_head.0.shared_convs.3.bn.running_mean, roi_head.bbox_head.0.shared_convs.3.bn.running_var, roi_head.bbox_head.0.shared_fcs.0.weight, roi_head.bbox_head.0.shared_fcs.0.bias, roi_head.bbox_head.1.fc_cls.weight, roi_head.bbox_head.1.fc_cls.bias, roi_head.bbox_head.1.fc_reg.weight, roi_head.bbox_head.1.fc_reg.bias, roi_head.bbox_head.1.shared_convs.0.conv.weight, roi_head.bbox_head.1.shared_convs.0.bn.weight, roi_head.bbox_head.1.shared_convs.0.bn.bias, roi_head.bbox_head.1.shared_convs.0.bn.running_mean, roi_head.bbox_head.1.shared_convs.0.bn.running_var, roi_head.bbox_head.1.shared_convs.1.conv.weight, roi_head.bbox_head.1.shared_convs.1.bn.weight, roi_head.bbox_head.1.shared_convs.1.bn.bias, roi_head.bbox_head.1.shared_convs.1.bn.running_mean, roi_head.bbox_head.1.shared_convs.1.bn.running_var, roi_head.bbox_head.1.shared_convs.2.conv.weight, roi_head.bbox_head.1.shared_convs.2.bn.weight, roi_head.bbox_head.1.shared_convs.2.bn.bias, roi_head.bbox_head.1.shared_convs.2.bn.running_mean, roi_head.bbox_head.1.shared_convs.2.bn.running_var, roi_head.bbox_head.1.shared_convs.3.conv.weight, roi_head.bbox_head.1.shared_convs.3.bn.weight, roi_head.bbox_head.1.shared_convs.3.bn.bias, roi_head.bbox_head.1.shared_convs.3.bn.running_mean, roi_head.bbox_head.1.shared_convs.3.bn.running_var, roi_head.bbox_head.1.shared_fcs.0.weight, roi_head.bbox_head.1.shared_fcs.0.bias, roi_head.bbox_head.2.fc_cls.weight, roi_head.bbox_head.2.fc_cls.bias, roi_head.bbox_head.2.fc_reg.weight, roi_head.bbox_head.2.fc_reg.bias, roi_head.bbox_head.2.shared_convs.0.conv.weight, roi_head.bbox_head.2.shared_convs.0.bn.weight, roi_head.bbox_head.2.shared_convs.0.bn.bias, roi_head.bbox_head.2.shared_convs.0.bn.running_mean, roi_head.bbox_head.2.shared_convs.0.bn.running_var, roi_head.bbox_head.2.shared_convs.1.conv.weight, roi_head.bbox_head.2.shared_convs.1.bn.weight, roi_head.bbox_head.2.shared_convs.1.bn.bias, roi_head.bbox_head.2.shared_convs.1.bn.running_mean, roi_head.bbox_head.2.shared_convs.1.bn.running_var, roi_head.bbox_head.2.shared_convs.2.conv.weight, roi_head.bbox_head.2.shared_convs.2.bn.weight, roi_head.bbox_head.2.shared_convs.2.bn.bias, roi_head.bbox_head.2.shared_convs.2.bn.running_mean, roi_head.bbox_head.2.shared_convs.2.bn.running_var, roi_head.bbox_head.2.shared_convs.3.conv.weight, roi_head.bbox_head.2.shared_convs.3.bn.weight, roi_head.bbox_head.2.shared_convs.3.bn.bias, roi_head.bbox_head.2.shared_convs.3.bn.running_mean, roi_head.bbox_head.2.shared_convs.3.bn.running_var, roi_head.bbox_head.2.shared_fcs.0.weight, roi_head.bbox_head.2.shared_fcs.0.bias, roi_head.mask_head.0.convs.0.conv.weight, roi_head.mask_head.0.convs.0.conv.bias, roi_head.mask_head.0.convs.1.conv.weight, roi_head.mask_head.0.convs.1.conv.bias, roi_head.mask_head.0.convs.2.conv.weight, roi_head.mask_head.0.convs.2.conv.bias, roi_head.mask_head.0.convs.3.conv.weight, roi_head.mask_head.0.convs.3.conv.bias, roi_head.mask_head.0.upsample.weight, roi_head.mask_head.0.upsample.bias, roi_head.mask_head.0.conv_logits.weight, roi_head.mask_head.0.conv_logits.bias, roi_head.mask_head.1.convs.0.conv.weight, roi_head.mask_head.1.convs.0.conv.bias, roi_head.mask_head.1.convs.1.conv.weight, roi_head.mask_head.1.convs.1.conv.bias, roi_head.mask_head.1.convs.2.conv.weight, roi_head.mask_head.1.convs.2.conv.bias, roi_head.mask_head.1.convs.3.conv.weight, roi_head.mask_head.1.convs.3.conv.bias, roi_head.mask_head.1.upsample.weight, roi_head.mask_head.1.upsample.bias, roi_head.mask_head.1.conv_logits.weight, roi_head.mask_head.1.conv_logits.bias, roi_head.mask_head.2.convs.0.conv.weight, roi_head.mask_head.2.convs.0.conv.bias, roi_head.mask_head.2.convs.1.conv.weight, roi_head.mask_head.2.convs.1.conv.bias, roi_head.mask_head.2.convs.2.conv.weight, roi_head.mask_head.2.convs.2.conv.bias, roi_head.mask_head.2.convs.3.conv.weight, roi_head.mask_head.2.convs.3.conv.bias, roi_head.mask_head.2.upsample.weight, roi_head.mask_head.2.upsample.bias, roi_head.mask_head.2.conv_logits.weight, roi_head.mask_head.2.conv_logits.bias
+2025-06-20 16:18:09,744 - mmdet - INFO - Start running, host: root@autodl-container-313040b114-67ed2cfc, work_dir: /root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/results/train/llama_moe_4_16_1e-4
+2025-06-20 16:18:09,744 - mmdet - INFO - Hooks will be executed in the following order:
+before_run:
+(VERY_HIGH   ) StepLrUpdaterHook
+(ABOVE_NORMAL) DistOptimizerHook
+(NORMAL      ) CheckpointHook
+(NORMAL      ) DistEvalHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+before_train_epoch:
+(VERY_HIGH   ) StepLrUpdaterHook
+(NORMAL      ) DistSamplerSeedHook
+(NORMAL      ) DistEvalHook
+(NORMAL      ) NumClassCheckHook
+(LOW         ) IterTimerHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+before_train_iter:
+(VERY_HIGH   ) StepLrUpdaterHook
+(LOW         ) IterTimerHook
+ --------------------
+after_train_iter:
+(ABOVE_NORMAL) DistOptimizerHook
+(NORMAL      ) CheckpointHook
+(NORMAL      ) DistEvalHook
+(LOW         ) IterTimerHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+after_train_epoch:
+(NORMAL      ) CheckpointHook
+(NORMAL      ) DistEvalHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+before_val_epoch:
+(NORMAL      ) DistSamplerSeedHook
+(NORMAL      ) NumClassCheckHook
+(LOW         ) IterTimerHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+before_val_iter:
+(LOW         ) IterTimerHook
+ --------------------
+after_val_iter:
+(LOW         ) IterTimerHook
+ --------------------
+after_val_epoch:
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+after_run:
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+2025-06-20 16:18:09,745 - mmdet - INFO - workflow: [('train', 1)], max: 36 epochs
+2025-06-20 16:18:09,745 - mmdet - INFO - Checkpoints will be saved to /root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/results/train/llama_moe_4_16_1e-4 by HardDiskBackend.
+2025-06-20 16:20:20,612 - mmdet - INFO - Epoch [1][50/7330]	lr: 9.890e-06, eta: 7 days, 23:47:01, time: 2.617, data_time: 1.562, memory: 18485, r_loss: 0.0355, loss_rpn_cls: 0.6260, loss_rpn_bbox: 0.0672, s0.loss_cls: 2.8746, s0.acc: 65.0957, s0.loss_bbox: 0.0785, s0.loss_mask: 0.8793, s1.loss_cls: 1.2573, s1.acc: 76.6528, s1.loss_bbox: 0.0108, s1.loss_mask: 0.4882, s2.loss_cls: 0.6631, s2.acc: 73.5295, s2.loss_bbox: 0.0013, s2.loss_mask: 0.2481, loss: 7.2297
+2025-06-20 16:21:08,205 - mmdet - INFO - Epoch [1][100/7330]	lr: 1.988e-05, eta: 5 days, 10:45:11, time: 0.952, data_time: 0.025, memory: 18485, r_loss: 0.0240, loss_rpn_cls: 0.3321, loss_rpn_bbox: 0.0649, s0.loss_cls: 0.4256, s0.acc: 94.5229, s0.loss_bbox: 0.1852, s0.loss_mask: 0.7326, s1.loss_cls: 0.1195, s1.acc: 97.2224, s1.loss_bbox: 0.0259, s1.loss_mask: 0.3772, s2.loss_cls: 0.0434, s2.acc: 98.2791, s2.loss_bbox: 0.0030, s2.loss_mask: 0.1887, loss: 2.5220
+2025-06-20 16:21:55,857 - mmdet - INFO - Epoch [1][150/7330]	lr: 2.987e-05, eta: 4 days, 14:24:56, time: 0.953, data_time: 0.025, memory: 18485, r_loss: 0.0084, loss_rpn_cls: 0.2450, loss_rpn_bbox: 0.0575, s0.loss_cls: 0.3917, s0.acc: 94.2341, s0.loss_bbox: 0.1942, s0.loss_mask: 0.6949, s1.loss_cls: 0.1153, s1.acc: 96.9961, s1.loss_bbox: 0.0287, s1.loss_mask: 0.3492, s2.loss_cls: 0.0394, s2.acc: 98.1492, s2.loss_bbox: 0.0034, s2.loss_mask: 0.1747, loss: 2.3023
+2025-06-20 16:22:45,898 - mmdet - INFO - Epoch [1][200/7330]	lr: 3.986e-05, eta: 4 days, 5:07:19, time: 1.001, data_time: 0.021, memory: 19202, r_loss: 0.0035, loss_rpn_cls: 0.2456, loss_rpn_bbox: 0.0594, s0.loss_cls: 0.3909, s0.acc: 94.0952, s0.loss_bbox: 0.1961, s0.loss_mask: 0.6847, s1.loss_cls: 0.1178, s1.acc: 96.8430, s1.loss_bbox: 0.0301, s1.loss_mask: 0.3402, s2.loss_cls: 0.0397, s2.acc: 98.0442, s2.loss_bbox: 0.0037, s2.loss_mask: 0.1696, loss: 2.2811
+2025-06-20 16:23:39,549 - mmdet - INFO - Epoch [1][250/7330]	lr: 4.985e-05, eta: 4 days, 0:36:04, time: 1.073, data_time: 0.024, memory: 19202, r_loss: 0.0027, loss_rpn_cls: 0.2432, loss_rpn_bbox: 0.0600, s0.loss_cls: 0.3807, s0.acc: 94.1726, s0.loss_bbox: 0.1956, s0.loss_mask: 0.6734, s1.loss_cls: 0.1136, s1.acc: 96.9294, s1.loss_bbox: 0.0292, s1.loss_mask: 0.3337, s2.loss_cls: 0.0384, s2.acc: 98.0957, s2.loss_bbox: 0.0035, s2.loss_mask: 0.1657, loss: 2.2397
+2025-06-20 16:24:25,080 - mmdet - INFO - Epoch [1][300/7330]	lr: 5.984e-05, eta: 3 days, 19:35:37, time: 0.910, data_time: 0.027, memory: 19202, r_loss: 0.0023, loss_rpn_cls: 0.2318, loss_rpn_bbox: 0.0567, s0.loss_cls: 0.3617, s0.acc: 94.3884, s0.loss_bbox: 0.1881, s0.loss_mask: 0.6636, s1.loss_cls: 0.1080, s1.acc: 97.0325, s1.loss_bbox: 0.0282, s1.loss_mask: 0.3271, s2.loss_cls: 0.0366, s2.acc: 98.1499, s2.loss_bbox: 0.0035, s2.loss_mask: 0.1626, loss: 2.1701
+2025-06-20 16:25:10,065 - mmdet - INFO - Epoch [1][350/7330]	lr: 6.983e-05, eta: 3 days, 15:54:08, time: 0.900, data_time: 0.023, memory: 19202, r_loss: 0.0018, loss_rpn_cls: 0.2192, loss_rpn_bbox: 0.0557, s0.loss_cls: 0.3440, s0.acc: 94.6101, s0.loss_bbox: 0.1816, s0.loss_mask: 0.6611, s1.loss_cls: 0.1030, s1.acc: 97.1196, s1.loss_bbox: 0.0281, s1.loss_mask: 0.3243, s2.loss_cls: 0.0343, s2.acc: 98.2356, s2.loss_bbox: 0.0034, s2.loss_mask: 0.1605, loss: 2.1171
+2025-06-20 16:25:56,499 - mmdet - INFO - Epoch [1][400/7330]	lr: 7.982e-05, eta: 3 days, 13:23:35, time: 0.928, data_time: 0.027, memory: 19748, r_loss: 0.0017, loss_rpn_cls: 0.2164, loss_rpn_bbox: 0.0618, s0.loss_cls: 0.3681, s0.acc: 94.2371, s0.loss_bbox: 0.1945, s0.loss_mask: 0.6470, s1.loss_cls: 0.1097, s1.acc: 96.9456, s1.loss_bbox: 0.0294, s1.loss_mask: 0.3164, s2.loss_cls: 0.0367, s2.acc: 98.1011, s2.loss_bbox: 0.0036, s2.loss_mask: 0.1558, loss: 2.1411
+2025-06-20 16:26:44,498 - mmdet - INFO - Epoch [1][450/7330]	lr: 8.981e-05, eta: 3 days, 11:41:44, time: 0.960, data_time: 0.025, memory: 19748, r_loss: 0.0018, loss_rpn_cls: 0.1919, loss_rpn_bbox: 0.0569, s0.loss_cls: 0.3892, s0.acc: 93.9355, s0.loss_bbox: 0.2113, s0.loss_mask: 0.6423, s1.loss_cls: 0.1115, s1.acc: 96.9028, s1.loss_bbox: 0.0315, s1.loss_mask: 0.3143, s2.loss_cls: 0.0366, s2.acc: 98.1306, s2.loss_bbox: 0.0040, s2.loss_mask: 0.1534, loss: 2.1447
+2025-06-20 16:27:37,437 - mmdet - INFO - Epoch [1][500/7330]	lr: 9.980e-05, eta: 3 days, 11:03:44, time: 1.059, data_time: 0.020, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1916, loss_rpn_bbox: 0.0559, s0.loss_cls: 0.3960, s0.acc: 93.7881, s0.loss_bbox: 0.2180, s0.loss_mask: 0.6349, s1.loss_cls: 0.1132, s1.acc: 96.8503, s1.loss_bbox: 0.0321, s1.loss_mask: 0.3104, s2.loss_cls: 0.0367, s2.acc: 98.1179, s2.loss_bbox: 0.0040, s2.loss_mask: 0.1511, loss: 2.1454
+2025-06-20 16:28:24,605 - mmdet - INFO - Epoch [1][550/7330]	lr: 1.000e-04, eta: 3 days, 9:46:11, time: 0.943, data_time: 0.023, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1926, loss_rpn_bbox: 0.0552, s0.loss_cls: 0.4150, s0.acc: 93.6028, s0.loss_bbox: 0.2266, s0.loss_mask: 0.6272, s1.loss_cls: 0.1165, s1.acc: 96.7849, s1.loss_bbox: 0.0335, s1.loss_mask: 0.3049, s2.loss_cls: 0.0371, s2.acc: 98.1091, s2.loss_bbox: 0.0041, s2.loss_mask: 0.1478, loss: 2.1620
+2025-06-20 16:29:09,770 - mmdet - INFO - Epoch [1][600/7330]	lr: 1.000e-04, eta: 3 days, 8:26:44, time: 0.903, data_time: 0.020, memory: 19748, r_loss: 0.0022, loss_rpn_cls: 0.1819, loss_rpn_bbox: 0.0560, s0.loss_cls: 0.4558, s0.acc: 92.9470, s0.loss_bbox: 0.2558, s0.loss_mask: 0.6124, s1.loss_cls: 0.1240, s1.acc: 96.5686, s1.loss_bbox: 0.0368, s1.loss_mask: 0.2987, s2.loss_cls: 0.0383, s2.acc: 98.0356, s2.loss_bbox: 0.0044, s2.loss_mask: 0.1443, loss: 2.2106
+2025-06-20 16:29:54,658 - mmdet - INFO - Epoch [1][650/7330]	lr: 1.000e-04, eta: 3 days, 7:17:35, time: 0.898, data_time: 0.025, memory: 19748, r_loss: 0.0016, loss_rpn_cls: 0.1900, loss_rpn_bbox: 0.0575, s0.loss_cls: 0.4505, s0.acc: 92.9016, s0.loss_bbox: 0.2567, s0.loss_mask: 0.6052, s1.loss_cls: 0.1222, s1.acc: 96.5630, s1.loss_bbox: 0.0369, s1.loss_mask: 0.2964, s2.loss_cls: 0.0373, s2.acc: 98.0469, s2.loss_bbox: 0.0043, s2.loss_mask: 0.1444, loss: 2.2032
+2025-06-20 16:30:43,057 - mmdet - INFO - Epoch [1][700/7330]	lr: 1.000e-04, eta: 3 days, 6:40:09, time: 0.968, data_time: 0.022, memory: 19748, r_loss: 0.0014, loss_rpn_cls: 0.1937, loss_rpn_bbox: 0.0587, s0.loss_cls: 0.4761, s0.acc: 92.3748, s0.loss_bbox: 0.2762, s0.loss_mask: 0.5948, s1.loss_cls: 0.1297, s1.acc: 96.2668, s1.loss_bbox: 0.0406, s1.loss_mask: 0.2906, s2.loss_cls: 0.0395, s2.acc: 97.8875, s2.loss_bbox: 0.0048, s2.loss_mask: 0.1416, loss: 2.2477
+2025-06-20 16:31:39,203 - mmdet - INFO - Epoch [1][750/7330]	lr: 1.000e-04, eta: 3 days, 6:52:56, time: 1.123, data_time: 0.023, memory: 19748, r_loss: 0.0014, loss_rpn_cls: 0.1872, loss_rpn_bbox: 0.0590, s0.loss_cls: 0.4721, s0.acc: 92.3787, s0.loss_bbox: 0.2770, s0.loss_mask: 0.5942, s1.loss_cls: 0.1281, s1.acc: 96.3015, s1.loss_bbox: 0.0405, s1.loss_mask: 0.2890, s2.loss_cls: 0.0388, s2.acc: 97.9268, s2.loss_bbox: 0.0048, s2.loss_mask: 0.1405, loss: 2.2327
+2025-06-20 16:32:27,278 - mmdet - INFO - Epoch [1][800/7330]	lr: 1.000e-04, eta: 3 days, 6:19:49, time: 0.962, data_time: 0.023, memory: 19748, r_loss: 0.0014, loss_rpn_cls: 0.1810, loss_rpn_bbox: 0.0560, s0.loss_cls: 0.4734, s0.acc: 92.3376, s0.loss_bbox: 0.2794, s0.loss_mask: 0.5923, s1.loss_cls: 0.1287, s1.acc: 96.2595, s1.loss_bbox: 0.0418, s1.loss_mask: 0.2888, s2.loss_cls: 0.0386, s2.acc: 97.9307, s2.loss_bbox: 0.0050, s2.loss_mask: 0.1413, loss: 2.2278
+2025-06-20 16:33:12,936 - mmdet - INFO - Epoch [1][850/7330]	lr: 1.000e-04, eta: 3 days, 5:38:01, time: 0.913, data_time: 0.024, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1882, loss_rpn_bbox: 0.0600, s0.loss_cls: 0.4514, s0.acc: 92.6785, s0.loss_bbox: 0.2636, s0.loss_mask: 0.5796, s1.loss_cls: 0.1255, s1.acc: 96.3271, s1.loss_bbox: 0.0406, s1.loss_mask: 0.2824, s2.loss_cls: 0.0375, s2.acc: 97.9612, s2.loss_bbox: 0.0047, s2.loss_mask: 0.1374, loss: 2.1723
+2025-06-20 16:33:57,557 - mmdet - INFO - Epoch [1][900/7330]	lr: 1.000e-04, eta: 3 days, 4:55:41, time: 0.892, data_time: 0.022, memory: 19748, r_loss: 0.0013, loss_rpn_cls: 0.1757, loss_rpn_bbox: 0.0568, s0.loss_cls: 0.4752, s0.acc: 92.2673, s0.loss_bbox: 0.2807, s0.loss_mask: 0.5848, s1.loss_cls: 0.1308, s1.acc: 96.1675, s1.loss_bbox: 0.0428, s1.loss_mask: 0.2841, s2.loss_cls: 0.0389, s2.acc: 97.8911, s2.loss_bbox: 0.0050, s2.loss_mask: 0.1387, loss: 2.2148
+2025-06-20 16:34:45,532 - mmdet - INFO - Epoch [1][950/7330]	lr: 1.000e-04, eta: 3 days, 4:33:12, time: 0.959, data_time: 0.024, memory: 19748, r_loss: 0.0013, loss_rpn_cls: 0.1696, loss_rpn_bbox: 0.0535, s0.loss_cls: 0.4713, s0.acc: 92.3374, s0.loss_bbox: 0.2784, s0.loss_mask: 0.5742, s1.loss_cls: 0.1317, s1.acc: 96.1257, s1.loss_bbox: 0.0443, s1.loss_mask: 0.2813, s2.loss_cls: 0.0391, s2.acc: 97.8909, s2.loss_bbox: 0.0053, s2.loss_mask: 0.1366, loss: 2.1866
+2025-06-20 16:35:38,865 - mmdet - INFO - Exp name: cascade_mask_swin_base_3x_coco_sample_1_bs_16_llama_moe.py
+2025-06-20 16:35:38,866 - mmdet - INFO - Epoch [1][1000/7330]	lr: 1.000e-04, eta: 3 days, 4:36:23, time: 1.067, data_time: 0.025, memory: 19748, r_loss: 0.0012, loss_rpn_cls: 0.1765, loss_rpn_bbox: 0.0547, s0.loss_cls: 0.4694, s0.acc: 92.1941, s0.loss_bbox: 0.2818, s0.loss_mask: 0.5683, s1.loss_cls: 0.1334, s1.acc: 95.9756, s1.loss_bbox: 0.0460, s1.loss_mask: 0.2772, s2.loss_cls: 0.0394, s2.acc: 97.8245, s2.loss_bbox: 0.0054, s2.loss_mask: 0.1349, loss: 2.1885
+2025-06-20 16:36:27,230 - mmdet - INFO - Epoch [1][1050/7330]	lr: 1.000e-04, eta: 3 days, 4:18:24, time: 0.967, data_time: 0.026, memory: 19748, r_loss: 0.0013, loss_rpn_cls: 0.1736, loss_rpn_bbox: 0.0547, s0.loss_cls: 0.4720, s0.acc: 92.1873, s0.loss_bbox: 0.2808, s0.loss_mask: 0.5678, s1.loss_cls: 0.1364, s1.acc: 95.8508, s1.loss_bbox: 0.0480, s1.loss_mask: 0.2755, s2.loss_cls: 0.0405, s2.acc: 97.7468, s2.loss_bbox: 0.0060, s2.loss_mask: 0.1341, loss: 2.1907
+2025-06-20 16:37:15,022 - mmdet - INFO - Epoch [1][1100/7330]	lr: 1.000e-04, eta: 3 days, 3:59:47, time: 0.956, data_time: 0.027, memory: 19748, r_loss: 0.0013, loss_rpn_cls: 0.1548, loss_rpn_bbox: 0.0517, s0.loss_cls: 0.4617, s0.acc: 92.2188, s0.loss_bbox: 0.2822, s0.loss_mask: 0.5622, s1.loss_cls: 0.1345, s1.acc: 95.8225, s1.loss_bbox: 0.0501, s1.loss_mask: 0.2731, s2.loss_cls: 0.0389, s2.acc: 97.8018, s2.loss_bbox: 0.0062, s2.loss_mask: 0.1325, loss: 2.1491
+2025-06-20 16:38:00,424 - mmdet - INFO - Epoch [1][1150/7330]	lr: 1.000e-04, eta: 3 days, 3:33:35, time: 0.908, data_time: 0.026, memory: 19748, r_loss: 0.0012, loss_rpn_cls: 0.1700, loss_rpn_bbox: 0.0570, s0.loss_cls: 0.4653, s0.acc: 92.1116, s0.loss_bbox: 0.2824, s0.loss_mask: 0.5610, s1.loss_cls: 0.1381, s1.acc: 95.6643, s1.loss_bbox: 0.0511, s1.loss_mask: 0.2725, s2.loss_cls: 0.0403, s2.acc: 97.6765, s2.loss_bbox: 0.0064, s2.loss_mask: 0.1322, loss: 2.1775
+2025-06-20 16:38:49,674 - mmdet - INFO - Epoch [1][1200/7330]	lr: 1.000e-04, eta: 3 days, 3:23:31, time: 0.985, data_time: 0.029, memory: 19748, r_loss: 0.0012, loss_rpn_cls: 0.1711, loss_rpn_bbox: 0.0588, s0.loss_cls: 0.4757, s0.acc: 91.7695, s0.loss_bbox: 0.2938, s0.loss_mask: 0.5604, s1.loss_cls: 0.1422, s1.acc: 95.4233, s1.loss_bbox: 0.0540, s1.loss_mask: 0.2706, s2.loss_cls: 0.0423, s2.acc: 97.5142, s2.loss_bbox: 0.0071, s2.loss_mask: 0.1310, loss: 2.2080
+2025-06-20 16:39:40,124 - mmdet - INFO - Epoch [1][1250/7330]	lr: 1.000e-04, eta: 3 days, 3:18:22, time: 1.009, data_time: 0.025, memory: 19748, r_loss: 0.0013, loss_rpn_cls: 0.1638, loss_rpn_bbox: 0.0540, s0.loss_cls: 0.4602, s0.acc: 92.2368, s0.loss_bbox: 0.2780, s0.loss_mask: 0.5537, s1.loss_cls: 0.1412, s1.acc: 95.5205, s1.loss_bbox: 0.0542, s1.loss_mask: 0.2678, s2.loss_cls: 0.0408, s2.acc: 97.6326, s2.loss_bbox: 0.0071, s2.loss_mask: 0.1295, loss: 2.1516
+2025-06-20 16:40:31,603 - mmdet - INFO - Epoch [1][1300/7330]	lr: 1.000e-04, eta: 3 days, 3:17:07, time: 1.030, data_time: 0.024, memory: 19748, r_loss: 0.0013, loss_rpn_cls: 0.1546, loss_rpn_bbox: 0.0511, s0.loss_cls: 0.4662, s0.acc: 92.1296, s0.loss_bbox: 0.2819, s0.loss_mask: 0.5441, s1.loss_cls: 0.1444, s1.acc: 95.4031, s1.loss_bbox: 0.0561, s1.loss_mask: 0.2633, s2.loss_cls: 0.0421, s2.acc: 97.5378, s2.loss_bbox: 0.0076, s2.loss_mask: 0.1271, loss: 2.1401
+2025-06-20 16:41:20,243 - mmdet - INFO - Epoch [1][1350/7330]	lr: 1.000e-04, eta: 3 days, 3:06:38, time: 0.973, data_time: 0.025, memory: 19748, r_loss: 0.0013, loss_rpn_cls: 0.1636, loss_rpn_bbox: 0.0555, s0.loss_cls: 0.4701, s0.acc: 91.7637, s0.loss_bbox: 0.2959, s0.loss_mask: 0.5471, s1.loss_cls: 0.1452, s1.acc: 95.1948, s1.loss_bbox: 0.0592, s1.loss_mask: 0.2637, s2.loss_cls: 0.0422, s2.acc: 97.4385, s2.loss_bbox: 0.0081, s2.loss_mask: 0.1270, loss: 2.1789
+2025-06-20 16:42:08,145 - mmdet - INFO - Epoch [1][1400/7330]	lr: 1.000e-04, eta: 3 days, 2:54:32, time: 0.958, data_time: 0.023, memory: 19748, r_loss: 0.0014, loss_rpn_cls: 0.1501, loss_rpn_bbox: 0.0521, s0.loss_cls: 0.4591, s0.acc: 92.0781, s0.loss_bbox: 0.2848, s0.loss_mask: 0.5379, s1.loss_cls: 0.1446, s1.acc: 95.2485, s1.loss_bbox: 0.0590, s1.loss_mask: 0.2597, s2.loss_cls: 0.0418, s2.acc: 97.4902, s2.loss_bbox: 0.0081, s2.loss_mask: 0.1252, loss: 2.1239
+2025-06-20 16:42:56,203 - mmdet - INFO - Epoch [1][1450/7330]	lr: 1.000e-04, eta: 3 days, 2:43:40, time: 0.961, data_time: 0.022, memory: 19748, r_loss: 0.0014, loss_rpn_cls: 0.1561, loss_rpn_bbox: 0.0529, s0.loss_cls: 0.4650, s0.acc: 91.7893, s0.loss_bbox: 0.2931, s0.loss_mask: 0.5386, s1.loss_cls: 0.1488, s1.acc: 94.9685, s1.loss_bbox: 0.0622, s1.loss_mask: 0.2599, s2.loss_cls: 0.0431, s2.acc: 97.3218, s2.loss_bbox: 0.0087, s2.loss_mask: 0.1252, loss: 2.1549
+2025-06-20 16:43:42,213 - mmdet - INFO - Epoch [1][1500/7330]	lr: 1.000e-04, eta: 3 days, 2:27:33, time: 0.920, data_time: 0.025, memory: 19748, r_loss: 0.0014, loss_rpn_cls: 0.1575, loss_rpn_bbox: 0.0577, s0.loss_cls: 0.4774, s0.acc: 91.4978, s0.loss_bbox: 0.3046, s0.loss_mask: 0.5389, s1.loss_cls: 0.1524, s1.acc: 94.8298, s1.loss_bbox: 0.0644, s1.loss_mask: 0.2597, s2.loss_cls: 0.0444, s2.acc: 97.2524, s2.loss_bbox: 0.0090, s2.loss_mask: 0.1246, loss: 2.1919
+2025-06-20 16:44:37,274 - mmdet - INFO - Epoch [1][1550/7330]	lr: 1.000e-04, eta: 3 days, 2:37:53, time: 1.101, data_time: 0.032, memory: 19748, r_loss: 0.0014, loss_rpn_cls: 0.1485, loss_rpn_bbox: 0.0533, s0.loss_cls: 0.4618, s0.acc: 91.9006, s0.loss_bbox: 0.2891, s0.loss_mask: 0.5366, s1.loss_cls: 0.1480, s1.acc: 95.0056, s1.loss_bbox: 0.0624, s1.loss_mask: 0.2582, s2.loss_cls: 0.0433, s2.acc: 97.3013, s2.loss_bbox: 0.0090, s2.loss_mask: 0.1241, loss: 2.1356
+2025-06-20 16:45:28,115 - mmdet - INFO - Epoch [1][1600/7330]	lr: 1.000e-04, eta: 3 days, 2:36:02, time: 1.017, data_time: 0.022, memory: 19748, r_loss: 0.0014, loss_rpn_cls: 0.1558, loss_rpn_bbox: 0.0541, s0.loss_cls: 0.4715, s0.acc: 91.6938, s0.loss_bbox: 0.2954, s0.loss_mask: 0.5353, s1.loss_cls: 0.1532, s1.acc: 94.7935, s1.loss_bbox: 0.0653, s1.loss_mask: 0.2566, s2.loss_cls: 0.0450, s2.acc: 97.1553, s2.loss_bbox: 0.0096, s2.loss_mask: 0.1230, loss: 2.1663
+2025-06-20 16:46:16,469 - mmdet - INFO - Epoch [1][1650/7330]	lr: 1.000e-04, eta: 3 days, 2:27:35, time: 0.967, data_time: 0.027, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1472, loss_rpn_bbox: 0.0516, s0.loss_cls: 0.4604, s0.acc: 91.8923, s0.loss_bbox: 0.2890, s0.loss_mask: 0.5324, s1.loss_cls: 0.1512, s1.acc: 94.8445, s1.loss_bbox: 0.0648, s1.loss_mask: 0.2551, s2.loss_cls: 0.0444, s2.acc: 97.1938, s2.loss_bbox: 0.0096, s2.loss_mask: 0.1228, loss: 2.1299
+2025-06-20 16:47:05,489 - mmdet - INFO - Epoch [1][1700/7330]	lr: 1.000e-04, eta: 3 days, 2:21:22, time: 0.980, data_time: 0.025, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1526, loss_rpn_bbox: 0.0519, s0.loss_cls: 0.4658, s0.acc: 91.6958, s0.loss_bbox: 0.2922, s0.loss_mask: 0.5298, s1.loss_cls: 0.1568, s1.acc: 94.5852, s1.loss_bbox: 0.0678, s1.loss_mask: 0.2555, s2.loss_cls: 0.0462, s2.acc: 97.0496, s2.loss_bbox: 0.0102, s2.loss_mask: 0.1226, loss: 2.1529
+2025-06-20 16:47:52,071 - mmdet - INFO - Epoch [1][1750/7330]	lr: 1.000e-04, eta: 3 days, 2:09:24, time: 0.932, data_time: 0.024, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1527, loss_rpn_bbox: 0.0559, s0.loss_cls: 0.4844, s0.acc: 91.3584, s0.loss_bbox: 0.3041, s0.loss_mask: 0.5211, s1.loss_cls: 0.1646, s1.acc: 94.2219, s1.loss_bbox: 0.0735, s1.loss_mask: 0.2508, s2.loss_cls: 0.0481, s2.acc: 96.8760, s2.loss_bbox: 0.0113, s2.loss_mask: 0.1208, loss: 2.1887
+2025-06-20 16:48:46,879 - mmdet - INFO - Epoch [1][1800/7330]	lr: 1.000e-04, eta: 3 days, 2:18:01, time: 1.096, data_time: 0.023, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1527, loss_rpn_bbox: 0.0512, s0.loss_cls: 0.4724, s0.acc: 91.6426, s0.loss_bbox: 0.2951, s0.loss_mask: 0.5248, s1.loss_cls: 0.1600, s1.acc: 94.4915, s1.loss_bbox: 0.0701, s1.loss_mask: 0.2518, s2.loss_cls: 0.0469, s2.acc: 96.9832, s2.loss_bbox: 0.0107, s2.loss_mask: 0.1206, loss: 2.1579
+2025-06-20 16:49:33,553 - mmdet - INFO - Epoch [1][1850/7330]	lr: 1.000e-04, eta: 3 days, 2:06:50, time: 0.933, data_time: 0.028, memory: 19748, r_loss: 0.0016, loss_rpn_cls: 0.1481, loss_rpn_bbox: 0.0535, s0.loss_cls: 0.4800, s0.acc: 91.3792, s0.loss_bbox: 0.3048, s0.loss_mask: 0.5185, s1.loss_cls: 0.1660, s1.acc: 94.1240, s1.loss_bbox: 0.0757, s1.loss_mask: 0.2485, s2.loss_cls: 0.0493, s2.acc: 96.7520, s2.loss_bbox: 0.0120, s2.loss_mask: 0.1189, loss: 2.1770
+2025-06-20 16:50:28,128 - mmdet - INFO - Epoch [1][1900/7330]	lr: 1.000e-04, eta: 3 days, 2:14:25, time: 1.092, data_time: 0.024, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1424, loss_rpn_bbox: 0.0525, s0.loss_cls: 0.4545, s0.acc: 91.7488, s0.loss_bbox: 0.2901, s0.loss_mask: 0.5209, s1.loss_cls: 0.1562, s1.acc: 94.3499, s1.loss_bbox: 0.0720, s1.loss_mask: 0.2498, s2.loss_cls: 0.0468, s2.acc: 96.8398, s2.loss_bbox: 0.0117, s2.loss_mask: 0.1202, loss: 2.1185
+2025-06-20 16:51:17,124 - mmdet - INFO - Epoch [1][1950/7330]	lr: 1.000e-04, eta: 3 days, 2:09:04, time: 0.980, data_time: 0.025, memory: 19748, r_loss: 0.0016, loss_rpn_cls: 0.1376, loss_rpn_bbox: 0.0530, s0.loss_cls: 0.4649, s0.acc: 91.3611, s0.loss_bbox: 0.3082, s0.loss_mask: 0.5170, s1.loss_cls: 0.1612, s1.acc: 94.0696, s1.loss_bbox: 0.0771, s1.loss_mask: 0.2479, s2.loss_cls: 0.0479, s2.acc: 96.7119, s2.loss_bbox: 0.0123, s2.loss_mask: 0.1192, loss: 2.1479
+2025-06-20 16:52:03,703 - mmdet - INFO - Exp name: cascade_mask_swin_base_3x_coco_sample_1_bs_16_llama_moe.py
+2025-06-20 16:52:03,703 - mmdet - INFO - Epoch [1][2000/7330]	lr: 1.000e-04, eta: 3 days, 1:58:39, time: 0.932, data_time: 0.027, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1463, loss_rpn_bbox: 0.0515, s0.loss_cls: 0.4666, s0.acc: 91.3276, s0.loss_bbox: 0.3034, s0.loss_mask: 0.5177, s1.loss_cls: 0.1671, s1.acc: 93.8352, s1.loss_bbox: 0.0800, s1.loss_mask: 0.2488, s2.loss_cls: 0.0498, s2.acc: 96.5693, s2.loss_bbox: 0.0133, s2.loss_mask: 0.1190, loss: 2.1649
+2025-06-20 16:52:56,200 - mmdet - INFO - Epoch [1][2050/7330]	lr: 1.000e-04, eta: 3 days, 2:01:20, time: 1.050, data_time: 0.023, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1447, loss_rpn_bbox: 0.0507, s0.loss_cls: 0.4658, s0.acc: 91.3267, s0.loss_bbox: 0.3071, s0.loss_mask: 0.5236, s1.loss_cls: 0.1642, s1.acc: 93.9326, s1.loss_bbox: 0.0786, s1.loss_mask: 0.2504, s2.loss_cls: 0.0493, s2.acc: 96.6104, s2.loss_bbox: 0.0130, s2.loss_mask: 0.1199, loss: 2.1688
+2025-06-20 16:53:42,887 - mmdet - INFO - Epoch [1][2100/7330]	lr: 1.000e-04, eta: 3 days, 1:51:45, time: 0.934, data_time: 0.022, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1340, loss_rpn_bbox: 0.0513, s0.loss_cls: 0.4526, s0.acc: 91.5217, s0.loss_bbox: 0.2992, s0.loss_mask: 0.5045, s1.loss_cls: 0.1623, s1.acc: 93.9475, s1.loss_bbox: 0.0790, s1.loss_mask: 0.2417, s2.loss_cls: 0.0489, s2.acc: 96.5830, s2.loss_bbox: 0.0132, s2.loss_mask: 0.1155, loss: 2.1039
+2025-06-20 16:54:35,035 - mmdet - INFO - Epoch [1][2150/7330]	lr: 1.000e-04, eta: 3 days, 1:53:40, time: 1.043, data_time: 0.023, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1375, loss_rpn_bbox: 0.0510, s0.loss_cls: 0.4443, s0.acc: 91.6472, s0.loss_bbox: 0.2941, s0.loss_mask: 0.5051, s1.loss_cls: 0.1632, s1.acc: 93.8262, s1.loss_bbox: 0.0801, s1.loss_mask: 0.2421, s2.loss_cls: 0.0499, s2.acc: 96.4719, s2.loss_bbox: 0.0140, s2.loss_mask: 0.1155, loss: 2.0983
+2025-06-20 16:55:27,555 - mmdet - INFO - Epoch [1][2200/7330]	lr: 1.000e-04, eta: 3 days, 1:56:08, time: 1.050, data_time: 0.022, memory: 19748, r_loss: 0.0017, loss_rpn_cls: 0.1370, loss_rpn_bbox: 0.0523, s0.loss_cls: 0.4705, s0.acc: 91.3201, s0.loss_bbox: 0.3054, s0.loss_mask: 0.5086, s1.loss_cls: 0.1694, s1.acc: 93.7239, s1.loss_bbox: 0.0816, s1.loss_mask: 0.2427, s2.loss_cls: 0.0516, s2.acc: 96.4050, s2.loss_bbox: 0.0141, s2.loss_mask: 0.1163, loss: 2.1511
+2025-06-20 16:56:14,071 - mmdet - INFO - Epoch [1][2250/7330]	lr: 1.000e-04, eta: 3 days, 1:46:55, time: 0.931, data_time: 0.025, memory: 19748, r_loss: 0.0016, loss_rpn_cls: 0.1302, loss_rpn_bbox: 0.0479, s0.loss_cls: 0.4580, s0.acc: 91.3982, s0.loss_bbox: 0.3017, s0.loss_mask: 0.5019, s1.loss_cls: 0.1679, s1.acc: 93.6460, s1.loss_bbox: 0.0839, s1.loss_mask: 0.2386, s2.loss_cls: 0.0518, s2.acc: 96.2466, s2.loss_bbox: 0.0153, s2.loss_mask: 0.1141, loss: 2.1130
+2025-06-20 16:57:04,285 - mmdet - INFO - Epoch [1][2300/7330]	lr: 1.000e-04, eta: 3 days, 1:45:03, time: 1.004, data_time: 0.021, memory: 19748, r_loss: 0.0016, loss_rpn_cls: 0.1441, loss_rpn_bbox: 0.0529, s0.loss_cls: 0.4622, s0.acc: 91.2048, s0.loss_bbox: 0.3117, s0.loss_mask: 0.5057, s1.loss_cls: 0.1691, s1.acc: 93.4653, s1.loss_bbox: 0.0869, s1.loss_mask: 0.2436, s2.loss_cls: 0.0519, s2.acc: 96.1904, s2.loss_bbox: 0.0155, s2.loss_mask: 0.1163, loss: 2.1615
+2025-06-20 16:57:51,551 - mmdet - INFO - Epoch [1][2350/7330]	lr: 1.000e-04, eta: 3 days, 1:37:44, time: 0.945, data_time: 0.021, memory: 19748, r_loss: 0.0016, loss_rpn_cls: 0.1300, loss_rpn_bbox: 0.0510, s0.loss_cls: 0.4593, s0.acc: 91.3479, s0.loss_bbox: 0.3024, s0.loss_mask: 0.4998, s1.loss_cls: 0.1720, s1.acc: 93.4587, s1.loss_bbox: 0.0864, s1.loss_mask: 0.2381, s2.loss_cls: 0.0530, s2.acc: 96.1746, s2.loss_bbox: 0.0158, s2.loss_mask: 0.1129, loss: 2.1223
+2025-06-20 16:58:46,298 - mmdet - INFO - Epoch [1][2400/7330]	lr: 1.000e-04, eta: 3 days, 1:44:16, time: 1.095, data_time: 0.023, memory: 19748, r_loss: 0.0015, loss_rpn_cls: 0.1374, loss_rpn_bbox: 0.0524, s0.loss_cls: 0.4628, s0.acc: 91.1279, s0.loss_bbox: 0.3082, s0.loss_mask: 0.5001, s1.loss_cls: 0.1733, s1.acc: 93.3199, s1.loss_bbox: 0.0880, s1.loss_mask: 0.2387, s2.loss_cls: 0.0537, s2.acc: 96.0493, s2.loss_bbox: 0.0163, s2.loss_mask: 0.1132, loss: 2.1456
+2025-06-20 16:59:34,494 - mmdet - INFO - Epoch [1][2450/7330]	lr: 1.000e-04, eta: 3 days, 1:38:50, time: 0.963, data_time: 0.029, memory: 19748, r_loss: 0.0016, loss_rpn_cls: 0.1328, loss_rpn_bbox: 0.0502, s0.loss_cls: 0.4735, s0.acc: 90.8613, s0.loss_bbox: 0.3204, s0.loss_mask: 0.4960, s1.loss_cls: 0.1781, s1.acc: 93.0613, s1.loss_bbox: 0.0921, s1.loss_mask: 0.2372, s2.loss_cls: 0.0557, s2.acc: 95.8508, s2.loss_bbox: 0.0174, s2.loss_mask: 0.1132, loss: 2.1681

mmdet/results/train/llama_moe_4_16_1e-4/20250620_161720.log.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b813f247dedebb9b1312db12164c90ad2e14174fef4fa4ef82172ed0596291a3
+size 42800

mmdet/results/train/llama_moe_4_16_1e-4/cascade_mask_swin_base_3x_coco_sample_1_bs_16_llama_moe.py ADDED Viewed

	@@ -0,0 +1,438 @@

+model = dict(
+    type='CascadeRCNN_loss',
+    pretrained=None,
+    backbone=dict(
+        type='SwinTransformer_llama_moe',
+        embed_dim=128,
+        depths=[2, 2, 18, 2],
+        num_heads=[4, 8, 16, 32],
+        window_size=7,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.3,
+        ape=False,
+        patch_norm=True,
+        out_indices=(0, 1, 2, 3),
+        use_checkpoint=False),
+    neck=dict(
+        type='FPN',
+        in_channels=[128, 256, 512, 1024],
+        out_channels=256,
+        num_outs=5),
+    rpn_head=dict(
+        type='RPNHead',
+        in_channels=256,
+        feat_channels=256,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='CascadeRoIHead',
+        num_stages=3,
+        stage_loss_weights=[1, 0.5, 0.25],
+        bbox_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=[
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.1, 0.1, 0.2, 0.2]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.05, 0.05, 0.1, 0.1]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.033, 0.033, 0.067, 0.067]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0))
+        ],
+        mask_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=14, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        mask_head=dict(
+            type='FCNMaskHead',
+            num_convs=4,
+            in_channels=256,
+            conv_out_channels=256,
+            num_classes=80,
+            loss_mask=dict(
+                type='CrossEntropyLoss', use_mask=True, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_across_levels=False,
+            nms_pre=2000,
+            nms_post=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=[
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.5,
+                    neg_iou_thr=0.5,
+                    min_pos_iou=0.5,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.6,
+                    neg_iou_thr=0.6,
+                    min_pos_iou=0.6,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.7,
+                    neg_iou_thr=0.7,
+                    min_pos_iou=0.7,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False)
+        ]),
+    test_cfg=dict(
+        rpn=dict(
+            nms_across_levels=False,
+            nms_pre=1000,
+            nms_post=1000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.5),
+            max_per_img=100,
+            mask_thr_binary=0.5)))
+dataset_type = 'CocoDataset'
+data_root = '/root/autodl-tmp/COCO2017/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(
+        type='AutoAugment',
+        policies=[[{
+            'type':
+            'Resize',
+            'img_scale': [(480, 1333), (512, 1333), (544, 1333), (576, 1333),
+                          (608, 1333), (640, 1333), (672, 1333), (704, 1333),
+                          (736, 1333), (768, 1333), (800, 1333)],
+            'multiscale_mode':
+            'value',
+            'keep_ratio':
+            True
+        }],
+                  [{
+                      'type': 'Resize',
+                      'img_scale': [(400, 1333), (500, 1333), (600, 1333)],
+                      'multiscale_mode': 'value',
+                      'keep_ratio': True
+                  }, {
+                      'type': 'RandomCrop',
+                      'crop_type': 'absolute_range',
+                      'crop_size': (384, 600),
+                      'allow_negative_crop': True
+                  }, {
+                      'type':
+                      'Resize',
+                      'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                    (576, 1333), (608, 1333), (640, 1333),
+                                    (672, 1333), (704, 1333), (736, 1333),
+                                    (768, 1333), (800, 1333)],
+                      'multiscale_mode':
+                      'value',
+                      'override':
+                      True,
+                      'keep_ratio':
+                      True
+                  }]]),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1333, 800),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=2,
+    workers_per_gpu=4,
+    train=dict(
+        type='CocoDataset',
+        ann_file=
+        '/root/autodl-tmp/COCO2017/annotations/instances_train2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/train2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+            dict(type='RandomFlip', flip_ratio=0.5),
+            dict(
+                type='AutoAugment',
+                policies=[[{
+                    'type':
+                    'Resize',
+                    'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                  (576, 1333), (608, 1333), (640, 1333),
+                                  (672, 1333), (704, 1333), (736, 1333),
+                                  (768, 1333), (800, 1333)],
+                    'multiscale_mode':
+                    'value',
+                    'keep_ratio':
+                    True
+                }],
+                          [{
+                              'type': 'Resize',
+                              'img_scale': [(400, 1333), (500, 1333),
+                                            (600, 1333)],
+                              'multiscale_mode': 'value',
+                              'keep_ratio': True
+                          }, {
+                              'type': 'RandomCrop',
+                              'crop_type': 'absolute_range',
+                              'crop_size': (384, 600),
+                              'allow_negative_crop': True
+                          }, {
+                              'type':
+                              'Resize',
+                              'img_scale': [(480, 1333), (512, 1333),
+                                            (544, 1333), (576, 1333),
+                                            (608, 1333), (640, 1333),
+                                            (672, 1333), (704, 1333),
+                                            (736, 1333), (768, 1333),
+                                            (800, 1333)],
+                              'multiscale_mode':
+                              'value',
+                              'override':
+                              True,
+                              'keep_ratio':
+                              True
+                          }]]),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(
+                type='Collect',
+                keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+        ]),
+    val=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+evaluation = dict(metric=['bbox', 'segm'], gpu_collect=True)
+optimizer = dict(
+    type='AdamW',
+    lr=0.0001,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            absolute_pos_embed=dict(decay_mult=0.0),
+            relative_position_bias_table=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0))))
+optimizer_config = dict(
+    grad_clip=None,
+    type='DistOptimizerHook',
+    update_interval=1,
+    coalesce=True,
+    bucket_size_mb=-1,
+    use_fp16=True)
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.001,
+    step=[27, 33])
+runner = dict(type='EpochBasedRunnerAmp', max_epochs=36)
+checkpoint_config = dict(interval=1)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+custom_hooks = [dict(type='NumClassCheckHook')]
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = '/root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/pretrained_model/swin_base_llama_moe_16.pth'
+resume_from = None
+workflow = [('train', 1)]
+fp16 = None
+work_dir = './results/train/llama_moe_4_16_1e-4/'
+gpu_ids = range(0, 8)

mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora → results/train/lora}/20250614_124757.log RENAMED Viewed

File without changes

mmdet/results/train/lora/20250614_124757.log.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f4154b2817468ae639a0543be385680c3b12df495a7ebf6d4c4993aa1c3fed9
+size 2464645

mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora → results/train/lora}/cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora.py RENAMED Viewed

File without changes

mmdet/results/train/lora/epoch_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa6ec77aebcf19bbd0a6e33295ce386d23e36f0dcb058a248dc59cbec5198724
+size 1083632016

mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_lora → results/train/lora}/epoch_36.pth RENAMED Viewed

File without changes

mmdet/results/train/lora/latest.pth ADDED Viewed

	@@ -0,0 +1 @@


1	+ epoch_36.pth

mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona → results/train/mona}/20250610_212914.log RENAMED Viewed

File without changes

mmdet/results/train/mona/20250610_212914.log.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5dfd7d6ae15d69d9a4bfd5e8981d2e23ddfa4e2f08b571d1234ef959dd3e199b
+size 2464610

mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona → results/train/mona}/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona.py RENAMED Viewed

File without changes

mmdet/results/train/mona/epoch_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:461b1f6c667dedadb274c7d0ee73325e9a9ab95d8154229f27aa55b6a0ce0d05
+size 1091645264

mmdet/{cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona → results/train/mona}/epoch_36.pth RENAMED Viewed

File without changes

mmdet/results/train/mona/latest.pth ADDED Viewed

	@@ -0,0 +1 @@


1	+ epoch_36.pth

mmdet/results/train/mona_llama_moe_2_8_1e-4/20250624_193305.log ADDED Viewed

The diff for this file is too large to render. See raw diff

mmdet/results/train/mona_llama_moe_2_8_1e-4/20250624_193305.log.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df9f821c5849c1ae8fa751f96350ae042c14db37198350243b46111ce1c73ca1
+size 2595560

mmdet/results/train/mona_llama_moe_2_8_1e-4/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_llama_moe.py ADDED Viewed

	@@ -0,0 +1,438 @@

+model = dict(
+    type='CascadeRCNN_loss',
+    pretrained=None,
+    backbone=dict(
+        type='SwinTransformer_mona_llama_moe',
+        embed_dim=128,
+        depths=[2, 2, 18, 2],
+        num_heads=[4, 8, 16, 32],
+        window_size=7,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.3,
+        ape=False,
+        patch_norm=True,
+        out_indices=(0, 1, 2, 3),
+        use_checkpoint=False),
+    neck=dict(
+        type='FPN',
+        in_channels=[128, 256, 512, 1024],
+        out_channels=256,
+        num_outs=5),
+    rpn_head=dict(
+        type='RPNHead',
+        in_channels=256,
+        feat_channels=256,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='CascadeRoIHead',
+        num_stages=3,
+        stage_loss_weights=[1, 0.5, 0.25],
+        bbox_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=[
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.1, 0.1, 0.2, 0.2]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.05, 0.05, 0.1, 0.1]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.033, 0.033, 0.067, 0.067]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0))
+        ],
+        mask_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=14, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        mask_head=dict(
+            type='FCNMaskHead',
+            num_convs=4,
+            in_channels=256,
+            conv_out_channels=256,
+            num_classes=80,
+            loss_mask=dict(
+                type='CrossEntropyLoss', use_mask=True, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_across_levels=False,
+            nms_pre=2000,
+            nms_post=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=[
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.5,
+                    neg_iou_thr=0.5,
+                    min_pos_iou=0.5,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.6,
+                    neg_iou_thr=0.6,
+                    min_pos_iou=0.6,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.7,
+                    neg_iou_thr=0.7,
+                    min_pos_iou=0.7,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False)
+        ]),
+    test_cfg=dict(
+        rpn=dict(
+            nms_across_levels=False,
+            nms_pre=1000,
+            nms_post=1000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.5),
+            max_per_img=100,
+            mask_thr_binary=0.5)))
+dataset_type = 'CocoDataset'
+data_root = '/root/autodl-tmp/COCO2017/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(
+        type='AutoAugment',
+        policies=[[{
+            'type':
+            'Resize',
+            'img_scale': [(480, 1333), (512, 1333), (544, 1333), (576, 1333),
+                          (608, 1333), (640, 1333), (672, 1333), (704, 1333),
+                          (736, 1333), (768, 1333), (800, 1333)],
+            'multiscale_mode':
+            'value',
+            'keep_ratio':
+            True
+        }],
+                  [{
+                      'type': 'Resize',
+                      'img_scale': [(400, 1333), (500, 1333), (600, 1333)],
+                      'multiscale_mode': 'value',
+                      'keep_ratio': True
+                  }, {
+                      'type': 'RandomCrop',
+                      'crop_type': 'absolute_range',
+                      'crop_size': (384, 600),
+                      'allow_negative_crop': True
+                  }, {
+                      'type':
+                      'Resize',
+                      'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                    (576, 1333), (608, 1333), (640, 1333),
+                                    (672, 1333), (704, 1333), (736, 1333),
+                                    (768, 1333), (800, 1333)],
+                      'multiscale_mode':
+                      'value',
+                      'override':
+                      True,
+                      'keep_ratio':
+                      True
+                  }]]),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1333, 800),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=2,
+    workers_per_gpu=4,
+    train=dict(
+        type='CocoDataset',
+        ann_file=
+        '/root/autodl-tmp/COCO2017/annotations/instances_train2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/train2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+            dict(type='RandomFlip', flip_ratio=0.5),
+            dict(
+                type='AutoAugment',
+                policies=[[{
+                    'type':
+                    'Resize',
+                    'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                  (576, 1333), (608, 1333), (640, 1333),
+                                  (672, 1333), (704, 1333), (736, 1333),
+                                  (768, 1333), (800, 1333)],
+                    'multiscale_mode':
+                    'value',
+                    'keep_ratio':
+                    True
+                }],
+                          [{
+                              'type': 'Resize',
+                              'img_scale': [(400, 1333), (500, 1333),
+                                            (600, 1333)],
+                              'multiscale_mode': 'value',
+                              'keep_ratio': True
+                          }, {
+                              'type': 'RandomCrop',
+                              'crop_type': 'absolute_range',
+                              'crop_size': (384, 600),
+                              'allow_negative_crop': True
+                          }, {
+                              'type':
+                              'Resize',
+                              'img_scale': [(480, 1333), (512, 1333),
+                                            (544, 1333), (576, 1333),
+                                            (608, 1333), (640, 1333),
+                                            (672, 1333), (704, 1333),
+                                            (736, 1333), (768, 1333),
+                                            (800, 1333)],
+                              'multiscale_mode':
+                              'value',
+                              'override':
+                              True,
+                              'keep_ratio':
+                              True
+                          }]]),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(
+                type='Collect',
+                keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+        ]),
+    val=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+evaluation = dict(metric=['bbox', 'segm'], gpu_collect=True)
+optimizer = dict(
+    type='AdamW',
+    lr=0.0001,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            absolute_pos_embed=dict(decay_mult=0.0),
+            relative_position_bias_table=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0))))
+optimizer_config = dict(
+    grad_clip=None,
+    type='DistOptimizerHook',
+    update_interval=1,
+    coalesce=True,
+    bucket_size_mb=-1,
+    use_fp16=True)
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.001,
+    step=[27, 33])
+runner = dict(type='EpochBasedRunnerAmp', max_epochs=36)
+checkpoint_config = dict(interval=1)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+custom_hooks = [dict(type='NumClassCheckHook')]
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = '/root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/pretrained_model/swin_base_mona_llama_moe_8.pth'
+resume_from = None
+workflow = [('train', 1)]
+fp16 = None
+work_dir = './results/train/mona_llama_moe_2_8_1e-4/'
+gpu_ids = range(0, 8)

mmdet/results/train/mona_llama_moe_2_8_1e-4/epoch_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce5ae42106a6cc130fa0b866985a0736e3da6ae3f57ad4cadce510106ac2b348
+size 1512371920

mmdet/results/train/mona_llama_moe_2_8_1e-4/epoch_36.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55b45bd3774399eab3a6938e1978f1dd2e99a59fa61ca0ffd0751c9e5d43c9b4
+size 1512372112

mmdet/results/train/mona_llama_moe_2_8_1e-4/latest.pth ADDED Viewed

	@@ -0,0 +1 @@


1	+ epoch_36.pth

mmdet/results/train/mona_llama_moe_5_8_1e-4/20250702_125523.log ADDED Viewed

	@@ -0,0 +1,613 @@

+2025-07-02 12:55:24,048 - mmdet - INFO - Environment info:
+------------------------------------------------------------
+sys.platform: linux
+Python: 3.8.20 (default, Oct  3 2024, 15:24:27) [GCC 11.2.0]
+CUDA available: True
+GPU 0,1,2,3,4,5,6,7: NVIDIA GeForce RTX 4090
+CUDA_HOME: /root/autodl-tmp/cuda/cuda-11.7
+NVCC: Cuda compilation tools, release 11.7, V11.7.64
+GCC: gcc (Ubuntu 9.4.0-1ubuntu1~20.04.1) 9.4.0
+PyTorch: 1.13.1+cu117
+PyTorch compiling details: PyTorch built with:
+  - GCC 9.3
+  - C++ Version: 201402
+  - Intel(R) Math Kernel Library Version 2020.0.0 Product Build 20191122 for Intel(R) 64 architecture applications
+  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)
+  - OpenMP 201511 (a.k.a. OpenMP 4.5)
+  - LAPACK is enabled (usually provided by MKL)
+  - NNPACK is enabled
+  - CPU capability usage: AVX2
+  - CUDA Runtime 11.7
+  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86
+  - CuDNN 8.5
+  - Magma 2.6.1
+  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.7, CUDNN_VERSION=8.5.0, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -fabi-version=11 -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Werror=non-virtual-dtor -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wunused-local-typedefs -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.13.1, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=ON, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF,
+TorchVision: 0.14.1+cu117
+OpenCV: 4.11.0
+MMCV: 1.7.2
+MMCV Compiler: GCC 9.3
+MMCV CUDA Compiler: 11.7
+MMDetection: 2.11.0+9022e00
+------------------------------------------------------------
+2025-07-02 12:55:27,575 - mmdet - INFO - Distributed training: True
+2025-07-02 12:55:30,976 - mmdet - INFO - Config:
+model = dict(
+    type='CascadeRCNN_loss',
+    pretrained=None,
+    backbone=dict(
+        type='SwinTransformer_mona_llama_moe',
+        embed_dim=128,
+        depths=[2, 2, 18, 2],
+        num_heads=[4, 8, 16, 32],
+        window_size=7,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.3,
+        ape=False,
+        patch_norm=True,
+        out_indices=(0, 1, 2, 3),
+        use_checkpoint=False),
+    neck=dict(
+        type='FPN',
+        in_channels=[128, 256, 512, 1024],
+        out_channels=256,
+        num_outs=5),
+    rpn_head=dict(
+        type='RPNHead',
+        in_channels=256,
+        feat_channels=256,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='CascadeRoIHead',
+        num_stages=3,
+        stage_loss_weights=[1, 0.5, 0.25],
+        bbox_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=[
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.1, 0.1, 0.2, 0.2]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.05, 0.05, 0.1, 0.1]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.033, 0.033, 0.067, 0.067]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0))
+        ],
+        mask_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=14, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        mask_head=dict(
+            type='FCNMaskHead',
+            num_convs=4,
+            in_channels=256,
+            conv_out_channels=256,
+            num_classes=80,
+            loss_mask=dict(
+                type='CrossEntropyLoss', use_mask=True, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_across_levels=False,
+            nms_pre=2000,
+            nms_post=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=[
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.5,
+                    neg_iou_thr=0.5,
+                    min_pos_iou=0.5,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.6,
+                    neg_iou_thr=0.6,
+                    min_pos_iou=0.6,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.7,
+                    neg_iou_thr=0.7,
+                    min_pos_iou=0.7,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False)
+        ]),
+    test_cfg=dict(
+        rpn=dict(
+            nms_across_levels=False,
+            nms_pre=1000,
+            nms_post=1000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.5),
+            max_per_img=100,
+            mask_thr_binary=0.5)))
+dataset_type = 'CocoDataset'
+data_root = '/root/autodl-tmp/COCO2017/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(
+        type='AutoAugment',
+        policies=[[{
+            'type':
+            'Resize',
+            'img_scale': [(480, 1333), (512, 1333), (544, 1333), (576, 1333),
+                          (608, 1333), (640, 1333), (672, 1333), (704, 1333),
+                          (736, 1333), (768, 1333), (800, 1333)],
+            'multiscale_mode':
+            'value',
+            'keep_ratio':
+            True
+        }],
+                  [{
+                      'type': 'Resize',
+                      'img_scale': [(400, 1333), (500, 1333), (600, 1333)],
+                      'multiscale_mode': 'value',
+                      'keep_ratio': True
+                  }, {
+                      'type': 'RandomCrop',
+                      'crop_type': 'absolute_range',
+                      'crop_size': (384, 600),
+                      'allow_negative_crop': True
+                  }, {
+                      'type':
+                      'Resize',
+                      'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                    (576, 1333), (608, 1333), (640, 1333),
+                                    (672, 1333), (704, 1333), (736, 1333),
+                                    (768, 1333), (800, 1333)],
+                      'multiscale_mode':
+                      'value',
+                      'override':
+                      True,
+                      'keep_ratio':
+                      True
+                  }]]),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1333, 800),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=2,
+    workers_per_gpu=4,
+    train=dict(
+        type='CocoDataset',
+        ann_file=
+        '/root/autodl-tmp/COCO2017/annotations/instances_train2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/train2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+            dict(type='RandomFlip', flip_ratio=0.5),
+            dict(
+                type='AutoAugment',
+                policies=[[{
+                    'type':
+                    'Resize',
+                    'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                  (576, 1333), (608, 1333), (640, 1333),
+                                  (672, 1333), (704, 1333), (736, 1333),
+                                  (768, 1333), (800, 1333)],
+                    'multiscale_mode':
+                    'value',
+                    'keep_ratio':
+                    True
+                }],
+                          [{
+                              'type': 'Resize',
+                              'img_scale': [(400, 1333), (500, 1333),
+                                            (600, 1333)],
+                              'multiscale_mode': 'value',
+                              'keep_ratio': True
+                          }, {
+                              'type': 'RandomCrop',
+                              'crop_type': 'absolute_range',
+                              'crop_size': (384, 600),
+                              'allow_negative_crop': True
+                          }, {
+                              'type':
+                              'Resize',
+                              'img_scale': [(480, 1333), (512, 1333),
+                                            (544, 1333), (576, 1333),
+                                            (608, 1333), (640, 1333),
+                                            (672, 1333), (704, 1333),
+                                            (736, 1333), (768, 1333),
+                                            (800, 1333)],
+                              'multiscale_mode':
+                              'value',
+                              'override':
+                              True,
+                              'keep_ratio':
+                              True
+                          }]]),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(
+                type='Collect',
+                keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+        ]),
+    val=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+evaluation = dict(metric=['bbox', 'segm'], gpu_collect=True)
+optimizer = dict(
+    type='AdamW',
+    lr=0.0001,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            absolute_pos_embed=dict(decay_mult=0.0),
+            relative_position_bias_table=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0))))
+optimizer_config = dict(
+    grad_clip=None,
+    type='DistOptimizerHook',
+    update_interval=1,
+    coalesce=True,
+    bucket_size_mb=-1,
+    use_fp16=True)
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.001,
+    step=[27, 33])
+runner = dict(type='EpochBasedRunnerAmp', max_epochs=36)
+checkpoint_config = dict(interval=1)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+custom_hooks = [dict(type='NumClassCheckHook')]
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = '/root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/pretrained_model/swin_base_mona_llama_moe_8.pth'
+resume_from = None
+workflow = [('train', 1)]
+fp16 = None
+work_dir = './results/train/mona_llama_moe_5_8_1e-4/'
+gpu_ids = range(0, 8)
+2025-07-02 12:56:15,818 - mmdet - INFO - load checkpoint from local path: /root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/pretrained_model/swin_base_mona_llama_moe_8.pth
+2025-07-02 12:56:16,553 - mmdet - WARNING - The model and loaded state dict do not match exactly
+missing keys in source state_dict: backbone.layers.0.blocks.0.mlp.fc1.gate.gate_network.0.weight, backbone.layers.0.blocks.0.mlp.fc1.gate.gate_network.2.weight, backbone.layers.0.blocks.0.mlp.fc1.gate.weight_noise.weight, backbone.layers.0.blocks.1.mlp.fc1.gate.gate_network.0.weight, backbone.layers.0.blocks.1.mlp.fc1.gate.gate_network.2.weight, backbone.layers.0.blocks.1.mlp.fc1.gate.weight_noise.weight, backbone.layers.1.blocks.0.mlp.fc1.gate.gate_network.0.weight, backbone.layers.1.blocks.0.mlp.fc1.gate.gate_network.2.weight, backbone.layers.1.blocks.0.mlp.fc1.gate.weight_noise.weight, backbone.layers.1.blocks.1.mlp.fc1.gate.gate_network.0.weight, backbone.layers.1.blocks.1.mlp.fc1.gate.gate_network.2.weight, backbone.layers.1.blocks.1.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.0.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.0.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.0.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.1.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.1.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.1.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.2.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.2.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.2.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.3.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.3.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.3.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.4.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.4.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.4.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.5.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.5.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.5.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.6.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.6.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.6.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.7.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.7.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.7.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.8.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.8.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.8.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.9.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.9.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.9.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.10.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.10.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.10.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.11.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.11.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.11.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.12.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.12.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.12.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.13.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.13.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.13.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.14.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.14.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.14.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.15.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.15.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.15.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.16.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.16.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.16.mlp.fc1.gate.weight_noise.weight, backbone.layers.2.blocks.17.mlp.fc1.gate.gate_network.0.weight, backbone.layers.2.blocks.17.mlp.fc1.gate.gate_network.2.weight, backbone.layers.2.blocks.17.mlp.fc1.gate.weight_noise.weight, backbone.layers.3.blocks.0.mlp.fc1.gate.gate_network.0.weight, backbone.layers.3.blocks.0.mlp.fc1.gate.gate_network.2.weight, backbone.layers.3.blocks.0.mlp.fc1.gate.weight_noise.weight, backbone.layers.3.blocks.1.mlp.fc1.gate.gate_network.0.weight, backbone.layers.3.blocks.1.mlp.fc1.gate.gate_network.2.weight, backbone.layers.3.blocks.1.mlp.fc1.gate.weight_noise.weight
+2025-07-02 12:56:16,596 - mmdet - INFO - Start running, host: root@autodl-container-313040b114-67ed2cfc, work_dir: /root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/results/train/mona_llama_moe_5_8_1e-4
+2025-07-02 12:56:16,597 - mmdet - INFO - Hooks will be executed in the following order:
+before_run:
+(VERY_HIGH   ) StepLrUpdaterHook
+(ABOVE_NORMAL) DistOptimizerHook
+(NORMAL      ) CheckpointHook
+(NORMAL      ) DistEvalHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+before_train_epoch:
+(VERY_HIGH   ) StepLrUpdaterHook
+(NORMAL      ) DistSamplerSeedHook
+(NORMAL      ) DistEvalHook
+(NORMAL      ) NumClassCheckHook
+(LOW         ) IterTimerHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+before_train_iter:
+(VERY_HIGH   ) StepLrUpdaterHook
+(LOW         ) IterTimerHook
+ --------------------
+after_train_iter:
+(ABOVE_NORMAL) DistOptimizerHook
+(NORMAL      ) CheckpointHook
+(NORMAL      ) DistEvalHook
+(LOW         ) IterTimerHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+after_train_epoch:
+(NORMAL      ) CheckpointHook
+(NORMAL      ) DistEvalHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+before_val_epoch:
+(NORMAL      ) DistSamplerSeedHook
+(NORMAL      ) NumClassCheckHook
+(LOW         ) IterTimerHook
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+before_val_iter:
+(LOW         ) IterTimerHook
+ --------------------
+after_val_iter:
+(LOW         ) IterTimerHook
+ --------------------
+after_val_epoch:
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+after_run:
+(VERY_LOW    ) TextLoggerHook
+ --------------------
+2025-07-02 12:56:16,597 - mmdet - INFO - workflow: [('train', 1)], max: 36 epochs
+2025-07-02 12:56:16,598 - mmdet - INFO - Checkpoints will be saved to /root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/results/train/mona_llama_moe_5_8_1e-4 by HardDiskBackend.
+2025-07-02 12:58:28,211 - mmdet - INFO - Epoch [1][50/7330]	lr: 9.890e-06, eta: 8 days, 0:53:05, time: 2.632, data_time: 1.579, memory: 21698, balance_loss: 0.0045, loss_rpn_cls: 0.0864, loss_rpn_bbox: 0.0372, s0.loss_cls: 0.3122, s0.acc: 92.0986, s0.loss_bbox: 0.2536, s0.loss_mask: 0.3424, s1.loss_cls: 0.1452, s1.acc: 92.4118, s1.loss_bbox: 0.1034, s1.loss_mask: 0.1652, s2.loss_cls: 0.0654, s2.acc: 93.0664, s2.loss_bbox: 0.0358, s2.loss_mask: 0.0756, loss: 1.6268
+2025-07-02 12:59:18,589 - mmdet - INFO - Epoch [1][100/7330]	lr: 1.988e-05, eta: 5 days, 13:19:34, time: 1.007, data_time: 0.028, memory: 21698, balance_loss: 0.0032, loss_rpn_cls: 0.0637, loss_rpn_bbox: 0.0314, s0.loss_cls: 0.2797, s0.acc: 92.3184, s0.loss_bbox: 0.2496, s0.loss_mask: 0.3049, s1.loss_cls: 0.1309, s1.acc: 92.6028, s1.loss_bbox: 0.1045, s1.loss_mask: 0.1463, s2.loss_cls: 0.0598, s2.acc: 93.0062, s2.loss_bbox: 0.0369, s2.loss_mask: 0.0676, loss: 1.4786
+2025-07-02 13:00:09,020 - mmdet - INFO - Epoch [1][150/7330]	lr: 2.987e-05, eta: 4 days, 17:29:24, time: 1.008, data_time: 0.028, memory: 21698, balance_loss: 0.0023, loss_rpn_cls: 0.0615, loss_rpn_bbox: 0.0317, s0.loss_cls: 0.2742, s0.acc: 92.1995, s0.loss_bbox: 0.2583, s0.loss_mask: 0.3022, s1.loss_cls: 0.1269, s1.acc: 92.4707, s1.loss_bbox: 0.1087, s1.loss_mask: 0.1458, s2.loss_cls: 0.0574, s2.acc: 93.0941, s2.loss_bbox: 0.0389, s2.loss_mask: 0.0673, loss: 1.4752
+2025-07-02 13:01:00,137 - mmdet - INFO - Epoch [1][200/7330]	lr: 3.986e-05, eta: 4 days, 7:49:38, time: 1.023, data_time: 0.027, memory: 21698, balance_loss: 0.0018, loss_rpn_cls: 0.0607, loss_rpn_bbox: 0.0313, s0.loss_cls: 0.2629, s0.acc: 92.2280, s0.loss_bbox: 0.2663, s0.loss_mask: 0.2874, s1.loss_cls: 0.1221, s1.acc: 92.5153, s1.loss_bbox: 0.1121, s1.loss_mask: 0.1375, s2.loss_cls: 0.0565, s2.acc: 92.9050, s2.loss_bbox: 0.0403, s2.loss_mask: 0.0631, loss: 1.4422
+2025-07-02 13:02:05,371 - mmdet - INFO - Epoch [1][250/7330]	lr: 4.985e-05, eta: 4 days, 6:09:18, time: 1.305, data_time: 0.026, memory: 21698, balance_loss: 0.0013, loss_rpn_cls: 0.0565, loss_rpn_bbox: 0.0328, s0.loss_cls: 0.2491, s0.acc: 92.4004, s0.loss_bbox: 0.2666, s0.loss_mask: 0.2798, s1.loss_cls: 0.1169, s1.acc: 92.7210, s1.loss_bbox: 0.1152, s1.loss_mask: 0.1342, s2.loss_cls: 0.0545, s2.acc: 92.9300, s2.loss_bbox: 0.0422, s2.loss_mask: 0.0614, loss: 1.4104
+2025-07-02 13:02:55,969 - mmdet - INFO - Epoch [1][300/7330]	lr: 5.984e-05, eta: 4 days, 1:27:44, time: 1.012, data_time: 0.029, memory: 21698, balance_loss: 0.0012, loss_rpn_cls: 0.0493, loss_rpn_bbox: 0.0279, s0.loss_cls: 0.2301, s0.acc: 92.8999, s0.loss_bbox: 0.2541, s0.loss_mask: 0.2780, s1.loss_cls: 0.1065, s1.acc: 93.1795, s1.loss_bbox: 0.1104, s1.loss_mask: 0.1358, s2.loss_cls: 0.0491, s2.acc: 93.5397, s2.loss_bbox: 0.0411, s2.loss_mask: 0.0632, loss: 1.3465
+2025-07-02 13:03:45,895 - mmdet - INFO - Epoch [1][350/7330]	lr: 6.983e-05, eta: 3 days, 21:57:48, time: 0.998, data_time: 0.027, memory: 21698, balance_loss: 0.0011, loss_rpn_cls: 0.0454, loss_rpn_bbox: 0.0275, s0.loss_cls: 0.2259, s0.acc: 93.0745, s0.loss_bbox: 0.2451, s0.loss_mask: 0.2695, s1.loss_cls: 0.1055, s1.acc: 93.3403, s1.loss_bbox: 0.1071, s1.loss_mask: 0.1297, s2.loss_cls: 0.0492, s2.acc: 93.6529, s2.loss_bbox: 0.0401, s2.loss_mask: 0.0601, loss: 1.3061
+2025-07-02 13:04:36,124 - mmdet - INFO - Epoch [1][400/7330]	lr: 7.982e-05, eta: 3 days, 19:23:36, time: 1.005, data_time: 0.024, memory: 21698, balance_loss: 0.0010, loss_rpn_cls: 0.0501, loss_rpn_bbox: 0.0299, s0.loss_cls: 0.2317, s0.acc: 92.9746, s0.loss_bbox: 0.2547, s0.loss_mask: 0.2729, s1.loss_cls: 0.1077, s1.acc: 93.2900, s1.loss_bbox: 0.1119, s1.loss_mask: 0.1327, s2.loss_cls: 0.0500, s2.acc: 93.5254, s2.loss_bbox: 0.0416, s2.loss_mask: 0.0620, loss: 1.3462
+2025-07-02 13:05:26,576 - mmdet - INFO - Epoch [1][450/7330]	lr: 8.981e-05, eta: 3 days, 17:25:40, time: 1.009, data_time: 0.024, memory: 21698, balance_loss: 0.0009, loss_rpn_cls: 0.0500, loss_rpn_bbox: 0.0277, s0.loss_cls: 0.2199, s0.acc: 93.1548, s0.loss_bbox: 0.2452, s0.loss_mask: 0.2692, s1.loss_cls: 0.1001, s1.acc: 93.4811, s1.loss_bbox: 0.1062, s1.loss_mask: 0.1311, s2.loss_cls: 0.0468, s2.acc: 93.7126, s2.loss_bbox: 0.0400, s2.loss_mask: 0.0609, loss: 1.2979
+2025-07-02 13:06:16,765 - mmdet - INFO - Epoch [1][500/7330]	lr: 9.980e-05, eta: 3 days, 15:48:44, time: 1.004, data_time: 0.020, memory: 21698, balance_loss: 0.0009, loss_rpn_cls: 0.0492, loss_rpn_bbox: 0.0283, s0.loss_cls: 0.2262, s0.acc: 92.9531, s0.loss_bbox: 0.2563, s0.loss_mask: 0.2706, s1.loss_cls: 0.1065, s1.acc: 93.2320, s1.loss_bbox: 0.1103, s1.loss_mask: 0.1321, s2.loss_cls: 0.0495, s2.acc: 93.4644, s2.loss_bbox: 0.0408, s2.loss_mask: 0.0611, loss: 1.3319
+2025-07-02 13:07:06,983 - mmdet - INFO - Epoch [1][550/7330]	lr: 1.000e-04, eta: 3 days, 14:29:32, time: 1.004, data_time: 0.022, memory: 21698, balance_loss: 0.0009, loss_rpn_cls: 0.0490, loss_rpn_bbox: 0.0280, s0.loss_cls: 0.2123, s0.acc: 93.3240, s0.loss_bbox: 0.2458, s0.loss_mask: 0.2651, s1.loss_cls: 0.0971, s1.acc: 93.7061, s1.loss_bbox: 0.1061, s1.loss_mask: 0.1288, s2.loss_cls: 0.0459, s2.acc: 93.7669, s2.loss_bbox: 0.0397, s2.loss_mask: 0.0593, loss: 1.2781
+2025-07-02 13:07:57,390 - mmdet - INFO - Epoch [1][600/7330]	lr: 1.000e-04, eta: 3 days, 13:24:49, time: 1.008, data_time: 0.024, memory: 21698, balance_loss: 0.0008, loss_rpn_cls: 0.0430, loss_rpn_bbox: 0.0279, s0.loss_cls: 0.2200, s0.acc: 93.1748, s0.loss_bbox: 0.2499, s0.loss_mask: 0.2591, s1.loss_cls: 0.1018, s1.acc: 93.5413, s1.loss_bbox: 0.1083, s1.loss_mask: 0.1255, s2.loss_cls: 0.0472, s2.acc: 93.8184, s2.loss_bbox: 0.0407, s2.loss_mask: 0.0585, loss: 1.2827
+2025-07-02 13:08:58,725 - mmdet - INFO - Epoch [1][650/7330]	lr: 1.000e-04, eta: 3 days, 13:43:40, time: 1.227, data_time: 0.026, memory: 21698, balance_loss: 0.0007, loss_rpn_cls: 0.0465, loss_rpn_bbox: 0.0293, s0.loss_cls: 0.2178, s0.acc: 92.9668, s0.loss_bbox: 0.2541, s0.loss_mask: 0.2596, s1.loss_cls: 0.1007, s1.acc: 93.2953, s1.loss_bbox: 0.1109, s1.loss_mask: 0.1271, s2.loss_cls: 0.0478, s2.acc: 93.5762, s2.loss_bbox: 0.0415, s2.loss_mask: 0.0594, loss: 1.2954
+2025-07-02 13:09:48,853 - mmdet - INFO - Epoch [1][700/7330]	lr: 1.000e-04, eta: 3 days, 12:49:30, time: 1.003, data_time: 0.024, memory: 21698, balance_loss: 0.0007, loss_rpn_cls: 0.0457, loss_rpn_bbox: 0.0304, s0.loss_cls: 0.2175, s0.acc: 92.9810, s0.loss_bbox: 0.2602, s0.loss_mask: 0.2650, s1.loss_cls: 0.1004, s1.acc: 93.2071, s1.loss_bbox: 0.1120, s1.loss_mask: 0.1288, s2.loss_cls: 0.0471, s2.acc: 93.5041, s2.loss_bbox: 0.0418, s2.loss_mask: 0.0598, loss: 1.3094
+2025-07-02 13:10:38,321 - mmdet - INFO - Epoch [1][750/7330]	lr: 1.000e-04, eta: 3 days, 11:58:32, time: 0.989, data_time: 0.024, memory: 21698, balance_loss: 0.0007, loss_rpn_cls: 0.0440, loss_rpn_bbox: 0.0279, s0.loss_cls: 0.2056, s0.acc: 93.3123, s0.loss_bbox: 0.2478, s0.loss_mask: 0.2571, s1.loss_cls: 0.0954, s1.acc: 93.6533, s1.loss_bbox: 0.1071, s1.loss_mask: 0.1251, s2.loss_cls: 0.0450, s2.acc: 93.9220, s2.loss_bbox: 0.0406, s2.loss_mask: 0.0585, loss: 1.2547
+2025-07-02 13:11:27,817 - mmdet - INFO - Epoch [1][800/7330]	lr: 1.000e-04, eta: 3 days, 11:14:00, time: 0.990, data_time: 0.031, memory: 21698, balance_loss: 0.0006, loss_rpn_cls: 0.0459, loss_rpn_bbox: 0.0281, s0.loss_cls: 0.2057, s0.acc: 93.3857, s0.loss_bbox: 0.2466, s0.loss_mask: 0.2578, s1.loss_cls: 0.0949, s1.acc: 93.6739, s1.loss_bbox: 0.1080, s1.loss_mask: 0.1249, s2.loss_cls: 0.0446, s2.acc: 93.8285, s2.loss_bbox: 0.0406, s2.loss_mask: 0.0580, loss: 1.2556
+2025-07-02 13:12:17,743 - mmdet - INFO - Epoch [1][850/7330]	lr: 1.000e-04, eta: 3 days, 10:36:52, time: 0.999, data_time: 0.028, memory: 21698, balance_loss: 0.0006, loss_rpn_cls: 0.0399, loss_rpn_bbox: 0.0275, s0.loss_cls: 0.2002, s0.acc: 93.4236, s0.loss_bbox: 0.2464, s0.loss_mask: 0.2637, s1.loss_cls: 0.0928, s1.acc: 93.6654, s1.loss_bbox: 0.1084, s1.loss_mask: 0.1289, s2.loss_cls: 0.0438, s2.acc: 93.8355, s2.loss_bbox: 0.0414, s2.loss_mask: 0.0603, loss: 1.2537
+2025-07-02 13:13:07,219 - mmdet - INFO - Epoch [1][900/7330]	lr: 1.000e-04, eta: 3 days, 10:01:31, time: 0.989, data_time: 0.027, memory: 21698, balance_loss: 0.0006, loss_rpn_cls: 0.0419, loss_rpn_bbox: 0.0280, s0.loss_cls: 0.2099, s0.acc: 93.2744, s0.loss_bbox: 0.2577, s0.loss_mask: 0.2628, s1.loss_cls: 0.0981, s1.acc: 93.5209, s1.loss_bbox: 0.1134, s1.loss_mask: 0.1287, s2.loss_cls: 0.0464, s2.acc: 93.7224, s2.loss_bbox: 0.0424, s2.loss_mask: 0.0600, loss: 1.2899
+2025-07-02 13:13:57,236 - mmdet - INFO - Epoch [1][950/7330]	lr: 1.000e-04, eta: 3 days, 9:32:19, time: 1.000, data_time: 0.022, memory: 21698, balance_loss: 0.0006, loss_rpn_cls: 0.0440, loss_rpn_bbox: 0.0282, s0.loss_cls: 0.2003, s0.acc: 93.5461, s0.loss_bbox: 0.2460, s0.loss_mask: 0.2547, s1.loss_cls: 0.0916, s1.acc: 93.8538, s1.loss_bbox: 0.1074, s1.loss_mask: 0.1252, s2.loss_cls: 0.0429, s2.acc: 94.2533, s2.loss_bbox: 0.0404, s2.loss_mask: 0.0581, loss: 1.2393
+2025-07-02 13:14:47,013 - mmdet - INFO - Exp name: cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_llama_moe.py
+2025-07-02 13:14:47,013 - mmdet - INFO - Epoch [1][1000/7330]	lr: 1.000e-04, eta: 3 days, 9:04:46, time: 0.995, data_time: 0.022, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0433, loss_rpn_bbox: 0.0282, s0.loss_cls: 0.2069, s0.acc: 93.2595, s0.loss_bbox: 0.2508, s0.loss_mask: 0.2551, s1.loss_cls: 0.0952, s1.acc: 93.5391, s1.loss_bbox: 0.1081, s1.loss_mask: 0.1243, s2.loss_cls: 0.0452, s2.acc: 93.6667, s2.loss_bbox: 0.0406, s2.loss_mask: 0.0577, loss: 1.2559
+2025-07-02 13:15:56,799 - mmdet - INFO - Epoch [1][1050/7330]	lr: 1.000e-04, eta: 3 days, 10:03:31, time: 1.396, data_time: 0.024, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0416, loss_rpn_bbox: 0.0281, s0.loss_cls: 0.1938, s0.acc: 93.6470, s0.loss_bbox: 0.2426, s0.loss_mask: 0.2518, s1.loss_cls: 0.0887, s1.acc: 93.9740, s1.loss_bbox: 0.1067, s1.loss_mask: 0.1234, s2.loss_cls: 0.0418, s2.acc: 94.2758, s2.loss_bbox: 0.0401, s2.loss_mask: 0.0575, loss: 1.2167
+2025-07-02 13:16:44,870 - mmdet - INFO - Epoch [1][1100/7330]	lr: 1.000e-04, eta: 3 days, 9:30:13, time: 0.961, data_time: 0.023, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0392, loss_rpn_bbox: 0.0250, s0.loss_cls: 0.1934, s0.acc: 93.6704, s0.loss_bbox: 0.2384, s0.loss_mask: 0.2551, s1.loss_cls: 0.0900, s1.acc: 93.9307, s1.loss_bbox: 0.1048, s1.loss_mask: 0.1252, s2.loss_cls: 0.0430, s2.acc: 93.9533, s2.loss_bbox: 0.0400, s2.loss_mask: 0.0580, loss: 1.2126
+2025-07-02 13:17:33,680 - mmdet - INFO - Epoch [1][1150/7330]	lr: 1.000e-04, eta: 3 days, 9:02:33, time: 0.976, data_time: 0.025, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0386, loss_rpn_bbox: 0.0276, s0.loss_cls: 0.2014, s0.acc: 93.4297, s0.loss_bbox: 0.2549, s0.loss_mask: 0.2591, s1.loss_cls: 0.0934, s1.acc: 93.6268, s1.loss_bbox: 0.1132, s1.loss_mask: 0.1277, s2.loss_cls: 0.0443, s2.acc: 93.6808, s2.loss_bbox: 0.0428, s2.loss_mask: 0.0593, loss: 1.2629
+2025-07-02 13:18:22,632 - mmdet - INFO - Epoch [1][1200/7330]	lr: 1.000e-04, eta: 3 days, 8:37:38, time: 0.979, data_time: 0.025, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0415, loss_rpn_bbox: 0.0294, s0.loss_cls: 0.2003, s0.acc: 93.3601, s0.loss_bbox: 0.2513, s0.loss_mask: 0.2580, s1.loss_cls: 0.0944, s1.acc: 93.6558, s1.loss_bbox: 0.1106, s1.loss_mask: 0.1260, s2.loss_cls: 0.0446, s2.acc: 93.7693, s2.loss_bbox: 0.0420, s2.loss_mask: 0.0587, loss: 1.2572
+2025-07-02 13:19:10,593 - mmdet - INFO - Epoch [1][1250/7330]	lr: 1.000e-04, eta: 3 days, 8:11:09, time: 0.959, data_time: 0.025, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0386, loss_rpn_bbox: 0.0248, s0.loss_cls: 0.1936, s0.acc: 93.6946, s0.loss_bbox: 0.2370, s0.loss_mask: 0.2525, s1.loss_cls: 0.0893, s1.acc: 93.9175, s1.loss_bbox: 0.1055, s1.loss_mask: 0.1233, s2.loss_cls: 0.0428, s2.acc: 94.0574, s2.loss_bbox: 0.0398, s2.loss_mask: 0.0577, loss: 1.2051
+2025-07-02 13:19:59,326 - mmdet - INFO - Epoch [1][1300/7330]	lr: 1.000e-04, eta: 3 days, 7:49:18, time: 0.975, data_time: 0.024, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0396, loss_rpn_bbox: 0.0268, s0.loss_cls: 0.1953, s0.acc: 93.6196, s0.loss_bbox: 0.2401, s0.loss_mask: 0.2518, s1.loss_cls: 0.0925, s1.acc: 93.7325, s1.loss_bbox: 0.1074, s1.loss_mask: 0.1239, s2.loss_cls: 0.0440, s2.acc: 93.8915, s2.loss_bbox: 0.0405, s2.loss_mask: 0.0577, loss: 1.2199
+2025-07-02 13:20:48,539 - mmdet - INFO - Epoch [1][1350/7330]	lr: 1.000e-04, eta: 3 days, 7:30:33, time: 0.984, data_time: 0.026, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0412, loss_rpn_bbox: 0.0278, s0.loss_cls: 0.1981, s0.acc: 93.4673, s0.loss_bbox: 0.2485, s0.loss_mask: 0.2504, s1.loss_cls: 0.0920, s1.acc: 93.7890, s1.loss_bbox: 0.1105, s1.loss_mask: 0.1239, s2.loss_cls: 0.0436, s2.acc: 93.9530, s2.loss_bbox: 0.0422, s2.loss_mask: 0.0576, loss: 1.2362
+2025-07-02 13:21:36,394 - mmdet - INFO - Epoch [1][1400/7330]	lr: 1.000e-04, eta: 3 days, 7:08:51, time: 0.957, data_time: 0.020, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0399, loss_rpn_bbox: 0.0251, s0.loss_cls: 0.1843, s0.acc: 94.0496, s0.loss_bbox: 0.2276, s0.loss_mask: 0.2435, s1.loss_cls: 0.0848, s1.acc: 94.2850, s1.loss_bbox: 0.1019, s1.loss_mask: 0.1194, s2.loss_cls: 0.0405, s2.acc: 94.3298, s2.loss_bbox: 0.0396, s2.loss_mask: 0.0560, loss: 1.1633
+2025-07-02 13:22:32,901 - mmdet - INFO - Epoch [1][1450/7330]	lr: 1.000e-04, eta: 3 days, 7:14:35, time: 1.130, data_time: 0.023, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0403, loss_rpn_bbox: 0.0271, s0.loss_cls: 0.1933, s0.acc: 93.6177, s0.loss_bbox: 0.2457, s0.loss_mask: 0.2498, s1.loss_cls: 0.0887, s1.acc: 93.9880, s1.loss_bbox: 0.1084, s1.loss_mask: 0.1226, s2.loss_cls: 0.0421, s2.acc: 94.1195, s2.loss_bbox: 0.0415, s2.loss_mask: 0.0574, loss: 1.2174
+2025-07-02 13:23:29,117 - mmdet - INFO - Epoch [1][1500/7330]	lr: 1.000e-04, eta: 3 days, 7:19:10, time: 1.125, data_time: 0.026, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0411, loss_rpn_bbox: 0.0284, s0.loss_cls: 0.1935, s0.acc: 93.5239, s0.loss_bbox: 0.2469, s0.loss_mask: 0.2539, s1.loss_cls: 0.0898, s1.acc: 93.9006, s1.loss_bbox: 0.1092, s1.loss_mask: 0.1250, s2.loss_cls: 0.0429, s2.acc: 93.9969, s2.loss_bbox: 0.0411, s2.loss_mask: 0.0588, loss: 1.2310
+2025-07-02 13:24:17,805 - mmdet - INFO - Epoch [1][1550/7330]	lr: 1.000e-04, eta: 3 days, 7:02:07, time: 0.974, data_time: 0.029, memory: 21698, balance_loss: 0.0005, loss_rpn_cls: 0.0383, loss_rpn_bbox: 0.0265, s0.loss_cls: 0.1890, s0.acc: 93.5908, s0.loss_bbox: 0.2468, s0.loss_mask: 0.2506, s1.loss_cls: 0.0879, s1.acc: 93.8166, s1.loss_bbox: 0.1083, s1.loss_mask: 0.1220, s2.loss_cls: 0.0422, s2.acc: 93.9235, s2.loss_bbox: 0.0416, s2.loss_mask: 0.0572, loss: 1.2108
+2025-07-02 13:25:05,795 - mmdet - INFO - Epoch [1][1600/7330]	lr: 1.000e-04, eta: 3 days, 6:44:09, time: 0.960, data_time: 0.023, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0392, loss_rpn_bbox: 0.0276, s0.loss_cls: 0.1917, s0.acc: 93.5811, s0.loss_bbox: 0.2463, s0.loss_mask: 0.2533, s1.loss_cls: 0.0902, s1.acc: 93.7888, s1.loss_bbox: 0.1091, s1.loss_mask: 0.1244, s2.loss_cls: 0.0434, s2.acc: 93.8748, s2.loss_bbox: 0.0416, s2.loss_mask: 0.0584, loss: 1.2256
+2025-07-02 13:25:54,656 - mmdet - INFO - Epoch [1][1650/7330]	lr: 1.000e-04, eta: 3 days, 6:29:32, time: 0.977, data_time: 0.029, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0387, loss_rpn_bbox: 0.0269, s0.loss_cls: 0.1861, s0.acc: 93.8123, s0.loss_bbox: 0.2349, s0.loss_mask: 0.2469, s1.loss_cls: 0.0864, s1.acc: 94.1004, s1.loss_bbox: 0.1043, s1.loss_mask: 0.1205, s2.loss_cls: 0.0414, s2.acc: 94.1816, s2.loss_bbox: 0.0405, s2.loss_mask: 0.0566, loss: 1.1835
+2025-07-02 13:26:43,327 - mmdet - INFO - Epoch [1][1700/7330]	lr: 1.000e-04, eta: 3 days, 6:15:15, time: 0.973, data_time: 0.022, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0409, loss_rpn_bbox: 0.0269, s0.loss_cls: 0.1943, s0.acc: 93.5156, s0.loss_bbox: 0.2454, s0.loss_mask: 0.2489, s1.loss_cls: 0.0895, s1.acc: 93.8823, s1.loss_bbox: 0.1081, s1.loss_mask: 0.1221, s2.loss_cls: 0.0428, s2.acc: 93.9270, s2.loss_bbox: 0.0411, s2.loss_mask: 0.0570, loss: 1.2175
+2025-07-02 13:27:32,133 - mmdet - INFO - Epoch [1][1750/7330]	lr: 1.000e-04, eta: 3 days, 6:02:01, time: 0.976, data_time: 0.025, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0420, loss_rpn_bbox: 0.0272, s0.loss_cls: 0.2012, s0.acc: 93.4895, s0.loss_bbox: 0.2459, s0.loss_mask: 0.2510, s1.loss_cls: 0.0920, s1.acc: 93.7919, s1.loss_bbox: 0.1094, s1.loss_mask: 0.1227, s2.loss_cls: 0.0440, s2.acc: 93.9080, s2.loss_bbox: 0.0420, s2.loss_mask: 0.0571, loss: 1.2351
+2025-07-02 13:28:20,876 - mmdet - INFO - Epoch [1][1800/7330]	lr: 1.000e-04, eta: 3 days, 5:49:27, time: 0.975, data_time: 0.024, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0408, loss_rpn_bbox: 0.0290, s0.loss_cls: 0.2022, s0.acc: 93.5105, s0.loss_bbox: 0.2474, s0.loss_mask: 0.2519, s1.loss_cls: 0.0933, s1.acc: 93.8210, s1.loss_bbox: 0.1086, s1.loss_mask: 0.1231, s2.loss_cls: 0.0441, s2.acc: 93.9340, s2.loss_bbox: 0.0411, s2.loss_mask: 0.0573, loss: 1.2393
+2025-07-02 13:29:09,933 - mmdet - INFO - Epoch [1][1850/7330]	lr: 1.000e-04, eta: 3 days, 5:38:11, time: 0.981, data_time: 0.033, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0397, loss_rpn_bbox: 0.0273, s0.loss_cls: 0.2016, s0.acc: 93.2983, s0.loss_bbox: 0.2488, s0.loss_mask: 0.2486, s1.loss_cls: 0.0946, s1.acc: 93.4929, s1.loss_bbox: 0.1102, s1.loss_mask: 0.1219, s2.loss_cls: 0.0447, s2.acc: 93.6339, s2.loss_bbox: 0.0423, s2.loss_mask: 0.0570, loss: 1.2371
+2025-07-02 13:30:18,445 - mmdet - INFO - Epoch [1][1900/7330]	lr: 1.000e-04, eta: 3 days, 6:12:10, time: 1.370, data_time: 0.024, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0392, loss_rpn_bbox: 0.0275, s0.loss_cls: 0.1856, s0.acc: 93.8496, s0.loss_bbox: 0.2352, s0.loss_mask: 0.2528, s1.loss_cls: 0.0871, s1.acc: 94.1435, s1.loss_bbox: 0.1049, s1.loss_mask: 0.1240, s2.loss_cls: 0.0415, s2.acc: 94.2827, s2.loss_bbox: 0.0402, s2.loss_mask: 0.0582, loss: 1.1965
+2025-07-02 13:31:07,179 - mmdet - INFO - Epoch [1][1950/7330]	lr: 1.000e-04, eta: 3 days, 6:00:05, time: 0.975, data_time: 0.024, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0367, loss_rpn_bbox: 0.0277, s0.loss_cls: 0.1838, s0.acc: 93.8313, s0.loss_bbox: 0.2362, s0.loss_mask: 0.2407, s1.loss_cls: 0.0854, s1.acc: 94.1545, s1.loss_bbox: 0.1056, s1.loss_mask: 0.1187, s2.loss_cls: 0.0413, s2.acc: 94.1325, s2.loss_bbox: 0.0411, s2.loss_mask: 0.0558, loss: 1.1732
+2025-07-02 13:31:56,148 - mmdet - INFO - Exp name: cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_llama_moe.py
+2025-07-02 13:31:56,148 - mmdet - INFO - Epoch [1][2000/7330]	lr: 1.000e-04, eta: 3 days, 5:49:04, time: 0.979, data_time: 0.028, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0378, loss_rpn_bbox: 0.0264, s0.loss_cls: 0.1935, s0.acc: 93.6133, s0.loss_bbox: 0.2395, s0.loss_mask: 0.2474, s1.loss_cls: 0.0897, s1.acc: 93.8377, s1.loss_bbox: 0.1070, s1.loss_mask: 0.1216, s2.loss_cls: 0.0428, s2.acc: 93.9132, s2.loss_bbox: 0.0413, s2.loss_mask: 0.0570, loss: 1.2044
+2025-07-02 13:32:45,266 - mmdet - INFO - Epoch [1][2050/7330]	lr: 1.000e-04, eta: 3 days, 5:38:53, time: 0.982, data_time: 0.024, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0377, loss_rpn_bbox: 0.0269, s0.loss_cls: 0.1969, s0.acc: 93.4460, s0.loss_bbox: 0.2495, s0.loss_mask: 0.2523, s1.loss_cls: 0.0925, s1.acc: 93.6907, s1.loss_bbox: 0.1107, s1.loss_mask: 0.1231, s2.loss_cls: 0.0438, s2.acc: 93.7479, s2.loss_bbox: 0.0422, s2.loss_mask: 0.0575, loss: 1.2335
+2025-07-02 13:33:33,755 - mmdet - INFO - Epoch [1][2100/7330]	lr: 1.000e-04, eta: 3 days, 5:27:50, time: 0.970, data_time: 0.025, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0372, loss_rpn_bbox: 0.0257, s0.loss_cls: 0.1874, s0.acc: 93.7849, s0.loss_bbox: 0.2388, s0.loss_mask: 0.2433, s1.loss_cls: 0.0864, s1.acc: 94.0517, s1.loss_bbox: 0.1069, s1.loss_mask: 0.1204, s2.loss_cls: 0.0412, s2.acc: 94.1879, s2.loss_bbox: 0.0413, s2.loss_mask: 0.0560, loss: 1.1849
+2025-07-02 13:34:22,335 - mmdet - INFO - Epoch [1][2150/7330]	lr: 1.000e-04, eta: 3 days, 5:17:27, time: 0.972, data_time: 0.023, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0368, loss_rpn_bbox: 0.0264, s0.loss_cls: 0.1837, s0.acc: 93.8245, s0.loss_bbox: 0.2401, s0.loss_mask: 0.2482, s1.loss_cls: 0.0852, s1.acc: 94.1270, s1.loss_bbox: 0.1074, s1.loss_mask: 0.1223, s2.loss_cls: 0.0412, s2.acc: 94.1742, s2.loss_bbox: 0.0414, s2.loss_mask: 0.0573, loss: 1.1903
+2025-07-02 13:35:11,193 - mmdet - INFO - Epoch [1][2200/7330]	lr: 1.000e-04, eta: 3 days, 5:08:02, time: 0.977, data_time: 0.025, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0395, loss_rpn_bbox: 0.0271, s0.loss_cls: 0.1931, s0.acc: 93.6047, s0.loss_bbox: 0.2389, s0.loss_mask: 0.2445, s1.loss_cls: 0.0893, s1.acc: 93.9235, s1.loss_bbox: 0.1068, s1.loss_mask: 0.1207, s2.loss_cls: 0.0427, s2.acc: 94.0086, s2.loss_bbox: 0.0416, s2.loss_mask: 0.0568, loss: 1.2016
+2025-07-02 13:35:59,585 - mmdet - INFO - Epoch [1][2250/7330]	lr: 1.000e-04, eta: 3 days, 4:58:06, time: 0.968, data_time: 0.026, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0384, loss_rpn_bbox: 0.0270, s0.loss_cls: 0.1852, s0.acc: 93.7393, s0.loss_bbox: 0.2379, s0.loss_mask: 0.2417, s1.loss_cls: 0.0863, s1.acc: 94.0585, s1.loss_bbox: 0.1057, s1.loss_mask: 0.1191, s2.loss_cls: 0.0414, s2.acc: 94.1331, s2.loss_bbox: 0.0408, s2.loss_mask: 0.0554, loss: 1.1794
+2025-07-02 13:37:09,408 - mmdet - INFO - Epoch [1][2300/7330]	lr: 1.000e-04, eta: 3 days, 5:29:11, time: 1.396, data_time: 0.023, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0388, loss_rpn_bbox: 0.0276, s0.loss_cls: 0.2008, s0.acc: 93.3813, s0.loss_bbox: 0.2575, s0.loss_mask: 0.2496, s1.loss_cls: 0.0926, s1.acc: 93.7594, s1.loss_bbox: 0.1141, s1.loss_mask: 0.1221, s2.loss_cls: 0.0444, s2.acc: 93.7765, s2.loss_bbox: 0.0434, s2.loss_mask: 0.0575, loss: 1.2487
+2025-07-02 13:37:57,541 - mmdet - INFO - Epoch [1][2350/7330]	lr: 1.000e-04, eta: 3 days, 5:18:41, time: 0.963, data_time: 0.021, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0377, loss_rpn_bbox: 0.0265, s0.loss_cls: 0.1815, s0.acc: 93.9387, s0.loss_bbox: 0.2337, s0.loss_mask: 0.2443, s1.loss_cls: 0.0838, s1.acc: 94.2205, s1.loss_bbox: 0.1045, s1.loss_mask: 0.1194, s2.loss_cls: 0.0403, s2.acc: 94.3219, s2.loss_bbox: 0.0403, s2.loss_mask: 0.0559, loss: 1.1682
+2025-07-02 13:38:45,946 - mmdet - INFO - Epoch [1][2400/7330]	lr: 1.000e-04, eta: 3 days, 5:09:04, time: 0.968, data_time: 0.022, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0378, loss_rpn_bbox: 0.0270, s0.loss_cls: 0.1923, s0.acc: 93.5818, s0.loss_bbox: 0.2420, s0.loss_mask: 0.2498, s1.loss_cls: 0.0896, s1.acc: 93.8602, s1.loss_bbox: 0.1064, s1.loss_mask: 0.1212, s2.loss_cls: 0.0432, s2.acc: 93.9519, s2.loss_bbox: 0.0406, s2.loss_mask: 0.0563, loss: 1.2066
+2025-07-02 13:39:34,605 - mmdet - INFO - Epoch [1][2450/7330]	lr: 1.000e-04, eta: 3 days, 5:00:13, time: 0.973, data_time: 0.027, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0450, loss_rpn_bbox: 0.0285, s0.loss_cls: 0.1927, s0.acc: 93.5000, s0.loss_bbox: 0.2495, s0.loss_mask: 0.2503, s1.loss_cls: 0.0906, s1.acc: 93.7021, s1.loss_bbox: 0.1104, s1.loss_mask: 0.1232, s2.loss_cls: 0.0435, s2.acc: 93.7930, s2.loss_bbox: 0.0423, s2.loss_mask: 0.0570, loss: 1.2335
+2025-07-02 13:40:23,098 - mmdet - INFO - Epoch [1][2500/7330]	lr: 1.000e-04, eta: 3 days, 4:51:30, time: 0.970, data_time: 0.020, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0364, loss_rpn_bbox: 0.0254, s0.loss_cls: 0.1848, s0.acc: 93.9280, s0.loss_bbox: 0.2358, s0.loss_mask: 0.2378, s1.loss_cls: 0.0860, s1.acc: 94.1514, s1.loss_bbox: 0.1051, s1.loss_mask: 0.1179, s2.loss_cls: 0.0407, s2.acc: 94.3786, s2.loss_bbox: 0.0412, s2.loss_mask: 0.0553, loss: 1.1667
+2025-07-02 13:41:11,271 - mmdet - INFO - Epoch [1][2550/7330]	lr: 1.000e-04, eta: 3 days, 4:42:29, time: 0.963, data_time: 0.022, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0392, loss_rpn_bbox: 0.0256, s0.loss_cls: 0.1941, s0.acc: 93.5264, s0.loss_bbox: 0.2458, s0.loss_mask: 0.2535, s1.loss_cls: 0.0897, s1.acc: 93.7970, s1.loss_bbox: 0.1090, s1.loss_mask: 0.1241, s2.loss_cls: 0.0431, s2.acc: 93.8811, s2.loss_bbox: 0.0421, s2.loss_mask: 0.0580, loss: 1.2245
+2025-07-02 13:41:59,880 - mmdet - INFO - Epoch [1][2600/7330]	lr: 1.000e-04, eta: 3 days, 4:34:31, time: 0.972, data_time: 0.025, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0404, loss_rpn_bbox: 0.0265, s0.loss_cls: 0.1907, s0.acc: 93.7168, s0.loss_bbox: 0.2395, s0.loss_mask: 0.2395, s1.loss_cls: 0.0884, s1.acc: 93.9960, s1.loss_bbox: 0.1065, s1.loss_mask: 0.1183, s2.loss_cls: 0.0425, s2.acc: 94.0753, s2.loss_bbox: 0.0414, s2.loss_mask: 0.0554, loss: 1.1894
+2025-07-02 13:42:48,779 - mmdet - INFO - Epoch [1][2650/7330]	lr: 1.000e-04, eta: 3 days, 4:27:19, time: 0.978, data_time: 0.025, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0388, loss_rpn_bbox: 0.0254, s0.loss_cls: 0.1873, s0.acc: 93.7534, s0.loss_bbox: 0.2454, s0.loss_mask: 0.2455, s1.loss_cls: 0.0874, s1.acc: 94.0282, s1.loss_bbox: 0.1092, s1.loss_mask: 0.1217, s2.loss_cls: 0.0420, s2.acc: 94.0656, s2.loss_bbox: 0.0424, s2.loss_mask: 0.0570, loss: 1.2024
+2025-07-02 13:43:54,106 - mmdet - INFO - Epoch [1][2700/7330]	lr: 1.000e-04, eta: 3 days, 4:42:23, time: 1.251, data_time: 0.027, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0400, loss_rpn_bbox: 0.0271, s0.loss_cls: 0.1872, s0.acc: 93.6235, s0.loss_bbox: 0.2463, s0.loss_mask: 0.2484, s1.loss_cls: 0.0881, s1.acc: 93.8361, s1.loss_bbox: 0.1105, s1.loss_mask: 0.1221, s2.loss_cls: 0.0428, s2.acc: 93.8556, s2.loss_bbox: 0.0428, s2.loss_mask: 0.0570, loss: 1.2126
+2025-07-02 13:44:42,314 - mmdet - INFO - Epoch [1][2750/7330]	lr: 1.000e-04, eta: 3 days, 4:38:29, time: 1.019, data_time: 0.080, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0369, loss_rpn_bbox: 0.0272, s0.loss_cls: 0.1828, s0.acc: 93.8555, s0.loss_bbox: 0.2379, s0.loss_mask: 0.2413, s1.loss_cls: 0.0843, s1.acc: 94.2069, s1.loss_bbox: 0.1055, s1.loss_mask: 0.1199, s2.loss_cls: 0.0407, s2.acc: 94.3324, s2.loss_bbox: 0.0408, s2.loss_mask: 0.0569, loss: 1.1746
+2025-07-02 13:45:30,488 - mmdet - INFO - Epoch [1][2800/7330]	lr: 1.000e-04, eta: 3 days, 4:30:22, time: 0.963, data_time: 0.027, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0361, loss_rpn_bbox: 0.0257, s0.loss_cls: 0.1835, s0.acc: 93.8899, s0.loss_bbox: 0.2321, s0.loss_mask: 0.2401, s1.loss_cls: 0.0860, s1.acc: 94.0564, s1.loss_bbox: 0.1047, s1.loss_mask: 0.1190, s2.loss_cls: 0.0412, s2.acc: 94.1673, s2.loss_bbox: 0.0404, s2.loss_mask: 0.0554, loss: 1.1647
+2025-07-02 13:46:19,162 - mmdet - INFO - Epoch [1][2850/7330]	lr: 1.000e-04, eta: 3 days, 4:23:16, time: 0.973, data_time: 0.028, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0373, loss_rpn_bbox: 0.0268, s0.loss_cls: 0.1852, s0.acc: 93.8083, s0.loss_bbox: 0.2435, s0.loss_mask: 0.2463, s1.loss_cls: 0.0868, s1.acc: 93.9897, s1.loss_bbox: 0.1080, s1.loss_mask: 0.1196, s2.loss_cls: 0.0423, s2.acc: 93.9719, s2.loss_bbox: 0.0417, s2.loss_mask: 0.0560, loss: 1.1939
+2025-07-02 13:47:07,365 - mmdet - INFO - Epoch [1][2900/7330]	lr: 1.000e-04, eta: 3 days, 4:15:42, time: 0.964, data_time: 0.028, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0329, loss_rpn_bbox: 0.0254, s0.loss_cls: 0.1823, s0.acc: 93.8904, s0.loss_bbox: 0.2392, s0.loss_mask: 0.2470, s1.loss_cls: 0.0853, s1.acc: 94.1023, s1.loss_bbox: 0.1073, s1.loss_mask: 0.1210, s2.loss_cls: 0.0408, s2.acc: 94.1597, s2.loss_bbox: 0.0412, s2.loss_mask: 0.0564, loss: 1.1793
+2025-07-02 13:47:56,072 - mmdet - INFO - Epoch [1][2950/7330]	lr: 1.000e-04, eta: 3 days, 4:09:02, time: 0.974, data_time: 0.021, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0341, loss_rpn_bbox: 0.0252, s0.loss_cls: 0.1809, s0.acc: 93.9258, s0.loss_bbox: 0.2371, s0.loss_mask: 0.2377, s1.loss_cls: 0.0854, s1.acc: 94.0653, s1.loss_bbox: 0.1082, s1.loss_mask: 0.1178, s2.loss_cls: 0.0412, s2.acc: 94.1025, s2.loss_bbox: 0.0420, s2.loss_mask: 0.0550, loss: 1.1650
+2025-07-02 13:48:44,210 - mmdet - INFO - Exp name: cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_llama_moe.py
+2025-07-02 13:48:44,211 - mmdet - INFO - Epoch [1][3000/7330]	lr: 1.000e-04, eta: 3 days, 4:01:50, time: 0.963, data_time: 0.023, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0405, loss_rpn_bbox: 0.0286, s0.loss_cls: 0.1843, s0.acc: 93.7048, s0.loss_bbox: 0.2456, s0.loss_mask: 0.2489, s1.loss_cls: 0.0849, s1.acc: 94.0368, s1.loss_bbox: 0.1077, s1.loss_mask: 0.1223, s2.loss_cls: 0.0408, s2.acc: 94.1490, s2.loss_bbox: 0.0416, s2.loss_mask: 0.0568, loss: 1.2024
+2025-07-02 13:49:32,724 - mmdet - INFO - Epoch [1][3050/7330]	lr: 1.000e-04, eta: 3 days, 3:55:20, time: 0.970, data_time: 0.028, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0405, loss_rpn_bbox: 0.0278, s0.loss_cls: 0.1877, s0.acc: 93.6897, s0.loss_bbox: 0.2453, s0.loss_mask: 0.2545, s1.loss_cls: 0.0882, s1.acc: 93.8731, s1.loss_bbox: 0.1099, s1.loss_mask: 0.1257, s2.loss_cls: 0.0416, s2.acc: 94.0650, s2.loss_bbox: 0.0418, s2.loss_mask: 0.0591, loss: 1.2225
+2025-07-02 13:50:21,384 - mmdet - INFO - Epoch [1][3100/7330]	lr: 1.000e-04, eta: 3 days, 3:49:11, time: 0.973, data_time: 0.022, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0390, loss_rpn_bbox: 0.0262, s0.loss_cls: 0.1893, s0.acc: 93.6362, s0.loss_bbox: 0.2427, s0.loss_mask: 0.2475, s1.loss_cls: 0.0886, s1.acc: 93.8217, s1.loss_bbox: 0.1074, s1.loss_mask: 0.1223, s2.loss_cls: 0.0421, s2.acc: 93.9657, s2.loss_bbox: 0.0413, s2.loss_mask: 0.0575, loss: 1.2041
+2025-07-02 13:51:22,019 - mmdet - INFO - Epoch [1][3150/7330]	lr: 1.000e-04, eta: 3 days, 3:59:46, time: 1.213, data_time: 0.022, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0337, loss_rpn_bbox: 0.0258, s0.loss_cls: 0.1820, s0.acc: 93.9199, s0.loss_bbox: 0.2352, s0.loss_mask: 0.2402, s1.loss_cls: 0.0854, s1.acc: 94.1666, s1.loss_bbox: 0.1054, s1.loss_mask: 0.1190, s2.loss_cls: 0.0408, s2.acc: 94.2147, s2.loss_bbox: 0.0413, s2.loss_mask: 0.0561, loss: 1.1652
+2025-07-02 13:52:10,664 - mmdet - INFO - Epoch [1][3200/7330]	lr: 1.000e-04, eta: 3 days, 3:53:44, time: 0.973, data_time: 0.026, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0373, loss_rpn_bbox: 0.0270, s0.loss_cls: 0.1929, s0.acc: 93.5549, s0.loss_bbox: 0.2423, s0.loss_mask: 0.2405, s1.loss_cls: 0.0904, s1.acc: 93.7999, s1.loss_bbox: 0.1069, s1.loss_mask: 0.1180, s2.loss_cls: 0.0426, s2.acc: 93.9240, s2.loss_bbox: 0.0415, s2.loss_mask: 0.0552, loss: 1.1951
+2025-07-02 13:52:59,547 - mmdet - INFO - Epoch [1][3250/7330]	lr: 1.000e-04, eta: 3 days, 3:48:09, time: 0.978, data_time: 0.022, memory: 21698, balance_loss: 0.0003, loss_rpn_cls: 0.0386, loss_rpn_bbox: 0.0263, s0.loss_cls: 0.1925, s0.acc: 93.5605, s0.loss_bbox: 0.2469, s0.loss_mask: 0.2489, s1.loss_cls: 0.0899, s1.acc: 93.8169, s1.loss_bbox: 0.1119, s1.loss_mask: 0.1241, s2.loss_cls: 0.0432, s2.acc: 93.8767, s2.loss_bbox: 0.0438, s2.loss_mask: 0.0589, loss: 1.2253
+2025-07-02 13:53:47,857 - mmdet - INFO - Epoch [1][3300/7330]	lr: 1.000e-04, eta: 3 days, 3:41:58, time: 0.966, data_time: 0.023, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0381, loss_rpn_bbox: 0.0278, s0.loss_cls: 0.1897, s0.acc: 93.5981, s0.loss_bbox: 0.2448, s0.loss_mask: 0.2453, s1.loss_cls: 0.0888, s1.acc: 93.8614, s1.loss_bbox: 0.1093, s1.loss_mask: 0.1204, s2.loss_cls: 0.0431, s2.acc: 93.8512, s2.loss_bbox: 0.0428, s2.loss_mask: 0.0569, loss: 1.2072
+2025-07-02 13:54:36,544 - mmdet - INFO - Epoch [1][3350/7330]	lr: 1.000e-04, eta: 3 days, 3:36:25, time: 0.974, data_time: 0.024, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0371, loss_rpn_bbox: 0.0257, s0.loss_cls: 0.1867, s0.acc: 93.8193, s0.loss_bbox: 0.2387, s0.loss_mask: 0.2463, s1.loss_cls: 0.0882, s1.acc: 94.0322, s1.loss_bbox: 0.1077, s1.loss_mask: 0.1224, s2.loss_cls: 0.0428, s2.acc: 94.0282, s2.loss_bbox: 0.0420, s2.loss_mask: 0.0572, loss: 1.1951
+2025-07-02 13:55:25,354 - mmdet - INFO - Epoch [1][3400/7330]	lr: 1.000e-04, eta: 3 days, 3:31:10, time: 0.976, data_time: 0.027, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0378, loss_rpn_bbox: 0.0276, s0.loss_cls: 0.1858, s0.acc: 93.6411, s0.loss_bbox: 0.2447, s0.loss_mask: 0.2451, s1.loss_cls: 0.0868, s1.acc: 93.8109, s1.loss_bbox: 0.1097, s1.loss_mask: 0.1216, s2.loss_cls: 0.0416, s2.acc: 93.9548, s2.loss_bbox: 0.0425, s2.loss_mask: 0.0571, loss: 1.2006
+2025-07-02 13:56:13,819 - mmdet - INFO - Epoch [1][3450/7330]	lr: 1.000e-04, eta: 3 days, 3:25:37, time: 0.969, data_time: 0.022, memory: 21698, balance_loss: 0.0003, loss_rpn_cls: 0.0383, loss_rpn_bbox: 0.0281, s0.loss_cls: 0.1877, s0.acc: 93.7153, s0.loss_bbox: 0.2405, s0.loss_mask: 0.2454, s1.loss_cls: 0.0871, s1.acc: 94.0572, s1.loss_bbox: 0.1077, s1.loss_mask: 0.1212, s2.loss_cls: 0.0423, s2.acc: 94.0259, s2.loss_bbox: 0.0419, s2.loss_mask: 0.0568, loss: 1.1976
+2025-07-02 13:57:02,430 - mmdet - INFO - Epoch [1][3500/7330]	lr: 1.000e-04, eta: 3 days, 3:20:22, time: 0.972, data_time: 0.025, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0364, loss_rpn_bbox: 0.0269, s0.loss_cls: 0.1867, s0.acc: 93.8547, s0.loss_bbox: 0.2438, s0.loss_mask: 0.2456, s1.loss_cls: 0.0869, s1.acc: 94.1400, s1.loss_bbox: 0.1080, s1.loss_mask: 0.1212, s2.loss_cls: 0.0416, s2.acc: 94.1682, s2.loss_bbox: 0.0410, s2.loss_mask: 0.0565, loss: 1.1949
+2025-07-02 13:58:12,861 - mmdet - INFO - Epoch [1][3550/7330]	lr: 1.000e-04, eta: 3 days, 3:41:57, time: 1.409, data_time: 0.026, memory: 21698, balance_loss: 0.0003, loss_rpn_cls: 0.0355, loss_rpn_bbox: 0.0243, s0.loss_cls: 0.1857, s0.acc: 93.8430, s0.loss_bbox: 0.2425, s0.loss_mask: 0.2442, s1.loss_cls: 0.0860, s1.acc: 94.1098, s1.loss_bbox: 0.1083, s1.loss_mask: 0.1206, s2.loss_cls: 0.0419, s2.acc: 94.0926, s2.loss_bbox: 0.0422, s2.loss_mask: 0.0570, loss: 1.1885
+2025-07-02 13:59:01,271 - mmdet - INFO - Epoch [1][3600/7330]	lr: 1.000e-04, eta: 3 days, 3:36:20, time: 0.968, data_time: 0.027, memory: 21698, balance_loss: 0.0003, loss_rpn_cls: 0.0355, loss_rpn_bbox: 0.0266, s0.loss_cls: 0.1838, s0.acc: 93.7742, s0.loss_bbox: 0.2424, s0.loss_mask: 0.2470, s1.loss_cls: 0.0856, s1.acc: 94.0677, s1.loss_bbox: 0.1087, s1.loss_mask: 0.1223, s2.loss_cls: 0.0415, s2.acc: 94.1235, s2.loss_bbox: 0.0425, s2.loss_mask: 0.0573, loss: 1.1934
+2025-07-02 13:59:49,993 - mmdet - INFO - Epoch [1][3650/7330]	lr: 1.000e-04, eta: 3 days, 3:31:12, time: 0.974, data_time: 0.023, memory: 21698, balance_loss: 0.0003, loss_rpn_cls: 0.0393, loss_rpn_bbox: 0.0263, s0.loss_cls: 0.1887, s0.acc: 93.6582, s0.loss_bbox: 0.2443, s0.loss_mask: 0.2446, s1.loss_cls: 0.0888, s1.acc: 93.8015, s1.loss_bbox: 0.1078, s1.loss_mask: 0.1202, s2.loss_cls: 0.0425, s2.acc: 93.9605, s2.loss_bbox: 0.0413, s2.loss_mask: 0.0561, loss: 1.2001
+2025-07-02 14:00:38,867 - mmdet - INFO - Epoch [1][3700/7330]	lr: 1.000e-04, eta: 3 days, 3:26:25, time: 0.978, data_time: 0.023, memory: 21698, balance_loss: 0.0003, loss_rpn_cls: 0.0376, loss_rpn_bbox: 0.0284, s0.loss_cls: 0.1817, s0.acc: 93.8740, s0.loss_bbox: 0.2434, s0.loss_mask: 0.2365, s1.loss_cls: 0.0839, s1.acc: 94.1783, s1.loss_bbox: 0.1086, s1.loss_mask: 0.1173, s2.loss_cls: 0.0401, s2.acc: 94.2137, s2.loss_bbox: 0.0420, s2.loss_mask: 0.0549, loss: 1.1747
+2025-07-02 14:01:27,482 - mmdet - INFO - Epoch [1][3750/7330]	lr: 1.000e-04, eta: 3 days, 3:21:25, time: 0.972, data_time: 0.022, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0407, loss_rpn_bbox: 0.0282, s0.loss_cls: 0.1954, s0.acc: 93.4277, s0.loss_bbox: 0.2569, s0.loss_mask: 0.2490, s1.loss_cls: 0.0909, s1.acc: 93.7575, s1.loss_bbox: 0.1118, s1.loss_mask: 0.1224, s2.loss_cls: 0.0440, s2.acc: 93.7369, s2.loss_bbox: 0.0434, s2.loss_mask: 0.0569, loss: 1.2399
+2025-07-02 14:02:16,051 - mmdet - INFO - Epoch [1][3800/7330]	lr: 1.000e-04, eta: 3 days, 3:16:27, time: 0.971, data_time: 0.025, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0383, loss_rpn_bbox: 0.0263, s0.loss_cls: 0.1908, s0.acc: 93.6335, s0.loss_bbox: 0.2404, s0.loss_mask: 0.2441, s1.loss_cls: 0.0895, s1.acc: 93.9461, s1.loss_bbox: 0.1061, s1.loss_mask: 0.1195, s2.loss_cls: 0.0424, s2.acc: 94.0255, s2.loss_bbox: 0.0408, s2.loss_mask: 0.0560, loss: 1.1946
+2025-07-02 14:03:05,063 - mmdet - INFO - Epoch [1][3850/7330]	lr: 1.000e-04, eta: 3 days, 3:12:07, time: 0.980, data_time: 0.026, memory: 21698, balance_loss: 0.0004, loss_rpn_cls: 0.0388, loss_rpn_bbox: 0.0284, s0.loss_cls: 0.1896, s0.acc: 93.5769, s0.loss_bbox: 0.2487, s0.loss_mask: 0.2500, s1.loss_cls: 0.0897, s1.acc: 93.7279, s1.loss_bbox: 0.1108, s1.loss_mask: 0.1225, s2.loss_cls: 0.0429, s2.acc: 93.8040, s2.loss_bbox: 0.0422, s2.loss_mask: 0.0573, loss: 1.2213
+2025-07-02 14:03:53,578 - mmdet - INFO - Epoch [1][3900/7330]	lr: 1.000e-04, eta: 3 days, 3:07:19, time: 0.970, data_time: 0.023, memory: 21698, balance_loss: 0.0003, loss_rpn_cls: 0.0363, loss_rpn_bbox: 0.0260, s0.loss_cls: 0.1896, s0.acc: 93.6399, s0.loss_bbox: 0.2472, s0.loss_mask: 0.2460, s1.loss_cls: 0.0871, s1.acc: 93.8847, s1.loss_bbox: 0.1105, s1.loss_mask: 0.1210, s2.loss_cls: 0.0422, s2.acc: 93.8701, s2.loss_bbox: 0.0426, s2.loss_mask: 0.0563, loss: 1.2051

mmdet/results/train/mona_llama_moe_5_8_1e-4/20250702_125523.log.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cade930c7d3e39be1fc2ffc7f13ecd49a45e41b0ab4a3fa5b44af4d09783e68a
+size 57221

mmdet/results/train/mona_llama_moe_5_8_1e-4/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_llama_moe.py ADDED Viewed

	@@ -0,0 +1,438 @@

+model = dict(
+    type='CascadeRCNN_loss',
+    pretrained=None,
+    backbone=dict(
+        type='SwinTransformer_mona_llama_moe',
+        embed_dim=128,
+        depths=[2, 2, 18, 2],
+        num_heads=[4, 8, 16, 32],
+        window_size=7,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.3,
+        ape=False,
+        patch_norm=True,
+        out_indices=(0, 1, 2, 3),
+        use_checkpoint=False),
+    neck=dict(
+        type='FPN',
+        in_channels=[128, 256, 512, 1024],
+        out_channels=256,
+        num_outs=5),
+    rpn_head=dict(
+        type='RPNHead',
+        in_channels=256,
+        feat_channels=256,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='CascadeRoIHead',
+        num_stages=3,
+        stage_loss_weights=[1, 0.5, 0.25],
+        bbox_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=[
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.1, 0.1, 0.2, 0.2]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.05, 0.05, 0.1, 0.1]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.033, 0.033, 0.067, 0.067]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0))
+        ],
+        mask_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=14, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        mask_head=dict(
+            type='FCNMaskHead',
+            num_convs=4,
+            in_channels=256,
+            conv_out_channels=256,
+            num_classes=80,
+            loss_mask=dict(
+                type='CrossEntropyLoss', use_mask=True, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_across_levels=False,
+            nms_pre=2000,
+            nms_post=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=[
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.5,
+                    neg_iou_thr=0.5,
+                    min_pos_iou=0.5,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.6,
+                    neg_iou_thr=0.6,
+                    min_pos_iou=0.6,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.7,
+                    neg_iou_thr=0.7,
+                    min_pos_iou=0.7,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False)
+        ]),
+    test_cfg=dict(
+        rpn=dict(
+            nms_across_levels=False,
+            nms_pre=1000,
+            nms_post=1000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.5),
+            max_per_img=100,
+            mask_thr_binary=0.5)))
+dataset_type = 'CocoDataset'
+data_root = '/root/autodl-tmp/COCO2017/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(
+        type='AutoAugment',
+        policies=[[{
+            'type':
+            'Resize',
+            'img_scale': [(480, 1333), (512, 1333), (544, 1333), (576, 1333),
+                          (608, 1333), (640, 1333), (672, 1333), (704, 1333),
+                          (736, 1333), (768, 1333), (800, 1333)],
+            'multiscale_mode':
+            'value',
+            'keep_ratio':
+            True
+        }],
+                  [{
+                      'type': 'Resize',
+                      'img_scale': [(400, 1333), (500, 1333), (600, 1333)],
+                      'multiscale_mode': 'value',
+                      'keep_ratio': True
+                  }, {
+                      'type': 'RandomCrop',
+                      'crop_type': 'absolute_range',
+                      'crop_size': (384, 600),
+                      'allow_negative_crop': True
+                  }, {
+                      'type':
+                      'Resize',
+                      'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                    (576, 1333), (608, 1333), (640, 1333),
+                                    (672, 1333), (704, 1333), (736, 1333),
+                                    (768, 1333), (800, 1333)],
+                      'multiscale_mode':
+                      'value',
+                      'override':
+                      True,
+                      'keep_ratio':
+                      True
+                  }]]),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1333, 800),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=2,
+    workers_per_gpu=4,
+    train=dict(
+        type='CocoDataset',
+        ann_file=
+        '/root/autodl-tmp/COCO2017/annotations/instances_train2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/train2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+            dict(type='RandomFlip', flip_ratio=0.5),
+            dict(
+                type='AutoAugment',
+                policies=[[{
+                    'type':
+                    'Resize',
+                    'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                  (576, 1333), (608, 1333), (640, 1333),
+                                  (672, 1333), (704, 1333), (736, 1333),
+                                  (768, 1333), (800, 1333)],
+                    'multiscale_mode':
+                    'value',
+                    'keep_ratio':
+                    True
+                }],
+                          [{
+                              'type': 'Resize',
+                              'img_scale': [(400, 1333), (500, 1333),
+                                            (600, 1333)],
+                              'multiscale_mode': 'value',
+                              'keep_ratio': True
+                          }, {
+                              'type': 'RandomCrop',
+                              'crop_type': 'absolute_range',
+                              'crop_size': (384, 600),
+                              'allow_negative_crop': True
+                          }, {
+                              'type':
+                              'Resize',
+                              'img_scale': [(480, 1333), (512, 1333),
+                                            (544, 1333), (576, 1333),
+                                            (608, 1333), (640, 1333),
+                                            (672, 1333), (704, 1333),
+                                            (736, 1333), (768, 1333),
+                                            (800, 1333)],
+                              'multiscale_mode':
+                              'value',
+                              'override':
+                              True,
+                              'keep_ratio':
+                              True
+                          }]]),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(
+                type='Collect',
+                keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+        ]),
+    val=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+evaluation = dict(metric=['bbox', 'segm'], gpu_collect=True)
+optimizer = dict(
+    type='AdamW',
+    lr=0.0001,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            absolute_pos_embed=dict(decay_mult=0.0),
+            relative_position_bias_table=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0))))
+optimizer_config = dict(
+    grad_clip=None,
+    type='DistOptimizerHook',
+    update_interval=1,
+    coalesce=True,
+    bucket_size_mb=-1,
+    use_fp16=True)
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.001,
+    step=[27, 33])
+runner = dict(type='EpochBasedRunnerAmp', max_epochs=36)
+checkpoint_config = dict(interval=1)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+custom_hooks = [dict(type='NumClassCheckHook')]
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = '/root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/pretrained_model/swin_base_mona_llama_moe_8.pth'
+resume_from = None
+workflow = [('train', 1)]
+fp16 = None
+work_dir = './results/train/mona_llama_moe_5_8_1e-4/'
+gpu_ids = range(0, 8)

mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/20250620_180057.log ADDED Viewed

The diff for this file is too large to render. See raw diff

mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/20250620_180057.log.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d92d5ef30b6713785effc9b0d48813c1994270b57e37fdb7d900dc3d6215adf0
+size 186899

mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_llama_moe_distill.py ADDED Viewed

	@@ -0,0 +1,438 @@

+model = dict(
+    type='CascadeRCNN_loss',
+    pretrained=None,
+    backbone=dict(
+        type='SwinTransformer_mona_llama_moe_distill',
+        embed_dim=128,
+        depths=[2, 2, 18, 2],
+        num_heads=[4, 8, 16, 32],
+        window_size=7,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.3,
+        ape=False,
+        patch_norm=True,
+        out_indices=(0, 1, 2, 3),
+        use_checkpoint=False),
+    neck=dict(
+        type='FPN',
+        in_channels=[128, 256, 512, 1024],
+        out_channels=256,
+        num_outs=5),
+    rpn_head=dict(
+        type='RPNHead',
+        in_channels=256,
+        feat_channels=256,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='CascadeRoIHead',
+        num_stages=3,
+        stage_loss_weights=[1, 0.5, 0.25],
+        bbox_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=[
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.1, 0.1, 0.2, 0.2]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.05, 0.05, 0.1, 0.1]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.033, 0.033, 0.067, 0.067]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0))
+        ],
+        mask_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=14, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        mask_head=dict(
+            type='FCNMaskHead',
+            num_convs=4,
+            in_channels=256,
+            conv_out_channels=256,
+            num_classes=80,
+            loss_mask=dict(
+                type='CrossEntropyLoss', use_mask=True, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_across_levels=False,
+            nms_pre=2000,
+            nms_post=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=[
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.5,
+                    neg_iou_thr=0.5,
+                    min_pos_iou=0.5,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.6,
+                    neg_iou_thr=0.6,
+                    min_pos_iou=0.6,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.7,
+                    neg_iou_thr=0.7,
+                    min_pos_iou=0.7,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False)
+        ]),
+    test_cfg=dict(
+        rpn=dict(
+            nms_across_levels=False,
+            nms_pre=1000,
+            nms_post=1000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.5),
+            max_per_img=100,
+            mask_thr_binary=0.5)))
+dataset_type = 'CocoDataset'
+data_root = '/root/autodl-tmp/COCO2017/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(
+        type='AutoAugment',
+        policies=[[{
+            'type':
+            'Resize',
+            'img_scale': [(480, 1333), (512, 1333), (544, 1333), (576, 1333),
+                          (608, 1333), (640, 1333), (672, 1333), (704, 1333),
+                          (736, 1333), (768, 1333), (800, 1333)],
+            'multiscale_mode':
+            'value',
+            'keep_ratio':
+            True
+        }],
+                  [{
+                      'type': 'Resize',
+                      'img_scale': [(400, 1333), (500, 1333), (600, 1333)],
+                      'multiscale_mode': 'value',
+                      'keep_ratio': True
+                  }, {
+                      'type': 'RandomCrop',
+                      'crop_type': 'absolute_range',
+                      'crop_size': (384, 600),
+                      'allow_negative_crop': True
+                  }, {
+                      'type':
+                      'Resize',
+                      'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                    (576, 1333), (608, 1333), (640, 1333),
+                                    (672, 1333), (704, 1333), (736, 1333),
+                                    (768, 1333), (800, 1333)],
+                      'multiscale_mode':
+                      'value',
+                      'override':
+                      True,
+                      'keep_ratio':
+                      True
+                  }]]),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1333, 800),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=1,
+    workers_per_gpu=4,
+    train=dict(
+        type='CocoDataset',
+        ann_file=
+        '/root/autodl-tmp/COCO2017/annotations/instances_train2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/train2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+            dict(type='RandomFlip', flip_ratio=0.5),
+            dict(
+                type='AutoAugment',
+                policies=[[{
+                    'type':
+                    'Resize',
+                    'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                  (576, 1333), (608, 1333), (640, 1333),
+                                  (672, 1333), (704, 1333), (736, 1333),
+                                  (768, 1333), (800, 1333)],
+                    'multiscale_mode':
+                    'value',
+                    'keep_ratio':
+                    True
+                }],
+                          [{
+                              'type': 'Resize',
+                              'img_scale': [(400, 1333), (500, 1333),
+                                            (600, 1333)],
+                              'multiscale_mode': 'value',
+                              'keep_ratio': True
+                          }, {
+                              'type': 'RandomCrop',
+                              'crop_type': 'absolute_range',
+                              'crop_size': (384, 600),
+                              'allow_negative_crop': True
+                          }, {
+                              'type':
+                              'Resize',
+                              'img_scale': [(480, 1333), (512, 1333),
+                                            (544, 1333), (576, 1333),
+                                            (608, 1333), (640, 1333),
+                                            (672, 1333), (704, 1333),
+                                            (736, 1333), (768, 1333),
+                                            (800, 1333)],
+                              'multiscale_mode':
+                              'value',
+                              'override':
+                              True,
+                              'keep_ratio':
+                              True
+                          }]]),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(
+                type='Collect',
+                keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+        ]),
+    val=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+evaluation = dict(metric=['bbox', 'segm'], gpu_collect=True)
+optimizer = dict(
+    type='AdamW',
+    lr=5e-05,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            absolute_pos_embed=dict(decay_mult=0.0),
+            relative_position_bias_table=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0))))
+optimizer_config = dict(
+    grad_clip=None,
+    type='DistOptimizerHook',
+    update_interval=1,
+    coalesce=True,
+    bucket_size_mb=-1,
+    use_fp16=True)
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.001,
+    step=[27, 33])
+runner = dict(type='EpochBasedRunnerAmp', max_epochs=36)
+checkpoint_config = dict(interval=1)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+custom_hooks = [dict(type='NumClassCheckHook')]
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = '/root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/pretrained_model/swin_base_mona_llama_moe_distill_16.pth'
+resume_from = None
+workflow = [('train', 1)]
+fp16 = None
+work_dir = './results/train/mona_llama_moe_distill_4_16_1e-4/'
+gpu_ids = range(0, 8)

mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/epoch_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc2cb92fdcb1e2431fdb251f9f7ddecc2cf3d661fd9f5a453f4adad43e31f271
+size 2075183216

mmdet/results/train/mona_llama_moe_distill_4_16_1e-4/latest.pth ADDED Viewed

	@@ -0,0 +1 @@


1	+ epoch_1.pth

mmdet/results/train/mona_moe_4_16_1e-4_balance/20250619_111115.log ADDED Viewed

The diff for this file is too large to render. See raw diff

mmdet/results/train/mona_moe_4_16_1e-4_balance/20250619_111115.log.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fabb30cd2bc8e09aa912a92d4d408f467bc0ca5a516da8a4698ce6a1ccc68675
+size 160512

mmdet/results/train/mona_moe_4_16_1e-4_balance/cascade_mask_swin_base_3x_coco_sample_1_bs_16_mona_moe.py ADDED Viewed

	@@ -0,0 +1,438 @@

+model = dict(
+    type='CascadeRCNN_loss',
+    pretrained=None,
+    backbone=dict(
+        type='SwinTransformer_mona_moe',
+        embed_dim=128,
+        depths=[2, 2, 18, 2],
+        num_heads=[4, 8, 16, 32],
+        window_size=7,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.3,
+        ape=False,
+        patch_norm=True,
+        out_indices=(0, 1, 2, 3),
+        use_checkpoint=False),
+    neck=dict(
+        type='FPN',
+        in_channels=[128, 256, 512, 1024],
+        out_channels=256,
+        num_outs=5),
+    rpn_head=dict(
+        type='RPNHead',
+        in_channels=256,
+        feat_channels=256,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8],
+            ratios=[0.5, 1.0, 2.0],
+            strides=[4, 8, 16, 32, 64]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(
+            type='SmoothL1Loss', beta=0.1111111111111111, loss_weight=1.0)),
+    roi_head=dict(
+        type='CascadeRoIHead',
+        num_stages=3,
+        stage_loss_weights=[1, 0.5, 0.25],
+        bbox_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        bbox_head=[
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.1, 0.1, 0.2, 0.2]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.05, 0.05, 0.1, 0.1]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0)),
+            dict(
+                type='ConvFCBBoxHead',
+                num_shared_convs=4,
+                num_shared_fcs=1,
+                in_channels=256,
+                conv_out_channels=256,
+                fc_out_channels=1024,
+                roi_feat_size=7,
+                num_classes=80,
+                bbox_coder=dict(
+                    type='DeltaXYWHBBoxCoder',
+                    target_means=[0.0, 0.0, 0.0, 0.0],
+                    target_stds=[0.033, 0.033, 0.067, 0.067]),
+                reg_class_agnostic=False,
+                reg_decoded_bbox=True,
+                norm_cfg=dict(type='SyncBN', requires_grad=True),
+                loss_cls=dict(
+                    type='CrossEntropyLoss',
+                    use_sigmoid=False,
+                    loss_weight=1.0),
+                loss_bbox=dict(type='GIoULoss', loss_weight=10.0))
+        ],
+        mask_roi_extractor=dict(
+            type='SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=14, sampling_ratio=0),
+            out_channels=256,
+            featmap_strides=[4, 8, 16, 32]),
+        mask_head=dict(
+            type='FCNMaskHead',
+            num_convs=4,
+            in_channels=256,
+            conv_out_channels=256,
+            num_classes=80,
+            loss_mask=dict(
+                type='CrossEntropyLoss', use_mask=True, loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_across_levels=False,
+            nms_pre=2000,
+            nms_post=2000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=[
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.5,
+                    neg_iou_thr=0.5,
+                    min_pos_iou=0.5,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.6,
+                    neg_iou_thr=0.6,
+                    min_pos_iou=0.6,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False),
+            dict(
+                assigner=dict(
+                    type='MaxIoUAssigner',
+                    pos_iou_thr=0.7,
+                    neg_iou_thr=0.7,
+                    min_pos_iou=0.7,
+                    match_low_quality=False,
+                    ignore_iof_thr=-1),
+                sampler=dict(
+                    type='RandomSampler',
+                    num=512,
+                    pos_fraction=0.25,
+                    neg_pos_ub=-1,
+                    add_gt_as_proposals=True),
+                mask_size=28,
+                pos_weight=-1,
+                debug=False)
+        ]),
+    test_cfg=dict(
+        rpn=dict(
+            nms_across_levels=False,
+            nms_pre=1000,
+            nms_post=1000,
+            max_per_img=1000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.5),
+            max_per_img=100,
+            mask_thr_binary=0.5)))
+dataset_type = 'CocoDataset'
+data_root = '/root/autodl-tmp/COCO2017/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(
+        type='AutoAugment',
+        policies=[[{
+            'type':
+            'Resize',
+            'img_scale': [(480, 1333), (512, 1333), (544, 1333), (576, 1333),
+                          (608, 1333), (640, 1333), (672, 1333), (704, 1333),
+                          (736, 1333), (768, 1333), (800, 1333)],
+            'multiscale_mode':
+            'value',
+            'keep_ratio':
+            True
+        }],
+                  [{
+                      'type': 'Resize',
+                      'img_scale': [(400, 1333), (500, 1333), (600, 1333)],
+                      'multiscale_mode': 'value',
+                      'keep_ratio': True
+                  }, {
+                      'type': 'RandomCrop',
+                      'crop_type': 'absolute_range',
+                      'crop_size': (384, 600),
+                      'allow_negative_crop': True
+                  }, {
+                      'type':
+                      'Resize',
+                      'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                    (576, 1333), (608, 1333), (640, 1333),
+                                    (672, 1333), (704, 1333), (736, 1333),
+                                    (768, 1333), (800, 1333)],
+                      'multiscale_mode':
+                      'value',
+                      'override':
+                      True,
+                      'keep_ratio':
+                      True
+                  }]]),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1333, 800),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=2,
+    workers_per_gpu=4,
+    train=dict(
+        type='CocoDataset',
+        ann_file=
+        '/root/autodl-tmp/COCO2017/annotations/instances_train2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/train2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
+            dict(type='RandomFlip', flip_ratio=0.5),
+            dict(
+                type='AutoAugment',
+                policies=[[{
+                    'type':
+                    'Resize',
+                    'img_scale': [(480, 1333), (512, 1333), (544, 1333),
+                                  (576, 1333), (608, 1333), (640, 1333),
+                                  (672, 1333), (704, 1333), (736, 1333),
+                                  (768, 1333), (800, 1333)],
+                    'multiscale_mode':
+                    'value',
+                    'keep_ratio':
+                    True
+                }],
+                          [{
+                              'type': 'Resize',
+                              'img_scale': [(400, 1333), (500, 1333),
+                                            (600, 1333)],
+                              'multiscale_mode': 'value',
+                              'keep_ratio': True
+                          }, {
+                              'type': 'RandomCrop',
+                              'crop_type': 'absolute_range',
+                              'crop_size': (384, 600),
+                              'allow_negative_crop': True
+                          }, {
+                              'type':
+                              'Resize',
+                              'img_scale': [(480, 1333), (512, 1333),
+                                            (544, 1333), (576, 1333),
+                                            (608, 1333), (640, 1333),
+                                            (672, 1333), (704, 1333),
+                                            (736, 1333), (768, 1333),
+                                            (800, 1333)],
+                              'multiscale_mode':
+                              'value',
+                              'override':
+                              True,
+                              'keep_ratio':
+                              True
+                          }]]),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='DefaultFormatBundle'),
+            dict(
+                type='Collect',
+                keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks'])
+        ]),
+    val=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='CocoDataset',
+        ann_file='/root/autodl-tmp/COCO2017/annotations/instances_val2017.json',
+        img_prefix='/root/autodl-tmp/COCO2017/val2017/',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(1333, 800),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+evaluation = dict(metric=['bbox', 'segm'], gpu_collect=True)
+optimizer = dict(
+    type='AdamW',
+    lr=0.0001,
+    betas=(0.9, 0.999),
+    weight_decay=0.05,
+    paramwise_cfg=dict(
+        custom_keys=dict(
+            absolute_pos_embed=dict(decay_mult=0.0),
+            relative_position_bias_table=dict(decay_mult=0.0),
+            norm=dict(decay_mult=0.0))))
+optimizer_config = dict(
+    grad_clip=None,
+    type='DistOptimizerHook',
+    update_interval=1,
+    coalesce=True,
+    bucket_size_mb=-1,
+    use_fp16=True)
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=500,
+    warmup_ratio=0.001,
+    step=[27, 33])
+runner = dict(type='EpochBasedRunnerAmp', max_epochs=36)
+checkpoint_config = dict(interval=1)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+custom_hooks = [dict(type='NumClassCheckHook')]
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = '/root/autodl-tmp/caihaojie/mona/Swin-Transformer-Object-Detection/pretrained_model/swin_base_mona_moe_16.pth'
+resume_from = None
+workflow = [('train', 1)]
+fp16 = None
+work_dir = './results/train/mona_moe_4_16_1e-4_balance/'
+gpu_ids = range(0, 8)

mmdet/results/train/mona_moe_4_16_1e-4_balance/epoch_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa684495d3d42db79db33c0fa006545da2fddb8817b463aba4dbba7ad76cf616
+size 1517228592

mmdet/{checkpoints/swin_base_mona_moe_4_16_epoch_4.pth → results/train/mona_moe_4_16_1e-4_balance/epoch_2.pth} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7ef6cf5624f943978f2806fdc7a8ebd08ada5195cf45aec0e94135dd0e2c3d8
 size 1517228720

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a24272473556393087e0bf9c8a39fc192cc0c64e589091613221391826ec6c4
 size 1517228720

mmdet/results/train/mona_moe_4_16_1e-4_balance/latest.pth ADDED Viewed

	@@ -0,0 +1 @@


1	+ epoch_2.pth

mmdet/results/train/mona_moe_4_16_1e-4_gate/20250618_110426.log ADDED Viewed

The diff for this file is too large to render. See raw diff

mmdet/results/train/mona_moe_4_16_1e-4_gate/20250618_110426.log.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14eb75b182e65d6da64bd2a44f1d6d959815bdfc7e58297910472c65c0612cdb
+size 187274