/home/yuqian_fu
here1
here2
{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
stride: 3
--------------------------CA_multiple--------------------------
---------------------------14 factors-----------------
randm: True
randn: True
n: 3
randm: False
Epoch 1, weight, value: tensor([[ 0.0271,  0.0278,  0.0225,  ..., -0.0296, -0.0126,  0.0133],
        [ 0.0281, -0.0014,  0.0019,  ...,  0.0049, -0.0001, -0.0167],
        [ 0.0096, -0.0095, -0.0208,  ..., -0.0112,  0.0086,  0.0155],
        ...,
        [ 0.0241,  0.0234, -0.0310,  ..., -0.0023,  0.0109, -0.0108],
        [-0.0104,  0.0021,  0.0085,  ..., -0.0012, -0.0071, -0.0235],
        [ 0.0238, -0.0081,  0.0041,  ..., -0.0056,  0.0007,  0.0226]],
       device='cuda:0'), grad: None
Epoch 1, bias, value: tensor([ 0.0091,  0.0009,  0.0029,  0.0177,  0.0243,  0.0294, -0.0206,  0.0056,
        -0.0307, -0.0182], device='cuda:0'), grad: None
100
0.0001
changing lr
---------------------saving model at epoch 0----------------------------------------------------
epoch 0, time 223.22, cls_loss 1.6736 cls_loss_mapping 2.0181 cls_loss_causal 2.2459 re_mapping 0.0816 re_causal 0.0818 /// teacc 73.46 lr 0.00010000
Epoch 2, weight, value: tensor([[ 0.0191,  0.0323,  0.0264,  ..., -0.0359, -0.0128,  0.0174],
        [ 0.0360, -0.0041,  0.0007,  ...,  0.0067, -0.0003, -0.0264],
        [ 0.0048, -0.0081, -0.0186,  ..., -0.0090,  0.0080,  0.0122],
        ...,
        [ 0.0229,  0.0276, -0.0377,  ..., -0.0113,  0.0093, -0.0189],
        [-0.0084, -0.0019,  0.0107,  ...,  0.0022, -0.0053, -0.0228],
        [ 0.0194, -0.0109, -0.0004,  ..., -0.0055, -0.0014,  0.0232]],
       device='cuda:0'), grad: tensor([[ 2.0035e-02, -1.3054e-02, -1.5045e-02,  ...,  7.2479e-03,
          1.3113e-04, -1.1559e-02],
        [-6.2988e-02,  2.7943e-03, -1.8673e-03,  ..., -4.6967e-02,
          8.8736e-06, -1.4580e-02],
        [ 2.7679e-02,  3.3607e-03,  1.9638e-02,  ...,  2.5070e-02,
          1.5184e-05,  1.3123e-02],
        ...,
        [-2.3865e-02, -1.8097e-02,  7.0152e-03,  ..., -5.5695e-03,
          3.0845e-05,  2.3499e-03],
        [-3.2921e-03,  7.3509e-03, -9.6130e-04,  ..., -2.1133e-03,
          1.0669e-04,  1.1459e-02],
        [ 5.2582e-02,  1.3435e-02,  3.2013e-02,  ...,  7.6172e-02,
          9.8348e-05,  3.1250e-02]], device='cuda:0')
Epoch 2, bias, value: tensor([ 0.0069,  0.0036,  0.0026,  0.0171,  0.0236,  0.0295, -0.0215,  0.0064,
        -0.0314, -0.0176], device='cuda:0'), grad: tensor([ 0.0031, -0.0215,  0.0242,  0.0185, -0.0174, -0.0472, -0.0401, -0.0387,
         0.0231,  0.0958], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 1----------------------------------------------------
epoch 1, time 220.40, cls_loss 0.5839 cls_loss_mapping 0.8899 cls_loss_causal 1.9196 re_mapping 0.2132 re_causal 0.2487 /// teacc 88.40 lr 0.00010000
Epoch 3, weight, value: tensor([[ 1.5019e-02,  3.5892e-02,  2.8696e-02,  ..., -3.9882e-02,
         -1.5826e-02,  1.8511e-02],
        [ 3.8934e-02, -5.4322e-03, -1.9550e-03,  ...,  8.0060e-03,
         -4.0296e-04, -2.8752e-02],
        [ 5.3168e-05, -6.9198e-03, -1.8001e-02,  ..., -1.0121e-02,
          6.0515e-04,  9.4711e-03],
        ...,
        [ 2.0476e-02,  3.2725e-02, -4.1894e-02,  ..., -1.5440e-02,
          8.8445e-03, -2.1740e-02],
        [-7.3172e-03, -5.6156e-03,  1.3275e-02,  ...,  5.6482e-03,
         -1.0707e-02, -2.2726e-02],
        [ 1.8082e-02, -1.1282e-02, -1.0400e-03,  ..., -9.5011e-03,
         -4.7546e-03,  2.3836e-02]], device='cuda:0'), grad: tensor([[-0.0201, -0.0018, -0.0141,  ..., -0.0006, -0.0001, -0.0125],
        [-0.0225,  0.0020,  0.0056,  ..., -0.0228, -0.0046, -0.0055],
        [-0.0170,  0.0011, -0.0056,  ..., -0.0105, -0.0029,  0.0010],
        ...,
        [ 0.0154, -0.0052,  0.0065,  ...,  0.0234,  0.0011,  0.0092],
        [ 0.0093, -0.0120, -0.0126,  ..., -0.0094,  0.0024, -0.0142],
        [-0.0535,  0.0031, -0.0219,  ..., -0.0405, -0.0099, -0.0302]],
       device='cuda:0')
Epoch 3, bias, value: tensor([ 0.0060,  0.0037,  0.0024,  0.0170,  0.0235,  0.0311, -0.0226,  0.0060,
        -0.0307, -0.0176], device='cuda:0'), grad: tensor([-0.0033, -0.0064, -0.0138,  0.0236,  0.0052,  0.0347,  0.0149,  0.0178,
        -0.0105, -0.0623], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 2----------------------------------------------------
epoch 2, time 221.40, cls_loss 0.3490 cls_loss_mapping 0.5111 cls_loss_causal 1.6934 re_mapping 0.1598 re_causal 0.2406 /// teacc 93.28 lr 0.00010000
Epoch 4, weight, value: tensor([[ 0.0128,  0.0385,  0.0302,  ..., -0.0418, -0.0186,  0.0193],
        [ 0.0411, -0.0065, -0.0034,  ...,  0.0094,  0.0028, -0.0307],
        [-0.0016, -0.0057, -0.0179,  ..., -0.0114, -0.0039,  0.0077],
        ...,
        [ 0.0176,  0.0352, -0.0448,  ..., -0.0192,  0.0066, -0.0247],
        [-0.0074, -0.0083,  0.0139,  ...,  0.0072, -0.0168, -0.0230],
        [ 0.0178, -0.0127,  0.0003,  ..., -0.0107, -0.0075,  0.0257]],
       device='cuda:0'), grad: tensor([[ 2.1667e-03, -1.6556e-03, -8.8406e-04,  ...,  2.3785e-03,
         -8.8811e-05,  1.1215e-03],
        [-3.7903e-02,  9.2793e-04, -2.2621e-03,  ..., -2.9175e-02,
         -5.3635e-03, -1.1063e-03],
        [ 1.2840e-02,  2.3148e-02,  3.6743e-02,  ...,  8.3160e-03,
          1.0786e-03,  1.8982e-02],
        ...,
        [ 8.4782e-04, -2.5757e-02, -1.1475e-02,  ...,  5.2986e-03,
         -8.3566e-05,  2.4052e-03],
        [ 2.3956e-03,  2.5101e-03, -2.2717e-03,  ...,  9.8228e-05,
          4.2915e-03, -4.1389e-03],
        [ 2.4929e-03,  7.8659e-03, -1.2722e-03,  ...,  2.6436e-03,
          1.9798e-03,  3.5858e-03]], device='cuda:0')
Epoch 4, bias, value: tensor([ 0.0061,  0.0039,  0.0026,  0.0171,  0.0231,  0.0317, -0.0228,  0.0055,
        -0.0311, -0.0173], device='cuda:0'), grad: tensor([ 0.0012, -0.0161,  0.0436, -0.0147, -0.0163,  0.0077,  0.0087, -0.0279,
         0.0087,  0.0052], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 3----------------------------------------------------
epoch 3, time 226.06, cls_loss 0.2774 cls_loss_mapping 0.3965 cls_loss_causal 1.5685 re_mapping 0.1232 re_causal 0.2210 /// teacc 94.53 lr 0.00010000
Epoch 5, weight, value: tensor([[ 0.0110,  0.0411,  0.0317,  ..., -0.0440, -0.0202,  0.0198],
        [ 0.0435, -0.0077, -0.0047,  ...,  0.0119,  0.0073, -0.0326],
        [-0.0040, -0.0042, -0.0183,  ..., -0.0126, -0.0063,  0.0055],
        ...,
        [ 0.0148,  0.0371, -0.0472,  ..., -0.0220,  0.0069, -0.0272],
        [-0.0070, -0.0103,  0.0147,  ...,  0.0082, -0.0222, -0.0230],
        [ 0.0170, -0.0142,  0.0010,  ..., -0.0117, -0.0113,  0.0266]],
       device='cuda:0'), grad: tensor([[ 0.0053, -0.0012,  0.0075,  ...,  0.0070,  0.0017,  0.0064],
        [ 0.0100,  0.0007,  0.0122,  ...,  0.0086,  0.0056,  0.0073],
        [ 0.0088,  0.0049,  0.0098,  ...,  0.0096,  0.0011,  0.0059],
        ...,
        [ 0.0021, -0.0108,  0.0007,  ...,  0.0030,  0.0003, -0.0003],
        [-0.0210, -0.0032, -0.0249,  ..., -0.0383, -0.0084, -0.0205],
        [-0.0124,  0.0045, -0.0043,  ..., -0.0104,  0.0005,  0.0046]],
       device='cuda:0')
Epoch 5, bias, value: tensor([ 0.0063,  0.0044,  0.0029,  0.0172,  0.0232,  0.0316, -0.0234,  0.0052,
        -0.0313, -0.0174], device='cuda:0'), grad: tensor([ 0.0081,  0.0140,  0.0146,  0.0090,  0.0138, -0.0153,  0.0077, -0.0058,
        -0.0338, -0.0123], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 4----------------------------------------------------
epoch 4, time 220.46, cls_loss 0.1985 cls_loss_mapping 0.2859 cls_loss_causal 1.4268 re_mapping 0.1054 re_causal 0.2123 /// teacc 95.74 lr 0.00010000
Epoch 6, weight, value: tensor([[ 0.0102,  0.0432,  0.0323,  ..., -0.0454, -0.0223,  0.0199],
        [ 0.0447, -0.0086, -0.0058,  ...,  0.0129,  0.0089, -0.0346],
        [-0.0060, -0.0034, -0.0182,  ..., -0.0142, -0.0080,  0.0036],
        ...,
        [ 0.0133,  0.0393, -0.0497,  ..., -0.0241,  0.0056, -0.0296],
        [-0.0066, -0.0124,  0.0154,  ...,  0.0097, -0.0244, -0.0235],
        [ 0.0167, -0.0154,  0.0021,  ..., -0.0120, -0.0112,  0.0287]],
       device='cuda:0'), grad: tensor([[ 1.4601e-03, -1.3130e-02, -2.2583e-02,  ...,  1.3094e-03,
         -4.4799e-04, -2.4612e-02],
        [-1.5251e-02, -1.5140e-04,  8.5640e-04,  ..., -1.1124e-02,
         -4.9400e-04,  4.7040e-04],
        [ 3.2482e-03,  7.5912e-03,  1.2321e-02,  ...,  3.3531e-03,
          5.0640e-04,  1.4908e-02],
        ...,
        [-1.5125e-03, -8.2092e-03, -1.5507e-03,  ..., -2.8706e-03,
          8.3327e-05, -1.2074e-03],
        [ 1.1047e-02,  2.0676e-03,  3.0403e-03,  ...,  7.8735e-03,
          1.4143e-03,  5.1842e-03],
        [ 2.3499e-03,  5.7602e-03,  3.4561e-03,  ...,  1.1539e-03,
          2.4486e-04,  3.8681e-03]], device='cuda:0')
Epoch 6, bias, value: tensor([ 0.0066,  0.0043,  0.0030,  0.0170,  0.0233,  0.0313, -0.0236,  0.0054,
        -0.0313, -0.0171], device='cuda:0'), grad: tensor([-0.0211, -0.0063,  0.0145,  0.0088,  0.0003, -0.0048,  0.0039, -0.0125,
         0.0109,  0.0064], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 5----------------------------------------------------
epoch 5, time 222.11, cls_loss 0.1691 cls_loss_mapping 0.2370 cls_loss_causal 1.3333 re_mapping 0.0893 re_causal 0.1940 /// teacc 96.15 lr 0.00010000
Epoch 7, weight, value: tensor([[ 0.0096,  0.0449,  0.0328,  ..., -0.0469, -0.0243,  0.0205],
        [ 0.0462, -0.0079, -0.0069,  ...,  0.0142,  0.0102, -0.0361],
        [-0.0077, -0.0027, -0.0187,  ..., -0.0156, -0.0081,  0.0016],
        ...,
        [ 0.0117,  0.0412, -0.0513,  ..., -0.0260,  0.0059, -0.0314],
        [-0.0066, -0.0143,  0.0159,  ...,  0.0108, -0.0281, -0.0238],
        [ 0.0155, -0.0170,  0.0025,  ..., -0.0129, -0.0132,  0.0298]],
       device='cuda:0'), grad: tensor([[-4.7989e-03,  2.9755e-02,  1.6830e-02,  ...,  7.0429e-04,
          5.4896e-05,  1.9928e-02],
        [-5.1689e-03, -8.4877e-04,  4.2572e-03,  ..., -9.7275e-03,
         -3.8452e-03,  4.0092e-03],
        [ 3.7861e-03,  1.0368e-02,  8.0414e-03,  ...,  2.2278e-03,
          3.1161e-04,  2.1763e-03],
        ...,
        [ 2.1324e-03,  4.6730e-03,  6.3324e-03,  ...,  1.4000e-03,
          2.8062e-04,  5.9605e-04],
        [ 1.7262e-04,  5.6038e-03,  8.4991e-03,  ...,  3.6087e-03,
          4.4785e-03,  3.9101e-03],
        [ 4.1866e-04, -3.2837e-02, -2.7374e-02,  ..., -1.5717e-03,
         -2.7522e-05, -2.7679e-02]], device='cuda:0')
Epoch 7, bias, value: tensor([ 0.0068,  0.0043,  0.0028,  0.0169,  0.0232,  0.0313, -0.0237,  0.0057,
        -0.0310, -0.0174], device='cuda:0'), grad: tensor([ 0.0241, -0.0030,  0.0233, -0.0246, -0.0155, -0.0007,  0.0012,  0.0155,
         0.0117, -0.0320], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 6----------------------------------------------------
epoch 6, time 221.10, cls_loss 0.1594 cls_loss_mapping 0.2062 cls_loss_causal 1.3062 re_mapping 0.0763 re_causal 0.1682 /// teacc 96.48 lr 0.00010000
Epoch 8, weight, value: tensor([[ 9.5645e-03,  4.6679e-02,  3.3759e-02,  ..., -4.8533e-02,
         -2.6581e-02,  2.0594e-02],
        [ 4.7984e-02, -6.7997e-03, -7.5239e-03,  ...,  1.5814e-02,
          1.2059e-02, -3.6902e-02],
        [-9.2853e-03, -2.6466e-03, -1.9201e-02,  ..., -1.6556e-02,
         -7.1986e-03,  5.3548e-05],
        ...,
        [ 1.0127e-02,  4.3045e-02, -5.3172e-02,  ..., -2.7381e-02,
          3.9840e-03, -3.3275e-02],
        [-6.3788e-03, -1.6351e-02,  1.7163e-02,  ...,  1.1576e-02,
         -2.9850e-02, -2.3237e-02],
        [ 1.3993e-02, -1.7653e-02,  2.8311e-03,  ..., -1.3822e-02,
         -1.4593e-02,  3.1092e-02]], device='cuda:0'), grad: tensor([[ 5.3930e-04, -1.5097e-03, -5.8174e-04,  ...,  1.1902e-03,
          1.3375e-04, -1.5438e-04],
        [ 2.4242e-03,  2.9621e-03,  2.5196e-03,  ...,  3.6716e-03,
         -5.2005e-05,  1.4477e-03],
        [ 1.0633e-03,  1.8406e-03,  1.4019e-03,  ...,  1.6718e-03,
          2.4527e-05,  9.9277e-04],
        ...,
        [ 2.4433e-03, -4.7455e-03,  3.3417e-03,  ...,  3.3054e-03,
          2.6658e-05,  4.9782e-03],
        [-8.4839e-03,  2.2907e-03, -6.9160e-03,  ..., -1.0422e-02,
          4.7255e-04, -9.0551e-04],
        [ 8.1921e-04, -5.2147e-03, -5.4474e-03,  ..., -2.7847e-03,
          2.2471e-04, -8.9340e-03]], device='cuda:0')
Epoch 8, bias, value: tensor([ 0.0071,  0.0049,  0.0026,  0.0170,  0.0233,  0.0308, -0.0240,  0.0054,
        -0.0309, -0.0173], device='cuda:0'), grad: tensor([ 0.0004,  0.0062,  0.0017,  0.0059,  0.0057, -0.0002, -0.0008,  0.0009,
        -0.0055, -0.0144], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 7----------------------------------------------------
epoch 7, time 220.63, cls_loss 0.1296 cls_loss_mapping 0.1668 cls_loss_causal 1.2145 re_mapping 0.0685 re_causal 0.1564 /// teacc 96.98 lr 0.00010000
Epoch 9, weight, value: tensor([[ 0.0090,  0.0485,  0.0343,  ..., -0.0498, -0.0278,  0.0206],
        [ 0.0487, -0.0064, -0.0080,  ...,  0.0163,  0.0147, -0.0386],
        [-0.0105, -0.0028, -0.0199,  ..., -0.0175, -0.0079, -0.0011],
        ...,
        [ 0.0092,  0.0445, -0.0551,  ..., -0.0282,  0.0038, -0.0348],
        [-0.0064, -0.0180,  0.0177,  ...,  0.0123, -0.0317, -0.0236],
        [ 0.0138, -0.0185,  0.0036,  ..., -0.0137, -0.0161,  0.0322]],
       device='cuda:0'), grad: tensor([[ 4.2367e-04,  4.2796e-04, -5.7459e-05,  ...,  1.0729e-03,
          1.3173e-04,  1.1797e-03],
        [-3.7937e-03,  4.6444e-04,  3.4308e-04,  ..., -2.3613e-03,
         -8.3447e-04,  5.1880e-04],
        [ 6.2990e-04, -2.7370e-03, -1.7395e-03,  ...,  1.1911e-03,
         -9.4986e-04, -8.8596e-04],
        ...,
        [ 1.0519e-03, -7.4625e-05,  1.2188e-03,  ...,  1.6823e-03,
          9.6226e-04,  1.5535e-03],
        [ 1.1902e-03,  9.8610e-04,  1.7996e-03,  ...,  5.0354e-04,
          5.4073e-04,  2.3155e-03],
        [ 4.9782e-04,  4.2114e-03,  5.4502e-04,  ...,  1.0979e-02,
         -1.5008e-04,  2.7657e-03]], device='cuda:0')
Epoch 9, bias, value: tensor([ 0.0072,  0.0048,  0.0022,  0.0171,  0.0233,  0.0306, -0.0240,  0.0057,
        -0.0308, -0.0171], device='cuda:0'), grad: tensor([ 0.0021, -0.0009, -0.0110, -0.0023, -0.0227,  0.0058,  0.0010,  0.0061,
         0.0062,  0.0157], device='cuda:0')
100
0.0001
changing lr
epoch 8, time 219.99, cls_loss 0.1144 cls_loss_mapping 0.1485 cls_loss_causal 1.1824 re_mapping 0.0658 re_causal 0.1525 /// teacc 96.50 lr 0.00010000
Epoch 10, weight, value: tensor([[ 0.0083,  0.0493,  0.0348,  ..., -0.0516, -0.0292,  0.0210],
        [ 0.0496, -0.0067, -0.0091,  ...,  0.0169,  0.0169, -0.0400],
        [-0.0112, -0.0026, -0.0206,  ..., -0.0180, -0.0079, -0.0019],
        ...,
        [ 0.0081,  0.0461, -0.0564,  ..., -0.0293,  0.0026, -0.0361],
        [-0.0059, -0.0189,  0.0180,  ...,  0.0134, -0.0330, -0.0242],
        [ 0.0130, -0.0192,  0.0042,  ..., -0.0143, -0.0175,  0.0331]],
       device='cuda:0'), grad: tensor([[ 3.9196e-04, -8.0967e-04, -2.7847e-04,  ...,  1.8787e-03,
         -4.2945e-05,  4.9686e-04],
        [-1.0902e-04,  3.3712e-04,  7.0238e-04,  ...,  4.1270e-04,
         -8.4996e-05,  5.3406e-04],
        [ 5.8594e-03,  1.2207e-02,  7.1411e-03,  ...,  2.6016e-03,
          1.2375e-02,  1.0185e-03],
        ...,
        [-4.7760e-03, -1.2985e-02, -4.4022e-03,  ...,  1.5850e-03,
         -1.2268e-02,  4.8923e-04],
        [ 2.0294e-03,  1.9526e-04, -4.1008e-03,  ..., -5.0201e-03,
          1.3628e-03, -1.4772e-03],
        [ 1.1253e-03, -2.6989e-03, -3.3021e-04,  ..., -1.6678e-02,
          7.8773e-04,  1.5488e-03]], device='cuda:0')
Epoch 10, bias, value: tensor([ 0.0070,  0.0049,  0.0022,  0.0174,  0.0232,  0.0306, -0.0243,  0.0057,
        -0.0307, -0.0173], device='cuda:0'), grad: tensor([ 0.0013,  0.0016,  0.0327, -0.0082,  0.0449, -0.0026, -0.0027, -0.0279,
        -0.0060, -0.0330], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 9----------------------------------------------------
epoch 9, time 220.70, cls_loss 0.1127 cls_loss_mapping 0.1464 cls_loss_causal 1.1127 re_mapping 0.0605 re_causal 0.1393 /// teacc 97.29 lr 0.00010000
Epoch 11, weight, value: tensor([[ 0.0076,  0.0506,  0.0353,  ..., -0.0530, -0.0307,  0.0217],
        [ 0.0500, -0.0070, -0.0104,  ...,  0.0172,  0.0171, -0.0415],
        [-0.0123, -0.0018, -0.0207,  ..., -0.0185, -0.0075, -0.0026],
        ...,
        [ 0.0074,  0.0470, -0.0578,  ..., -0.0300,  0.0033, -0.0372],
        [-0.0059, -0.0200,  0.0187,  ...,  0.0141, -0.0346, -0.0247],
        [ 0.0125, -0.0205,  0.0052,  ..., -0.0148, -0.0168,  0.0342]],
       device='cuda:0'), grad: tensor([[-6.7902e-04,  3.5667e-03,  9.3174e-04,  ...,  5.9080e-04,
          5.4240e-05,  4.0016e-03],
        [ 1.6699e-03,  9.3126e-04,  4.1604e-04,  ...,  1.9464e-03,
          9.5367e-05,  3.6311e-04],
        [ 3.6359e-04, -7.3099e-04,  1.8120e-03,  ...,  1.6575e-03,
         -1.2457e-04,  2.0657e-03],
        ...,
        [ 1.0335e-04, -2.3132e-02, -2.3289e-03,  ..., -2.6569e-03,
          4.6134e-04, -1.1581e-02],
        [ 1.5011e-03,  1.9627e-03, -2.9202e-03,  ..., -2.2507e-03,
          1.5557e-04, -3.5152e-03],
        [ 2.3675e-04,  1.0742e-02,  3.9597e-03,  ...,  2.7390e-03,
          1.4015e-05,  8.4457e-03]], device='cuda:0')
Epoch 11, bias, value: tensor([ 0.0071,  0.0045,  0.0025,  0.0171,  0.0231,  0.0308, -0.0242,  0.0058,
        -0.0306, -0.0172], device='cuda:0'), grad: tensor([ 0.0059,  0.0036,  0.0040,  0.0004,  0.0058,  0.0013, -0.0023, -0.0410,
        -0.0020,  0.0243], device='cuda:0')
100
0.0001
changing lr
epoch 10, time 219.69, cls_loss 0.1089 cls_loss_mapping 0.1431 cls_loss_causal 1.1138 re_mapping 0.0560 re_causal 0.1323 /// teacc 97.06 lr 0.00010000
Epoch 12, weight, value: tensor([[ 0.0077,  0.0518,  0.0356,  ..., -0.0537, -0.0312,  0.0216],
        [ 0.0506, -0.0070, -0.0111,  ...,  0.0176,  0.0193, -0.0429],
        [-0.0134, -0.0019, -0.0214,  ..., -0.0194, -0.0083, -0.0037],
        ...,
        [ 0.0065,  0.0486, -0.0593,  ..., -0.0311,  0.0032, -0.0380],
        [-0.0055, -0.0220,  0.0193,  ...,  0.0151, -0.0354, -0.0247],
        [ 0.0122, -0.0215,  0.0052,  ..., -0.0152, -0.0179,  0.0346]],
       device='cuda:0'), grad: tensor([[-0.0003, -0.0039, -0.0028,  ...,  0.0002,  0.0001, -0.0018],
        [-0.0016, -0.0002,  0.0006,  ..., -0.0008, -0.0003,  0.0003],
        [ 0.0009,  0.0016,  0.0038,  ...,  0.0002,  0.0001,  0.0014],
        ...,
        [ 0.0008,  0.0009,  0.0046,  ...,  0.0003,  0.0002,  0.0028],
        [ 0.0011,  0.0010,  0.0049,  ...,  0.0004,  0.0003,  0.0026],
        [ 0.0004, -0.0004, -0.0016,  ..., -0.0005, -0.0002, -0.0031]],
       device='cuda:0')
Epoch 12, bias, value: tensor([ 0.0072,  0.0044,  0.0026,  0.0175,  0.0231,  0.0305, -0.0242,  0.0059,
        -0.0305, -0.0176], device='cuda:0'), grad: tensor([-4.0779e-03,  5.7295e-06,  4.3793e-03, -1.5244e-02,  1.0633e-03,
        -9.2363e-04,  2.3613e-03,  7.5340e-03,  7.4158e-03, -2.5177e-03],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 11----------------------------------------------------
epoch 11, time 220.20, cls_loss 0.0997 cls_loss_mapping 0.1288 cls_loss_causal 1.0871 re_mapping 0.0517 re_causal 0.1222 /// teacc 97.69 lr 0.00010000
Epoch 13, weight, value: tensor([[ 0.0073,  0.0526,  0.0364,  ..., -0.0547, -0.0317,  0.0218],
        [ 0.0517, -0.0070, -0.0118,  ...,  0.0185,  0.0220, -0.0439],
        [-0.0148, -0.0023, -0.0219,  ..., -0.0201, -0.0085, -0.0048],
        ...,
        [ 0.0060,  0.0496, -0.0604,  ..., -0.0317,  0.0039, -0.0396],
        [-0.0053, -0.0234,  0.0195,  ...,  0.0158, -0.0373, -0.0247],
        [ 0.0121, -0.0217,  0.0063,  ..., -0.0155, -0.0180,  0.0363]],
       device='cuda:0'), grad: tensor([[ 0.0070,  0.0002,  0.0089,  ...,  0.0008,  0.0001,  0.0064],
        [ 0.0012,  0.0012,  0.0007,  ...,  0.0004,  0.0001,  0.0010],
        [ 0.0008, -0.0001,  0.0007,  ...,  0.0004, -0.0005,  0.0007],
        ...,
        [-0.0053, -0.0071, -0.0018,  ...,  0.0003,  0.0002, -0.0041],
        [-0.0077,  0.0008,  0.0077,  ..., -0.0116, -0.0051, -0.0032],
        [ 0.0052,  0.0049,  0.0050,  ...,  0.0007,  0.0002,  0.0056]],
       device='cuda:0')
Epoch 13, bias, value: tensor([ 0.0074,  0.0046,  0.0023,  0.0171,  0.0231,  0.0301, -0.0242,  0.0059,
        -0.0303, -0.0171], device='cuda:0'), grad: tensor([ 0.0065,  0.0027, -0.0007, -0.0220, -0.0017,  0.0090,  0.0061, -0.0085,
        -0.0006,  0.0091], device='cuda:0')
100
0.0001
changing lr
epoch 12, time 221.66, cls_loss 0.0806 cls_loss_mapping 0.1054 cls_loss_causal 1.0424 re_mapping 0.0504 re_causal 0.1206 /// teacc 97.65 lr 0.00010000
Epoch 14, weight, value: tensor([[ 0.0070,  0.0535,  0.0368,  ..., -0.0556, -0.0326,  0.0221],
        [ 0.0523, -0.0063, -0.0123,  ...,  0.0188,  0.0229, -0.0454],
        [-0.0150, -0.0025, -0.0219,  ..., -0.0206, -0.0076, -0.0047],
        ...,
        [ 0.0051,  0.0506, -0.0622,  ..., -0.0327,  0.0042, -0.0408],
        [-0.0053, -0.0244,  0.0199,  ...,  0.0165, -0.0383, -0.0247],
        [ 0.0117, -0.0224,  0.0068,  ..., -0.0159, -0.0191,  0.0370]],
       device='cuda:0'), grad: tensor([[-9.2506e-04, -1.1635e-03, -6.9332e-04,  ...,  2.3746e-04,
          2.9787e-05, -6.1417e-04],
        [ 9.6893e-04,  1.1892e-03,  1.0309e-03,  ...,  9.8038e-04,
         -9.0182e-05,  7.1526e-04],
        [ 8.8024e-04,  9.7275e-04, -2.8327e-05,  ..., -2.7537e-04,
         -1.9813e-04,  4.1389e-04],
        ...,
        [ 1.0471e-03, -5.1079e-03,  1.0364e-05,  ...,  1.8263e-03,
          3.2485e-05,  8.4114e-04],
        [ 2.6360e-03,  2.3403e-03,  2.8839e-03,  ...,  2.4719e-03,
          5.4359e-04,  2.9182e-03],
        [-4.7684e-03, -1.0042e-03, -6.2065e-03,  ..., -2.3708e-03,
          3.6985e-05, -5.0354e-03]], device='cuda:0')
Epoch 14, bias, value: tensor([ 0.0073,  0.0045,  0.0026,  0.0173,  0.0232,  0.0298, -0.0243,  0.0058,
        -0.0302, -0.0173], device='cuda:0'), grad: tensor([-0.0007,  0.0032,  0.0016,  0.0061, -0.0024, -0.0009,  0.0003, -0.0083,
         0.0086, -0.0075], device='cuda:0')
100
0.0001
changing lr
epoch 13, time 219.62, cls_loss 0.0816 cls_loss_mapping 0.1040 cls_loss_causal 1.0737 re_mapping 0.0457 re_causal 0.1136 /// teacc 97.55 lr 0.00010000
Epoch 15, weight, value: tensor([[ 0.0067,  0.0543,  0.0372,  ..., -0.0563, -0.0337,  0.0223],
        [ 0.0533, -0.0060, -0.0130,  ...,  0.0194,  0.0232, -0.0467],
        [-0.0158, -0.0027, -0.0224,  ..., -0.0211, -0.0064, -0.0057],
        ...,
        [ 0.0042,  0.0513, -0.0634,  ..., -0.0343,  0.0050, -0.0415],
        [-0.0051, -0.0251,  0.0202,  ...,  0.0170, -0.0395, -0.0248],
        [ 0.0109, -0.0228,  0.0082,  ..., -0.0163, -0.0202,  0.0386]],
       device='cuda:0'), grad: tensor([[ 1.4293e-04,  1.9598e-04,  1.1196e-03,  ...,  9.8050e-05,
          7.2479e-05,  1.2302e-03],
        [-3.0708e-04,  2.3723e-04,  2.9993e-04,  ..., -2.1541e-04,
         -1.0449e-04,  1.4913e-04],
        [ 1.1468e-04,  2.3162e-04,  4.6110e-04,  ..., -5.3525e-05,
          4.9978e-05,  2.6751e-04],
        ...,
        [-6.3002e-05, -1.8501e-03,  9.9182e-04,  ...,  9.4771e-05,
         -1.0914e-04,  1.2093e-03],
        [ 3.6502e-04,  3.5429e-04,  1.9035e-03,  ...,  5.9307e-05,
          1.1194e-04,  7.9918e-04],
        [ 5.1403e-04,  1.8489e-04, -4.7398e-04,  ...,  9.0933e-04,
          3.6526e-04, -2.7199e-03]], device='cuda:0')
Epoch 15, bias, value: tensor([ 0.0075,  0.0043,  0.0026,  0.0170,  0.0233,  0.0298, -0.0246,  0.0059,
        -0.0300, -0.0170], device='cuda:0'), grad: tensor([ 1.3027e-03,  4.9686e-04, -1.8072e-04, -3.7308e-03, -1.5554e-03,
         3.6621e-04,  2.4527e-05, -1.4362e-03,  2.7523e-03,  1.9627e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 14, time 220.42, cls_loss 0.0733 cls_loss_mapping 0.0957 cls_loss_causal 0.9991 re_mapping 0.0436 re_causal 0.1045 /// teacc 97.41 lr 0.00010000
Epoch 16, weight, value: tensor([[ 0.0067,  0.0553,  0.0374,  ..., -0.0572, -0.0349,  0.0224],
        [ 0.0541, -0.0060, -0.0134,  ...,  0.0199,  0.0238, -0.0478],
        [-0.0164, -0.0030, -0.0227,  ..., -0.0219, -0.0061, -0.0061],
        ...,
        [ 0.0035,  0.0523, -0.0648,  ..., -0.0351,  0.0050, -0.0426],
        [-0.0051, -0.0259,  0.0206,  ...,  0.0177, -0.0403, -0.0249],
        [ 0.0106, -0.0233,  0.0086,  ..., -0.0167, -0.0209,  0.0396]],
       device='cuda:0'), grad: tensor([[ 2.1982e-04, -7.0524e-04, -5.6458e-04,  ...,  3.3593e-04,
          6.4522e-06, -4.7755e-04],
        [ 7.4482e-04,  4.0197e-04,  1.3170e-03,  ...,  4.9353e-04,
          4.0078e-04,  1.3733e-03],
        [ 1.2219e-04,  1.3423e-04,  1.3447e-04,  ...,  1.1021e-04,
          4.5337e-06,  1.6093e-04],
        ...,
        [ 3.1137e-04, -2.1400e-03,  9.5606e-04,  ...,  3.8457e-04,
         -7.2765e-04,  9.2149e-05],
        [ 6.2828e-03,  2.0838e-04,  1.0574e-02,  ...,  6.7101e-03,
          1.3466e-03,  1.0597e-02],
        [-1.7300e-05,  1.1148e-03, -3.2825e-03,  ...,  1.1212e-04,
          7.1335e-04, -1.5526e-03]], device='cuda:0')
Epoch 16, bias, value: tensor([ 0.0075,  0.0042,  0.0027,  0.0172,  0.0233,  0.0296, -0.0248,  0.0059,
        -0.0298, -0.0173], device='cuda:0'), grad: tensor([-0.0005,  0.0019,  0.0002, -0.0092,  0.0021,  0.0296, -0.0307, -0.0017,
         0.0108, -0.0026], device='cuda:0')
100
0.0001
changing lr
epoch 15, time 220.13, cls_loss 0.0584 cls_loss_mapping 0.0774 cls_loss_causal 0.9628 re_mapping 0.0421 re_causal 0.1043 /// teacc 97.49 lr 0.00010000
Epoch 17, weight, value: tensor([[ 0.0063,  0.0563,  0.0378,  ..., -0.0581, -0.0361,  0.0227],
        [ 0.0547, -0.0062, -0.0134,  ...,  0.0208,  0.0256, -0.0488],
        [-0.0172, -0.0033, -0.0231,  ..., -0.0224, -0.0070, -0.0066],
        ...,
        [ 0.0030,  0.0531, -0.0657,  ..., -0.0355,  0.0054, -0.0435],
        [-0.0049, -0.0262,  0.0209,  ...,  0.0180, -0.0416, -0.0251],
        [ 0.0103, -0.0238,  0.0093,  ..., -0.0172, -0.0219,  0.0406]],
       device='cuda:0'), grad: tensor([[ 5.8794e-04,  4.2558e-05,  2.7442e-04,  ...,  4.2367e-04,
          5.1081e-05,  4.0245e-04],
        [ 1.0933e-02, -6.7651e-05,  2.2621e-03,  ...,  6.9389e-03,
          3.3903e-04,  3.5973e-03],
        [ 1.0300e-03,  2.2531e-04,  2.4700e-04,  ...,  5.6505e-04,
         -3.1185e-04,  4.2701e-04],
        ...,
        [ 3.7313e-04, -8.0681e-04,  4.6039e-04,  ...,  4.2105e-04,
          1.1581e-04,  5.7983e-04],
        [-1.2350e-03,  1.3733e-04, -1.1473e-03,  ..., -1.3304e-03,
          1.4567e-04, -1.6260e-03],
        [ 2.9877e-05,  1.2922e-04, -3.0231e-03,  ...,  1.2369e-03,
          1.1597e-03, -4.2419e-03]], device='cuda:0')
Epoch 17, bias, value: tensor([ 0.0076,  0.0045,  0.0025,  0.0171,  0.0234,  0.0295, -0.0250,  0.0062,
        -0.0299, -0.0173], device='cuda:0'), grad: tensor([ 7.7820e-04,  1.0666e-02, -2.1696e-04,  3.1586e-03, -2.0084e-03,
         4.2076e-03, -1.6663e-02,  3.8457e-04,  1.8179e-05, -3.2973e-04],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 16----------------------------------------------------
epoch 16, time 220.42, cls_loss 0.0681 cls_loss_mapping 0.0863 cls_loss_causal 0.9701 re_mapping 0.0395 re_causal 0.0956 /// teacc 97.89 lr 0.00010000
Epoch 18, weight, value: tensor([[ 0.0058,  0.0570,  0.0378,  ..., -0.0590, -0.0369,  0.0225],
        [ 0.0553, -0.0061, -0.0142,  ...,  0.0214,  0.0267, -0.0502],
        [-0.0180, -0.0035, -0.0230,  ..., -0.0226, -0.0075, -0.0070],
        ...,
        [ 0.0023,  0.0543, -0.0668,  ..., -0.0364,  0.0057, -0.0446],
        [-0.0047, -0.0268,  0.0210,  ...,  0.0182, -0.0422, -0.0255],
        [ 0.0096, -0.0247,  0.0097,  ..., -0.0173, -0.0220,  0.0418]],
       device='cuda:0'), grad: tensor([[-1.6606e-04, -2.2507e-03, -2.5892e-04,  ...,  1.1331e-04,
          3.0205e-05, -9.4175e-04],
        [-1.0264e-04,  1.7176e-03,  3.6168e-04,  ..., -3.0780e-04,
          2.7394e-04,  9.9599e-05],
        [-3.8624e-04,  2.9297e-03,  5.4169e-04,  ...,  6.2399e-07,
          9.6321e-04,  1.1337e-04],
        ...,
        [ 2.6369e-04,  5.0774e-03,  2.3155e-03,  ...,  1.6797e-04,
          1.3809e-03,  1.4105e-03],
        [ 5.1165e-04,  1.4029e-03,  7.2908e-04,  ...,  3.1853e-04,
          2.9731e-04,  1.0271e-03],
        [ 1.1438e-04, -1.8034e-03, -2.6817e-03,  ..., -1.7774e-04,
          4.6402e-05, -2.5082e-03]], device='cuda:0')
Epoch 18, bias, value: tensor([ 0.0074,  0.0043,  0.0027,  0.0170,  0.0231,  0.0298, -0.0250,  0.0064,
        -0.0299, -0.0172], device='cuda:0'), grad: tensor([-0.0031,  0.0063,  0.0029, -0.0224,  0.0013,  0.0007,  0.0010,  0.0132,
         0.0042, -0.0042], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 17----------------------------------------------------
epoch 17, time 219.83, cls_loss 0.0489 cls_loss_mapping 0.0716 cls_loss_causal 0.9451 re_mapping 0.0377 re_causal 0.0944 /// teacc 98.13 lr 0.00010000
Epoch 19, weight, value: tensor([[ 0.0056,  0.0584,  0.0385,  ..., -0.0598, -0.0374,  0.0231],
        [ 0.0556, -0.0063, -0.0146,  ...,  0.0213,  0.0277, -0.0511],
        [-0.0189, -0.0038, -0.0234,  ..., -0.0231, -0.0075, -0.0080],
        ...,
        [ 0.0018,  0.0550, -0.0680,  ..., -0.0369,  0.0069, -0.0456],
        [-0.0041, -0.0277,  0.0213,  ...,  0.0190, -0.0429, -0.0256],
        [ 0.0091, -0.0252,  0.0102,  ..., -0.0176, -0.0224,  0.0425]],
       device='cuda:0'), grad: tensor([[ 1.1051e-04, -2.0874e-04, -1.0979e-04,  ...,  1.3673e-04,
          4.6015e-05, -6.8069e-05],
        [-2.0638e-03, -9.9421e-05,  4.3869e-05,  ..., -1.7042e-03,
         -6.4707e-04,  5.6326e-05],
        [ 7.4768e-04,  2.9773e-05,  1.3733e-04,  ...,  8.0013e-04,
          6.0987e-04,  1.9515e-04],
        ...,
        [ 1.4973e-04, -1.7166e-04,  2.4748e-04,  ...,  2.0123e-04,
          5.3167e-05,  2.1780e-04],
        [ 1.5160e-02,  1.7381e-04,  1.0971e-02,  ...,  2.0920e-02,
          1.3718e-02,  1.0208e-02],
        [ 3.6979e-04, -2.7463e-05, -1.4043e-04,  ...,  5.1165e-04,
          3.5214e-04,  5.3465e-05]], device='cuda:0')
Epoch 19, bias, value: tensor([ 0.0080,  0.0041,  0.0025,  0.0170,  0.0232,  0.0298, -0.0253,  0.0066,
        -0.0298, -0.0174], device='cuda:0'), grad: tensor([-6.8367e-05, -1.7681e-03,  7.6818e-04,  4.3416e-04,  3.6407e-04,
        -2.9572e-02,  6.0987e-04,  2.7752e-04,  2.9022e-02, -6.4850e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 18, time 219.10, cls_loss 0.0536 cls_loss_mapping 0.0717 cls_loss_causal 0.9451 re_mapping 0.0348 re_causal 0.0893 /// teacc 98.08 lr 0.00010000
Epoch 20, weight, value: tensor([[ 0.0055,  0.0591,  0.0385,  ..., -0.0605, -0.0389,  0.0230],
        [ 0.0562, -0.0061, -0.0152,  ...,  0.0215,  0.0289, -0.0518],
        [-0.0198, -0.0042, -0.0237,  ..., -0.0235, -0.0078, -0.0085],
        ...,
        [ 0.0009,  0.0560, -0.0693,  ..., -0.0377,  0.0073, -0.0461],
        [-0.0038, -0.0285,  0.0214,  ...,  0.0195, -0.0442, -0.0259],
        [ 0.0094, -0.0254,  0.0110,  ..., -0.0177, -0.0222,  0.0437]],
       device='cuda:0'), grad: tensor([[ 4.0591e-05, -2.1148e-04, -9.0837e-05,  ...,  2.0587e-04,
          1.8328e-05, -9.5546e-05],
        [-2.4147e-03,  1.0036e-05, -9.7215e-05,  ..., -2.6913e-03,
         -2.0161e-03,  3.1084e-05],
        [ 1.7223e-03,  4.3726e-04,  2.2066e-04,  ...,  2.5406e-03,
          1.5469e-03,  6.5684e-05],
        ...,
        [ 2.0754e-04, -1.1021e-04,  2.1553e-04,  ...,  2.2411e-04,
          1.0091e-04,  2.4438e-04],
        [-3.0231e-03,  6.5863e-05, -2.1629e-03,  ..., -2.6226e-03,
          1.1224e-04, -3.9673e-03],
        [ 1.1224e-04, -1.6436e-05, -7.6151e-04,  ...,  2.0301e-04,
          1.9401e-05, -9.8324e-04]], device='cuda:0')
Epoch 20, bias, value: tensor([ 0.0079,  0.0039,  0.0026,  0.0168,  0.0234,  0.0295, -0.0255,  0.0067,
        -0.0298, -0.0170], device='cuda:0'), grad: tensor([ 0.0001, -0.0035,  0.0035,  0.0005, -0.0154,  0.0029,  0.0163,  0.0005,
        -0.0042, -0.0006], device='cuda:0')
100
0.0001
changing lr
epoch 19, time 219.26, cls_loss 0.0496 cls_loss_mapping 0.0627 cls_loss_causal 0.9332 re_mapping 0.0336 re_causal 0.0876 /// teacc 98.05 lr 0.00010000
Epoch 21, weight, value: tensor([[ 0.0058,  0.0597,  0.0387,  ..., -0.0612, -0.0399,  0.0231],
        [ 0.0569, -0.0062, -0.0156,  ...,  0.0219,  0.0299, -0.0524],
        [-0.0207, -0.0047, -0.0242,  ..., -0.0241, -0.0073, -0.0092],
        ...,
        [ 0.0002,  0.0567, -0.0705,  ..., -0.0381,  0.0070, -0.0472],
        [-0.0038, -0.0295,  0.0215,  ...,  0.0199, -0.0455, -0.0261],
        [ 0.0086, -0.0252,  0.0117,  ..., -0.0183, -0.0229,  0.0444]],
       device='cuda:0'), grad: tensor([[ 1.1665e-04,  6.6936e-05,  1.3566e-04,  ...,  6.4433e-05,
          4.7892e-05,  8.9705e-05],
        [-3.3951e-03,  1.2290e-04,  2.7990e-04,  ..., -2.9411e-03,
         -9.0170e-04,  8.5652e-05],
        [-1.5503e-02, -2.0523e-03,  2.6627e-03,  ..., -1.3382e-02,
          1.7557e-03,  9.4509e-04],
        ...,
        [ 3.3665e-04, -2.7409e-03, -1.6785e-03,  ...,  7.9393e-04,
         -6.5565e-04, -2.2964e-03],
        [ 1.6739e-02,  1.9207e-03, -4.5609e-04,  ...,  1.4687e-02,
          8.9788e-04,  1.8358e-04],
        [ 6.4564e-04,  2.1019e-03,  5.5237e-03,  ...,  3.7932e-04,
          2.9430e-03,  3.1948e-03]], device='cuda:0')
Epoch 21, bias, value: tensor([ 0.0077,  0.0038,  0.0024,  0.0171,  0.0234,  0.0298, -0.0252,  0.0064,
        -0.0301, -0.0168], device='cuda:0'), grad: tensor([ 0.0004, -0.0020, -0.0226,  0.0039, -0.0104, -0.0001,  0.0004, -0.0071,
         0.0267,  0.0109], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 20----------------------------------------------------
epoch 20, time 219.80, cls_loss 0.0453 cls_loss_mapping 0.0621 cls_loss_causal 0.9226 re_mapping 0.0327 re_causal 0.0852 /// teacc 98.40 lr 0.00010000
Epoch 22, weight, value: tensor([[ 0.0056,  0.0604,  0.0388,  ..., -0.0619, -0.0400,  0.0234],
        [ 0.0575, -0.0059, -0.0155,  ...,  0.0227,  0.0304, -0.0530],
        [-0.0211, -0.0047, -0.0245,  ..., -0.0246, -0.0076, -0.0098],
        ...,
        [-0.0004,  0.0575, -0.0717,  ..., -0.0393,  0.0077, -0.0480],
        [-0.0035, -0.0300,  0.0217,  ...,  0.0205, -0.0456, -0.0258],
        [ 0.0084, -0.0261,  0.0124,  ..., -0.0186, -0.0231,  0.0453]],
       device='cuda:0'), grad: tensor([[-4.5985e-05, -6.9046e-04, -3.7909e-04,  ...,  1.9145e-04,
          2.6543e-06, -3.5024e-04],
        [-2.0170e-04,  5.9932e-05,  1.0216e-04,  ..., -4.5627e-05,
         -3.0935e-05,  7.9393e-05],
        [ 1.9825e-04,  3.2425e-04,  2.2137e-04,  ...,  2.4307e-04,
         -1.8924e-05,  2.0266e-04],
        ...,
        [ 8.8751e-05, -2.0337e-04,  1.0478e-04,  ...,  1.3888e-04,
          1.1943e-05,  9.8467e-05],
        [ 4.4727e-04,  1.3149e-04,  1.7762e-04,  ...,  5.2977e-04,
          1.7032e-05,  1.2341e-03],
        [ 1.6820e-04,  2.4343e-04,  2.5139e-03,  ...,  4.7836e-03,
          4.0084e-06,  2.3632e-03]], device='cuda:0')
Epoch 22, bias, value: tensor([ 0.0077,  0.0040,  0.0026,  0.0167,  0.0234,  0.0295, -0.0252,  0.0066,
        -0.0299, -0.0168], device='cuda:0'), grad: tensor([-7.6818e-04,  6.9678e-05,  4.7684e-04,  6.8188e-04, -9.1553e-03,
         4.3607e-04, -2.4433e-03,  9.4771e-05,  1.2293e-03,  9.3842e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 21, time 218.49, cls_loss 0.0501 cls_loss_mapping 0.0673 cls_loss_causal 0.8941 re_mapping 0.0318 re_causal 0.0784 /// teacc 98.07 lr 0.00010000
Epoch 23, weight, value: tensor([[ 0.0055,  0.0611,  0.0393,  ..., -0.0624, -0.0404,  0.0241],
        [ 0.0580, -0.0059, -0.0157,  ...,  0.0230,  0.0310, -0.0537],
        [-0.0213, -0.0052, -0.0252,  ..., -0.0251, -0.0074, -0.0109],
        ...,
        [-0.0010,  0.0587, -0.0726,  ..., -0.0400,  0.0074, -0.0488],
        [-0.0035, -0.0305,  0.0218,  ...,  0.0210, -0.0465, -0.0261],
        [ 0.0077, -0.0267,  0.0126,  ..., -0.0195, -0.0236,  0.0456]],
       device='cuda:0'), grad: tensor([[ 4.9305e-04,  1.2808e-03,  5.1403e-04,  ...,  6.4087e-04,
          3.5584e-05,  1.3647e-03],
        [-5.2929e-04,  1.5032e-04,  1.4496e-04,  ..., -4.6825e-04,
         -2.1553e-04,  1.2052e-04],
        [ 4.8709e-04,  3.5524e-05,  5.8460e-04,  ...,  1.0735e-04,
         -2.2745e-04,  4.8494e-04],
        ...,
        [ 2.9516e-04, -1.2426e-03,  2.2507e-04,  ...,  2.0361e-04,
          1.9252e-04,  2.1100e-04],
        [ 1.1044e-03,  2.8062e-04,  1.5516e-03,  ...,  2.0099e-04,
          1.5306e-04,  1.3542e-03],
        [ 1.1617e-04,  1.0508e-04,  4.7177e-05,  ...,  1.1814e-04,
          4.0948e-05, -9.6202e-05]], device='cuda:0')
Epoch 23, bias, value: tensor([ 0.0081,  0.0041,  0.0023,  0.0165,  0.0232,  0.0302, -0.0251,  0.0067,
        -0.0298, -0.0174], device='cuda:0'), grad: tensor([ 0.0023, -0.0002,  0.0003, -0.0031,  0.0002,  0.0013, -0.0024, -0.0013,
         0.0026,  0.0005], device='cuda:0')
100
0.0001
changing lr
epoch 22, time 218.35, cls_loss 0.0504 cls_loss_mapping 0.0670 cls_loss_causal 0.8771 re_mapping 0.0303 re_causal 0.0771 /// teacc 98.16 lr 0.00010000
Epoch 24, weight, value: tensor([[ 0.0051,  0.0611,  0.0390,  ..., -0.0632, -0.0408,  0.0235],
        [ 0.0586, -0.0060, -0.0163,  ...,  0.0230,  0.0322, -0.0546],
        [-0.0221, -0.0051, -0.0253,  ..., -0.0254, -0.0077, -0.0111],
        ...,
        [-0.0015,  0.0595, -0.0738,  ..., -0.0407,  0.0073, -0.0499],
        [-0.0035, -0.0305,  0.0221,  ...,  0.0213, -0.0472, -0.0262],
        [ 0.0070, -0.0269,  0.0132,  ..., -0.0197, -0.0232,  0.0466]],
       device='cuda:0'), grad: tensor([[-3.4118e-04, -8.9645e-04, -2.0123e-04,  ...,  1.4699e-04,
          8.8662e-06,  1.3888e-04],
        [-8.0109e-04,  3.9220e-04,  7.1406e-05,  ..., -5.9652e-04,
         -8.5413e-05,  5.3406e-05],
        [ 2.1875e-04,  5.2977e-04,  2.3663e-04,  ...,  2.7204e-04,
         -2.5049e-05,  1.7333e-04],
        ...,
        [ 1.6189e-04,  2.8687e-03,  1.5569e-04,  ...,  2.8553e-03,
          4.5031e-05,  2.6917e-04],
        [ 1.7428e-04,  9.2649e-04, -1.7080e-03,  ..., -1.9574e-04,
          6.3121e-05, -9.7132e-04],
        [ 1.5223e-04,  2.2697e-03,  1.3363e-04,  ...,  1.2646e-03,
          5.6893e-05, -2.6298e-04]], device='cuda:0')
Epoch 24, bias, value: tensor([ 0.0072,  0.0038,  0.0025,  0.0168,  0.0233,  0.0303, -0.0252,  0.0066,
        -0.0298, -0.0170], device='cuda:0'), grad: tensor([-1.0109e-03, -1.7083e-04,  1.0939e-03,  1.4820e-03, -1.2550e-02,
         3.3927e-04, -2.3469e-05,  7.5531e-03, -4.8733e-04,  3.7708e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 23, time 219.35, cls_loss 0.0496 cls_loss_mapping 0.0664 cls_loss_causal 0.8789 re_mapping 0.0292 re_causal 0.0773 /// teacc 98.13 lr 0.00010000
Epoch 25, weight, value: tensor([[ 0.0054,  0.0615,  0.0394,  ..., -0.0639, -0.0413,  0.0239],
        [ 0.0593, -0.0056, -0.0164,  ...,  0.0237,  0.0332, -0.0548],
        [-0.0227, -0.0055, -0.0257,  ..., -0.0262, -0.0076, -0.0118],
        ...,
        [-0.0024,  0.0608, -0.0746,  ..., -0.0412,  0.0087, -0.0506],
        [-0.0036, -0.0314,  0.0223,  ...,  0.0215, -0.0483, -0.0262],
        [ 0.0065, -0.0274,  0.0135,  ..., -0.0201, -0.0241,  0.0470]],
       device='cuda:0'), grad: tensor([[ 2.5773e-04, -2.8515e-04, -1.2553e-04,  ...,  1.9753e-04,
          3.1918e-05, -2.6393e-04],
        [ 2.7390e-03,  1.0118e-05,  1.3244e-04,  ...,  2.4414e-03,
          1.0872e-03,  7.9441e-04],
        [ 1.3554e-04,  3.7968e-05,  1.0228e-04,  ..., -3.5000e-04,
         -6.9714e-04,  8.9407e-05],
        ...,
        [ 1.1563e-04, -1.6689e-05,  9.6083e-05,  ...,  1.2267e-04,
          1.2243e-04,  1.0562e-04],
        [-7.4539e-03,  5.1409e-05, -6.0409e-05,  ..., -5.7449e-03,
         -1.5554e-03, -2.6073e-03],
        [ 2.7585e-04,  1.6236e-04, -1.0881e-03,  ..., -3.6335e-04,
         -6.9559e-05, -1.4200e-03]], device='cuda:0')
Epoch 25, bias, value: tensor([ 0.0069,  0.0040,  0.0019,  0.0167,  0.0234,  0.0302, -0.0249,  0.0073,
        -0.0297, -0.0174], device='cuda:0'), grad: tensor([-3.2961e-05,  3.4847e-03, -2.0485e-03, -3.2568e-04,  4.3335e-03,
         3.2005e-03, -1.7290e-03,  6.8903e-04, -5.4932e-03, -2.0771e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 24, time 218.92, cls_loss 0.0489 cls_loss_mapping 0.0642 cls_loss_causal 0.8523 re_mapping 0.0289 re_causal 0.0755 /// teacc 98.18 lr 0.00010000
Epoch 26, weight, value: tensor([[ 0.0057,  0.0623,  0.0403,  ..., -0.0645, -0.0410,  0.0244],
        [ 0.0597, -0.0055, -0.0171,  ...,  0.0240,  0.0339, -0.0561],
        [-0.0233, -0.0057, -0.0260,  ..., -0.0267, -0.0066, -0.0123],
        ...,
        [-0.0032,  0.0613, -0.0757,  ..., -0.0415,  0.0080, -0.0511],
        [-0.0035, -0.0320,  0.0225,  ...,  0.0220, -0.0492, -0.0266],
        [ 0.0063, -0.0284,  0.0139,  ..., -0.0200, -0.0230,  0.0477]],
       device='cuda:0'), grad: tensor([[ 4.1342e-04,  1.8346e-04,  7.9536e-04,  ...,  1.0500e-03,
          8.3637e-04,  6.2943e-04],
        [-7.8773e-04,  4.5395e-04,  2.0790e-04,  ..., -3.2711e-04,
         -6.1870e-05,  1.8167e-04],
        [ 1.4954e-03,  5.5933e-04,  9.4528e-03,  ...,  1.2751e-03,
          5.8823e-03,  4.7607e-03],
        ...,
        [ 2.0564e-04, -2.8324e-03,  4.4799e-04,  ..., -1.3232e-04,
         -1.1339e-03,  2.8324e-04],
        [ 3.8090e-03,  1.3046e-03,  2.3289e-03,  ...,  3.5496e-03,
          6.2180e-03,  1.3952e-03],
        [ 2.1076e-04,  7.9441e-04,  1.5936e-03,  ...,  1.9474e-03,
          4.0388e-04,  2.0862e-04]], device='cuda:0')
Epoch 26, bias, value: tensor([ 0.0078,  0.0037,  0.0025,  0.0166,  0.0232,  0.0300, -0.0250,  0.0069,
        -0.0297, -0.0174], device='cuda:0'), grad: tensor([ 2.2564e-03,  9.7561e-04,  2.4323e-02, -2.2736e-02, -8.3506e-05,
        -1.1223e-02, -2.0866e-03, -6.9542e-03,  1.0719e-02,  4.8141e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 25, time 219.04, cls_loss 0.0429 cls_loss_mapping 0.0577 cls_loss_causal 0.8779 re_mapping 0.0278 re_causal 0.0738 /// teacc 98.31 lr 0.00010000
Epoch 27, weight, value: tensor([[ 0.0051,  0.0629,  0.0405,  ..., -0.0655, -0.0417,  0.0247],
        [ 0.0607, -0.0057, -0.0170,  ...,  0.0246,  0.0348, -0.0565],
        [-0.0245, -0.0057, -0.0264,  ..., -0.0274, -0.0077, -0.0129],
        ...,
        [-0.0036,  0.0619, -0.0770,  ..., -0.0419,  0.0088, -0.0518],
        [-0.0038, -0.0329,  0.0221,  ...,  0.0222, -0.0505, -0.0272],
        [ 0.0056, -0.0286,  0.0143,  ..., -0.0204, -0.0237,  0.0483]],
       device='cuda:0'), grad: tensor([[ 1.0714e-05,  1.8954e-04,  2.3139e-04,  ...,  1.3053e-05,
          9.5814e-06,  3.1638e-04],
        [-3.6049e-04,  6.8724e-05,  8.7544e-06,  ..., -1.9324e-04,
         -1.0598e-04, -1.8775e-06],
        [ 4.5180e-05, -2.4343e-04, -1.5521e-04,  ...,  2.1398e-05,
         -3.5137e-05,  1.3745e-04],
        ...,
        [ 7.7069e-05, -1.7910e-03,  5.6076e-04,  ...,  6.7651e-05,
         -2.8476e-05, -1.4293e-04],
        [ 2.0251e-05,  1.1104e-04,  1.3793e-04,  ..., -9.6619e-05,
          5.4181e-05,  2.0134e-04],
        [ 9.9242e-05,  1.0691e-03, -1.7738e-03,  ...,  7.6175e-05,
         -4.6641e-06, -1.4668e-03]], device='cuda:0')
Epoch 27, bias, value: tensor([ 0.0077,  0.0040,  0.0024,  0.0167,  0.0236,  0.0305, -0.0252,  0.0067,
        -0.0302, -0.0173], device='cuda:0'), grad: tensor([ 4.5276e-04, -1.5342e-04, -4.5562e-04,  1.2884e-03,  3.6907e-04,
         2.5654e-04,  1.0781e-05, -1.7262e-03,  2.4211e-04, -2.8563e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 26, time 218.59, cls_loss 0.0436 cls_loss_mapping 0.0513 cls_loss_causal 0.8530 re_mapping 0.0279 re_causal 0.0697 /// teacc 98.14 lr 0.00010000
Epoch 28, weight, value: tensor([[ 0.0046,  0.0633,  0.0408,  ..., -0.0665, -0.0427,  0.0250],
        [ 0.0611, -0.0056, -0.0174,  ...,  0.0250,  0.0352, -0.0572],
        [-0.0248, -0.0059, -0.0266,  ..., -0.0278, -0.0068, -0.0136],
        ...,
        [-0.0042,  0.0627, -0.0780,  ..., -0.0429,  0.0086, -0.0525],
        [-0.0034, -0.0336,  0.0226,  ...,  0.0231, -0.0512, -0.0273],
        [ 0.0046, -0.0292,  0.0150,  ..., -0.0211, -0.0242,  0.0488]],
       device='cuda:0'), grad: tensor([[ 5.3263e-04,  1.0365e-04,  3.3069e-04,  ...,  2.9778e-04,
          7.8231e-06,  3.8052e-04],
        [ 3.3712e-04,  5.7161e-05,  1.8036e-04,  ...,  6.1274e-04,
          1.0198e-04,  9.8884e-05],
        [ 1.1663e-03,  2.9147e-05,  8.0442e-04,  ...,  1.4949e-04,
          7.5054e-04,  8.9765e-05],
        ...,
        [-1.5581e-04, -3.8586e-03, -7.3433e-04,  ..., -5.2404e-04,
          9.2834e-06, -2.1648e-03],
        [ 4.4060e-03,  3.0732e-04,  3.6812e-03,  ...,  2.7981e-03,
          3.4356e-04,  4.6730e-03],
        [ 2.0733e-03,  4.5319e-03,  1.6689e-03,  ...,  5.6190e-03,
          1.0215e-05,  3.5381e-03]], device='cuda:0')
Epoch 28, bias, value: tensor([ 0.0075,  0.0039,  0.0031,  0.0164,  0.0236,  0.0306, -0.0253,  0.0065,
        -0.0299, -0.0176], device='cuda:0'), grad: tensor([ 0.0006,  0.0011,  0.0027, -0.0029, -0.0068,  0.0031, -0.0106, -0.0065,
         0.0063,  0.0131], device='cuda:0')
100
0.0001
changing lr
epoch 27, time 218.74, cls_loss 0.0394 cls_loss_mapping 0.0515 cls_loss_causal 0.8938 re_mapping 0.0268 re_causal 0.0723 /// teacc 98.38 lr 0.00010000
Epoch 29, weight, value: tensor([[ 0.0045,  0.0643,  0.0412,  ..., -0.0673, -0.0435,  0.0254],
        [ 0.0613, -0.0063, -0.0180,  ...,  0.0251,  0.0359, -0.0577],
        [-0.0258, -0.0062, -0.0269,  ..., -0.0286, -0.0075, -0.0136],
        ...,
        [-0.0042,  0.0637, -0.0786,  ..., -0.0431,  0.0094, -0.0533],
        [-0.0029, -0.0347,  0.0226,  ...,  0.0242, -0.0516, -0.0276],
        [ 0.0040, -0.0291,  0.0150,  ..., -0.0217, -0.0247,  0.0493]],
       device='cuda:0'), grad: tensor([[ 1.1379e-04, -1.2283e-03, -1.2350e-03,  ..., -2.2805e-04,
          6.3181e-05, -1.0834e-03],
        [-2.5902e-03, -1.5068e-04, -4.2129e-04,  ..., -1.1053e-03,
         -1.3523e-03,  3.5548e-04],
        [ 1.4172e-03,  6.7520e-04,  5.2738e-04,  ...,  6.2418e-04,
          1.2420e-05,  7.2813e-04],
        ...,
        [ 4.0674e-04,  8.8930e-05,  3.2926e-04,  ...,  1.8537e-04,
          2.1052e-04,  3.8338e-04],
        [ 1.4410e-03,  2.1482e-04,  5.8174e-04,  ...,  9.0981e-04,
          4.3321e-04,  4.8709e-04],
        [-6.9737e-06, -4.3422e-05, -3.6716e-03,  ...,  6.1703e-04,
          1.1218e-04, -3.2043e-03]], device='cuda:0')
Epoch 29, bias, value: tensor([ 0.0077,  0.0035,  0.0028,  0.0168,  0.0234,  0.0304, -0.0256,  0.0066,
        -0.0297, -0.0174], device='cuda:0'), grad: tensor([-2.9716e-03, -3.2349e-03,  2.4872e-03,  3.4313e-03, -3.2429e-06,
         1.8711e-03, -2.1114e-03,  1.0519e-03,  1.9484e-03, -2.4719e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 28, time 218.66, cls_loss 0.0316 cls_loss_mapping 0.0431 cls_loss_causal 0.7947 re_mapping 0.0261 re_causal 0.0710 /// teacc 98.39 lr 0.00010000
Epoch 30, weight, value: tensor([[ 0.0040,  0.0645,  0.0415,  ..., -0.0676, -0.0439,  0.0254],
        [ 0.0618, -0.0052, -0.0181,  ...,  0.0255,  0.0362, -0.0585],
        [-0.0257, -0.0064, -0.0268,  ..., -0.0289, -0.0076, -0.0135],
        ...,
        [-0.0049,  0.0640, -0.0797,  ..., -0.0437,  0.0097, -0.0542],
        [-0.0035, -0.0356,  0.0227,  ...,  0.0242, -0.0527, -0.0278],
        [ 0.0040, -0.0288,  0.0149,  ..., -0.0223, -0.0248,  0.0496]],
       device='cuda:0'), grad: tensor([[-3.5137e-05, -1.0848e-04, -7.3195e-05,  ...,  3.4660e-05,
          4.0054e-05, -8.4460e-05],
        [ 2.9579e-05, -1.2308e-05,  2.2918e-05,  ...,  1.5807e-04,
          5.3972e-05,  4.7356e-05],
        [-4.3464e-04, -1.3262e-05,  1.2398e-05,  ..., -2.4378e-04,
         -5.8413e-04,  2.7508e-05],
        ...,
        [ 8.1062e-05, -1.7896e-05,  4.3213e-05,  ...,  2.1577e-04,
          1.5163e-04,  5.0724e-05],
        [-6.5446e-05,  2.3305e-05, -6.3419e-04,  ..., -1.0853e-03,
         -4.7684e-05, -6.3086e-04],
        [ 5.7399e-05,  4.3839e-05,  1.8799e-04,  ...,  3.3832e-04,
          1.0180e-04,  1.3852e-04]], device='cuda:0')
Epoch 30, bias, value: tensor([ 0.0074,  0.0034,  0.0029,  0.0167,  0.0236,  0.0310, -0.0258,  0.0066,
        -0.0299, -0.0175], device='cuda:0'), grad: tensor([-4.0770e-05,  3.1471e-04, -2.3918e-03,  5.7364e-04, -3.2353e-04,
         5.0926e-04,  2.5368e-04,  5.4216e-04,  6.5565e-05,  4.9639e-04],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 29----------------------------------------------------
epoch 29, time 219.74, cls_loss 0.0331 cls_loss_mapping 0.0461 cls_loss_causal 0.8036 re_mapping 0.0244 re_causal 0.0668 /// teacc 98.42 lr 0.00010000
Epoch 31, weight, value: tensor([[ 0.0035,  0.0650,  0.0417,  ..., -0.0685, -0.0443,  0.0255],
        [ 0.0628, -0.0056, -0.0189,  ...,  0.0268,  0.0374, -0.0592],
        [-0.0262, -0.0061, -0.0268,  ..., -0.0298, -0.0079, -0.0138],
        ...,
        [-0.0057,  0.0648, -0.0807,  ..., -0.0448,  0.0100, -0.0551],
        [-0.0034, -0.0360,  0.0233,  ...,  0.0246, -0.0533, -0.0278],
        [ 0.0030, -0.0296,  0.0153,  ..., -0.0229, -0.0250,  0.0502]],
       device='cuda:0'), grad: tensor([[-9.3460e-05, -9.6619e-05, -5.5283e-05,  ..., -3.2157e-05,
          8.0541e-06, -1.4734e-04],
        [-1.9574e-04,  1.3494e-04,  1.4567e-04,  ..., -1.3435e-04,
         -5.5492e-05,  5.2303e-05],
        [ 1.0145e-04,  2.1725e-03,  1.7262e-03,  ...,  1.0467e-04,
         -1.0812e-04,  3.0518e-05],
        ...,
        [ 5.5969e-05, -5.1613e-03, -3.7727e-03,  ...,  1.0347e-04,
          5.2720e-05,  3.4660e-05],
        [-2.0027e-04,  3.5429e-04, -3.5346e-05,  ..., -4.4584e-04,
          3.8564e-05, -2.1338e-04],
        [ 1.0240e-04,  2.0337e-04,  2.9659e-04,  ...,  1.5402e-03,
          1.0677e-05,  1.0681e-03]], device='cuda:0')
Epoch 31, bias, value: tensor([ 0.0074,  0.0034,  0.0031,  0.0164,  0.0234,  0.0312, -0.0258,  0.0068,
        -0.0295, -0.0179], device='cuda:0'), grad: tensor([-6.3896e-05,  4.3225e-04,  6.6223e-03,  6.5002e-03, -2.4605e-03,
         6.2895e-04,  2.0218e-04, -1.5556e-02,  5.1355e-04,  3.1776e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 30, time 218.43, cls_loss 0.0352 cls_loss_mapping 0.0457 cls_loss_causal 0.8238 re_mapping 0.0239 re_causal 0.0642 /// teacc 98.36 lr 0.00010000
Epoch 32, weight, value: tensor([[ 0.0034,  0.0656,  0.0420,  ..., -0.0692, -0.0448,  0.0259],
        [ 0.0630, -0.0055, -0.0194,  ...,  0.0267,  0.0378, -0.0604],
        [-0.0267, -0.0064, -0.0270,  ..., -0.0303, -0.0076, -0.0139],
        ...,
        [-0.0070,  0.0654, -0.0820,  ..., -0.0455,  0.0095, -0.0563],
        [-0.0030, -0.0361,  0.0235,  ...,  0.0252, -0.0538, -0.0280],
        [ 0.0029, -0.0298,  0.0158,  ..., -0.0232, -0.0253,  0.0510]],
       device='cuda:0'), grad: tensor([[ 8.2627e-06, -8.9049e-05, -8.9228e-05,  ...,  1.4074e-05,
          9.9838e-06, -9.8944e-05],
        [-2.9488e-03,  1.8612e-05,  1.5028e-05,  ..., -3.6716e-03,
         -3.6812e-03,  1.2040e-05],
        [ 2.7924e-03,  8.8453e-05,  1.9640e-05,  ...,  3.5038e-03,
          3.4485e-03,  3.1948e-05],
        ...,
        [ 3.8207e-05, -1.4210e-04,  1.9002e-04,  ...,  3.9577e-05,
          3.2485e-05,  1.3947e-04],
        [ 1.0353e-04,  2.9549e-05,  1.5903e-04,  ...,  9.7036e-05,
          7.0989e-05,  1.6773e-04],
        [ 4.3809e-05, -2.9638e-05, -4.8089e-04,  ...,  5.7928e-07,
          8.7172e-06, -3.7050e-04]], device='cuda:0')
Epoch 32, bias, value: tensor([ 0.0074,  0.0030,  0.0032,  0.0168,  0.0234,  0.0310, -0.0259,  0.0065,
        -0.0293, -0.0178], device='cuda:0'), grad: tensor([-1.3328e-04, -4.5815e-03,  4.3068e-03,  2.7716e-05,  3.1161e-04,
         9.2328e-05,  4.7088e-05,  9.3162e-05,  3.2449e-04, -4.8804e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 31, time 218.53, cls_loss 0.0307 cls_loss_mapping 0.0406 cls_loss_causal 0.7918 re_mapping 0.0234 re_causal 0.0632 /// teacc 98.26 lr 0.00010000
Epoch 33, weight, value: tensor([[ 0.0032,  0.0660,  0.0422,  ..., -0.0698, -0.0454,  0.0260],
        [ 0.0638, -0.0061, -0.0199,  ...,  0.0271,  0.0393, -0.0611],
        [-0.0277, -0.0066, -0.0269,  ..., -0.0309, -0.0080, -0.0142],
        ...,
        [-0.0073,  0.0660, -0.0828,  ..., -0.0456,  0.0101, -0.0568],
        [-0.0028, -0.0368,  0.0237,  ...,  0.0258, -0.0547, -0.0278],
        [ 0.0025, -0.0298,  0.0165,  ..., -0.0238, -0.0255,  0.0516]],
       device='cuda:0'), grad: tensor([[ 2.4274e-05, -1.8358e-04, -1.2338e-04,  ...,  2.2754e-05,
          6.1579e-06, -2.0647e-04],
        [-2.0885e-04,  9.9465e-06,  5.4032e-05,  ...,  1.3065e-04,
         -1.2302e-04,  3.4302e-05],
        [ 7.6175e-05,  2.2054e-05,  9.0003e-05,  ...,  6.0141e-05,
          1.7554e-05,  9.6381e-05],
        ...,
        [ 1.3494e-04, -3.3522e-04,  6.8486e-05,  ...,  5.1677e-05,
          6.8665e-05,  5.1945e-05],
        [ 1.9300e-04,  2.6286e-05,  3.2663e-04,  ...,  8.6248e-05,
          6.4015e-05,  3.8505e-04],
        [-1.7285e-05,  2.9612e-04, -2.4166e-03,  ...,  3.8838e-04,
          2.0516e-04, -1.7834e-03]], device='cuda:0')
Epoch 33, bias, value: tensor([ 0.0075,  0.0031,  0.0032,  0.0163,  0.0234,  0.0308, -0.0258,  0.0069,
        -0.0292, -0.0177], device='cuda:0'), grad: tensor([-2.8419e-04,  6.2287e-05,  1.1539e-04,  1.8969e-03, -1.8969e-03,
         3.6329e-05,  3.0994e-05, -1.5354e-04,  4.5967e-04, -2.6608e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 32, time 218.64, cls_loss 0.0322 cls_loss_mapping 0.0418 cls_loss_causal 0.8160 re_mapping 0.0227 re_causal 0.0610 /// teacc 98.24 lr 0.00010000
Epoch 34, weight, value: tensor([[ 0.0031,  0.0662,  0.0421,  ..., -0.0705, -0.0463,  0.0252],
        [ 0.0640, -0.0061, -0.0207,  ...,  0.0273,  0.0400, -0.0619],
        [-0.0279, -0.0070, -0.0272,  ..., -0.0315, -0.0083, -0.0149],
        ...,
        [-0.0079,  0.0670, -0.0836,  ..., -0.0461,  0.0093, -0.0572],
        [-0.0029, -0.0373,  0.0235,  ...,  0.0262, -0.0554, -0.0285],
        [ 0.0017, -0.0303,  0.0172,  ..., -0.0240, -0.0259,  0.0528]],
       device='cuda:0'), grad: tensor([[ 6.0558e-05, -1.8165e-05,  8.3745e-05,  ...,  2.9728e-05,
          7.1377e-06,  2.0340e-05],
        [-9.8884e-05,  4.9055e-05,  1.8671e-05,  ..., -6.3837e-05,
         -4.3064e-05,  9.1866e-06],
        [ 8.0645e-05,  1.5748e-04,  2.7537e-04,  ...,  1.5366e-04,
          2.0668e-05,  1.2469e-04],
        ...,
        [ 3.6478e-05, -8.7690e-04,  1.8287e-04,  ...,  8.3327e-05,
         -3.5107e-05,  1.3268e-04],
        [-9.4557e-04,  6.4850e-05, -2.5349e-03,  ..., -3.7718e-04,
          1.7598e-05, -1.5869e-03],
        [ 4.9257e-04,  1.6963e-04,  1.3065e-03,  ...,  2.9993e-04,
          1.7449e-05,  8.1110e-04]], device='cuda:0')
Epoch 34, bias, value: tensor([ 0.0070,  0.0029,  0.0031,  0.0167,  0.0233,  0.0310, -0.0255,  0.0069,
        -0.0296, -0.0177], device='cuda:0'), grad: tensor([ 1.2600e-04,  9.1136e-05,  7.2098e-04,  2.4080e-04,  9.2804e-05,
         2.1470e-04,  2.4533e-04, -1.1606e-03, -2.5730e-03,  2.0027e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 33, time 218.62, cls_loss 0.0356 cls_loss_mapping 0.0402 cls_loss_causal 0.7848 re_mapping 0.0237 re_causal 0.0591 /// teacc 98.37 lr 0.00010000
Epoch 35, weight, value: tensor([[ 0.0025,  0.0667,  0.0423,  ..., -0.0713, -0.0475,  0.0252],
        [ 0.0645, -0.0067, -0.0207,  ...,  0.0275,  0.0415, -0.0626],
        [-0.0287, -0.0073, -0.0273,  ..., -0.0322, -0.0090, -0.0154],
        ...,
        [-0.0085,  0.0682, -0.0849,  ..., -0.0469,  0.0099, -0.0581],
        [-0.0021, -0.0380,  0.0237,  ...,  0.0271, -0.0559, -0.0282],
        [ 0.0014, -0.0307,  0.0176,  ..., -0.0247, -0.0265,  0.0536]],
       device='cuda:0'), grad: tensor([[ 4.2367e-04,  2.9063e-04,  1.2755e-04,  ...,  3.2449e-04,
          2.8834e-06,  4.5490e-04],
        [ 4.0889e-05,  2.9445e-04,  2.5392e-04,  ...,  1.0020e-04,
          4.5747e-06,  2.0993e-04],
        [ 2.3574e-05, -1.8921e-03,  4.1664e-05,  ...,  2.9624e-05,
         -3.6812e-04,  2.7224e-05],
        ...,
        [ 1.9684e-05,  3.5686e-03,  2.0123e-03,  ...,  5.1022e-04,
          3.3069e-04,  1.7958e-03],
        [-1.0133e-04,  1.8060e-04,  1.2374e-04,  ..., -1.5974e-04,
          3.2093e-06,  2.0695e-04],
        [-1.4573e-05, -2.6340e-03, -2.8706e-03,  ..., -5.9128e-04,
          3.2019e-06, -2.6112e-03]], device='cuda:0')
Epoch 35, bias, value: tensor([ 0.0068,  0.0029,  0.0030,  0.0167,  0.0238,  0.0309, -0.0262,  0.0070,
        -0.0292, -0.0177], device='cuda:0'), grad: tensor([ 0.0010,  0.0013, -0.0041,  0.0005,  0.0009, -0.0002, -0.0007,  0.0137,
         0.0004, -0.0128], device='cuda:0')
100
0.0001
changing lr
epoch 34, time 218.48, cls_loss 0.0307 cls_loss_mapping 0.0392 cls_loss_causal 0.7970 re_mapping 0.0231 re_causal 0.0635 /// teacc 98.41 lr 0.00010000
Epoch 36, weight, value: tensor([[ 0.0026,  0.0678,  0.0428,  ..., -0.0720, -0.0482,  0.0257],
        [ 0.0649, -0.0071, -0.0212,  ...,  0.0278,  0.0420, -0.0631],
        [-0.0292, -0.0075, -0.0277,  ..., -0.0328, -0.0093, -0.0160],
        ...,
        [-0.0089,  0.0684, -0.0862,  ..., -0.0474,  0.0109, -0.0589],
        [-0.0022, -0.0385,  0.0238,  ...,  0.0274, -0.0566, -0.0284],
        [ 0.0008, -0.0305,  0.0178,  ..., -0.0253, -0.0263,  0.0536]],
       device='cuda:0'), grad: tensor([[ 3.9965e-05,  1.2743e-04,  2.9847e-05,  ...,  1.9360e-04,
          3.8967e-06,  3.5226e-05],
        [-2.7478e-05,  2.0429e-05,  5.0247e-05,  ...,  7.5400e-05,
         -1.7613e-05,  1.3098e-05],
        [ 2.2352e-05,  2.2620e-05,  1.7941e-05,  ...,  7.3791e-05,
         -1.6633e-06,  5.0515e-06],
        ...,
        [ 1.5542e-05, -8.1003e-05,  5.7817e-05,  ...,  1.0389e-04,
          4.1239e-06,  1.6868e-05],
        [ 8.5294e-05,  2.4036e-05,  1.6952e-04,  ...,  1.7142e-04,
          1.0967e-05,  1.0186e-04],
        [ 4.7386e-05,  6.0201e-05,  8.1730e-04,  ...,  1.5917e-03,
          2.8573e-06, -3.0309e-05]], device='cuda:0')
Epoch 36, bias, value: tensor([ 0.0074,  0.0027,  0.0029,  0.0166,  0.0238,  0.0318, -0.0261,  0.0064,
        -0.0295, -0.0177], device='cuda:0'), grad: tensor([ 3.3855e-04,  1.8120e-04,  8.0913e-06, -6.4373e-06, -5.7449e-03,
        -5.1594e-04,  2.1839e-03,  1.2255e-04,  4.3869e-04,  2.9964e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 35, time 218.10, cls_loss 0.0274 cls_loss_mapping 0.0356 cls_loss_causal 0.7697 re_mapping 0.0220 re_causal 0.0590 /// teacc 98.36 lr 0.00010000
Epoch 37, weight, value: tensor([[ 0.0025,  0.0683,  0.0430,  ..., -0.0727, -0.0484,  0.0260],
        [ 0.0656, -0.0065, -0.0216,  ...,  0.0288,  0.0421, -0.0634],
        [-0.0297, -0.0078, -0.0277,  ..., -0.0334, -0.0087, -0.0162],
        ...,
        [-0.0097,  0.0696, -0.0862,  ..., -0.0486,  0.0109, -0.0591],
        [-0.0021, -0.0394,  0.0239,  ...,  0.0277, -0.0568, -0.0286],
        [ 0.0002, -0.0313,  0.0178,  ..., -0.0260, -0.0266,  0.0541]],
       device='cuda:0'), grad: tensor([[-1.6451e-05, -2.3377e-04,  1.1355e-05,  ..., -1.0777e-04,
          8.7380e-05, -2.8682e-04],
        [ 2.1946e-04,  2.0254e-04,  2.2805e-04,  ...,  2.0730e-04,
          9.6738e-05,  6.2361e-06],
        [-1.6470e-03, -2.9370e-05, -8.6212e-03,  ...,  4.2468e-05,
         -6.3820e-03,  9.6709e-06],
        ...,
        [-2.0635e-04, -1.2732e-03, -4.9210e-04,  ...,  1.4198e-04,
         -2.0098e-06,  5.2452e-05],
        [ 1.7905e-04,  8.5771e-05,  1.3089e-04,  ...,  2.1112e-04,
          3.2932e-05,  4.8310e-05],
        [ 7.9012e-04,  6.9332e-04,  1.0748e-03,  ...,  1.9798e-03,
          9.8765e-05,  2.3007e-04]], device='cuda:0')
Epoch 37, bias, value: tensor([ 0.0074,  0.0030,  0.0028,  0.0166,  0.0236,  0.0317, -0.0259,  0.0069,
        -0.0296, -0.0180], device='cuda:0'), grad: tensor([-7.6413e-05,  1.0233e-03, -1.6785e-02,  1.6418e-02, -4.9248e-03,
         6.7854e-04,  2.6450e-05, -1.9798e-03,  6.5660e-04,  4.9744e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 36, time 219.42, cls_loss 0.0297 cls_loss_mapping 0.0412 cls_loss_causal 0.7410 re_mapping 0.0203 re_causal 0.0544 /// teacc 98.37 lr 0.00010000
Epoch 38, weight, value: tensor([[ 0.0021,  0.0687,  0.0430,  ..., -0.0734, -0.0503,  0.0260],
        [ 0.0662, -0.0068, -0.0221,  ...,  0.0294,  0.0422, -0.0641],
        [-0.0298, -0.0082, -0.0272,  ..., -0.0340, -0.0083, -0.0165],
        ...,
        [-0.0104,  0.0705, -0.0867,  ..., -0.0493,  0.0112, -0.0596],
        [-0.0018, -0.0398,  0.0239,  ...,  0.0283, -0.0572, -0.0285],
        [-0.0003, -0.0315,  0.0183,  ..., -0.0269, -0.0257,  0.0548]],
       device='cuda:0'), grad: tensor([[-4.3821e-04, -1.0414e-03, -7.4291e-04,  ..., -1.4734e-04,
          3.1143e-06, -5.2309e-04],
        [ 2.6211e-05,  2.1353e-05,  5.8860e-06,  ...,  5.8115e-05,
          2.6405e-05,  6.1803e-06],
        [ 3.4183e-05,  3.6716e-04,  5.6237e-05,  ...,  5.9396e-05,
         -5.4777e-05,  5.2154e-05],
        ...,
        [ 1.6227e-05, -4.7588e-04,  5.1886e-05,  ...,  1.1265e-04,
          2.1428e-05,  7.1824e-05],
        [-7.9036e-05,  7.8619e-05,  7.1704e-05,  ...,  1.5306e-04,
          2.4110e-05,  1.3530e-04],
        [ 1.6108e-05,  2.4176e-04, -1.7190e-04,  ..., -3.3112e-03,
          3.7819e-05, -3.8218e-04]], device='cuda:0')
Epoch 38, bias, value: tensor([ 0.0073,  0.0028,  0.0031,  0.0166,  0.0238,  0.0318, -0.0263,  0.0069,
        -0.0296, -0.0181], device='cuda:0'), grad: tensor([-0.0019,  0.0003,  0.0002,  0.0007,  0.0045, -0.0004,  0.0020, -0.0004,
         0.0005, -0.0055], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 37----------------------------------------------------
epoch 37, time 219.45, cls_loss 0.0286 cls_loss_mapping 0.0346 cls_loss_causal 0.7683 re_mapping 0.0214 re_causal 0.0582 /// teacc 98.52 lr 0.00010000
Epoch 39, weight, value: tensor([[ 0.0019,  0.0691,  0.0431,  ..., -0.0738, -0.0508,  0.0259],
        [ 0.0672, -0.0072, -0.0213,  ...,  0.0302,  0.0437, -0.0641],
        [-0.0304, -0.0085, -0.0273,  ..., -0.0345, -0.0093, -0.0166],
        ...,
        [-0.0109,  0.0718, -0.0875,  ..., -0.0501,  0.0112, -0.0602],
        [-0.0027, -0.0404,  0.0237,  ...,  0.0282, -0.0580, -0.0289],
        [-0.0002, -0.0321,  0.0189,  ..., -0.0269, -0.0254,  0.0556]],
       device='cuda:0'), grad: tensor([[ 4.1336e-05, -6.5947e-04, -5.8031e-04,  ..., -4.5204e-04,
          1.5453e-05, -9.8515e-04],
        [-7.1585e-05,  2.7306e-06,  1.7464e-05,  ..., -3.6657e-05,
          2.9966e-05,  2.5719e-05],
        [ 1.6019e-05,  7.4744e-05,  6.0052e-05,  ...,  5.5790e-05,
         -1.5545e-04,  1.0175e-04],
        ...,
        [ 2.9862e-05,  4.9323e-05,  8.3566e-05,  ...,  1.4782e-04,
          5.5462e-05,  1.2022e-04],
        [ 4.2021e-05,  4.3809e-05,  9.5308e-05,  ...,  9.2983e-05,
          9.5144e-06,  1.5080e-04],
        [ 2.7731e-05,  3.0732e-04,  5.1111e-06,  ...,  2.3484e-04,
          1.6198e-05,  1.5485e-04]], device='cuda:0')
Epoch 39, bias, value: tensor([ 0.0070,  0.0034,  0.0032,  0.0167,  0.0236,  0.0320, -0.0268,  0.0071,
        -0.0302, -0.0178], device='cuda:0'), grad: tensor([-1.6642e-03,  8.8453e-05, -1.3864e-04,  7.1859e-04, -1.2898e-04,
         5.7459e-04, -5.7602e-04,  3.5071e-04,  3.0899e-04,  4.6635e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 38, time 218.12, cls_loss 0.0238 cls_loss_mapping 0.0290 cls_loss_causal 0.7601 re_mapping 0.0200 re_causal 0.0557 /// teacc 98.32 lr 0.00010000
Epoch 40, weight, value: tensor([[ 0.0007,  0.0692,  0.0437,  ..., -0.0752, -0.0516,  0.0259],
        [ 0.0668, -0.0073, -0.0216,  ...,  0.0301,  0.0438, -0.0648],
        [-0.0306, -0.0088, -0.0276,  ..., -0.0348, -0.0096, -0.0169],
        ...,
        [-0.0119,  0.0728, -0.0884,  ..., -0.0510,  0.0111, -0.0611],
        [-0.0024, -0.0407,  0.0239,  ...,  0.0288, -0.0587, -0.0288],
        [-0.0007, -0.0327,  0.0188,  ..., -0.0272, -0.0257,  0.0558]],
       device='cuda:0'), grad: tensor([[ 3.0398e-05, -2.0429e-05,  7.2908e-04,  ...,  1.4687e-04,
          2.9374e-06,  6.4230e-04],
        [-6.2799e-04,  1.2871e-06,  4.5866e-05,  ..., -5.1355e-04,
         -1.7190e-04,  3.1263e-05],
        [ 1.7118e-04,  6.6906e-06,  3.0732e-04,  ...,  1.4853e-04,
          4.1008e-05,  2.6202e-04],
        ...,
        [ 5.0664e-05, -6.0499e-06,  3.9577e-05,  ...,  3.3826e-05,
          1.0937e-05,  3.2306e-05],
        [ 6.3896e-04,  2.0396e-06,  3.4561e-03,  ...,  8.9884e-04,
          2.9922e-05,  3.0060e-03],
        [ 9.0897e-05,  6.0014e-06, -4.5319e-03,  ..., -7.8773e-04,
          6.4075e-06, -4.0207e-03]], device='cuda:0')
Epoch 40, bias, value: tensor([ 0.0071,  0.0029,  0.0032,  0.0171,  0.0236,  0.0319, -0.0261,  0.0071,
        -0.0302, -0.0182], device='cuda:0'), grad: tensor([ 0.0008, -0.0005,  0.0002, -0.0034,  0.0002,  0.0027,  0.0003,  0.0002,
         0.0042, -0.0047], device='cuda:0')
100
0.0001
changing lr
epoch 39, time 218.26, cls_loss 0.0254 cls_loss_mapping 0.0353 cls_loss_causal 0.7439 re_mapping 0.0200 re_causal 0.0565 /// teacc 98.34 lr 0.00010000
Epoch 41, weight, value: tensor([[ 0.0004,  0.0694,  0.0438,  ..., -0.0758, -0.0519,  0.0258],
        [ 0.0671, -0.0058, -0.0218,  ...,  0.0300,  0.0446, -0.0653],
        [-0.0312, -0.0091, -0.0277,  ..., -0.0352, -0.0099, -0.0172],
        ...,
        [-0.0133,  0.0732, -0.0890,  ..., -0.0514,  0.0109, -0.0615],
        [-0.0021, -0.0414,  0.0238,  ...,  0.0292, -0.0589, -0.0291],
        [-0.0015, -0.0337,  0.0195,  ..., -0.0276, -0.0256,  0.0569]],
       device='cuda:0'), grad: tensor([[ 1.6623e-03,  2.2755e-03, -2.2149e-04,  ...,  2.9755e-03,
          4.3400e-06, -1.4400e-03],
        [-2.0504e-04,  5.5218e-04,  1.3268e-04,  ..., -2.8586e-04,
         -1.5366e-04,  2.2089e-04],
        [ 1.7369e-04, -1.9002e-04,  1.3673e-04,  ...,  1.5283e-04,
          2.2128e-05,  8.7738e-05],
        ...,
        [-1.1139e-03, -2.1496e-03, -4.1097e-05,  ..., -1.3262e-05,
          1.5900e-05, -5.7697e-04],
        [-1.8425e-03, -2.5978e-03, -4.3440e-04,  ..., -3.4637e-03,
          2.8044e-05,  1.1530e-03],
        [ 5.9700e-04,  1.3371e-03, -5.6171e-04,  ..., -7.4863e-05,
          1.3992e-05, -9.6917e-05]], device='cuda:0')
Epoch 41, bias, value: tensor([ 0.0066,  0.0031,  0.0033,  0.0177,  0.0234,  0.0315, -0.0257,  0.0067,
        -0.0303, -0.0181], device='cuda:0'), grad: tensor([ 0.0027,  0.0008, -0.0011,  0.0003,  0.0016,  0.0003,  0.0008, -0.0035,
        -0.0035,  0.0016], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 40----------------------------------------------------
epoch 40, time 219.06, cls_loss 0.0203 cls_loss_mapping 0.0270 cls_loss_causal 0.7160 re_mapping 0.0194 re_causal 0.0542 /// teacc 98.54 lr 0.00010000
Epoch 42, weight, value: tensor([[ 0.0002,  0.0698,  0.0439,  ..., -0.0765, -0.0522,  0.0256],
        [ 0.0681, -0.0053, -0.0219,  ...,  0.0308,  0.0452, -0.0657],
        [-0.0314, -0.0092, -0.0278,  ..., -0.0357, -0.0100, -0.0173],
        ...,
        [-0.0140,  0.0736, -0.0898,  ..., -0.0525,  0.0110, -0.0623],
        [-0.0024, -0.0421,  0.0237,  ...,  0.0293, -0.0603, -0.0293],
        [-0.0023, -0.0341,  0.0199,  ..., -0.0280, -0.0260,  0.0576]],
       device='cuda:0'), grad: tensor([[-3.6061e-05, -3.3927e-04, -6.3598e-05,  ...,  1.3605e-05,
          1.1340e-05, -1.8716e-04],
        [ 2.7370e-04,  6.5982e-05,  1.5354e-03,  ...,  7.5519e-05,
          2.5654e-04,  1.2517e-05],
        [-5.7650e-04,  2.3899e-03, -2.1992e-03,  ..., -1.3363e-04,
         -5.3024e-04,  3.3796e-05],
        ...,
        [ 1.5318e-04, -2.8458e-03,  3.0017e-04,  ...,  6.1691e-05,
          9.1791e-05,  1.4022e-05],
        [-6.3038e-04,  8.7678e-05, -3.5453e-04,  ..., -7.0953e-04,
          5.3316e-05,  2.8446e-05],
        [ 1.0175e-04,  2.6917e-04,  2.0421e-04,  ...,  7.8440e-05,
          5.5045e-05,  6.8784e-05]], device='cuda:0')
Epoch 42, bias, value: tensor([ 0.0065,  0.0037,  0.0034,  0.0174,  0.0235,  0.0318, -0.0256,  0.0066,
        -0.0309, -0.0179], device='cuda:0'), grad: tensor([-0.0006,  0.0046, -0.0022,  0.0011,  0.0003,  0.0002,  0.0001, -0.0045,
        -0.0003,  0.0012], device='cuda:0')
100
0.0001
changing lr
epoch 41, time 217.77, cls_loss 0.0242 cls_loss_mapping 0.0313 cls_loss_causal 0.7690 re_mapping 0.0187 re_causal 0.0536 /// teacc 98.39 lr 0.00010000
Epoch 43, weight, value: tensor([[-0.0003,  0.0705,  0.0442,  ..., -0.0770, -0.0524,  0.0258],
        [ 0.0681, -0.0058, -0.0223,  ...,  0.0304,  0.0455, -0.0661],
        [-0.0312, -0.0098, -0.0278,  ..., -0.0353, -0.0096, -0.0176],
        ...,
        [-0.0141,  0.0743, -0.0905,  ..., -0.0530,  0.0113, -0.0629],
        [-0.0021, -0.0422,  0.0239,  ...,  0.0300, -0.0609, -0.0294],
        [-0.0025, -0.0342,  0.0200,  ..., -0.0286, -0.0262,  0.0578]],
       device='cuda:0'), grad: tensor([[ 1.6403e-04,  4.2707e-05,  8.7559e-05,  ...,  1.3316e-04,
          3.0790e-06,  5.4091e-06],
        [ 1.0222e-04,  2.7448e-05,  8.5115e-05,  ...,  1.3530e-04,
         -7.5810e-06,  1.2055e-05],
        [ 1.8430e-04, -8.0585e-05,  2.4408e-05,  ...,  1.8322e-04,
         -1.8448e-05,  6.3851e-06],
        ...,
        [-3.8445e-06, -1.6379e-04,  2.7955e-05,  ...,  8.7321e-05,
          4.2394e-06,  7.8678e-06],
        [ 1.2070e-04,  1.1027e-04, -8.0395e-04,  ..., -1.5335e-03,
          3.9935e-06, -4.1986e-04],
        [ 1.6892e-04,  1.3876e-04, -1.7178e-04,  ...,  1.1339e-03,
          1.8388e-05, -1.7107e-04]], device='cuda:0')
Epoch 43, bias, value: tensor([ 0.0068,  0.0032,  0.0034,  0.0173,  0.0240,  0.0316, -0.0262,  0.0067,
        -0.0306, -0.0179], device='cuda:0'), grad: tensor([ 3.9792e-04,  3.2473e-04, -9.0301e-05,  1.5354e-03, -6.2180e-04,
         6.3181e-04, -3.3607e-03, -1.8671e-05, -3.3212e-04,  1.5345e-03],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 42----------------------------------------------------
epoch 42, time 217.79, cls_loss 0.0241 cls_loss_mapping 0.0309 cls_loss_causal 0.7237 re_mapping 0.0188 re_causal 0.0513 /// teacc 98.58 lr 0.00010000
Epoch 44, weight, value: tensor([[-0.0007,  0.0715,  0.0444,  ..., -0.0777, -0.0531,  0.0257],
        [ 0.0690, -0.0062, -0.0220,  ...,  0.0311,  0.0460, -0.0665],
        [-0.0323, -0.0102, -0.0281,  ..., -0.0361, -0.0099, -0.0180],
        ...,
        [-0.0146,  0.0750, -0.0909,  ..., -0.0537,  0.0111, -0.0630],
        [-0.0022, -0.0428,  0.0237,  ...,  0.0303, -0.0619, -0.0297],
        [-0.0035, -0.0344,  0.0201,  ..., -0.0294, -0.0264,  0.0583]],
       device='cuda:0'), grad: tensor([[ 3.9482e-04, -1.2755e-04,  6.7329e-04,  ...,  1.1170e-04,
          1.2368e-05,  9.6560e-05],
        [ 6.8605e-05,  6.0424e-06,  8.4996e-05,  ...,  5.1528e-05,
         -7.6741e-06,  4.6611e-05],
        [ 5.5599e-04,  4.3392e-05,  9.5940e-04,  ...,  2.9874e-04,
          1.5274e-05,  1.7571e-04],
        ...,
        [ 9.4414e-05,  2.6926e-05,  1.8644e-04,  ...,  1.3864e-04,
          1.2755e-05,  1.4472e-04],
        [-4.7569e-03, -2.0087e-04,  6.6376e-04,  ..., -3.5419e-03,
          1.0639e-04, -2.3537e-03],
        [ 1.5545e-04, -5.4687e-05, -5.4455e-04,  ..., -1.0706e-05,
          7.0110e-06, -5.9223e-04]], device='cuda:0')
Epoch 44, bias, value: tensor([ 0.0070,  0.0034,  0.0033,  0.0171,  0.0239,  0.0326, -0.0261,  0.0065,
        -0.0309, -0.0182], device='cuda:0'), grad: tensor([ 0.0009,  0.0002,  0.0016, -0.0037,  0.0004,  0.0043,  0.0001,  0.0005,
        -0.0041, -0.0004], device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 43----------------------------------------------------
epoch 43, time 217.75, cls_loss 0.0242 cls_loss_mapping 0.0309 cls_loss_causal 0.7113 re_mapping 0.0189 re_causal 0.0505 /// teacc 98.64 lr 0.00010000
Epoch 45, weight, value: tensor([[-0.0021,  0.0717,  0.0450,  ..., -0.0787, -0.0539,  0.0257],
        [ 0.0698, -0.0058, -0.0223,  ...,  0.0315,  0.0463, -0.0666],
        [-0.0323, -0.0107, -0.0282,  ..., -0.0360, -0.0097, -0.0182],
        ...,
        [-0.0154,  0.0760, -0.0918,  ..., -0.0546,  0.0116, -0.0637],
        [-0.0024, -0.0434,  0.0242,  ...,  0.0307, -0.0633, -0.0294],
        [-0.0040, -0.0349,  0.0208,  ..., -0.0299, -0.0269,  0.0592]],
       device='cuda:0'), grad: tensor([[ 9.9763e-06, -7.0214e-05, -4.3809e-05,  ...,  8.0407e-05,
          5.6066e-06, -5.5522e-05],
        [ 9.1270e-08,  4.2059e-06,  6.7204e-06,  ...,  6.2466e-05,
         -2.3935e-07,  5.1036e-06],
        [ 5.1670e-06,  1.1794e-05,  1.1558e-06,  ...,  8.6308e-05,
          5.5991e-06,  1.1981e-05],
        ...,
        [ 2.8219e-06, -2.9981e-05,  4.8168e-06,  ...,  3.4571e-05,
          1.4566e-05,  6.3069e-06],
        [ 5.4270e-05,  2.0176e-05,  2.8268e-05,  ...,  1.3888e-04,
          3.2723e-05,  7.4267e-05],
        [ 6.4895e-06,  3.0607e-05, -6.2287e-05,  ...,  9.6440e-05,
          3.1263e-05, -6.9559e-05]], device='cuda:0')
Epoch 45, bias, value: tensor([ 0.0068,  0.0033,  0.0034,  0.0168,  0.0246,  0.0323, -0.0260,  0.0069,
        -0.0308, -0.0187], device='cuda:0'), grad: tensor([ 2.1830e-05,  1.0622e-04,  1.1861e-04,  2.0683e-05, -6.6109e-03,
         2.7895e-04,  5.6572e-03,  3.1590e-05,  2.7728e-04,  9.7513e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 44, time 217.05, cls_loss 0.0227 cls_loss_mapping 0.0265 cls_loss_causal 0.7031 re_mapping 0.0179 re_causal 0.0505 /// teacc 98.39 lr 0.00010000
Epoch 46, weight, value: tensor([[-0.0031,  0.0720,  0.0453,  ..., -0.0793, -0.0552,  0.0255],
        [ 0.0702, -0.0061, -0.0226,  ...,  0.0318,  0.0465, -0.0670],
        [-0.0330, -0.0108, -0.0285,  ..., -0.0364, -0.0096, -0.0187],
        ...,
        [-0.0148,  0.0763, -0.0928,  ..., -0.0545,  0.0126, -0.0639],
        [-0.0027, -0.0439,  0.0243,  ...,  0.0306, -0.0647, -0.0295],
        [-0.0043, -0.0351,  0.0215,  ..., -0.0301, -0.0273,  0.0601]],
       device='cuda:0'), grad: tensor([[-9.3699e-05, -1.5771e-04,  4.3362e-05,  ...,  3.6061e-05,
          7.5884e-06,  1.0085e-04],
        [-2.4706e-05,  2.0728e-05,  4.1038e-05,  ..., -5.0962e-05,
         -3.2157e-05,  2.3067e-05],
        [ 1.4770e-04,  1.1049e-05,  1.8990e-04,  ...,  3.4958e-05,
         -2.8443e-04,  4.0203e-05],
        ...,
        [ 1.3876e-04, -8.1182e-05,  2.3961e-04,  ...,  1.2279e-04,
          1.8895e-04,  2.0278e-04],
        [-3.1948e-04,  2.5094e-05, -2.9659e-04,  ..., -4.5109e-04,
          1.3255e-05, -1.9896e-04],
        [ 2.4092e-04,  4.8041e-05, -1.6689e-06,  ...,  1.6201e-04,
          1.2256e-05, -9.1195e-05]], device='cuda:0')
Epoch 46, bias, value: tensor([ 0.0067,  0.0031,  0.0032,  0.0170,  0.0242,  0.0328, -0.0260,  0.0070,
        -0.0312, -0.0183], device='cuda:0'), grad: tensor([-7.9125e-06,  2.9355e-05, -2.5481e-05,  9.0218e-04,  1.8322e-04,
        -1.1930e-03,  1.3006e-04,  5.7697e-04, -7.7152e-04,  1.7452e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 45, time 216.97, cls_loss 0.0265 cls_loss_mapping 0.0345 cls_loss_causal 0.7272 re_mapping 0.0184 re_causal 0.0503 /// teacc 98.41 lr 0.00010000
Epoch 47, weight, value: tensor([[-0.0036,  0.0726,  0.0454,  ..., -0.0800, -0.0557,  0.0250],
        [ 0.0705, -0.0072, -0.0231,  ...,  0.0319,  0.0469, -0.0675],
        [-0.0329, -0.0106, -0.0278,  ..., -0.0371, -0.0086, -0.0188],
        ...,
        [-0.0143,  0.0770, -0.0941,  ..., -0.0542,  0.0126, -0.0647],
        [-0.0020, -0.0447,  0.0244,  ...,  0.0317, -0.0658, -0.0289],
        [-0.0044, -0.0345,  0.0220,  ..., -0.0308, -0.0282,  0.0609]],
       device='cuda:0'), grad: tensor([[ 1.3731e-05, -3.6992e-06,  7.3314e-06,  ...,  2.9981e-05,
          1.4082e-05,  6.9141e-06],
        [ 4.3917e-04, -6.3516e-07,  7.6056e-04,  ...,  4.1275e-03,
          1.9321e-03,  1.9484e-03],
        [ 2.8819e-05,  2.2769e-04,  7.6592e-05,  ...,  1.1462e-04,
          5.4300e-05,  1.7732e-05],
        ...,
        [ 1.1271e-04, -4.1676e-04,  7.0751e-05,  ...,  3.9244e-04,
          1.8013e-04,  1.8811e-04],
        [ 6.9737e-05,  1.3813e-05,  3.6627e-05,  ...,  7.1347e-05,
          3.4034e-05,  4.0054e-05],
        [-7.6962e-04, -4.7028e-05, -1.1253e-03,  ..., -5.3978e-03,
         -2.6531e-03, -2.6207e-03]], device='cuda:0')
Epoch 47, bias, value: tensor([ 0.0062,  0.0026,  0.0042,  0.0163,  0.0244,  0.0328, -0.0269,  0.0068,
        -0.0308, -0.0177], device='cuda:0'), grad: tensor([ 5.7906e-05,  8.2474e-03,  3.2401e-04,  3.4976e-04,  1.3905e-03,
        -1.0359e-04,  7.1108e-05,  3.6979e-04,  2.2626e-04, -1.0925e-02],
       device='cuda:0')
100
0.0001
changing lr
epoch 46, time 217.48, cls_loss 0.0184 cls_loss_mapping 0.0263 cls_loss_causal 0.7013 re_mapping 0.0177 re_causal 0.0504 /// teacc 98.45 lr 0.00010000
Epoch 48, weight, value: tensor([[-0.0034,  0.0732,  0.0463,  ..., -0.0804, -0.0566,  0.0258],
        [ 0.0708, -0.0069, -0.0231,  ...,  0.0326,  0.0476, -0.0680],
        [-0.0334, -0.0110, -0.0280,  ..., -0.0378, -0.0084, -0.0188],
        ...,
        [-0.0148,  0.0778, -0.0949,  ..., -0.0555,  0.0122, -0.0653],
        [-0.0024, -0.0450,  0.0243,  ...,  0.0317, -0.0681, -0.0290],
        [-0.0045, -0.0350,  0.0219,  ..., -0.0314, -0.0287,  0.0610]],
       device='cuda:0'), grad: tensor([[ 3.1567e-04,  1.3709e-04,  4.5896e-05,  ...,  1.1444e-04,
          5.1856e-06,  7.6830e-05],
        [-4.6372e-05,  1.8731e-05,  2.8417e-05,  ...,  4.1239e-06,
         -6.7335e-07,  1.0237e-05],
        [-1.7762e-05,  1.9163e-05,  1.7226e-05,  ...,  2.5421e-05,
         -5.3138e-05,  9.7007e-06],
        ...,
        [ 1.7107e-05, -1.4901e-04,  1.1146e-05,  ...,  2.3648e-05,
         -3.5405e-05,  5.0329e-06],
        [ 6.4015e-05,  2.8819e-05,  5.2214e-05,  ...,  8.7082e-05,
          2.2888e-05,  4.7803e-05],
        [ 2.2799e-05,  6.9261e-05,  4.6968e-04,  ...,  1.1606e-03,
          5.5283e-05,  1.3041e-04]], device='cuda:0')
Epoch 48, bias, value: tensor([ 0.0068,  0.0029,  0.0041,  0.0164,  0.0251,  0.0326, -0.0269,  0.0066,
        -0.0311, -0.0180], device='cuda:0'), grad: tensor([ 3.6931e-04,  1.1069e-04, -4.9233e-05,  2.0361e-04, -2.0313e-03,
        -3.6806e-05, -4.2701e-04, -2.3913e-04,  1.9526e-04,  1.9035e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 47, time 216.97, cls_loss 0.0158 cls_loss_mapping 0.0218 cls_loss_causal 0.7106 re_mapping 0.0174 re_causal 0.0497 /// teacc 98.54 lr 0.00010000
Epoch 49, weight, value: tensor([[-0.0029,  0.0739,  0.0466,  ..., -0.0809, -0.0570,  0.0260],
        [ 0.0708, -0.0076, -0.0231,  ...,  0.0329,  0.0483, -0.0685],
        [-0.0340, -0.0111, -0.0283,  ..., -0.0384, -0.0084, -0.0190],
        ...,
        [-0.0148,  0.0789, -0.0952,  ..., -0.0554,  0.0119, -0.0658],
        [-0.0023, -0.0455,  0.0244,  ...,  0.0321, -0.0684, -0.0292],
        [-0.0051, -0.0355,  0.0223,  ..., -0.0317, -0.0289,  0.0615]],
       device='cuda:0'), grad: tensor([[ 5.5194e-05,  3.0041e-05,  3.7313e-05,  ...,  4.7714e-05,
          9.9987e-06,  5.0664e-05],
        [-1.7524e-04, -4.5151e-05,  4.4644e-05,  ..., -2.7999e-05,
         -1.1241e-04,  1.4521e-05],
        [ 7.4267e-05,  3.7044e-05,  2.4602e-05,  ...,  7.3373e-05,
          2.9132e-05,  1.2510e-05],
        ...,
        [ 1.8135e-05, -1.5945e-03, -4.3464e-04,  ...,  7.0870e-05,
         -5.6058e-05, -5.5504e-04],
        [ 5.5656e-06,  4.5627e-05,  5.7161e-05,  ..., -6.4313e-05,
          4.9621e-06,  1.4973e-04],
        [ 1.7381e-04,  1.4324e-03,  8.6594e-04,  ...,  6.5041e-04,
          7.8201e-05,  6.6280e-04]], device='cuda:0')
Epoch 49, bias, value: tensor([ 0.0071,  0.0026,  0.0041,  0.0161,  0.0247,  0.0328, -0.0268,  0.0069,
        -0.0311, -0.0180], device='cuda:0'), grad: tensor([ 1.5402e-04, -5.0128e-05,  4.0203e-05,  6.3515e-04, -1.1225e-03,
        -5.4693e-04, -4.0483e-04, -1.9951e-03,  1.9336e-04,  3.0975e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 48, time 217.41, cls_loss 0.0186 cls_loss_mapping 0.0244 cls_loss_causal 0.6991 re_mapping 0.0162 re_causal 0.0460 /// teacc 98.57 lr 0.00010000
Epoch 50, weight, value: tensor([[-0.0030,  0.0747,  0.0466,  ..., -0.0816, -0.0569,  0.0259],
        [ 0.0712, -0.0077, -0.0233,  ...,  0.0333,  0.0493, -0.0689],
        [-0.0344, -0.0114, -0.0282,  ..., -0.0390, -0.0079, -0.0191],
        ...,
        [-0.0154,  0.0795, -0.0958,  ..., -0.0560,  0.0117, -0.0663],
        [-0.0020, -0.0460,  0.0243,  ...,  0.0326, -0.0688, -0.0296],
        [-0.0057, -0.0360,  0.0228,  ..., -0.0322, -0.0297,  0.0623]],
       device='cuda:0'), grad: tensor([[ 6.4850e-05, -4.9993e-06,  2.7046e-05,  ...,  4.6968e-05,
          1.5080e-05,  2.6837e-05],
        [-1.4663e-04,  3.7700e-05,  2.5511e-05,  ..., -1.9968e-04,
         -7.0930e-05,  2.0057e-05],
        [ 8.3208e-05,  2.4283e-04,  3.3528e-05,  ...,  8.3685e-05,
          8.4162e-05,  9.5367e-06],
        ...,
        [ 4.3005e-05, -1.1797e-03, -2.6989e-04,  ...,  4.5419e-05,
         -1.8084e-04,  1.8567e-05],
        [ 3.4881e-04,  3.3170e-05,  2.1935e-04,  ...,  1.3721e-04,
          1.3769e-04,  1.9288e-04],
        [ 8.1241e-05,  8.9407e-05,  8.7857e-05,  ...,  5.9247e-05,
          3.6210e-05,  5.7369e-05]], device='cuda:0')
Epoch 50, bias, value: tensor([ 0.0069,  0.0027,  0.0048,  0.0160,  0.0246,  0.0328, -0.0265,  0.0067,
        -0.0313, -0.0182], device='cuda:0'), grad: tensor([ 1.1390e-04, -2.4930e-05,  7.5102e-04,  2.6703e-03,  9.5248e-05,
        -1.2064e-03, -1.0401e-04, -3.2883e-03,  5.8270e-04,  4.1199e-04],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 49----------------------------------------------------
epoch 49, time 217.63, cls_loss 0.0230 cls_loss_mapping 0.0288 cls_loss_causal 0.7104 re_mapping 0.0164 re_causal 0.0465 /// teacc 98.75 lr 0.00010000
Epoch 51, weight, value: tensor([[-0.0041,  0.0750,  0.0473,  ..., -0.0827, -0.0594,  0.0258],
        [ 0.0714, -0.0069, -0.0243,  ...,  0.0332,  0.0504, -0.0691],
        [-0.0341, -0.0124, -0.0285,  ..., -0.0384, -0.0081, -0.0198],
        ...,
        [-0.0148,  0.0802, -0.0960,  ..., -0.0560,  0.0123, -0.0668],
        [-0.0022, -0.0464,  0.0246,  ...,  0.0331, -0.0699, -0.0298],
        [-0.0056, -0.0364,  0.0234,  ..., -0.0327, -0.0303,  0.0634]],
       device='cuda:0'), grad: tensor([[-7.7784e-05, -6.6459e-05, -1.2422e-04,  ...,  1.7035e-04,
          5.6550e-06, -1.5748e-04],
        [-3.3528e-06,  1.8239e-04,  3.8773e-05,  ...,  1.0747e-06,
         -2.8312e-05,  2.8566e-05],
        [ 4.6253e-05,  1.4794e-04,  1.4722e-04,  ...,  4.5180e-05,
         -1.6270e-06,  1.8120e-05],
        ...,
        [ 3.2336e-05, -1.2178e-03, -5.4121e-04,  ...,  3.1471e-05,
          9.9018e-06, -1.6618e-04],
        [-1.0699e-05, -1.4797e-05, -1.4460e-04,  ...,  5.2899e-06,
          1.9029e-05,  4.0472e-05],
        [ 1.8612e-05,  1.0624e-03,  5.6887e-04,  ...,  1.1921e-04,
          3.5614e-06,  2.5177e-04]], device='cuda:0')
Epoch 51, bias, value: tensor([ 0.0068,  0.0024,  0.0044,  0.0157,  0.0242,  0.0327, -0.0264,  0.0077,
        -0.0314, -0.0178], device='cuda:0'), grad: tensor([-4.6939e-05,  2.6488e-04,  7.3528e-04,  2.2638e-04, -4.7073e-03,
         1.0324e-04,  4.0016e-03, -2.3308e-03, -5.5933e-04,  2.3117e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 50, time 217.45, cls_loss 0.0172 cls_loss_mapping 0.0253 cls_loss_causal 0.7170 re_mapping 0.0156 re_causal 0.0456 /// teacc 98.49 lr 0.00010000
Epoch 52, weight, value: tensor([[-0.0042,  0.0755,  0.0474,  ..., -0.0832, -0.0600,  0.0260],
        [ 0.0721, -0.0067, -0.0250,  ...,  0.0340,  0.0517, -0.0700],
        [-0.0352, -0.0127, -0.0285,  ..., -0.0392, -0.0089, -0.0200],
        ...,
        [-0.0159,  0.0810, -0.0966,  ..., -0.0574,  0.0121, -0.0674],
        [-0.0022, -0.0473,  0.0253,  ...,  0.0339, -0.0710, -0.0294],
        [-0.0061, -0.0369,  0.0236,  ..., -0.0334, -0.0300,  0.0636]],
       device='cuda:0'), grad: tensor([[ 2.2864e-04,  2.2564e-03, -1.4141e-05,  ...,  2.4602e-05,
          4.4751e-04,  3.1686e-04],
        [-6.8426e-05,  1.7989e-04,  3.4750e-05,  ..., -5.0068e-05,
         -2.1815e-05,  5.0366e-05],
        [ 7.3850e-05,  1.0931e-04,  2.0236e-05,  ...,  5.2780e-05,
          5.8919e-05,  2.9698e-05],
        ...,
        [-3.7766e-04, -5.1804e-03,  1.1235e-05,  ..., -4.0054e-05,
         -9.0361e-04, -6.6090e-04],
        [ 3.7932e-04,  2.4605e-04,  7.0035e-05,  ...,  7.9811e-05,
          3.6597e-04,  1.7750e-04],
        [ 1.8597e-04,  1.9741e-03, -1.4091e-04,  ..., -8.7440e-05,
          3.3545e-04,  1.4007e-04]], device='cuda:0')
Epoch 52, bias, value: tensor([ 0.0069,  0.0026,  0.0042,  0.0158,  0.0242,  0.0322, -0.0260,  0.0075,
        -0.0309, -0.0180], device='cuda:0'), grad: tensor([ 0.0033,  0.0002,  0.0003,  0.0002,  0.0004, -0.0019,  0.0013, -0.0073,
         0.0010,  0.0026], device='cuda:0')
100
0.0001
changing lr
epoch 51, time 216.88, cls_loss 0.0178 cls_loss_mapping 0.0227 cls_loss_causal 0.7162 re_mapping 0.0165 re_causal 0.0473 /// teacc 98.68 lr 0.00010000
Epoch 53, weight, value: tensor([[-0.0043,  0.0759,  0.0476,  ..., -0.0838, -0.0603,  0.0261],
        [ 0.0727, -0.0073, -0.0252,  ...,  0.0345,  0.0520, -0.0708],
        [-0.0357, -0.0129, -0.0285,  ..., -0.0398, -0.0088, -0.0201],
        ...,
        [-0.0160,  0.0819, -0.0972,  ..., -0.0579,  0.0120, -0.0685],
        [-0.0019, -0.0479,  0.0254,  ...,  0.0343, -0.0711, -0.0294],
        [-0.0062, -0.0369,  0.0240,  ..., -0.0337, -0.0301,  0.0646]],
       device='cuda:0'), grad: tensor([[ 1.1206e-04,  8.6486e-05,  2.0218e-04,  ...,  1.5068e-04,
          6.2585e-06,  2.8038e-04],
        [-6.2943e-05,  9.2909e-06,  3.9488e-05,  ..., -5.6595e-05,
         -2.3648e-05,  3.2097e-05],
        [ 1.2660e-04,  1.5274e-05,  2.4509e-04,  ...,  8.1286e-06,
         -6.9499e-05,  1.5914e-04],
        ...,
        [ 4.9233e-05, -2.2447e-04,  6.1274e-05,  ...,  5.3883e-05,
         -1.8239e-04,  5.3525e-05],
        [-2.3532e-04,  7.8157e-06, -1.5867e-04,  ..., -3.2592e-04,
          2.1413e-05, -1.2732e-04],
        [ 7.5769e-04,  6.1214e-05,  6.0463e-03,  ...,  2.6631e-04,
          5.8353e-05,  4.4098e-03]], device='cuda:0')
Epoch 53, bias, value: tensor([ 0.0065,  0.0026,  0.0041,  0.0154,  0.0244,  0.0325, -0.0264,  0.0076,
        -0.0310, -0.0175], device='cuda:0'), grad: tensor([ 7.2098e-04,  9.5367e-06,  3.9697e-05, -8.7509e-03,  1.9002e-04,
         1.3380e-03, -6.5184e-04, -3.0541e-04, -3.7456e-04,  7.7820e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 52, time 217.10, cls_loss 0.0146 cls_loss_mapping 0.0207 cls_loss_causal 0.6966 re_mapping 0.0164 re_causal 0.0463 /// teacc 98.66 lr 0.00010000
Epoch 54, weight, value: tensor([[-0.0048,  0.0761,  0.0478,  ..., -0.0846, -0.0605,  0.0261],
        [ 0.0732, -0.0070, -0.0255,  ...,  0.0350,  0.0527, -0.0712],
        [-0.0362, -0.0132, -0.0287,  ..., -0.0404, -0.0092, -0.0205],
        ...,
        [-0.0163,  0.0826, -0.0980,  ..., -0.0582,  0.0121, -0.0694],
        [-0.0019, -0.0484,  0.0253,  ...,  0.0343, -0.0714, -0.0299],
        [-0.0067, -0.0374,  0.0239,  ..., -0.0339, -0.0305,  0.0650]],
       device='cuda:0'), grad: tensor([[-2.5153e-05, -4.3106e-04, -2.5734e-05,  ...,  2.9132e-06,
          6.7614e-07, -5.6982e-04],
        [ 2.1219e-05,  1.8871e-04,  5.0552e-06,  ...,  8.9347e-05,
         -5.9903e-06,  3.0845e-05],
        [ 2.6405e-05,  6.7949e-05,  1.0088e-05,  ...,  2.2948e-05,
          2.4904e-06,  3.4273e-05],
        ...,
        [ 2.4691e-05, -5.0163e-04,  1.9282e-05,  ..., -2.1148e-04,
          2.7120e-06,  5.6982e-05],
        [ 9.9540e-05,  6.4313e-05,  1.6972e-05,  ...,  1.0896e-04,
          2.6450e-06,  7.3791e-05],
        [ 3.0324e-05,  6.9559e-05, -7.3910e-06,  ...,  7.8440e-05,
          1.5078e-06,  2.5272e-05]], device='cuda:0')
Epoch 54, bias, value: tensor([ 0.0064,  0.0029,  0.0038,  0.0159,  0.0240,  0.0326, -0.0261,  0.0075,
        -0.0315, -0.0174], device='cuda:0'), grad: tensor([-9.4986e-04,  4.6253e-04,  1.4639e-04,  1.3599e-03, -3.4273e-05,
        -1.1873e-03,  7.6580e-04, -1.0948e-03,  3.0923e-04,  2.2280e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 53, time 216.68, cls_loss 0.0171 cls_loss_mapping 0.0225 cls_loss_causal 0.6922 re_mapping 0.0162 re_causal 0.0455 /// teacc 98.58 lr 0.00010000
Epoch 55, weight, value: tensor([[-0.0058,  0.0763,  0.0480,  ..., -0.0850, -0.0611,  0.0266],
        [ 0.0737, -0.0078, -0.0259,  ...,  0.0353,  0.0537, -0.0721],
        [-0.0370, -0.0131, -0.0289,  ..., -0.0411, -0.0098, -0.0209],
        ...,
        [-0.0164,  0.0837, -0.0989,  ..., -0.0577,  0.0122, -0.0700],
        [-0.0016, -0.0489,  0.0258,  ...,  0.0348, -0.0710, -0.0297],
        [-0.0068, -0.0381,  0.0240,  ..., -0.0349, -0.0309,  0.0650]],
       device='cuda:0'), grad: tensor([[ 1.3700e-06, -1.9562e-04, -6.9857e-05,  ...,  1.9759e-05,
          3.6597e-05, -7.3835e-06],
        [-2.0707e-04,  2.7232e-06,  2.5295e-06,  ..., -3.2282e-04,
         -4.4256e-05,  7.6368e-06],
        [ 2.2665e-05,  3.5256e-05,  1.2226e-05,  ...,  2.5883e-05,
          1.4953e-05,  1.5706e-05],
        ...,
        [ 4.9949e-05,  2.9489e-05,  1.7309e-04,  ...,  3.2139e-04,
          8.3029e-05,  2.1482e-04],
        [ 2.9653e-05,  3.3081e-05, -1.5087e-07,  ...,  4.4316e-05,
          1.8731e-05,  2.0027e-05],
        [ 2.3663e-05, -2.5183e-05, -1.8644e-04,  ...,  8.9943e-05,
          6.6817e-05, -1.8764e-04]], device='cuda:0')
Epoch 55, bias, value: tensor([ 0.0065,  0.0028,  0.0036,  0.0159,  0.0241,  0.0329, -0.0267,  0.0082,
        -0.0310, -0.0182], device='cuda:0'), grad: tensor([ 8.6129e-05, -3.1328e-04,  1.3995e-04,  1.5926e-04, -1.9951e-03,
         2.5249e-04,  1.5712e-04,  1.0376e-03,  1.4603e-04,  3.2949e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 54, time 217.25, cls_loss 0.0172 cls_loss_mapping 0.0246 cls_loss_causal 0.6925 re_mapping 0.0164 re_causal 0.0448 /// teacc 98.74 lr 0.00010000
Epoch 56, weight, value: tensor([[-0.0057,  0.0773,  0.0481,  ..., -0.0854, -0.0617,  0.0266],
        [ 0.0737, -0.0080, -0.0266,  ...,  0.0351,  0.0537, -0.0735],
        [-0.0368, -0.0134, -0.0282,  ..., -0.0410, -0.0090, -0.0201],
        ...,
        [-0.0171,  0.0843, -0.1000,  ..., -0.0584,  0.0122, -0.0701],
        [-0.0012, -0.0494,  0.0260,  ...,  0.0355, -0.0714, -0.0297],
        [-0.0068, -0.0387,  0.0246,  ..., -0.0348, -0.0309,  0.0661]],
       device='cuda:0'), grad: tensor([[ 9.7454e-06, -1.2624e-04, -1.7032e-05,  ...,  1.5736e-05,
          2.8424e-06, -1.6451e-05],
        [-4.3571e-05,  1.6421e-05,  8.8215e-06,  ..., -3.5256e-05,
         -2.0832e-05,  8.6576e-06],
        [ 1.2405e-05, -1.5467e-05,  3.4183e-05,  ...,  1.0386e-05,
         -2.2411e-05,  4.4376e-05],
        ...,
        [ 2.1636e-05, -5.6219e-04, -1.0401e-04,  ..., -5.9783e-05,
          2.2262e-05, -4.5866e-05],
        [-6.4373e-05,  5.4032e-05, -4.8965e-05,  ..., -6.9201e-05,
          4.4331e-06,  9.1940e-06],
        [ 4.8399e-05,  4.9925e-04,  4.9770e-05,  ...,  9.8228e-05,
          3.0901e-06, -1.5414e-04]], device='cuda:0')
Epoch 56, bias, value: tensor([ 0.0070,  0.0023,  0.0048,  0.0155,  0.0231,  0.0333, -0.0264,  0.0077,
        -0.0309, -0.0181], device='cuda:0'), grad: tensor([-1.6797e-04,  2.4661e-06, -3.0935e-05,  1.9833e-05,  1.1218e-04,
         1.8322e-04, -1.4246e-04, -9.7847e-04,  4.2766e-05,  9.5892e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 55, time 217.64, cls_loss 0.0152 cls_loss_mapping 0.0221 cls_loss_causal 0.6769 re_mapping 0.0147 re_causal 0.0434 /// teacc 98.39 lr 0.00010000
Epoch 57, weight, value: tensor([[-0.0061,  0.0778,  0.0483,  ..., -0.0865, -0.0623,  0.0266],
        [ 0.0744, -0.0077, -0.0269,  ...,  0.0359,  0.0547, -0.0740],
        [-0.0370, -0.0135, -0.0283,  ..., -0.0411, -0.0090, -0.0203],
        ...,
        [-0.0180,  0.0850, -0.1004,  ..., -0.0596,  0.0120, -0.0706],
        [-0.0017, -0.0502,  0.0257,  ...,  0.0354, -0.0721, -0.0303],
        [-0.0074, -0.0391,  0.0242,  ..., -0.0353, -0.0311,  0.0658]],
       device='cuda:0'), grad: tensor([[-3.7700e-05, -5.6887e-04, -3.5238e-04,  ..., -1.5700e-04,
          7.9628e-07, -5.5027e-04],
        [-5.8651e-05,  6.4336e-06,  2.8871e-06,  ..., -3.9399e-05,
         -3.4660e-05,  4.5933e-06],
        [ 2.7224e-05,  4.3750e-05,  1.4402e-05,  ...,  2.7642e-05,
          1.0014e-05,  3.1263e-05],
        ...,
        [ 1.2755e-05, -1.4015e-05,  1.3880e-05,  ...,  2.2650e-05,
          5.7071e-06,  1.6466e-05],
        [ 1.9923e-05,  2.1070e-05, -5.4762e-06,  ...,  1.4119e-05,
          1.2733e-05,  4.1693e-05],
        [-1.4650e-06,  2.9340e-05, -7.1824e-05,  ...,  1.9699e-05,
          1.0617e-06, -5.6028e-05]], device='cuda:0')
Epoch 57, bias, value: tensor([ 0.0069,  0.0026,  0.0054,  0.0164,  0.0233,  0.0330, -0.0264,  0.0075,
        -0.0316, -0.0188], device='cuda:0'), grad: tensor([-1.1654e-03, -5.0247e-05,  1.2130e-04,  3.6454e-04,  6.3419e-05,
        -2.0337e-04,  8.6641e-04,  3.7849e-05,  8.4996e-05, -1.1998e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 56, time 216.82, cls_loss 0.0140 cls_loss_mapping 0.0178 cls_loss_causal 0.7035 re_mapping 0.0155 re_causal 0.0441 /// teacc 98.67 lr 0.00010000
Epoch 58, weight, value: tensor([[-0.0063,  0.0782,  0.0482,  ..., -0.0870, -0.0625,  0.0265],
        [ 0.0747, -0.0080, -0.0270,  ...,  0.0361,  0.0550, -0.0744],
        [-0.0371, -0.0136, -0.0285,  ..., -0.0413, -0.0092, -0.0204],
        ...,
        [-0.0182,  0.0856, -0.1010,  ..., -0.0602,  0.0129, -0.0713],
        [-0.0018, -0.0506,  0.0254,  ...,  0.0353, -0.0725, -0.0307],
        [-0.0073, -0.0397,  0.0251,  ..., -0.0356, -0.0310,  0.0673]],
       device='cuda:0'), grad: tensor([[ 7.4245e-06, -7.7039e-06, -4.6119e-06,  ...,  1.8656e-05,
          4.4703e-07, -1.4104e-05],
        [ 1.2207e-04,  8.3968e-06,  1.5805e-06,  ...,  3.3545e-04,
         -2.0280e-05,  7.0035e-07],
        [ 1.5795e-05,  2.3327e-03,  1.8024e-04,  ...,  3.9756e-05,
          4.1485e-04,  5.2676e-06],
        ...,
        [ 1.4886e-05, -2.4052e-03, -1.7929e-04,  ...,  8.6129e-05,
         -4.1842e-04,  1.2545e-06],
        [ 1.2887e-04,  2.2784e-05,  2.0951e-05,  ...,  2.2483e-04,
          1.0483e-05,  2.3425e-05],
        [ 1.3240e-05,  8.8453e-05,  3.8654e-05,  ...,  6.5660e-04,
          1.5451e-06, -1.2599e-05]], device='cuda:0')
Epoch 58, bias, value: tensor([ 0.0068,  0.0023,  0.0054,  0.0163,  0.0229,  0.0334, -0.0262,  0.0080,
        -0.0321, -0.0186], device='cuda:0'), grad: tensor([ 4.0978e-05,  4.1986e-04,  1.2688e-02,  2.4700e-04, -3.2578e-03,
         4.8327e-04, -1.5581e-04, -1.2627e-02,  4.1580e-04,  1.7433e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 57, time 217.10, cls_loss 0.0141 cls_loss_mapping 0.0213 cls_loss_causal 0.7167 re_mapping 0.0146 re_causal 0.0437 /// teacc 98.74 lr 0.00010000
Epoch 59, weight, value: tensor([[-0.0062,  0.0788,  0.0485,  ..., -0.0881, -0.0632,  0.0266],
        [ 0.0745, -0.0083, -0.0274,  ...,  0.0359,  0.0554, -0.0753],
        [-0.0369, -0.0139, -0.0282,  ..., -0.0411, -0.0092, -0.0201],
        ...,
        [-0.0185,  0.0860, -0.1017,  ..., -0.0607,  0.0126, -0.0722],
        [-0.0019, -0.0511,  0.0253,  ...,  0.0355, -0.0730, -0.0310],
        [-0.0076, -0.0401,  0.0256,  ..., -0.0363, -0.0312,  0.0678]],
       device='cuda:0'), grad: tensor([[-1.0264e-04, -7.8321e-05, -1.4067e-04,  ...,  9.2089e-06,
          2.2516e-05, -8.8334e-05],
        [-3.2991e-05,  2.6911e-05,  5.8040e-06,  ...,  4.9025e-05,
          3.4022e-04,  5.6848e-06],
        [ 3.0845e-05,  2.8706e-04,  3.5793e-05,  ..., -6.6638e-05,
         -2.7418e-04,  3.1292e-05],
        ...,
        [ 1.2018e-05, -7.9012e-04,  5.2303e-06,  ..., -5.0694e-05,
         -2.7752e-04, -4.3809e-05],
        [ 2.9564e-05,  6.5088e-05,  3.9190e-05,  ...,  1.8075e-05,
          9.6560e-06,  3.4600e-05],
        [ 8.2031e-06,  8.7380e-05, -2.1964e-05,  ...,  1.9699e-05,
          8.3074e-06, -1.8343e-05]], device='cuda:0')
Epoch 59, bias, value: tensor([ 0.0071,  0.0019,  0.0055,  0.0161,  0.0241,  0.0343, -0.0266,  0.0077,
        -0.0326, -0.0190], device='cuda:0'), grad: tensor([-0.0003,  0.0010, -0.0006,  0.0002,  0.0003,  0.0003,  0.0001, -0.0014,
         0.0002,  0.0002], device='cuda:0')
100
0.0001
changing lr
epoch 58, time 216.93, cls_loss 0.0141 cls_loss_mapping 0.0184 cls_loss_causal 0.6714 re_mapping 0.0145 re_causal 0.0426 /// teacc 98.66 lr 0.00010000
Epoch 60, weight, value: tensor([[-0.0059,  0.0800,  0.0488,  ..., -0.0887, -0.0636,  0.0264],
        [ 0.0749, -0.0084, -0.0276,  ...,  0.0366,  0.0560, -0.0762],
        [-0.0377, -0.0142, -0.0287,  ..., -0.0420, -0.0095, -0.0203],
        ...,
        [-0.0190,  0.0856, -0.1028,  ..., -0.0615,  0.0127, -0.0728],
        [-0.0015, -0.0508,  0.0254,  ...,  0.0360, -0.0734, -0.0311],
        [-0.0079, -0.0397,  0.0267,  ..., -0.0365, -0.0312,  0.0688]],
       device='cuda:0'), grad: tensor([[ 2.7549e-06, -4.5598e-05, -2.8729e-05,  ...,  2.9355e-06,
          1.2685e-06, -3.1739e-05],
        [-1.2183e-04,  7.7724e-05,  3.3434e-06,  ..., -1.0091e-04,
         -8.9645e-05,  7.8604e-07],
        [ 1.0264e-04,  1.5706e-05,  2.6245e-06,  ...,  1.3316e-04,
          5.3167e-05,  8.5831e-06],
        ...,
        [-1.1331e-04, -2.0719e-04,  1.0490e-05,  ..., -2.5153e-04,
          2.9560e-06,  5.5209e-06],
        [ 6.9797e-05,  4.7773e-05,  5.2035e-05,  ...,  7.9691e-05,
          1.6987e-05,  2.7657e-05],
        [ 1.8865e-05,  3.5524e-05, -1.0617e-06,  ...,  2.4870e-05,
          2.7437e-06, -1.1690e-05]], device='cuda:0')
Epoch 60, bias, value: tensor([ 0.0079,  0.0020,  0.0051,  0.0161,  0.0241,  0.0340, -0.0268,  0.0065,
        -0.0323, -0.0181], device='cuda:0'), grad: tensor([-9.3937e-05, -4.9174e-07,  1.3185e-04,  1.3161e-03,  1.7309e-04,
        -1.3561e-03,  8.8573e-05, -6.1941e-04,  2.7013e-04,  8.9347e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 59, time 217.49, cls_loss 0.0158 cls_loss_mapping 0.0236 cls_loss_causal 0.7000 re_mapping 0.0148 re_causal 0.0413 /// teacc 98.57 lr 0.00010000
Epoch 61, weight, value: tensor([[-0.0064,  0.0803,  0.0485,  ..., -0.0896, -0.0641,  0.0264],
        [ 0.0757, -0.0085, -0.0272,  ...,  0.0376,  0.0563, -0.0758],
        [-0.0378, -0.0144, -0.0286,  ..., -0.0424, -0.0100, -0.0205],
        ...,
        [-0.0191,  0.0865, -0.1037,  ..., -0.0619,  0.0148, -0.0736],
        [-0.0017, -0.0513,  0.0254,  ...,  0.0361, -0.0738, -0.0313],
        [-0.0087, -0.0402,  0.0273,  ..., -0.0378, -0.0318,  0.0695]],
       device='cuda:0'), grad: tensor([[-3.6001e-05, -4.8876e-05, -2.0847e-05,  ...,  2.5630e-05,
          1.0058e-05,  1.0848e-05],
        [-1.5214e-05,  1.0318e-04,  1.1158e-04,  ...,  1.3828e-04,
          9.2864e-05,  5.5492e-05],
        [ 7.4580e-06,  3.4213e-05, -2.0909e-04,  ..., -2.2459e-04,
         -2.7394e-04, -8.7738e-05],
        ...,
        [-2.1189e-05, -8.4686e-04,  6.3241e-05,  ...,  5.7906e-05,
          9.3997e-05,  4.6194e-05],
        [ 6.6906e-06,  2.2754e-05,  1.8895e-05,  ...,  4.0054e-05,
          1.1064e-05,  2.0280e-05],
        [ 2.4870e-05,  5.4979e-04, -5.8532e-05,  ...,  3.5954e-04,
          1.7509e-07, -7.2896e-05]], device='cuda:0')
Epoch 61, bias, value: tensor([ 0.0075,  0.0022,  0.0052,  0.0156,  0.0244,  0.0335, -0.0263,  0.0078,
        -0.0329, -0.0184], device='cuda:0'), grad: tensor([ 1.6555e-05,  8.6069e-04, -1.5326e-03,  3.6836e-04, -4.9496e-04,
         8.4281e-05,  3.4332e-05, -6.1321e-04,  1.3590e-04,  1.1377e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 60, time 217.04, cls_loss 0.0131 cls_loss_mapping 0.0191 cls_loss_causal 0.6444 re_mapping 0.0146 re_causal 0.0409 /// teacc 98.56 lr 0.00010000
Epoch 62, weight, value: tensor([[-0.0057,  0.0814,  0.0496,  ..., -0.0903, -0.0650,  0.0265],
        [ 0.0764, -0.0090, -0.0274,  ...,  0.0382,  0.0570, -0.0762],
        [-0.0386, -0.0150, -0.0290,  ..., -0.0432, -0.0104, -0.0210],
        ...,
        [-0.0193,  0.0874, -0.1044,  ..., -0.0625,  0.0144, -0.0744],
        [-0.0020, -0.0527,  0.0252,  ...,  0.0362, -0.0743, -0.0318],
        [-0.0094, -0.0403,  0.0273,  ..., -0.0388, -0.0320,  0.0703]],
       device='cuda:0'), grad: tensor([[ 7.6115e-05, -3.1024e-05,  1.0109e-04,  ...,  7.2300e-05,
         -1.8366e-06,  1.8024e-04],
        [ 4.7231e-04,  2.7388e-05,  8.5354e-05,  ...,  3.2473e-04,
          3.9721e-04,  1.2493e-04],
        [-3.5000e-04,  2.7984e-05,  7.5996e-05,  ..., -1.1760e-04,
         -4.0269e-04,  1.2982e-04],
        ...,
        [ 3.3200e-05, -5.7928e-07,  6.1333e-05,  ...,  8.2314e-05,
          3.0492e-06,  1.0407e-04],
        [-2.3574e-05,  2.0832e-05,  3.5822e-05,  ..., -6.3181e-05,
          1.6242e-06,  9.0718e-05],
        [-8.9359e-04, -4.6730e-04, -1.7204e-03,  ..., -1.0118e-03,
          7.9349e-07, -2.9564e-03]], device='cuda:0')
Epoch 62, bias, value: tensor([ 0.0074,  0.0025,  0.0047,  0.0162,  0.0246,  0.0335, -0.0264,  0.0077,
        -0.0333, -0.0184], device='cuda:0'), grad: tensor([ 3.3760e-04,  1.3380e-03, -6.9761e-04,  2.0027e-05,  3.7498e-03,
         7.6830e-05,  1.3101e-04,  2.8086e-04,  5.6058e-05, -5.2910e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 61, time 217.28, cls_loss 0.0139 cls_loss_mapping 0.0198 cls_loss_causal 0.7196 re_mapping 0.0132 re_causal 0.0402 /// teacc 98.61 lr 0.00010000
Epoch 63, weight, value: tensor([[-0.0061,  0.0817,  0.0495,  ..., -0.0919, -0.0660,  0.0264],
        [ 0.0766, -0.0088, -0.0279,  ...,  0.0386,  0.0576, -0.0777],
        [-0.0389, -0.0149, -0.0293,  ..., -0.0438, -0.0101, -0.0214],
        ...,
        [-0.0199,  0.0882, -0.1050,  ..., -0.0635,  0.0141, -0.0752],
        [-0.0022, -0.0538,  0.0251,  ...,  0.0364, -0.0745, -0.0327],
        [-0.0094, -0.0411,  0.0278,  ..., -0.0393, -0.0319,  0.0711]],
       device='cuda:0'), grad: tensor([[-2.7943e-04, -4.9829e-04, -5.8556e-04,  ...,  9.2909e-06,
          1.7975e-06, -3.7694e-04],
        [-6.9666e-04,  1.5702e-06,  3.4496e-06,  ..., -3.9101e-04,
         -5.6934e-04,  3.7476e-06],
        [-3.1257e-04,  5.3465e-05,  5.9664e-05,  ...,  2.9802e-04,
          5.3263e-04,  3.7163e-05],
        ...,
        [ 3.3885e-05,  8.4788e-06,  1.1921e-05,  ...,  2.7940e-05,
          1.9848e-05,  1.1757e-05],
        [ 1.0443e-03,  3.4958e-05,  6.8307e-05,  ...,  1.3506e-04,
          1.8120e-05,  1.0216e-04],
        [ 2.1100e-05,  5.4777e-05,  4.6879e-05,  ...,  4.5240e-05,
          2.7418e-06,  2.7537e-05]], device='cuda:0')
Epoch 63, bias, value: tensor([ 0.0069,  0.0023,  0.0047,  0.0165,  0.0247,  0.0333, -0.0252,  0.0077,
        -0.0336, -0.0187], device='cuda:0'), grad: tensor([-1.0357e-03, -1.1702e-03, -5.3501e-04,  1.4496e-04, -6.0946e-05,
        -9.3746e-04,  1.5068e-03,  8.7798e-05,  1.8692e-03,  1.3113e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 62, time 217.46, cls_loss 0.0137 cls_loss_mapping 0.0196 cls_loss_causal 0.6784 re_mapping 0.0147 re_causal 0.0403 /// teacc 98.62 lr 0.00010000
Epoch 64, weight, value: tensor([[-0.0063,  0.0821,  0.0497,  ..., -0.0928, -0.0667,  0.0263],
        [ 0.0774, -0.0088, -0.0282,  ...,  0.0393,  0.0582, -0.0785],
        [-0.0388, -0.0155, -0.0294,  ..., -0.0437, -0.0097, -0.0213],
        ...,
        [-0.0203,  0.0890, -0.1059,  ..., -0.0642,  0.0144, -0.0757],
        [-0.0020, -0.0538,  0.0249,  ...,  0.0368, -0.0756, -0.0326],
        [-0.0102, -0.0414,  0.0283,  ..., -0.0398, -0.0327,  0.0717]],
       device='cuda:0'), grad: tensor([[ 1.0885e-05, -1.4317e-04, -1.2624e-04,  ...,  1.1876e-05,
          4.7311e-07, -1.3590e-04],
        [-5.2154e-05, -5.8077e-06,  9.4175e-06,  ..., -3.3021e-05,
         -2.3827e-05,  5.2825e-06],
        [ 1.4387e-05,  1.9521e-05,  2.7299e-05,  ...,  6.9886e-06,
          2.9150e-06,  1.8775e-05],
        ...,
        [ 3.1650e-05, -7.1898e-06,  4.3184e-05,  ...,  1.3903e-05,
          8.9481e-06,  2.5570e-05],
        [ 2.8163e-05,  5.3719e-06,  6.1333e-05,  ...,  1.8656e-05,
          8.5235e-06,  6.2883e-05],
        [-3.3188e-04,  1.2837e-05, -1.1730e-03,  ..., -4.1294e-04,
          2.5332e-06, -1.0061e-03]], device='cuda:0')
Epoch 64, bias, value: tensor([ 0.0069,  0.0026,  0.0053,  0.0162,  0.0246,  0.0337, -0.0256,  0.0078,
        -0.0342, -0.0188], device='cuda:0'), grad: tensor([-3.3283e-04, -4.1038e-05,  5.9336e-05,  2.8634e-04,  1.2703e-03,
         7.3481e-04,  6.8069e-05,  8.5473e-05,  1.0389e-04, -2.2354e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 63, time 217.58, cls_loss 0.0159 cls_loss_mapping 0.0185 cls_loss_causal 0.6907 re_mapping 0.0142 re_causal 0.0397 /// teacc 98.58 lr 0.00010000
Epoch 65, weight, value: tensor([[-0.0067,  0.0835,  0.0504,  ..., -0.0939, -0.0670,  0.0266],
        [ 0.0786, -0.0071, -0.0291,  ...,  0.0400,  0.0591, -0.0796],
        [-0.0394, -0.0160, -0.0296,  ..., -0.0441, -0.0098, -0.0213],
        ...,
        [-0.0220,  0.0886, -0.1073,  ..., -0.0651,  0.0135, -0.0763],
        [-0.0007, -0.0532,  0.0262,  ...,  0.0384, -0.0760, -0.0321],
        [-0.0111, -0.0413,  0.0287,  ..., -0.0406, -0.0324,  0.0721]],
       device='cuda:0'), grad: tensor([[ 6.2108e-05, -1.3180e-05,  8.1062e-05,  ...,  6.0737e-05,
          4.2729e-06,  9.2089e-05],
        [ 1.8373e-05,  1.9372e-04,  5.7638e-05,  ..., -3.5077e-05,
          3.9905e-05,  3.6895e-05],
        [ 3.0947e-04, -4.1628e-04,  4.4227e-04,  ...,  1.9014e-04,
          1.9521e-05,  3.7313e-04],
        ...,
        [-5.9754e-06,  1.9526e-04,  1.0705e-04,  ...,  4.7445e-05,
         -8.5711e-05,  7.5042e-05],
        [ 7.3433e-04,  1.4782e-04,  8.2493e-04,  ...,  4.6515e-04,
          2.5123e-05,  7.3671e-04],
        [-1.2434e-04,  2.4348e-05, -4.8780e-04,  ..., -8.9526e-05,
          3.8832e-05, -4.0293e-04]], device='cuda:0')
Epoch 65, bias, value: tensor([ 0.0076,  0.0037,  0.0051,  0.0154,  0.0246,  0.0334, -0.0268,  0.0068,
        -0.0326, -0.0187], device='cuda:0'), grad: tensor([ 0.0002,  0.0004, -0.0003,  0.0087,  0.0012, -0.0111, -0.0009,  0.0009,
         0.0018, -0.0009], device='cuda:0')
100
0.0001
changing lr
epoch 64, time 217.59, cls_loss 0.0151 cls_loss_mapping 0.0191 cls_loss_causal 0.6702 re_mapping 0.0140 re_causal 0.0397 /// teacc 98.72 lr 0.00010000
Epoch 66, weight, value: tensor([[-0.0059,  0.0844,  0.0504,  ..., -0.0948, -0.0673,  0.0266],
        [ 0.0783, -0.0088, -0.0293,  ...,  0.0399,  0.0596, -0.0797],
        [-0.0400, -0.0165, -0.0296,  ..., -0.0446, -0.0098, -0.0215],
        ...,
        [-0.0209,  0.0892, -0.1088,  ..., -0.0652,  0.0136, -0.0766],
        [-0.0009, -0.0538,  0.0265,  ...,  0.0382, -0.0768, -0.0320],
        [-0.0124, -0.0419,  0.0289,  ..., -0.0413, -0.0329,  0.0723]],
       device='cuda:0'), grad: tensor([[ 8.7738e-05, -6.5029e-05,  2.3276e-05,  ...,  8.7082e-05,
          1.0896e-06,  1.6510e-05],
        [-2.5511e-04, -1.3387e-04, -3.3021e-05,  ..., -1.3030e-04,
         -1.2052e-04,  1.1414e-05],
        [ 7.6473e-05,  1.3256e-04,  3.6538e-05,  ...,  6.0320e-05,
          2.7046e-05,  9.2313e-06],
        ...,
        [ 1.2195e-04, -6.8378e-04,  3.7700e-06,  ...,  1.1122e-04,
          5.1707e-05,  9.2909e-06],
        [ 8.0109e-03,  4.5300e-05,  4.1618e-03,  ...,  6.7596e-03,
          1.1295e-05,  4.8904e-03],
        [ 1.2696e-04,  1.0109e-04,  2.4376e-03,  ...,  2.9640e-03,
          2.0027e-05,  9.9659e-04]], device='cuda:0')
Epoch 66, bias, value: tensor([ 0.0079,  0.0029,  0.0043,  0.0164,  0.0248,  0.0332, -0.0260,  0.0073,
        -0.0331, -0.0189], device='cuda:0'), grad: tensor([ 5.0336e-05, -6.1035e-04,  3.8457e-04,  9.7656e-04, -5.9509e-03,
         8.2111e-04, -1.2543e-02, -9.3555e-04,  1.1742e-02,  6.0616e-03],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 65----------------------------------------------------
epoch 65, time 218.36, cls_loss 0.0114 cls_loss_mapping 0.0160 cls_loss_causal 0.6463 re_mapping 0.0145 re_causal 0.0400 /// teacc 98.81 lr 0.00010000
Epoch 67, weight, value: tensor([[-0.0064,  0.0848,  0.0500,  ..., -0.0959, -0.0678,  0.0265],
        [ 0.0787, -0.0092, -0.0298,  ...,  0.0400,  0.0600, -0.0805],
        [-0.0405, -0.0169, -0.0296,  ..., -0.0453, -0.0100, -0.0215],
        ...,
        [-0.0207,  0.0903, -0.1092,  ..., -0.0658,  0.0138, -0.0772],
        [-0.0010, -0.0542,  0.0264,  ...,  0.0384, -0.0772, -0.0324],
        [-0.0123, -0.0421,  0.0296,  ..., -0.0421, -0.0330,  0.0728]],
       device='cuda:0'), grad: tensor([[-4.0829e-05, -3.4600e-05, -9.2387e-05,  ..., -8.8885e-06,
          8.4005e-07, -1.4961e-04],
        [-4.6700e-05, -2.5667e-06, -7.4804e-06,  ..., -4.0352e-05,
         -2.0251e-05,  3.1628e-06],
        [-5.2806e-07,  2.0117e-06,  2.0284e-06,  ..., -5.1744e-06,
          1.4510e-06,  8.6650e-06],
        ...,
        [ 3.6895e-05,  1.3039e-07,  9.8869e-06,  ...,  2.7433e-05,
          6.1281e-06,  9.8497e-06],
        [ 1.5616e-04,  1.7822e-05,  1.1545e-04,  ...,  1.2434e-04,
          8.0615e-06,  1.3888e-04],
        [ 3.5882e-05,  7.1041e-06,  2.3231e-05,  ...,  2.7299e-05,
          2.4233e-06,  4.9502e-05]], device='cuda:0')
Epoch 67, bias, value: tensor([ 0.0076,  0.0023,  0.0042,  0.0159,  0.0258,  0.0335, -0.0260,  0.0077,
        -0.0334, -0.0188], device='cuda:0'), grad: tensor([ 8.9705e-05, -4.6015e-05, -5.7369e-05,  1.8806e-03, -1.0958e-03,
        -2.1915e-03,  1.5533e-04,  7.4983e-05,  3.8362e-04,  8.0585e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 66, time 217.29, cls_loss 0.0129 cls_loss_mapping 0.0183 cls_loss_causal 0.6694 re_mapping 0.0137 re_causal 0.0393 /// teacc 98.53 lr 0.00010000
Epoch 68, weight, value: tensor([[-0.0067,  0.0847,  0.0504,  ..., -0.0963, -0.0683,  0.0259],
        [ 0.0792, -0.0088, -0.0299,  ...,  0.0404,  0.0611, -0.0807],
        [-0.0406, -0.0175, -0.0297,  ..., -0.0455, -0.0099, -0.0220],
        ...,
        [-0.0216,  0.0904, -0.1104,  ..., -0.0662,  0.0130, -0.0775],
        [-0.0004, -0.0543,  0.0266,  ...,  0.0389, -0.0774, -0.0323],
        [-0.0130, -0.0413,  0.0303,  ..., -0.0427, -0.0342,  0.0739]],
       device='cuda:0'), grad: tensor([[-1.1879e-04, -4.3607e-04, -4.4179e-04,  ..., -1.1015e-04,
          4.8727e-06, -5.3358e-04],
        [-1.5218e-06,  2.1234e-06,  1.0572e-05,  ..., -4.4703e-06,
         -6.7018e-06,  8.8513e-06],
        [-5.8174e-05,  1.3530e-04, -3.5191e-04,  ..., -1.5998e-04,
         -4.3392e-05, -2.0611e-04],
        ...,
        [ 2.7394e-04,  7.0691e-05,  1.4305e-04,  ...,  4.0710e-05,
          4.3735e-06,  2.2125e-04],
        [ 3.5810e-04, -1.0556e-04,  6.7711e-05,  ...,  3.6907e-04,
          4.3821e-04, -9.7632e-05],
        [ 1.4353e-04,  2.9850e-04,  6.4039e-04,  ...,  1.3578e-04,
          1.2949e-05,  7.1764e-04]], device='cuda:0')
Epoch 68, bias, value: tensor([ 0.0068,  0.0028,  0.0046,  0.0153,  0.0250,  0.0336, -0.0260,  0.0073,
        -0.0333, -0.0178], device='cuda:0'), grad: tensor([-8.6784e-04,  3.1382e-05, -8.8644e-04,  2.1648e-04,  5.0403e-06,
        -9.8801e-04,  2.2995e-04,  8.0776e-04,  8.7082e-05,  1.3628e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 67, time 217.70, cls_loss 0.0099 cls_loss_mapping 0.0130 cls_loss_causal 0.6772 re_mapping 0.0132 re_causal 0.0392 /// teacc 98.64 lr 0.00010000
Epoch 69, weight, value: tensor([[-0.0061,  0.0856,  0.0505,  ..., -0.0967, -0.0683,  0.0261],
        [ 0.0789, -0.0103, -0.0302,  ...,  0.0403,  0.0613, -0.0813],
        [-0.0409, -0.0172, -0.0301,  ..., -0.0458, -0.0100, -0.0222],
        ...,
        [-0.0211,  0.0915, -0.1106,  ..., -0.0665,  0.0129, -0.0779],
        [-0.0005, -0.0546,  0.0263,  ...,  0.0390, -0.0782, -0.0326],
        [-0.0136, -0.0420,  0.0303,  ..., -0.0437, -0.0353,  0.0742]],
       device='cuda:0'), grad: tensor([[ 7.1079e-06, -5.7220e-06, -5.5790e-05,  ...,  4.2468e-06,
          5.6205e-07, -7.3850e-05],
        [ 4.1574e-06,  2.0172e-06,  7.4804e-06,  ...,  1.6354e-06,
         -9.4529e-08,  3.7067e-06],
        [ 1.2867e-05,  5.4948e-07,  2.1771e-05,  ...,  1.7434e-06,
         -1.0645e-06,  9.2089e-06],
        ...,
        [ 3.5688e-06, -7.2718e-05,  8.7246e-06,  ...,  1.7844e-06,
          3.2922e-07, -8.6352e-06],
        [ 3.6627e-05,  3.1404e-06,  6.6459e-05,  ...,  3.8743e-06,
          1.8049e-06,  1.9982e-05],
        [ 1.4193e-05,  6.3896e-05,  5.2840e-05,  ...,  7.6741e-06,
          8.7684e-07,  6.5565e-05]], device='cuda:0')
Epoch 69, bias, value: tensor([ 0.0071,  0.0018,  0.0049,  0.0155,  0.0256,  0.0345, -0.0262,  0.0077,
        -0.0337, -0.0186], device='cuda:0'), grad: tensor([-6.5327e-05,  1.7598e-05,  3.3289e-05, -2.3615e-04,  7.6964e-06,
         6.0469e-05, -4.7758e-06, -1.5426e-04,  1.1778e-04,  2.2399e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 68, time 217.55, cls_loss 0.0102 cls_loss_mapping 0.0148 cls_loss_causal 0.6548 re_mapping 0.0137 re_causal 0.0374 /// teacc 98.75 lr 0.00010000
Epoch 70, weight, value: tensor([[-0.0061,  0.0859,  0.0508,  ..., -0.0975, -0.0685,  0.0264],
        [ 0.0794, -0.0104, -0.0310,  ...,  0.0408,  0.0621, -0.0818],
        [-0.0414, -0.0170, -0.0297,  ..., -0.0465, -0.0103, -0.0224],
        ...,
        [-0.0217,  0.0919, -0.1116,  ..., -0.0673,  0.0133, -0.0785],
        [-0.0004, -0.0549,  0.0266,  ...,  0.0396, -0.0791, -0.0326],
        [-0.0141, -0.0424,  0.0312,  ..., -0.0442, -0.0355,  0.0747]],
       device='cuda:0'), grad: tensor([[ 1.4611e-05, -3.7206e-07,  1.1660e-06,  ...,  1.4313e-05,
          1.3430e-06,  1.7239e-06],
        [ 5.8460e-04,  6.6757e-06,  2.5947e-06,  ...,  4.4775e-04,
         -1.4141e-05,  5.1886e-05],
        [ 3.6955e-05,  8.0466e-06,  3.2187e-06,  ...,  3.3587e-05,
          1.3188e-05,  1.5497e-06],
        ...,
        [ 6.6683e-06, -9.3162e-05,  1.5765e-05,  ...,  1.6510e-05,
          5.7667e-06,  2.1487e-05],
        [-9.0361e-04,  3.8929e-06, -1.6287e-05,  ..., -6.6948e-04,
         -2.9117e-05, -5.1916e-05],
        [ 3.4273e-05,  2.2680e-05, -1.1677e-04,  ..., -2.5090e-06,
          2.6971e-06, -1.1867e-04]], device='cuda:0')
Epoch 70, bias, value: tensor([ 0.0071,  0.0019,  0.0054,  0.0151,  0.0247,  0.0346, -0.0260,  0.0076,
        -0.0337, -0.0182], device='cuda:0'), grad: tensor([ 1.5244e-05,  5.9795e-04, -9.0078e-06,  2.0039e-04,  1.3351e-04,
        -1.3447e-04,  2.6369e-04, -9.4414e-05, -8.7166e-04, -1.0192e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 69, time 217.81, cls_loss 0.0091 cls_loss_mapping 0.0133 cls_loss_causal 0.6313 re_mapping 0.0134 re_causal 0.0387 /// teacc 98.74 lr 0.00010000
Epoch 71, weight, value: tensor([[-0.0069,  0.0862,  0.0505,  ..., -0.0986, -0.0698,  0.0260],
        [ 0.0802, -0.0104, -0.0310,  ...,  0.0418,  0.0631, -0.0820],
        [-0.0417, -0.0172, -0.0298,  ..., -0.0470, -0.0102, -0.0225],
        ...,
        [-0.0228,  0.0929, -0.1125,  ..., -0.0682,  0.0130, -0.0789],
        [-0.0002, -0.0549,  0.0265,  ...,  0.0396, -0.0802, -0.0328],
        [-0.0141, -0.0429,  0.0318,  ..., -0.0443, -0.0359,  0.0756]],
       device='cuda:0'), grad: tensor([[ 1.2174e-05, -1.6883e-05,  3.7476e-06,  ...,  2.1532e-05,
          2.6263e-07,  8.5831e-06],
        [ 1.7667e-04,  2.3925e-04,  6.5845e-07,  ...,  1.0449e-04,
          6.3837e-05,  6.2957e-07],
        [ 1.5073e-05,  8.5086e-06,  5.4054e-06,  ...,  1.7419e-05,
          1.1502e-06,  2.0955e-06],
        ...,
        [-3.0017e-04, -3.9744e-04,  9.9279e-07,  ..., -1.7309e-04,
         -1.1367e-04,  8.9640e-07],
        [ 5.6118e-05,  8.1599e-05, -2.5555e-06,  ...,  3.1948e-05,
          2.5213e-05,  1.6093e-05],
        [ 2.8118e-05,  4.0352e-05, -3.1460e-06,  ...,  3.4064e-05,
          9.3207e-06,  2.2352e-07]], device='cuda:0')
Epoch 71, bias, value: tensor([ 0.0060,  0.0025,  0.0055,  0.0147,  0.0244,  0.0354, -0.0262,  0.0075,
        -0.0338, -0.0179], device='cuda:0'), grad: tensor([ 1.5227e-07,  5.0735e-04,  3.9279e-05,  3.6538e-05, -2.3767e-05,
         1.3840e-04, -1.3018e-04, -8.3303e-04,  1.6761e-04,  9.7513e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 70, time 217.40, cls_loss 0.0126 cls_loss_mapping 0.0166 cls_loss_causal 0.6516 re_mapping 0.0130 re_causal 0.0374 /// teacc 98.71 lr 0.00010000
Epoch 72, weight, value: tensor([[-0.0067,  0.0869,  0.0529,  ..., -0.0992, -0.0705,  0.0273],
        [ 0.0809, -0.0106, -0.0307,  ...,  0.0424,  0.0632, -0.0820],
        [-0.0422, -0.0176, -0.0301,  ..., -0.0474, -0.0099, -0.0228],
        ...,
        [-0.0225,  0.0936, -0.1124,  ..., -0.0690,  0.0130, -0.0793],
        [-0.0008, -0.0556,  0.0262,  ...,  0.0393, -0.0819, -0.0334],
        [-0.0148, -0.0439,  0.0310,  ..., -0.0449, -0.0365,  0.0752]],
       device='cuda:0'), grad: tensor([[ 9.8497e-06, -3.2037e-06, -6.2250e-06,  ...,  1.1481e-05,
          2.3060e-06, -5.7779e-06],
        [-6.1572e-05, -4.6343e-06,  4.9993e-06,  ..., -5.3078e-05,
         -3.4392e-05,  5.6177e-06],
        [ 1.5140e-05,  2.1495e-06,  4.1164e-06,  ...,  1.6630e-05,
          6.0350e-06,  1.0896e-06],
        ...,
        [ 6.4313e-05,  3.0845e-06,  7.2241e-05,  ...,  1.0329e-04,
          2.1175e-05,  5.4091e-05],
        [-6.4135e-05,  5.6773e-06, -8.5356e-07,  ..., -6.0588e-05,
          9.4250e-06,  1.5572e-05],
        [ 1.2189e-05, -8.6427e-06, -9.5069e-05,  ..., -2.7508e-05,
         -1.5453e-05, -8.5175e-05]], device='cuda:0')
Epoch 72, bias, value: tensor([ 0.0071,  0.0024,  0.0056,  0.0147,  0.0245,  0.0361, -0.0265,  0.0079,
        -0.0348, -0.0188], device='cuda:0'), grad: tensor([ 7.4040e-08, -6.1214e-05,  3.0249e-05,  1.6212e-05,  4.0233e-05,
         3.2842e-05, -2.7925e-05,  3.0589e-04, -7.6711e-05, -2.5964e-04],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 71----------------------------------------------------
epoch 71, time 217.41, cls_loss 0.0109 cls_loss_mapping 0.0170 cls_loss_causal 0.6640 re_mapping 0.0126 re_causal 0.0361 /// teacc 98.87 lr 0.00010000
Epoch 73, weight, value: tensor([[-0.0070,  0.0869,  0.0538,  ..., -0.0998, -0.0714,  0.0272],
        [ 0.0812, -0.0113, -0.0318,  ...,  0.0426,  0.0634, -0.0830],
        [-0.0425, -0.0180, -0.0307,  ..., -0.0477, -0.0095, -0.0232],
        ...,
        [-0.0229,  0.0946, -0.1128,  ..., -0.0704,  0.0135, -0.0801],
        [-0.0006, -0.0555,  0.0264,  ...,  0.0398, -0.0828, -0.0334],
        [-0.0151, -0.0442,  0.0311,  ..., -0.0451, -0.0373,  0.0765]],
       device='cuda:0'), grad: tensor([[-1.0394e-05, -3.7611e-05, -2.0280e-05,  ..., -2.5451e-05,
          7.8510e-07, -4.9055e-05],
        [-1.4329e-04,  3.8818e-06, -6.0126e-06,  ..., -1.4424e-04,
         -5.3257e-05, -5.5045e-05],
        [ 5.5842e-06,  1.2495e-05,  3.7551e-06,  ...,  4.8056e-06,
          8.3214e-07,  2.5835e-06],
        ...,
        [ 1.9431e-05, -8.4400e-05,  2.6636e-06,  ...,  2.3872e-05,
          6.2808e-06,  8.7023e-06],
        [ 6.5386e-05,  8.8662e-06,  5.5321e-06,  ...,  6.2704e-05,
          2.3872e-05,  3.3528e-05],
        [ 3.3885e-05,  2.2873e-05,  6.9961e-06,  ...,  4.6581e-05,
          9.6411e-06,  1.9372e-05]], device='cuda:0')
Epoch 73, bias, value: tensor([ 0.0065,  0.0018,  0.0056,  0.0146,  0.0240,  0.0366, -0.0268,  0.0081,
        -0.0344, -0.0182], device='cuda:0'), grad: tensor([-1.2529e-04, -1.6105e-04, -5.3570e-06,  4.1306e-05,  1.2541e-04,
         7.3135e-05,  2.2769e-05, -2.3019e-04,  1.3590e-04,  1.2326e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 72, time 216.82, cls_loss 0.0108 cls_loss_mapping 0.0152 cls_loss_causal 0.6341 re_mapping 0.0127 re_causal 0.0352 /// teacc 98.71 lr 0.00010000
Epoch 74, weight, value: tensor([[-0.0074,  0.0874,  0.0539,  ..., -0.1007, -0.0720,  0.0272],
        [ 0.0823, -0.0116, -0.0312,  ...,  0.0439,  0.0648, -0.0829],
        [-0.0431, -0.0183, -0.0310,  ..., -0.0482, -0.0100, -0.0233],
        ...,
        [-0.0233,  0.0948, -0.1136,  ..., -0.0713,  0.0145, -0.0805],
        [-0.0009, -0.0559,  0.0262,  ...,  0.0398, -0.0836, -0.0336],
        [-0.0154, -0.0439,  0.0316,  ..., -0.0460, -0.0369,  0.0768]],
       device='cuda:0'), grad: tensor([[ 9.8228e-05, -4.9639e-07,  1.1140e-04,  ...,  6.6638e-05,
          1.7500e-06,  4.6313e-05],
        [ 3.4552e-06,  4.7609e-06,  1.4238e-05,  ...,  8.5607e-06,
          3.4183e-05,  1.1042e-05],
        [ 4.8131e-05,  6.1393e-06,  3.2008e-05,  ..., -4.3735e-06,
         -5.2482e-05,  3.5733e-05],
        ...,
        [ 8.7619e-06, -9.7513e-05,  1.2994e-05,  ...,  1.0863e-05,
          7.2531e-06,  1.2279e-05],
        [-3.9291e-04,  2.0303e-06, -3.9721e-04,  ..., -1.5020e-04,
          1.8835e-05, -2.1887e-04],
        [ 1.7822e-04,  4.2766e-05,  7.4446e-05,  ..., -8.3372e-06,
         -1.1139e-05,  9.0450e-06]], device='cuda:0')
Epoch 74, bias, value: tensor([ 0.0065,  0.0027,  0.0054,  0.0147,  0.0241,  0.0363, -0.0269,  0.0080,
        -0.0350, -0.0182], device='cuda:0'), grad: tensor([ 5.6952e-05,  2.4819e-04, -1.5855e-04,  1.7858e-04,  2.2602e-04,
        -1.7196e-05,  3.1292e-05, -1.2177e-04, -4.9973e-04,  5.4419e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 73, time 216.84, cls_loss 0.0106 cls_loss_mapping 0.0136 cls_loss_causal 0.6510 re_mapping 0.0127 re_causal 0.0354 /// teacc 98.71 lr 0.00010000
Epoch 75, weight, value: tensor([[-0.0081,  0.0876,  0.0538,  ..., -0.1032, -0.0736,  0.0268],
        [ 0.0829, -0.0119, -0.0313,  ...,  0.0445,  0.0652, -0.0837],
        [-0.0441, -0.0187, -0.0313,  ..., -0.0495, -0.0102, -0.0234],
        ...,
        [-0.0236,  0.0958, -0.1143,  ..., -0.0723,  0.0149, -0.0811],
        [-0.0006, -0.0563,  0.0268,  ...,  0.0409, -0.0844, -0.0335],
        [-0.0160, -0.0445,  0.0321,  ..., -0.0464, -0.0354,  0.0778]],
       device='cuda:0'), grad: tensor([[ 2.3139e-04,  9.2030e-05,  1.0246e-04,  ...,  2.6774e-04,
          3.4180e-07,  2.2006e-04],
        [-1.0937e-05,  1.4137e-06,  1.5378e-05,  ..., -2.8774e-05,
         -2.2203e-05,  9.5442e-06],
        [ 1.4804e-05,  8.8988e-07,  2.1607e-05,  ...,  1.0617e-05,
          4.1462e-06,  1.2010e-05],
        ...,
        [ 4.6849e-05, -9.2685e-06,  6.4194e-05,  ...,  3.7998e-05,
          8.6278e-06,  5.5254e-05],
        [ 3.7527e-04,  1.5366e-04,  1.7643e-04,  ...,  4.2915e-04,
          1.8552e-06,  3.5620e-04],
        [ 6.9141e-05,  1.7673e-05,  1.2338e-04,  ...,  5.2959e-05,
          1.6727e-06,  1.1003e-04]], device='cuda:0')
Epoch 75, bias, value: tensor([ 0.0060,  0.0026,  0.0047,  0.0154,  0.0244,  0.0351, -0.0266,  0.0084,
        -0.0345, -0.0181], device='cuda:0'), grad: tensor([ 5.8842e-04,  1.5143e-06,  6.8724e-05, -2.9335e-03,  7.7009e-05,
        -4.3335e-03,  4.8714e-03,  2.4652e-04,  9.7942e-04,  4.3201e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 74, time 217.00, cls_loss 0.0095 cls_loss_mapping 0.0162 cls_loss_causal 0.6392 re_mapping 0.0128 re_causal 0.0361 /// teacc 98.85 lr 0.00010000
Epoch 76, weight, value: tensor([[-0.0084,  0.0879,  0.0538,  ..., -0.1038, -0.0738,  0.0265],
        [ 0.0834, -0.0118, -0.0318,  ...,  0.0456,  0.0662, -0.0840],
        [-0.0445, -0.0190, -0.0313,  ..., -0.0499, -0.0106, -0.0232],
        ...,
        [-0.0241,  0.0964, -0.1151,  ..., -0.0740,  0.0146, -0.0817],
        [-0.0004, -0.0567,  0.0272,  ...,  0.0410, -0.0847, -0.0336],
        [-0.0166, -0.0449,  0.0323,  ..., -0.0478, -0.0358,  0.0785]],
       device='cuda:0'), grad: tensor([[ 1.3940e-05, -2.0057e-05,  4.6119e-06,  ...,  1.8671e-05,
          3.4366e-06, -5.1633e-06],
        [-2.8685e-06,  3.0901e-06,  5.4203e-06,  ...,  7.7933e-06,
         -1.1008e-06,  7.3053e-06],
        [ 8.2105e-06,  3.9563e-06, -8.0019e-06,  ..., -5.2601e-05,
          1.2830e-05, -1.0818e-05],
        ...,
        [ 2.1100e-05, -2.0355e-05,  4.2498e-05,  ...,  3.1829e-05,
          1.0930e-05,  4.6939e-05],
        [ 3.0726e-05,  3.0138e-06,  4.5061e-05,  ...,  4.4256e-05,
          7.9796e-06,  4.3958e-05],
        [ 2.4819e-04,  1.9744e-05,  2.7561e-04,  ...,  2.1684e-04,
          1.4400e-04,  2.8157e-04]], device='cuda:0')
Epoch 76, bias, value: tensor([ 0.0054,  0.0032,  0.0047,  0.0163,  0.0251,  0.0344, -0.0268,  0.0082,
        -0.0343, -0.0187], device='cuda:0'), grad: tensor([ 2.9460e-05,  5.8413e-05, -2.1577e-04,  4.3392e-04, -5.6458e-04,
        -1.0576e-03, -4.9084e-05,  1.3280e-04,  1.9884e-04,  1.0309e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 75, time 217.29, cls_loss 0.0096 cls_loss_mapping 0.0140 cls_loss_causal 0.6486 re_mapping 0.0126 re_causal 0.0357 /// teacc 98.76 lr 0.00010000
Epoch 77, weight, value: tensor([[-0.0085,  0.0886,  0.0543,  ..., -0.1046, -0.0745,  0.0267],
        [ 0.0835, -0.0120, -0.0321,  ...,  0.0459,  0.0660, -0.0846],
        [-0.0447, -0.0196, -0.0316,  ..., -0.0501, -0.0103, -0.0234],
        ...,
        [-0.0245,  0.0977, -0.1156,  ..., -0.0746,  0.0149, -0.0817],
        [ 0.0003, -0.0572,  0.0276,  ...,  0.0416, -0.0849, -0.0337],
        [-0.0173, -0.0460,  0.0322,  ..., -0.0492, -0.0357,  0.0785]],
       device='cuda:0'), grad: tensor([[ 1.4165e-06, -2.6301e-05, -2.2992e-05,  ...,  2.3115e-06,
          2.3656e-07, -4.3571e-05],
        [-1.0222e-05, -8.0606e-07,  2.8722e-06,  ..., -1.6570e-05,
         -8.2701e-06,  1.1288e-06],
        [ 2.6617e-06,  4.9695e-06,  9.7379e-06,  ..., -2.0564e-05,
         -5.7742e-06,  3.6545e-06],
        ...,
        [ 9.0823e-06, -1.4079e-04,  1.2197e-05,  ...,  1.7300e-05,
          4.8019e-06,  1.1131e-05],
        [-2.6917e-04,  5.0142e-06, -5.6297e-05,  ..., -3.5739e-04,
          6.1356e-06, -9.9003e-05],
        [ 5.2601e-06,  2.6122e-05,  9.3877e-06,  ...,  1.0945e-05,
         -4.8131e-06,  2.5909e-06]], device='cuda:0')
Epoch 77, bias, value: tensor([ 0.0058,  0.0027,  0.0044,  0.0160,  0.0260,  0.0346, -0.0267,  0.0089,
        -0.0340, -0.0197], device='cuda:0'), grad: tensor([-4.1217e-05, -5.1633e-06, -1.2226e-05,  6.2764e-05,  1.9014e-05,
         6.3848e-04,  1.8641e-05, -1.8847e-04, -5.4932e-04,  5.7161e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 76, time 216.57, cls_loss 0.0104 cls_loss_mapping 0.0168 cls_loss_causal 0.6174 re_mapping 0.0129 re_causal 0.0360 /// teacc 98.65 lr 0.00010000
Epoch 78, weight, value: tensor([[-0.0091,  0.0889,  0.0544,  ..., -0.1057, -0.0762,  0.0265],
        [ 0.0843, -0.0121, -0.0326,  ...,  0.0463,  0.0677, -0.0853],
        [-0.0460, -0.0202, -0.0318,  ..., -0.0513, -0.0111, -0.0237],
        ...,
        [-0.0254,  0.0990, -0.1157,  ..., -0.0757,  0.0142, -0.0820],
        [ 0.0009, -0.0581,  0.0280,  ...,  0.0424, -0.0852, -0.0338],
        [-0.0174, -0.0472,  0.0330,  ..., -0.0497, -0.0355,  0.0801]],
       device='cuda:0'), grad: tensor([[ 4.5188e-06, -6.0024e-07,  3.0637e-05,  ...,  1.2532e-05,
          9.7416e-07,  2.9087e-05],
        [-1.1463e-03, -2.5344e-04, -3.0184e-04,  ..., -9.2793e-04,
         -2.8443e-04, -1.7715e-04],
        [ 8.7246e-06, -4.3362e-06,  3.0976e-06,  ..., -1.8300e-06,
          3.1292e-07, -3.8683e-05],
        ...,
        [ 3.1614e-04,  6.8665e-05,  9.2983e-05,  ...,  2.7251e-04,
          8.6129e-05,  6.3777e-05],
        [ 1.1998e-04,  2.4259e-05,  2.3103e-04,  ...,  1.4997e-04,
          3.0339e-05,  2.0719e-04],
        [ 5.8842e-04,  1.4615e-04, -8.7214e-04,  ...,  1.7083e-04,
          1.4830e-04, -8.8787e-04]], device='cuda:0')
Epoch 78, bias, value: tensor([ 0.0055,  0.0032,  0.0041,  0.0153,  0.0251,  0.0347, -0.0262,  0.0094,
        -0.0340, -0.0194], device='cuda:0'), grad: tensor([ 3.9250e-05, -2.1858e-03, -1.3316e-04,  5.0068e-04,  7.9632e-05,
         4.1676e-04, -4.9453e-07,  6.8426e-04,  4.3297e-04,  1.6403e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 77, time 217.60, cls_loss 0.0095 cls_loss_mapping 0.0137 cls_loss_causal 0.6158 re_mapping 0.0123 re_causal 0.0350 /// teacc 98.73 lr 0.00010000
Epoch 79, weight, value: tensor([[-0.0097,  0.0887,  0.0542,  ..., -0.1064, -0.0778,  0.0266],
        [ 0.0837, -0.0125, -0.0338,  ...,  0.0456,  0.0672, -0.0860],
        [-0.0449, -0.0196, -0.0311,  ..., -0.0502, -0.0099, -0.0239],
        ...,
        [-0.0252,  0.1001, -0.1160,  ..., -0.0754,  0.0147, -0.0828],
        [ 0.0015, -0.0592,  0.0284,  ...,  0.0432, -0.0850, -0.0337],
        [-0.0179, -0.0476,  0.0336,  ..., -0.0500, -0.0362,  0.0811]],
       device='cuda:0'), grad: tensor([[ 2.1711e-05, -7.3425e-06,  4.4316e-05,  ...,  5.6177e-05,
          2.5565e-07,  5.5999e-05],
        [-2.2516e-05,  7.8836e-07,  3.2708e-06,  ..., -3.6448e-05,
         -1.9744e-05,  3.2894e-06],
        [ 1.1593e-05,  2.5511e-05,  2.0906e-05,  ...,  2.1711e-05,
          2.9318e-06,  2.1636e-05],
        ...,
        [ 1.3456e-05, -8.2135e-05,  2.0832e-05,  ...,  2.7165e-05,
          5.4426e-06,  2.3559e-05],
        [-6.6578e-05, -2.8297e-05, -1.8561e-04,  ..., -1.5283e-04,
          4.7982e-06, -2.0170e-04],
        [ 2.0444e-05,  3.1531e-05,  2.4423e-05,  ...,  4.8578e-05,
          1.3113e-06,  3.3349e-05]], device='cuda:0')
Epoch 79, bias, value: tensor([ 0.0051,  0.0019,  0.0058,  0.0154,  0.0246,  0.0347, -0.0265,  0.0097,
        -0.0339, -0.0192], device='cuda:0'), grad: tensor([ 1.3912e-04, -3.9041e-05,  9.0420e-05,  1.6725e-04,  3.3438e-05,
        -4.0792e-06,  3.8654e-05, -3.7044e-05, -5.2691e-04,  1.3828e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 78, time 217.57, cls_loss 0.0110 cls_loss_mapping 0.0143 cls_loss_causal 0.6278 re_mapping 0.0127 re_causal 0.0334 /// teacc 98.75 lr 0.00010000
Epoch 80, weight, value: tensor([[-0.0100,  0.0893,  0.0541,  ..., -0.1078, -0.0785,  0.0264],
        [ 0.0843, -0.0124, -0.0352,  ...,  0.0456,  0.0680, -0.0881],
        [-0.0456, -0.0198, -0.0315,  ..., -0.0512, -0.0107, -0.0245],
        ...,
        [-0.0257,  0.1007, -0.1167,  ..., -0.0767,  0.0141, -0.0837],
        [ 0.0009, -0.0604,  0.0286,  ...,  0.0429, -0.0855, -0.0340],
        [-0.0181, -0.0478,  0.0341,  ..., -0.0499, -0.0342,  0.0821]],
       device='cuda:0'), grad: tensor([[ 3.7951e-07, -1.3128e-05,  4.3437e-06,  ...,  2.1562e-05,
          5.7340e-05, -4.5672e-06],
        [-2.3112e-05,  3.4012e-06,  1.8254e-06,  ..., -3.5912e-05,
         -1.5378e-05,  1.0030e-06],
        [ 6.8359e-06,  1.2085e-05,  3.5465e-05,  ...,  3.3677e-05,
          2.5198e-05,  2.0247e-06],
        ...,
        [ 6.5081e-06, -7.9632e-05,  3.0071e-05,  ...,  3.2842e-05,
         -2.0891e-05, -1.4484e-05],
        [-1.2845e-05,  1.1995e-05,  1.7673e-05,  ..., -1.7375e-05,
          2.6673e-05, -1.0766e-05],
        [ 4.9286e-06,  4.4644e-05,  1.1519e-05,  ...,  3.2604e-05,
          7.8857e-05,  6.8061e-06]], device='cuda:0')
Epoch 80, bias, value: tensor([ 0.0048,  0.0018,  0.0056,  0.0154,  0.0250,  0.0343, -0.0243,  0.0093,
        -0.0347, -0.0191], device='cuda:0'), grad: tensor([ 3.8791e-04,  3.2727e-06,  1.8442e-04, -2.7347e-04, -1.5287e-03,
         1.7726e-04,  4.8971e-04, -3.8713e-05,  1.0628e-04,  4.9210e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 79, time 217.34, cls_loss 0.0108 cls_loss_mapping 0.0158 cls_loss_causal 0.6251 re_mapping 0.0123 re_causal 0.0342 /// teacc 98.72 lr 0.00010000
Epoch 81, weight, value: tensor([[-0.0095,  0.0906,  0.0545,  ..., -0.1085, -0.0787,  0.0266],
        [ 0.0850, -0.0126, -0.0358,  ...,  0.0467,  0.0695, -0.0885],
        [-0.0464, -0.0183, -0.0318,  ..., -0.0525, -0.0116, -0.0248],
        ...,
        [-0.0261,  0.1003, -0.1172,  ..., -0.0774,  0.0137, -0.0843],
        [-0.0003, -0.0622,  0.0275,  ...,  0.0421, -0.0870, -0.0353],
        [-0.0181, -0.0482,  0.0350,  ..., -0.0495, -0.0343,  0.0829]],
       device='cuda:0'), grad: tensor([[ 7.7903e-05, -1.5050e-06,  5.2266e-06,  ...,  9.4891e-05,
          2.4796e-07,  3.6675e-06],
        [ 3.2759e-04, -1.5914e-05,  7.4133e-07,  ...,  3.9077e-04,
         -1.3627e-05,  4.1490e-07],
        [ 6.3479e-05,  4.7833e-06,  1.7658e-06,  ...,  7.8201e-05,
          1.2694e-06,  9.2201e-07],
        ...,
        [ 1.9237e-05, -1.7869e-04,  9.7871e-05,  ...,  2.8521e-05,
          9.5218e-06,  8.8394e-05],
        [ 6.4611e-04,  2.9560e-06, -8.2478e-06,  ...,  7.6485e-04,
          6.5845e-07,  1.0379e-05],
        [ 8.9407e-06, -1.0836e-04, -2.8348e-04,  ...,  1.5482e-05,
          8.3819e-07, -2.6131e-04]], device='cuda:0')
Epoch 81, bias, value: tensor([ 0.0052,  0.0024,  0.0058,  0.0151,  0.0246,  0.0343, -0.0240,  0.0087,
        -0.0357, -0.0185], device='cuda:0'), grad: tensor([ 0.0002,  0.0008,  0.0002,  0.0003,  0.0010,  0.0004, -0.0032, -0.0008,
         0.0015, -0.0004], device='cuda:0')
100
0.0001
changing lr
epoch 80, time 217.63, cls_loss 0.0111 cls_loss_mapping 0.0158 cls_loss_causal 0.6414 re_mapping 0.0120 re_causal 0.0342 /// teacc 98.79 lr 0.00010000
Epoch 82, weight, value: tensor([[-9.8741e-03,  9.1382e-02,  5.4812e-02,  ..., -1.0929e-01,
         -7.9147e-02,  2.6775e-02],
        [ 8.5780e-02, -1.1860e-02, -3.6087e-02,  ...,  4.7225e-02,
          7.1365e-02, -8.8860e-02],
        [-4.7703e-02, -1.8855e-02, -3.1960e-02,  ..., -5.2953e-02,
         -1.3034e-02, -2.5070e-02],
        ...,
        [-2.5541e-02,  1.0060e-01, -1.1791e-01,  ..., -7.7870e-02,
          1.3934e-02, -8.5318e-02],
        [ 1.1617e-04, -6.1831e-02,  2.7713e-02,  ...,  4.2588e-02,
         -8.7229e-02, -3.5074e-02],
        [-1.8341e-02, -4.9051e-02,  3.5217e-02,  ..., -5.0428e-02,
         -3.4711e-02,  8.3518e-02]], device='cuda:0'), grad: tensor([[ 7.0445e-06, -1.6227e-05,  2.1551e-06,  ...,  4.8652e-06,
          1.6242e-06, -8.4564e-07],
        [-1.5959e-05,  3.1814e-06,  8.4378e-07,  ..., -1.7837e-05,
         -1.3530e-05,  1.3821e-06],
        [ 4.3474e-06, -9.6202e-05,  1.0515e-06,  ...,  4.3549e-06,
          1.3281e-06,  1.2033e-06],
        ...,
        [ 5.9269e-06, -1.6248e-04,  5.2676e-06,  ...,  7.1302e-06,
          4.7274e-06, -6.4313e-05],
        [ 5.5104e-05,  8.3074e-06,  2.0027e-05,  ...,  2.2218e-05,
          8.6501e-06,  2.0131e-05],
        [ 4.5560e-06,  2.3437e-04, -1.3232e-05,  ...,  4.9323e-06,
          5.9977e-07,  5.3346e-05]], device='cuda:0')
Epoch 82, bias, value: tensor([ 0.0055,  0.0031,  0.0052,  0.0148,  0.0253,  0.0340, -0.0248,  0.0091,
        -0.0353, -0.0190], device='cuda:0'), grad: tensor([-1.2301e-05, -6.9141e-06, -5.9891e-04,  2.2605e-05,  4.0740e-05,
         1.3638e-04, -2.0611e-04,  3.5286e-05,  1.0598e-04,  4.8208e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 81, time 217.35, cls_loss 0.0097 cls_loss_mapping 0.0159 cls_loss_causal 0.6430 re_mapping 0.0126 re_causal 0.0342 /// teacc 98.81 lr 0.00010000
Epoch 83, weight, value: tensor([[-0.0101,  0.0917,  0.0546,  ..., -0.1099, -0.0802,  0.0266],
        [ 0.0855, -0.0111, -0.0363,  ...,  0.0463,  0.0706, -0.0892],
        [-0.0472, -0.0190, -0.0327,  ..., -0.0518, -0.0115, -0.0254],
        ...,
        [-0.0259,  0.1012, -0.1194,  ..., -0.0784,  0.0135, -0.0856],
        [ 0.0004, -0.0628,  0.0282,  ...,  0.0431, -0.0878, -0.0352],
        [-0.0189, -0.0497,  0.0354,  ..., -0.0509, -0.0355,  0.0838]],
       device='cuda:0'), grad: tensor([[ 2.7612e-05, -1.7613e-05,  1.4925e-04,  ...,  1.8120e-05,
          1.8060e-05, -1.2212e-05],
        [ 8.4221e-05,  3.6025e-04,  8.7768e-06,  ...,  7.6517e-06,
          1.8254e-05,  9.0711e-07],
        [-1.7762e-05,  1.0520e-05,  3.5334e-04,  ...,  3.9935e-06,
         -8.5533e-06,  7.3947e-07],
        ...,
        [-8.3625e-05, -5.2166e-04,  2.1219e-05,  ...,  1.2055e-05,
         -2.3082e-05,  1.4100e-06],
        [ 4.1038e-05,  1.2636e-05,  1.4596e-05,  ...,  6.0499e-05,
          9.8497e-06,  6.9924e-06],
        [ 1.5661e-05,  4.2439e-05,  3.4034e-05,  ..., -8.1444e-04,
          8.0988e-06, -2.0713e-06]], device='cuda:0')
Epoch 83, bias, value: tensor([ 0.0051,  0.0025,  0.0063,  0.0144,  0.0256,  0.0349, -0.0250,  0.0087,
        -0.0351, -0.0193], device='cuda:0'), grad: tensor([ 0.0006,  0.0005,  0.0011, -0.0021,  0.0037, -0.0044,  0.0042, -0.0006,
         0.0002, -0.0032], device='cuda:0')
100
0.0001
changing lr
epoch 82, time 217.01, cls_loss 0.0084 cls_loss_mapping 0.0114 cls_loss_causal 0.6572 re_mapping 0.0119 re_causal 0.0344 /// teacc 98.65 lr 0.00010000
Epoch 84, weight, value: tensor([[-1.0296e-02,  9.2249e-02,  5.4699e-02,  ..., -1.1042e-01,
         -8.0827e-02,  2.6515e-02],
        [ 8.6181e-02, -9.8126e-03, -3.6275e-02,  ...,  4.6982e-02,
          7.1194e-02, -8.9245e-02],
        [-4.7421e-02, -1.9725e-02, -3.3079e-02,  ..., -5.2103e-02,
         -1.1407e-02, -2.5273e-02],
        ...,
        [-2.6926e-02,  1.0159e-01, -1.1968e-01,  ..., -8.0110e-02,
          1.3139e-02, -8.6026e-02],
        [ 4.3944e-05, -6.3522e-02,  2.7892e-02,  ...,  4.3039e-02,
         -8.8442e-02, -3.5265e-02],
        [-1.9875e-02, -5.0545e-02,  3.5718e-02,  ..., -5.0521e-02,
         -3.5832e-02,  8.4657e-02]], device='cuda:0'), grad: tensor([[ 7.4096e-06, -1.6883e-05, -8.7172e-07,  ...,  7.0035e-06,
          1.6969e-06, -3.0873e-07],
        [-8.4734e-04,  5.9977e-07,  1.0896e-06,  ..., -9.0361e-04,
         -1.7090e-03,  1.4454e-06],
        [ 6.4802e-04,  3.6452e-06, -3.6918e-06,  ...,  6.8808e-04,
          1.2655e-03,  4.6454e-06],
        ...,
        [ 2.0027e-04,  6.1933e-07,  6.7875e-06,  ...,  3.0947e-04,
          3.9220e-04,  9.4995e-06],
        [ 4.3929e-05, -7.4273e-08,  7.9930e-05,  ...,  3.4839e-05,
         -4.0457e-06,  7.1824e-05],
        [ 3.7074e-05,  7.0333e-06,  3.8296e-05,  ...,  8.1182e-05,
          1.4175e-06,  5.4538e-05]], device='cuda:0')
Epoch 84, bias, value: tensor([ 0.0048,  0.0030,  0.0062,  0.0145,  0.0245,  0.0348, -0.0246,  0.0087,
        -0.0355, -0.0187], device='cuda:0'), grad: tensor([-2.1338e-05, -1.9894e-03,  1.4706e-03,  5.0688e-04, -3.0947e-04,
        -7.4053e-04, -2.6766e-06,  6.7377e-04,  1.8239e-04,  2.2733e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 83, time 217.40, cls_loss 0.0072 cls_loss_mapping 0.0099 cls_loss_causal 0.6295 re_mapping 0.0117 re_causal 0.0352 /// teacc 98.79 lr 0.00010000
Epoch 85, weight, value: tensor([[-0.0100,  0.0928,  0.0543,  ..., -0.1108, -0.0829,  0.0260],
        [ 0.0865, -0.0101, -0.0364,  ...,  0.0473,  0.0713, -0.0896],
        [-0.0479, -0.0206, -0.0334,  ..., -0.0526, -0.0116, -0.0256],
        ...,
        [-0.0274,  0.1022, -0.1208,  ..., -0.0806,  0.0136, -0.0862],
        [ 0.0002, -0.0638,  0.0279,  ...,  0.0433, -0.0886, -0.0355],
        [-0.0203, -0.0505,  0.0364,  ..., -0.0508, -0.0353,  0.0853]],
       device='cuda:0'), grad: tensor([[ 2.6450e-06, -5.2713e-07,  8.3148e-06,  ...,  4.6529e-06,
          1.4110e-06,  7.6815e-06],
        [-1.2726e-05,  5.9232e-07,  2.9560e-06,  ..., -2.3365e-05,
         -8.6874e-06,  1.6410e-06],
        [ 3.3751e-06,  3.2410e-06,  1.9208e-05,  ...,  3.7197e-06,
          1.6699e-06,  2.1607e-06],
        ...,
        [ 1.4424e-05, -1.6782e-06,  4.7445e-05,  ...,  1.5102e-05,
          6.6720e-06,  2.5392e-05],
        [ 1.8314e-05,  5.3421e-06,  4.2319e-05,  ...,  1.7241e-05,
          1.3314e-05,  2.1994e-05],
        [ 9.2566e-05,  5.5619e-06,  1.4699e-04,  ...,  9.3162e-05,
          8.1658e-06,  2.7394e-04]], device='cuda:0')
Epoch 85, bias, value: tensor([ 0.0046,  0.0027,  0.0058,  0.0147,  0.0243,  0.0349, -0.0248,  0.0089,
        -0.0356, -0.0182], device='cuda:0'), grad: tensor([ 1.6943e-05, -1.6868e-05,  3.8475e-05,  1.8730e-03,  2.8849e-05,
        -2.5635e-03,  2.8133e-05,  9.6917e-05,  1.0794e-04,  3.8934e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 84, time 217.03, cls_loss 0.0080 cls_loss_mapping 0.0105 cls_loss_causal 0.6125 re_mapping 0.0114 re_causal 0.0329 /// teacc 98.83 lr 0.00010000
Epoch 86, weight, value: tensor([[-1.0266e-02,  9.3217e-02,  5.4418e-02,  ..., -1.1161e-01,
         -8.3075e-02,  2.5764e-02],
        [ 8.7239e-02, -1.0392e-02, -3.5655e-02,  ...,  4.8504e-02,
          7.1378e-02, -8.9176e-02],
        [-4.8153e-02, -2.0935e-02, -3.3708e-02,  ..., -5.2898e-02,
         -1.1542e-02, -2.5909e-02],
        ...,
        [-2.7471e-02,  1.0312e-01, -1.2112e-01,  ..., -8.0917e-02,
          1.3959e-02, -8.7156e-02],
        [-9.8744e-05, -6.4129e-02,  2.8179e-02,  ...,  4.3266e-02,
         -8.8892e-02, -3.5836e-02],
        [-2.1463e-02, -5.1019e-02,  3.6275e-02,  ..., -5.2047e-02,
         -3.5488e-02,  8.5811e-02]], device='cuda:0'), grad: tensor([[-5.1260e-06, -4.2707e-05, -3.2216e-05,  ..., -2.6748e-06,
          1.8813e-07, -4.8190e-05],
        [-8.3353e-07, -1.3439e-06,  2.7250e-06,  ..., -1.9316e-06,
         -1.3784e-06,  3.3118e-06],
        [ 8.3521e-06,  5.9120e-06,  1.6075e-06,  ...,  5.6922e-06,
          5.8673e-08,  1.8571e-06],
        ...,
        [ 4.1336e-05,  1.1042e-05,  3.9279e-05,  ...,  3.2961e-05,
          1.0990e-05,  7.0333e-05],
        [-9.5814e-06,  2.2408e-06,  2.0802e-04,  ...,  1.5765e-05,
          7.2643e-07,  2.1946e-04],
        [-1.4946e-05, -1.8612e-05, -3.5238e-04,  ..., -7.5161e-05,
         -2.3410e-05, -4.3917e-04]], device='cuda:0')
Epoch 86, bias, value: tensor([ 0.0042,  0.0029,  0.0060,  0.0136,  0.0243,  0.0358, -0.0242,  0.0093,
        -0.0358, -0.0187], device='cuda:0'), grad: tensor([-6.3181e-05,  2.7180e-05, -1.3137e-04, -1.9848e-04,  3.6025e-04,
         2.1350e-04,  9.5546e-05,  2.9778e-04,  5.6601e-04, -1.1673e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 85, time 217.61, cls_loss 0.0078 cls_loss_mapping 0.0114 cls_loss_causal 0.5988 re_mapping 0.0116 re_causal 0.0325 /// teacc 98.81 lr 0.00010000
Epoch 87, weight, value: tensor([[-0.0104,  0.0943,  0.0554,  ..., -0.1120, -0.0833,  0.0262],
        [ 0.0875, -0.0101, -0.0365,  ...,  0.0483,  0.0715, -0.0904],
        [-0.0489, -0.0214, -0.0342,  ..., -0.0538, -0.0115, -0.0264],
        ...,
        [-0.0281,  0.1035, -0.1215,  ..., -0.0815,  0.0137, -0.0877],
        [ 0.0009, -0.0635,  0.0284,  ...,  0.0441, -0.0892, -0.0356],
        [-0.0212, -0.0516,  0.0369,  ..., -0.0518, -0.0350,  0.0869]],
       device='cuda:0'), grad: tensor([[ 4.1090e-06,  2.1476e-06, -2.8033e-07,  ...,  5.6587e-06,
          1.9046e-07, -4.0093e-07],
        [-7.1153e-06,  2.0694e-06,  5.3691e-07,  ..., -5.7854e-06,
         -2.3060e-06,  2.2352e-07],
        [ 7.0855e-06,  1.6659e-05,  6.5751e-07,  ...,  8.5458e-06,
         -1.8692e-06,  2.6450e-07],
        ...,
        [ 3.4980e-06, -3.9101e-05,  1.3951e-06,  ...,  8.7991e-06,
          2.9840e-06,  1.6354e-06],
        [ 2.6047e-05,  2.4103e-06,  4.5866e-05,  ...,  4.0442e-05,
          2.5835e-06,  1.0294e-04],
        [ 1.0878e-05,  6.6720e-06,  1.2167e-05,  ...,  2.8193e-05,
          8.0932e-07,  1.6972e-05]], device='cuda:0')
Epoch 87, bias, value: tensor([ 0.0050,  0.0028,  0.0055,  0.0143,  0.0242,  0.0353, -0.0255,  0.0091,
        -0.0351, -0.0183], device='cuda:0'), grad: tensor([ 1.3091e-05,  3.9637e-06,  5.7556e-07, -3.2425e-05, -3.4750e-05,
        -1.1396e-04, -4.4238e-07, -5.7444e-06,  1.0848e-04,  6.1452e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 86, time 217.72, cls_loss 0.0074 cls_loss_mapping 0.0093 cls_loss_causal 0.6044 re_mapping 0.0114 re_causal 0.0332 /// teacc 98.72 lr 0.00010000
Epoch 88, weight, value: tensor([[-0.0104,  0.0951,  0.0553,  ..., -0.1133, -0.0849,  0.0259],
        [ 0.0879, -0.0102, -0.0366,  ...,  0.0487,  0.0716, -0.0906],
        [-0.0487, -0.0213, -0.0330,  ..., -0.0535, -0.0108, -0.0265],
        ...,
        [-0.0286,  0.1037, -0.1220,  ..., -0.0825,  0.0136, -0.0890],
        [ 0.0015, -0.0629,  0.0287,  ...,  0.0449, -0.0898, -0.0348],
        [-0.0215, -0.0521,  0.0373,  ..., -0.0521, -0.0353,  0.0874]],
       device='cuda:0'), grad: tensor([[ 5.7608e-05,  1.6168e-05,  4.6790e-06,  ...,  4.8310e-05,
          1.1940e-06,  8.3307e-07],
        [ 3.2842e-05,  7.1041e-06,  4.2655e-06,  ...,  4.2140e-05,
         -5.9791e-07,  2.4810e-06],
        [ 5.3197e-05,  1.7490e-06,  3.1441e-05,  ...,  3.6120e-05,
          1.8492e-05,  4.9593e-07],
        ...,
        [ 5.5991e-06, -1.4864e-05,  5.4985e-06,  ...,  3.8683e-05,
          4.7646e-06,  3.2224e-06],
        [ 1.0532e-04,  4.0799e-05, -5.6863e-05,  ...,  4.8697e-05,
          5.1707e-06, -7.4744e-05],
        [ 4.8816e-05,  8.6576e-06,  6.9320e-05,  ...,  1.7290e-03,
          1.4789e-06,  1.9038e-04]], device='cuda:0')
Epoch 88, bias, value: tensor([ 0.0049,  0.0027,  0.0068,  0.0136,  0.0243,  0.0350, -0.0255,  0.0088,
        -0.0345, -0.0185], device='cuda:0'), grad: tensor([ 1.3769e-04,  1.2314e-04,  1.6916e-04, -1.6093e-04, -3.6316e-03,
         8.6308e-05, -7.8535e-04,  8.0168e-05,  2.3484e-04,  3.7441e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 87, time 217.26, cls_loss 0.0073 cls_loss_mapping 0.0096 cls_loss_causal 0.5807 re_mapping 0.0113 re_causal 0.0307 /// teacc 98.83 lr 0.00010000
Epoch 89, weight, value: tensor([[-0.0107,  0.0958,  0.0555,  ..., -0.1142, -0.0850,  0.0260],
        [ 0.0885, -0.0102, -0.0369,  ...,  0.0491,  0.0727, -0.0909],
        [-0.0489, -0.0215, -0.0330,  ..., -0.0532, -0.0113, -0.0271],
        ...,
        [-0.0289,  0.1038, -0.1221,  ..., -0.0834,  0.0133, -0.0888],
        [ 0.0013, -0.0632,  0.0285,  ...,  0.0449, -0.0903, -0.0354],
        [-0.0222, -0.0534,  0.0376,  ..., -0.0527, -0.0355,  0.0878]],
       device='cuda:0'), grad: tensor([[ 6.2920e-06, -9.9465e-07,  1.7565e-06,  ...,  7.7859e-06,
          2.4168e-07,  1.8403e-06],
        [-2.2203e-05,  3.1758e-07,  7.6974e-07,  ..., -1.0230e-05,
         -2.3291e-05,  6.6822e-07],
        [ 4.9919e-05,  4.1910e-07,  3.3751e-06,  ...,  7.7307e-05,
          1.6123e-05,  9.1409e-07],
        ...,
        [ 5.2266e-06, -4.1351e-07,  6.7987e-07,  ...,  8.1509e-06,
          3.8259e-06,  5.9186e-07],
        [-1.6168e-05,  2.9430e-06, -3.4958e-05,  ..., -2.3022e-05,
          1.2945e-06, -1.1824e-05],
        [ 8.8364e-06,  5.4343e-07,  7.9125e-06,  ...,  1.0565e-05,
          8.5728e-07,  5.3942e-06]], device='cuda:0')
Epoch 89, bias, value: tensor([ 0.0050,  0.0033,  0.0068,  0.0130,  0.0252,  0.0356, -0.0255,  0.0085,
        -0.0351, -0.0191], device='cuda:0'), grad: tensor([ 1.4596e-05, -4.2409e-05,  1.5056e-04,  3.0577e-05,  3.3951e-04,
         3.0667e-05, -5.1451e-04,  1.7881e-05, -5.1022e-05,  2.4498e-05],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 88----------------------------------------------------
epoch 88, time 218.18, cls_loss 0.0058 cls_loss_mapping 0.0090 cls_loss_causal 0.5834 re_mapping 0.0115 re_causal 0.0322 /// teacc 98.89 lr 0.00010000
Epoch 90, weight, value: tensor([[-0.0120,  0.0956,  0.0559,  ..., -0.1162, -0.0873,  0.0258],
        [ 0.0885, -0.0103, -0.0370,  ...,  0.0493,  0.0731, -0.0911],
        [-0.0492, -0.0221, -0.0332,  ..., -0.0536, -0.0115, -0.0274],
        ...,
        [-0.0286,  0.1045, -0.1226,  ..., -0.0833,  0.0133, -0.0895],
        [ 0.0013, -0.0635,  0.0284,  ...,  0.0451, -0.0906, -0.0356],
        [-0.0226, -0.0538,  0.0377,  ..., -0.0529, -0.0357,  0.0882]],
       device='cuda:0'), grad: tensor([[ 1.0297e-05, -3.5204e-06, -3.4273e-07,  ...,  8.7991e-06,
          2.1607e-07,  1.8533e-06],
        [-2.9653e-05,  1.3812e-06,  1.9539e-06,  ..., -4.7356e-05,
         -2.4945e-05,  2.1569e-06],
        [ 1.1601e-05,  2.6733e-05,  3.3546e-06,  ...,  1.2681e-05,
          4.2021e-06,  2.8089e-06],
        ...,
        [ 4.5419e-05, -3.4332e-05,  2.4214e-05,  ...,  4.3333e-05,
          9.6709e-06,  2.3663e-05],
        [ 4.9204e-05,  7.0361e-07,  2.2814e-05,  ...,  4.1485e-05,
          3.5148e-06,  2.6822e-05],
        [ 1.8075e-05,  4.2617e-06,  1.3318e-07,  ...,  1.5751e-05,
          1.7527e-06,  2.2855e-06]], device='cuda:0')
Epoch 90, bias, value: tensor([ 0.0045,  0.0029,  0.0065,  0.0131,  0.0251,  0.0358, -0.0249,  0.0090,
        -0.0353, -0.0192], device='cuda:0'), grad: tensor([ 2.0474e-05, -6.5982e-05,  8.4996e-05,  9.5889e-06,  2.2545e-05,
        -3.9673e-04,  5.4568e-05,  5.9754e-05,  1.6046e-04,  5.0098e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 89, time 217.02, cls_loss 0.0056 cls_loss_mapping 0.0090 cls_loss_causal 0.5937 re_mapping 0.0112 re_causal 0.0314 /// teacc 98.82 lr 0.00010000
Epoch 91, weight, value: tensor([[-0.0122,  0.0965,  0.0567,  ..., -0.1159, -0.0872,  0.0268],
        [ 0.0891, -0.0095, -0.0375,  ...,  0.0500,  0.0736, -0.0920],
        [-0.0493, -0.0224, -0.0335,  ..., -0.0538, -0.0117, -0.0277],
        ...,
        [-0.0294,  0.1044, -0.1235,  ..., -0.0847,  0.0127, -0.0899],
        [ 0.0013, -0.0637,  0.0283,  ...,  0.0451, -0.0907, -0.0360],
        [-0.0227, -0.0543,  0.0383,  ..., -0.0525, -0.0354,  0.0892]],
       device='cuda:0'), grad: tensor([[ 2.7996e-06, -3.0417e-06,  3.4366e-07,  ...,  5.7667e-06,
          8.5868e-07,  2.9569e-07],
        [-6.1572e-05,  9.1866e-06,  4.3847e-06,  ..., -1.1069e-04,
         -3.7163e-05,  3.0026e-06],
        [ 6.0678e-05, -1.4710e-04,  1.2502e-05,  ...,  1.0681e-04,
          3.1948e-05,  1.9707e-06],
        ...,
        [ 8.0317e-06,  1.2553e-04,  6.9477e-06,  ...,  1.7300e-05,
          1.6987e-06,  4.4331e-06],
        [ 4.4793e-05,  4.8503e-06,  5.3436e-05,  ...,  6.4850e-05,
          2.5518e-06,  3.9250e-05],
        [ 2.7061e-05,  2.5667e-06,  2.6584e-05,  ...,  4.7445e-05,
          3.7253e-07,  1.6823e-05]], device='cuda:0')
Epoch 91, bias, value: tensor([ 0.0053,  0.0035,  0.0065,  0.0133,  0.0247,  0.0356, -0.0251,  0.0083,
        -0.0355, -0.0188], device='cuda:0'), grad: tensor([ 8.7842e-06, -2.0802e-04, -6.1464e-04,  7.8499e-05, -8.2910e-05,
        -2.5034e-04, -1.9506e-05,  8.4162e-04,  1.6427e-04,  8.2910e-05],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 90----------------------------------------------------
epoch 90, time 217.68, cls_loss 0.0084 cls_loss_mapping 0.0124 cls_loss_causal 0.6120 re_mapping 0.0107 re_causal 0.0299 /// teacc 98.90 lr 0.00010000
Epoch 92, weight, value: tensor([[-0.0124,  0.0976,  0.0570,  ..., -0.1167, -0.0875,  0.0270],
        [ 0.0891, -0.0101, -0.0378,  ...,  0.0497,  0.0736, -0.0921],
        [-0.0489, -0.0230, -0.0335,  ..., -0.0530, -0.0117, -0.0281],
        ...,
        [-0.0301,  0.1058, -0.1246,  ..., -0.0851,  0.0143, -0.0903],
        [ 0.0018, -0.0643,  0.0284,  ...,  0.0454, -0.0914, -0.0362],
        [-0.0239, -0.0549,  0.0389,  ..., -0.0524, -0.0363,  0.0896]],
       device='cuda:0'), grad: tensor([[ 3.6173e-06, -1.8895e-05, -7.5903e-07,  ...,  1.5525e-06,
          1.7673e-05, -2.3752e-05],
        [-1.3880e-05,  7.1712e-06,  5.0068e-06,  ..., -2.3186e-05,
         -1.4953e-05,  2.7381e-06],
        [ 9.7454e-06,  7.4655e-06, -7.2360e-05,  ...,  1.6600e-05,
         -9.6321e-05,  5.7481e-06],
        ...,
        [ 3.0156e-06, -2.2423e-04, -7.9155e-05,  ...,  4.8801e-06,
          2.6152e-05, -5.2780e-05],
        [-5.4449e-05,  2.8834e-05,  1.4842e-05,  ..., -6.3837e-05,
          3.4515e-06,  9.4250e-06],
        [ 8.1733e-06,  1.7118e-04,  9.1016e-05,  ...,  1.4223e-05,
          1.7688e-05,  4.6641e-05]], device='cuda:0')
Epoch 92, bias, value: tensor([ 0.0056,  0.0026,  0.0071,  0.0130,  0.0245,  0.0357, -0.0257,  0.0086,
        -0.0349, -0.0186], device='cuda:0'), grad: tensor([-7.8455e-06, -5.0850e-06, -1.9073e-04,  6.1929e-05,  1.3039e-05,
         5.5194e-05,  6.0260e-05, -3.5691e-04, -2.5854e-06,  3.7289e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 91, time 216.99, cls_loss 0.0086 cls_loss_mapping 0.0121 cls_loss_causal 0.6155 re_mapping 0.0109 re_causal 0.0293 /// teacc 98.84 lr 0.00010000
Epoch 93, weight, value: tensor([[-0.0123,  0.0979,  0.0571,  ..., -0.1177, -0.0874,  0.0263],
        [ 0.0894, -0.0103, -0.0381,  ...,  0.0502,  0.0748, -0.0927],
        [-0.0494, -0.0240, -0.0337,  ..., -0.0537, -0.0121, -0.0286],
        ...,
        [-0.0298,  0.1067, -0.1251,  ..., -0.0853,  0.0136, -0.0895],
        [ 0.0020, -0.0654,  0.0284,  ...,  0.0459, -0.0917, -0.0364],
        [-0.0247, -0.0545,  0.0396,  ..., -0.0531, -0.0367,  0.0910]],
       device='cuda:0'), grad: tensor([[ 2.0131e-05,  1.0468e-05,  4.7013e-06,  ...,  1.4156e-05,
          1.9036e-06,  5.6922e-06],
        [ 8.1211e-06,  2.7999e-05,  3.4142e-06,  ..., -2.8424e-06,
         -1.8580e-06,  3.8929e-07],
        [ 1.5661e-05,  4.4778e-06,  1.2569e-05,  ...,  1.4246e-05,
         -2.9970e-06,  7.5670e-07],
        ...,
        [-9.2760e-06, -5.8353e-05,  5.2750e-06,  ...,  5.9605e-06,
          1.2824e-06,  7.9907e-07],
        [-9.5367e-07,  2.0768e-06,  6.1356e-06,  ..., -2.8446e-05,
          1.7285e-06,  6.1840e-07],
        [ 1.2249e-05,  2.4885e-05,  6.1169e-06,  ...,  6.2510e-06,
          9.2480e-07,  1.9968e-06]], device='cuda:0')
Epoch 93, bias, value: tensor([ 0.0046,  0.0026,  0.0060,  0.0128,  0.0243,  0.0353, -0.0256,  0.0096,
        -0.0345, -0.0180], device='cuda:0'), grad: tensor([ 4.9710e-05,  6.1989e-05,  2.8670e-05, -1.9989e-03,  7.0743e-06,
         1.9064e-03, -3.5554e-05, -8.0168e-05, -8.9630e-06,  6.9201e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 92, time 217.13, cls_loss 0.0060 cls_loss_mapping 0.0106 cls_loss_causal 0.5980 re_mapping 0.0103 re_causal 0.0308 /// teacc 98.83 lr 0.00010000
Epoch 94, weight, value: tensor([[-0.0127,  0.0982,  0.0573,  ..., -0.1186, -0.0872,  0.0265],
        [ 0.0897, -0.0105, -0.0384,  ...,  0.0503,  0.0751, -0.0930],
        [-0.0500, -0.0244, -0.0337,  ..., -0.0540, -0.0124, -0.0287],
        ...,
        [-0.0302,  0.1079, -0.1255,  ..., -0.0862,  0.0133, -0.0906],
        [ 0.0022, -0.0659,  0.0286,  ...,  0.0466, -0.0921, -0.0360],
        [-0.0251, -0.0555,  0.0397,  ..., -0.0547, -0.0373,  0.0903]],
       device='cuda:0'), grad: tensor([[ 1.7300e-05, -3.9153e-06,  6.3069e-06,  ...,  3.9153e-06,
          7.5437e-06, -7.2643e-06],
        [-2.6315e-05,  3.1479e-07,  2.3134e-06,  ..., -3.9160e-05,
         -1.2182e-05,  1.2666e-06],
        [ 4.5061e-05,  8.2999e-06,  3.4332e-05,  ...,  1.3210e-05,
         -1.2420e-05,  3.8277e-07],
        ...,
        [ 2.0579e-05, -3.6061e-06,  2.5079e-05,  ...,  2.3678e-05,
          8.9183e-06,  2.1160e-05],
        [-1.5700e-04,  3.6731e-06, -1.2851e-04,  ..., -3.1978e-05,
          5.7705e-06,  9.3877e-06],
        [ 4.1258e-07, -1.2264e-05, -7.6473e-05,  ...,  2.2016e-06,
          8.6380e-07, -8.5115e-05]], device='cuda:0')
Epoch 94, bias, value: tensor([ 0.0045,  0.0025,  0.0057,  0.0136,  0.0249,  0.0350, -0.0250,  0.0097,
        -0.0342, -0.0193], device='cuda:0'), grad: tensor([ 1.5998e-04, -2.8551e-05, -1.9407e-04,  3.1137e-04,  9.2566e-05,
         3.8534e-05, -1.2405e-06,  6.1631e-05, -2.9635e-04, -1.4400e-04],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 93----------------------------------------------------
epoch 93, time 217.87, cls_loss 0.0058 cls_loss_mapping 0.0095 cls_loss_causal 0.6052 re_mapping 0.0102 re_causal 0.0312 /// teacc 98.95 lr 0.00010000
Epoch 95, weight, value: tensor([[-0.0131,  0.0986,  0.0572,  ..., -0.1193, -0.0876,  0.0266],
        [ 0.0901, -0.0106, -0.0385,  ...,  0.0507,  0.0753, -0.0933],
        [-0.0497, -0.0248, -0.0339,  ..., -0.0538, -0.0119, -0.0290],
        ...,
        [-0.0305,  0.1086, -0.1261,  ..., -0.0867,  0.0130, -0.0914],
        [ 0.0017, -0.0667,  0.0279,  ...,  0.0459, -0.0925, -0.0375],
        [-0.0252, -0.0561,  0.0404,  ..., -0.0549, -0.0374,  0.0910]],
       device='cuda:0'), grad: tensor([[ 1.2359e-06, -1.8075e-05, -2.8446e-05,  ...,  1.2051e-06,
         -1.1466e-05, -2.5585e-05],
        [-8.4829e-04, -5.2881e-04,  9.2620e-07,  ..., -8.3494e-04,
         -2.0754e-04,  6.9709e-07],
        [ 2.0400e-05,  1.7479e-05,  4.5486e-06,  ...,  1.8254e-05,
          3.0234e-05,  3.6974e-06],
        ...,
        [ 6.2704e-04,  3.7241e-04,  1.6522e-06,  ...,  6.1798e-04,
          1.3912e-04,  1.8086e-06],
        [ 1.4037e-05,  1.1742e-05,  5.4017e-06,  ...,  1.4015e-05,
          5.1744e-06,  1.0625e-05],
        [ 1.5724e-04,  1.1396e-04,  9.4995e-06,  ...,  1.5748e-04,
          2.8402e-05,  9.8497e-06]], device='cuda:0')
Epoch 95, bias, value: tensor([ 0.0044,  0.0025,  0.0062,  0.0135,  0.0251,  0.0351, -0.0249,  0.0098,
        -0.0350, -0.0193], device='cuda:0'), grad: tensor([-8.0526e-05, -2.0885e-03,  6.7115e-05,  4.6015e-05,  6.6102e-05,
        -2.6584e-05,  4.0114e-05,  1.5030e-03,  5.9217e-05,  4.1389e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 94, time 217.29, cls_loss 0.0072 cls_loss_mapping 0.0108 cls_loss_causal 0.6246 re_mapping 0.0104 re_causal 0.0296 /// teacc 98.93 lr 0.00010000
Epoch 96, weight, value: tensor([[-0.0131,  0.1002,  0.0583,  ..., -0.1192, -0.0877,  0.0274],
        [ 0.0910, -0.0100, -0.0389,  ...,  0.0514,  0.0757, -0.0946],
        [-0.0501, -0.0252, -0.0343,  ..., -0.0541, -0.0122, -0.0296],
        ...,
        [-0.0317,  0.1091, -0.1273,  ..., -0.0881,  0.0130, -0.0921],
        [ 0.0020, -0.0678,  0.0281,  ...,  0.0465, -0.0916, -0.0376],
        [-0.0261, -0.0568,  0.0407,  ..., -0.0556, -0.0382,  0.0916]],
       device='cuda:0'), grad: tensor([[ 1.0338e-06, -3.8594e-06, -1.0096e-06,  ...,  1.3225e-06,
          4.6100e-08, -2.2911e-06],
        [ 1.9297e-06,  8.2031e-06,  3.8221e-06,  ...,  5.0142e-06,
         -5.4389e-07,  3.5111e-07],
        [ 8.5160e-06,  5.7757e-05,  9.4995e-06,  ...,  5.4464e-06,
          2.3795e-07,  7.9209e-07],
        ...,
        [ 1.5851e-06, -1.3125e-04, -8.2795e-07,  ...,  4.0494e-06,
          2.3236e-07,  6.2631e-07],
        [-5.9186e-07,  5.2340e-06, -4.1835e-06,  ..., -2.5444e-06,
          1.0710e-08, -7.6229e-07],
        [ 1.5935e-06,  1.3046e-05,  3.4999e-06,  ...,  1.5959e-05,
          1.0664e-07,  2.0713e-06]], device='cuda:0')
Epoch 96, bias, value: tensor([ 0.0050,  0.0028,  0.0062,  0.0130,  0.0248,  0.0354, -0.0250,  0.0097,
        -0.0351, -0.0193], device='cuda:0'), grad: tensor([-1.3672e-06,  2.2426e-05,  8.3208e-05,  4.3422e-05, -6.3360e-05,
        -1.0595e-05, -1.3649e-05, -1.3638e-04,  1.7837e-05,  5.8651e-05],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 95----------------------------------------------------
epoch 95, time 218.73, cls_loss 0.0065 cls_loss_mapping 0.0098 cls_loss_causal 0.5547 re_mapping 0.0104 re_causal 0.0286 /// teacc 98.98 lr 0.00010000
Epoch 97, weight, value: tensor([[-0.0155,  0.0994,  0.0587,  ..., -0.1206, -0.0905,  0.0265],
        [ 0.0913, -0.0097, -0.0397,  ...,  0.0514,  0.0765, -0.0953],
        [-0.0507, -0.0249, -0.0348,  ..., -0.0545, -0.0125, -0.0296],
        ...,
        [-0.0324,  0.1091, -0.1277,  ..., -0.0887,  0.0128, -0.0926],
        [ 0.0022, -0.0684,  0.0283,  ...,  0.0468, -0.0932, -0.0377],
        [-0.0268, -0.0572,  0.0412,  ..., -0.0565, -0.0383,  0.0919]],
       device='cuda:0'), grad: tensor([[ 1.3597e-06, -3.5688e-06, -4.3064e-06,  ...,  1.3448e-06,
          1.1176e-07, -5.6587e-06],
        [ 1.2137e-05,  1.0186e-04,  4.6846e-07,  ..., -2.0444e-05,
         -4.6156e-06,  3.8790e-07],
        [ 7.1377e-06,  1.5646e-05,  3.7551e-06,  ...,  4.8243e-06,
          1.4715e-07,  5.7463e-07],
        ...,
        [-1.4448e-04, -6.0987e-04,  1.7118e-06,  ...,  2.2296e-06,
          3.6415e-07,  1.6298e-06],
        [ 1.4395e-05,  8.6904e-05, -1.7360e-06,  ..., -4.8317e-06,
          2.4140e-06,  7.5661e-06],
        [ 3.6001e-05,  1.4269e-04, -8.1882e-06,  ...,  3.6117e-06,
         -1.7099e-06, -1.3180e-05]], device='cuda:0')
Epoch 97, bias, value: tensor([ 0.0040,  0.0029,  0.0062,  0.0128,  0.0258,  0.0357, -0.0240,  0.0094,
        -0.0352, -0.0201], device='cuda:0'), grad: tensor([ 5.7071e-06,  3.3998e-04,  6.6645e-06,  8.5926e-04,  6.2644e-05,
         1.6272e-05,  2.9698e-05, -2.0905e-03,  3.0065e-04,  4.6921e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 96, time 217.34, cls_loss 0.0059 cls_loss_mapping 0.0083 cls_loss_causal 0.5662 re_mapping 0.0103 re_causal 0.0302 /// teacc 98.83 lr 0.00010000
Epoch 98, weight, value: tensor([[-0.0161,  0.0994,  0.0589,  ..., -0.1221, -0.0910,  0.0263],
        [ 0.0914, -0.0110, -0.0408,  ...,  0.0520,  0.0758, -0.0959],
        [-0.0504, -0.0252, -0.0340,  ..., -0.0540, -0.0113, -0.0299],
        ...,
        [-0.0316,  0.1106, -0.1280,  ..., -0.0887,  0.0144, -0.0932],
        [ 0.0019, -0.0689,  0.0285,  ...,  0.0465, -0.0929, -0.0378],
        [-0.0277, -0.0576,  0.0412,  ..., -0.0571, -0.0395,  0.0923]],
       device='cuda:0'), grad: tensor([[ 2.2771e-07,  4.1444e-07,  1.6158e-07,  ...,  2.7567e-07,
          1.4296e-07,  2.1281e-07],
        [-8.3493e-07,  3.3528e-07,  1.0384e-07,  ..., -1.1558e-06,
         -1.8487e-07, -1.1362e-07],
        [ 5.4203e-07, -3.2857e-06,  4.3493e-07,  ...,  2.1188e-07,
         -1.6652e-06,  1.0617e-07],
        ...,
        [ 5.1642e-07, -1.9483e-06,  7.9488e-07,  ...,  9.5554e-07,
          4.8522e-07,  1.2852e-06],
        [-1.0934e-06,  8.8476e-08,  4.4703e-07,  ..., -1.0803e-06,
          1.0990e-07,  1.2312e-06],
        [ 1.1576e-06,  2.8927e-06, -1.0701e-06,  ...,  1.9446e-06,
          6.1048e-07, -5.6475e-06]], device='cuda:0')
Epoch 98, bias, value: tensor([ 0.0037,  0.0023,  0.0073,  0.0125,  0.0253,  0.0356, -0.0238,  0.0110,
        -0.0358, -0.0206], device='cuda:0'), grad: tensor([ 2.0582e-06, -3.8650e-08, -1.2361e-05, -2.4755e-06,  8.6753e-07,
         2.1346e-06,  1.4901e-07,  2.4103e-06,  4.3027e-07,  6.8434e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 97, time 218.27, cls_loss 0.0059 cls_loss_mapping 0.0100 cls_loss_causal 0.6173 re_mapping 0.0104 re_causal 0.0301 /// teacc 98.86 lr 0.00010000
Epoch 99, weight, value: tensor([[-0.0164,  0.0995,  0.0589,  ..., -0.1237, -0.0912,  0.0263],
        [ 0.0919, -0.0116, -0.0411,  ...,  0.0525,  0.0768, -0.0962],
        [-0.0514, -0.0254, -0.0337,  ..., -0.0547, -0.0119, -0.0297],
        ...,
        [-0.0316,  0.1114, -0.1285,  ..., -0.0890,  0.0142, -0.0939],
        [ 0.0015, -0.0697,  0.0282,  ...,  0.0466, -0.0937, -0.0381],
        [-0.0283, -0.0581,  0.0414,  ..., -0.0580, -0.0393,  0.0922]],
       device='cuda:0'), grad: tensor([[-4.4331e-07, -2.7895e-05, -8.8960e-06,  ...,  1.2666e-06,
          2.0070e-07, -1.0841e-06],
        [-5.6401e-06, -3.1777e-06,  2.4103e-06,  ..., -1.8571e-06,
         -3.2969e-06,  2.7381e-06],
        [ 1.9632e-06,  5.3532e-06,  2.0228e-06,  ...,  2.8443e-06,
          3.0315e-07,  1.5367e-06],
        ...,
        [ 5.7109e-06,  3.0734e-06,  3.6657e-06,  ...,  9.2760e-06,
          2.5034e-06,  7.5139e-06],
        [-1.1340e-05,  1.6857e-06, -4.9965e-07,  ..., -2.5705e-06,
          9.4343e-07,  1.3039e-05],
        [-1.6969e-06,  3.0305e-06, -5.9158e-05,  ..., -9.0742e-04,
         -3.0473e-06, -1.2264e-03]], device='cuda:0')
Epoch 99, bias, value: tensor([ 0.0033,  0.0022,  0.0071,  0.0125,  0.0263,  0.0360, -0.0234,  0.0113,
        -0.0362, -0.0218], device='cuda:0'), grad: tensor([-6.5744e-05,  3.3267e-06,  5.8152e-06,  1.7151e-05,  4.1771e-03,
         1.3836e-05,  6.9022e-05,  3.3945e-05,  3.1084e-05, -4.2877e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 98, time 217.43, cls_loss 0.0044 cls_loss_mapping 0.0072 cls_loss_causal 0.5994 re_mapping 0.0102 re_causal 0.0298 /// teacc 98.85 lr 0.00010000
Epoch 100, weight, value: tensor([[-0.0168,  0.0996,  0.0589,  ..., -0.1244, -0.0918,  0.0261],
        [ 0.0919, -0.0116, -0.0413,  ...,  0.0528,  0.0769, -0.0964],
        [-0.0515, -0.0255, -0.0337,  ..., -0.0550, -0.0120, -0.0294],
        ...,
        [-0.0320,  0.1118, -0.1293,  ..., -0.0898,  0.0139, -0.0947],
        [ 0.0017, -0.0703,  0.0281,  ...,  0.0471, -0.0938, -0.0384],
        [-0.0283, -0.0585,  0.0419,  ..., -0.0583, -0.0397,  0.0928]],
       device='cuda:0'), grad: tensor([[ 1.1727e-05,  4.3362e-06,  6.1132e-06,  ...,  1.6242e-05,
          1.6391e-07,  1.7472e-06],
        [-1.3781e-03, -1.5345e-03,  4.6939e-07,  ..., -8.9502e-04,
         -2.5947e-06,  3.0966e-07],
        [ 6.9477e-06,  5.6028e-06,  1.9148e-06,  ...,  6.7689e-06,
          3.6927e-07,  5.6671e-07],
        ...,
        [ 1.1168e-03,  1.2169e-03,  1.5132e-05,  ...,  7.2432e-04,
          8.9174e-07,  2.1741e-05],
        [ 9.6411e-06,  4.1686e-06,  6.0834e-06,  ...,  1.1824e-05,
          5.1642e-07,  4.9621e-06],
        [ 1.5175e-04,  1.9717e-04, -1.6063e-05,  ...,  9.8825e-05,
          2.9989e-07, -2.7046e-05]], device='cuda:0')
Epoch 100, bias, value: tensor([ 0.0029,  0.0023,  0.0071,  0.0126,  0.0264,  0.0363, -0.0235,  0.0111,
        -0.0361, -0.0218], device='cuda:0'), grad: tensor([ 3.6180e-05, -3.8548e-03,  1.8761e-05,  5.5671e-05,  2.7323e-04,
        -3.1382e-05, -7.4267e-05,  3.1204e-03,  3.0518e-05,  4.2391e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 99, time 221.61, cls_loss 0.0072 cls_loss_mapping 0.0106 cls_loss_causal 0.5654 re_mapping 0.0104 re_causal 0.0290 /// teacc 98.89 lr 0.00010000
Epoch 101, weight, value: tensor([[-0.0169,  0.1004,  0.0600,  ..., -0.1255, -0.0919,  0.0267],
        [ 0.0918, -0.0112, -0.0430,  ...,  0.0519,  0.0771, -0.0991],
        [-0.0523, -0.0260, -0.0333,  ..., -0.0561, -0.0120, -0.0298],
        ...,
        [-0.0332,  0.1117, -0.1308,  ..., -0.0922,  0.0137, -0.0952],
        [ 0.0015, -0.0704,  0.0277,  ...,  0.0471, -0.0945, -0.0388],
        [-0.0267, -0.0590,  0.0445,  ..., -0.0555, -0.0399,  0.0947]],
       device='cuda:0'), grad: tensor([[ 1.9558e-06, -3.2913e-06,  3.9022e-07,  ...,  3.2410e-06,
          2.9989e-07,  9.9838e-07],
        [ 6.3777e-06,  2.6394e-06,  5.2489e-06,  ...,  1.2763e-05,
         -8.8476e-08,  3.0342e-06],
        [ 5.7230e-07,  7.6834e-07,  8.3586e-07,  ...,  1.4193e-06,
          4.1910e-09,  5.8208e-07],
        ...,
        [ 2.7176e-06, -9.7007e-06,  2.7083e-06,  ...,  5.8487e-06,
          5.0943e-07,  3.4384e-06],
        [-7.2680e-06,  7.3994e-07, -1.7434e-06,  ..., -1.1712e-05,
          6.9663e-07,  3.6061e-06],
        [ 4.3325e-06,  4.1835e-06, -5.5274e-07,  ...,  7.5698e-06,
          2.2491e-07, -2.0787e-06]], device='cuda:0')
Epoch 101, bias, value: tensor([ 0.0035,  0.0014,  0.0072,  0.0124,  0.0255,  0.0366, -0.0230,  0.0100,
        -0.0369, -0.0196], device='cuda:0'), grad: tensor([ 1.2908e-06,  2.8968e-05, -1.9670e-06,  2.0757e-05, -1.0289e-05,
        -7.7546e-05,  4.5121e-05, -2.0474e-05, -5.3942e-06,  1.9670e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 100, time 220.01, cls_loss 0.0048 cls_loss_mapping 0.0064 cls_loss_causal 0.6021 re_mapping 0.0101 re_causal 0.0298 /// teacc 98.72 lr 0.00010000
Epoch 102, weight, value: tensor([[-0.0170,  0.1011,  0.0603,  ..., -0.1261, -0.0923,  0.0266],
        [ 0.0928, -0.0111, -0.0426,  ...,  0.0528,  0.0773, -0.0991],
        [-0.0530, -0.0265, -0.0337,  ..., -0.0568, -0.0122, -0.0301],
        ...,
        [-0.0337,  0.1122, -0.1315,  ..., -0.0932,  0.0139, -0.0955],
        [ 0.0010, -0.0707,  0.0270,  ...,  0.0466, -0.0946, -0.0394],
        [-0.0274, -0.0594,  0.0450,  ..., -0.0559, -0.0400,  0.0954]],
       device='cuda:0'), grad: tensor([[ 4.9686e-07, -7.3537e-06, -2.5947e-06,  ...,  2.2501e-06,
          2.1886e-08, -3.2000e-06],
        [ 2.7418e-04,  2.7241e-07,  2.5658e-07,  ...,  9.8515e-04,
         -2.7427e-07,  2.0349e-07],
        [ 8.1398e-07,  5.9884e-07,  3.6415e-07,  ...,  2.2352e-06,
          5.1688e-08,  2.5332e-07],
        ...,
        [ 4.6119e-06,  1.5087e-07,  6.2771e-07,  ...,  1.6108e-05,
          8.8010e-08,  7.2224e-07],
        [ 5.0664e-06,  2.5472e-07,  1.1679e-06,  ...,  1.6883e-05,
          3.4459e-08,  1.1679e-06],
        [ 4.5151e-06,  1.3215e-06, -6.5984e-07,  ...,  1.7345e-05,
          3.2131e-08, -3.4049e-06]], device='cuda:0')
Epoch 102, bias, value: tensor([ 0.0038,  0.0019,  0.0067,  0.0126,  0.0258,  0.0369, -0.0236,  0.0099,
        -0.0378, -0.0195], device='cuda:0'), grad: tensor([-8.3670e-06,  1.1654e-03,  3.8296e-06, -2.7437e-06, -1.2550e-03,
         8.3074e-06,  2.5705e-05,  2.0385e-05,  2.2292e-05,  1.9699e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 101, time 219.74, cls_loss 0.0046 cls_loss_mapping 0.0077 cls_loss_causal 0.5650 re_mapping 0.0098 re_causal 0.0287 /// teacc 98.82 lr 0.00010000
Epoch 103, weight, value: tensor([[-0.0171,  0.1016,  0.0605,  ..., -0.1268, -0.0924,  0.0266],
        [ 0.0935, -0.0108, -0.0433,  ...,  0.0532,  0.0773, -0.0994],
        [-0.0533, -0.0270, -0.0337,  ..., -0.0569, -0.0120, -0.0300],
        ...,
        [-0.0342,  0.1127, -0.1309,  ..., -0.0948,  0.0139, -0.0959],
        [ 0.0014, -0.0709,  0.0273,  ...,  0.0470, -0.0946, -0.0395],
        [-0.0289, -0.0603,  0.0449,  ..., -0.0565, -0.0403,  0.0959]],
       device='cuda:0'), grad: tensor([[ 1.7975e-06,  1.3253e-06,  2.4009e-06,  ...,  2.1122e-06,
          7.9162e-09,  6.3051e-07],
        [ 9.6671e-07,  1.2880e-06,  7.9125e-06,  ...,  1.3910e-05,
         -1.8720e-07,  5.5432e-06],
        [ 3.3975e-06,  5.9977e-06,  1.1530e-06,  ...,  2.6841e-06,
          1.2573e-08,  2.3609e-07],
        ...,
        [ 5.5227e-07, -1.5005e-05,  1.4221e-06,  ...,  2.6915e-06,
          8.0559e-08,  1.0971e-06],
        [-1.1253e-04,  5.8487e-07, -1.6117e-04,  ..., -1.1420e-04,
          5.9605e-08, -2.7984e-05],
        [ 8.4341e-06,  3.3583e-06,  9.7811e-05,  ...,  1.9884e-04,
          5.8673e-08,  5.7727e-05]], device='cuda:0')
Epoch 103, bias, value: tensor([ 0.0039,  0.0017,  0.0070,  0.0126,  0.0260,  0.0366, -0.0236,  0.0105,
        -0.0376, -0.0202], device='cuda:0'), grad: tensor([ 7.4431e-06,  3.0071e-05,  1.6794e-05,  1.7321e-04, -3.9005e-04,
         3.4660e-05,  7.3165e-06, -1.4804e-05, -2.4796e-04,  3.8242e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 102, time 219.44, cls_loss 0.0048 cls_loss_mapping 0.0085 cls_loss_causal 0.5868 re_mapping 0.0100 re_causal 0.0291 /// teacc 98.92 lr 0.00010000
Epoch 104, weight, value: tensor([[-0.0173,  0.1022,  0.0611,  ..., -0.1273, -0.0924,  0.0270],
        [ 0.0951, -0.0115, -0.0426,  ...,  0.0543,  0.0785, -0.0994],
        [-0.0542, -0.0273, -0.0343,  ..., -0.0574, -0.0126, -0.0303],
        ...,
        [-0.0354,  0.1146, -0.1313,  ..., -0.0953,  0.0133, -0.0961],
        [ 0.0017, -0.0711,  0.0274,  ...,  0.0472, -0.0946, -0.0395],
        [-0.0299, -0.0627,  0.0447,  ..., -0.0575, -0.0407,  0.0960]],
       device='cuda:0'), grad: tensor([[ 4.6333e-07, -7.4692e-06, -4.6045e-06,  ...,  2.9728e-06,
          3.2876e-07, -1.7677e-06],
        [ 1.0706e-05,  2.3216e-05,  1.3523e-06,  ...,  1.3873e-05,
         -4.6939e-07,  5.9791e-07],
        [ 5.3868e-06,  2.6524e-06,  3.0342e-06,  ..., -5.6744e-05,
         -3.2084e-07,  3.8929e-07],
        ...,
        [-1.7226e-05, -4.7892e-05,  2.6375e-06,  ..., -2.2694e-05,
          2.2491e-07,  1.8198e-06],
        [-8.4657e-07,  4.7795e-06,  6.5938e-06,  ..., -5.8953e-07,
         -1.4016e-07,  8.1509e-06],
        [ 1.9325e-07,  7.1116e-06, -1.5110e-05,  ...,  2.5965e-06,
          1.9511e-07, -1.5840e-05]], device='cuda:0')
Epoch 104, bias, value: tensor([ 0.0044,  0.0026,  0.0065,  0.0127,  0.0263,  0.0366, -0.0241,  0.0108,
        -0.0373, -0.0212], device='cuda:0'), grad: tensor([ 2.3589e-05,  5.8800e-05, -8.2445e-04,  3.7074e-05,  7.0477e-04,
         7.8976e-06,  6.1810e-05, -1.1665e-04,  4.1664e-05,  5.0440e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 103, time 219.90, cls_loss 0.0053 cls_loss_mapping 0.0072 cls_loss_causal 0.6032 re_mapping 0.0099 re_causal 0.0287 /// teacc 98.91 lr 0.00010000
Epoch 105, weight, value: tensor([[-0.0172,  0.1028,  0.0608,  ..., -0.1273, -0.0924,  0.0263],
        [ 0.0963, -0.0116, -0.0424,  ...,  0.0556,  0.0796, -0.0996],
        [-0.0550, -0.0280, -0.0347,  ..., -0.0581, -0.0133, -0.0309],
        ...,
        [-0.0359,  0.1150, -0.1318,  ..., -0.0962,  0.0129, -0.0970],
        [ 0.0004, -0.0716,  0.0268,  ...,  0.0465, -0.0963, -0.0397],
        [-0.0306, -0.0623,  0.0458,  ..., -0.0577, -0.0408,  0.0974]],
       device='cuda:0'), grad: tensor([[ 1.4668e-06, -3.8603e-07,  1.3269e-05,  ...,  1.1837e-06,
          2.9709e-07,  1.9908e-05],
        [ 2.8051e-06,  7.5903e-08,  9.9018e-06,  ..., -1.8207e-07,
          2.7753e-06,  7.3165e-06],
        [ 2.2966e-06,  5.4482e-08,  9.5218e-06,  ...,  4.6287e-07,
          2.6450e-06,  9.6038e-06],
        ...,
        [ 9.0897e-06, -1.5507e-07,  2.7344e-05,  ...,  9.7603e-07,
          4.6641e-06,  8.5011e-06],
        [ 2.2762e-06,  1.0757e-07,  1.0706e-05,  ...,  4.2422e-07,
          2.7362e-06,  1.3269e-05],
        [ 4.1388e-06,  1.9604e-07, -9.3043e-05,  ...,  1.0384e-06,
          9.0478e-07, -1.5414e-04]], device='cuda:0')
Epoch 105, bias, value: tensor([ 0.0040,  0.0034,  0.0062,  0.0123,  0.0261,  0.0378, -0.0248,  0.0106,
        -0.0387, -0.0205], device='cuda:0'), grad: tensor([ 3.0339e-05,  2.6643e-05,  2.2814e-05, -8.0526e-05,  2.0504e-05,
        -2.2042e-04,  2.7108e-04,  8.4877e-05,  2.7955e-05, -1.8370e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 104, time 219.66, cls_loss 0.0041 cls_loss_mapping 0.0064 cls_loss_causal 0.5925 re_mapping 0.0096 re_causal 0.0281 /// teacc 98.91 lr 0.00010000
Epoch 106, weight, value: tensor([[-0.0173,  0.1034,  0.0614,  ..., -0.1283, -0.0924,  0.0265],
        [ 0.0967, -0.0117, -0.0424,  ...,  0.0558,  0.0800, -0.0997],
        [-0.0551, -0.0280, -0.0347,  ..., -0.0586, -0.0133, -0.0312],
        ...,
        [-0.0361,  0.1154, -0.1323,  ..., -0.0966,  0.0132, -0.0980],
        [ 0.0003, -0.0721,  0.0268,  ...,  0.0465, -0.0971, -0.0398],
        [-0.0307, -0.0626,  0.0458,  ..., -0.0582, -0.0414,  0.0977]],
       device='cuda:0'), grad: tensor([[ 1.3486e-06, -3.2014e-07,  1.3225e-06,  ...,  1.3718e-06,
          1.3504e-08,  9.7789e-09],
        [ 6.2678e-07,  2.0536e-07,  1.5395e-06,  ...,  8.8662e-07,
         -2.1001e-07,  1.9558e-07],
        [ 7.0743e-06,  1.0221e-07,  8.0615e-06,  ...,  5.6326e-06,
         -6.7521e-09,  3.1781e-07],
        ...,
        [ 2.5295e-06, -2.5835e-06,  3.2522e-06,  ...,  7.5996e-06,
         -2.9965e-07,  1.2964e-06],
        [ 2.2631e-06,  1.4598e-07,  1.7183e-06,  ..., -3.0547e-06,
          6.7987e-08,  2.3395e-06],
        [ 1.7351e-06,  1.2266e-06, -2.9746e-06,  ...,  1.5404e-06,
          2.3609e-07, -1.1131e-05]], device='cuda:0')
Epoch 106, bias, value: tensor([ 0.0043,  0.0034,  0.0063,  0.0121,  0.0265,  0.0380, -0.0251,  0.0104,
        -0.0391, -0.0205], device='cuda:0'), grad: tensor([ 5.5991e-06,  6.6496e-06,  2.3454e-05, -7.0453e-05, -7.4580e-06,
         1.2569e-05, -1.8254e-07,  1.4909e-05,  1.1951e-05,  3.0063e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 105, time 219.54, cls_loss 0.0060 cls_loss_mapping 0.0076 cls_loss_causal 0.5872 re_mapping 0.0099 re_causal 0.0296 /// teacc 98.81 lr 0.00010000
Epoch 107, weight, value: tensor([[-0.0177,  0.1038,  0.0618,  ..., -0.1294, -0.0925,  0.0266],
        [ 0.0961, -0.0117, -0.0434,  ...,  0.0547,  0.0799, -0.1014],
        [-0.0553, -0.0285, -0.0345,  ..., -0.0587, -0.0129, -0.0306],
        ...,
        [-0.0362,  0.1158, -0.1328,  ..., -0.0969,  0.0133, -0.0988],
        [ 0.0013, -0.0723,  0.0277,  ...,  0.0484, -0.0970, -0.0388],
        [-0.0311, -0.0630,  0.0454,  ..., -0.0584, -0.0417,  0.0978]],
       device='cuda:0'), grad: tensor([[ 2.7753e-06,  5.6744e-04,  2.6226e-03,  ...,  3.0026e-06,
          4.1910e-09,  4.9210e-03],
        [-2.1304e-07,  1.9446e-06,  2.9318e-06,  ...,  4.9174e-06,
         -1.6298e-07,  5.2564e-06],
        [ 3.5157e-08,  6.1020e-06,  1.7121e-05,  ..., -1.7524e-05,
          1.4203e-08,  3.0205e-05],
        ...,
        [ 2.1537e-07, -3.7216e-06,  9.0674e-06,  ...,  1.5572e-06,
          2.8405e-08,  1.6674e-05],
        [ 2.3302e-06,  9.3551e-07,  5.4538e-06,  ...,  6.3591e-06,
          6.1933e-08,  4.2357e-06],
        [ 5.5321e-07, -5.8031e-04, -2.6760e-03,  ...,  1.0438e-05,
          1.6764e-08, -5.0316e-03]], device='cuda:0')
Epoch 107, bias, value: tensor([ 0.0045,  0.0028,  0.0066,  0.0141,  0.0262,  0.0365, -0.0252,  0.0101,
        -0.0380, -0.0207], device='cuda:0'), grad: tensor([ 8.3618e-03,  2.0325e-05,  1.2279e-05,  3.0547e-05,  2.7061e-05,
         2.2352e-05,  1.0967e-05,  2.1651e-05,  2.2978e-05, -8.5220e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 106, time 219.85, cls_loss 0.0065 cls_loss_mapping 0.0107 cls_loss_causal 0.5779 re_mapping 0.0098 re_causal 0.0289 /// teacc 98.82 lr 0.00010000
Epoch 108, weight, value: tensor([[-0.0176,  0.1046,  0.0618,  ..., -0.1298, -0.0926,  0.0264],
        [ 0.0951, -0.0103, -0.0428,  ...,  0.0540,  0.0801, -0.1019],
        [-0.0557, -0.0289, -0.0351,  ..., -0.0596, -0.0129, -0.0310],
        ...,
        [-0.0343,  0.1151, -0.1336,  ..., -0.0949,  0.0135, -0.0996],
        [ 0.0019, -0.0721,  0.0280,  ...,  0.0492, -0.0974, -0.0385],
        [-0.0311, -0.0638,  0.0459,  ..., -0.0590, -0.0419,  0.0985]],
       device='cuda:0'), grad: tensor([[ 6.0629e-07,  4.0382e-06,  1.0803e-06,  ...,  1.7285e-06,
          2.9476e-07,  2.6952e-06],
        [-7.0155e-05,  8.7693e-06, -1.3545e-05,  ..., -3.4183e-05,
         -4.5389e-05,  5.8673e-07],
        [ 3.1814e-06, -7.0035e-05, -5.3681e-06,  ..., -2.4494e-06,
         -1.5758e-06,  2.8964e-07],
        ...,
        [ 5.3585e-05, -1.9848e-05,  1.1884e-05,  ...,  2.9594e-05,
          3.5077e-05, -1.6898e-05],
        [-1.1921e-06,  3.4515e-06, -5.4436e-07,  ..., -2.7753e-06,
          9.7789e-07,  1.2806e-08],
        [ 2.0750e-06,  4.4674e-05,  1.6466e-06,  ...,  2.1383e-06,
          1.1567e-06,  1.4976e-05]], device='cuda:0')
Epoch 108, bias, value: tensor([ 0.0043,  0.0026,  0.0061,  0.0131,  0.0267,  0.0372, -0.0261,  0.0107,
        -0.0377, -0.0208], device='cuda:0'), grad: tensor([ 1.2018e-05, -9.4950e-05, -5.3930e-04,  2.4104e-04,  8.3074e-07,
        -1.8418e-05,  3.2838e-06,  2.8896e-04,  2.7955e-05,  7.9453e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 107, time 219.36, cls_loss 0.0056 cls_loss_mapping 0.0071 cls_loss_causal 0.5808 re_mapping 0.0096 re_causal 0.0274 /// teacc 98.85 lr 0.00010000
Epoch 109, weight, value: tensor([[-0.0184,  0.1053,  0.0624,  ..., -0.1315, -0.0932,  0.0265],
        [ 0.0953, -0.0102, -0.0431,  ...,  0.0541,  0.0803, -0.1022],
        [-0.0559, -0.0296, -0.0357,  ..., -0.0596, -0.0131, -0.0317],
        ...,
        [-0.0346,  0.1154, -0.1353,  ..., -0.0954,  0.0135, -0.1012],
        [ 0.0024, -0.0725,  0.0286,  ...,  0.0501, -0.0974, -0.0382],
        [-0.0313, -0.0638,  0.0472,  ..., -0.0593, -0.0420,  0.0997]],
       device='cuda:0'), grad: tensor([[ 3.1441e-05,  8.4788e-06, -1.5944e-05,  ...,  4.3750e-05,
          7.9162e-09,  9.5144e-06],
        [-9.5606e-05,  8.8438e-06,  4.4517e-07,  ..., -1.7083e-04,
         -1.6438e-07,  7.1665e-07],
        [ 5.2117e-06,  9.3162e-05,  2.6003e-05,  ...,  2.8118e-05,
          6.2399e-08,  2.6971e-05],
        ...,
        [ 8.2031e-06, -1.1736e-04,  4.5309e-07,  ...,  1.6093e-05,
          3.4925e-08,  5.6531e-07],
        [ 1.9297e-05,  7.1004e-06,  1.3560e-06,  ...,  3.1859e-05,
          1.2107e-08,  5.3346e-06],
        [ 1.4052e-05,  3.8773e-05,  1.1377e-05,  ...,  2.4021e-05,
          1.3970e-08,  1.7196e-05]], device='cuda:0')
Epoch 109, bias, value: tensor([ 0.0044,  0.0025,  0.0061,  0.0123,  0.0266,  0.0368, -0.0261,  0.0106,
        -0.0371, -0.0201], device='cuda:0'), grad: tensor([ 4.8965e-05, -1.7607e-04,  2.4939e-04,  4.4882e-05,  5.7608e-05,
         5.6416e-05, -2.1255e-04, -2.3341e-04,  5.3197e-05,  1.1170e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 108, time 219.56, cls_loss 0.0046 cls_loss_mapping 0.0074 cls_loss_causal 0.5783 re_mapping 0.0103 re_causal 0.0284 /// teacc 98.85 lr 0.00010000
Epoch 110, weight, value: tensor([[-0.0189,  0.1053,  0.0623,  ..., -0.1319, -0.0937,  0.0257],
        [ 0.0956, -0.0099, -0.0431,  ...,  0.0545,  0.0807, -0.1024],
        [-0.0562, -0.0305, -0.0356,  ..., -0.0599, -0.0133, -0.0316],
        ...,
        [-0.0348,  0.1163, -0.1351,  ..., -0.0960,  0.0134, -0.1004],
        [ 0.0026, -0.0727,  0.0290,  ...,  0.0507, -0.0975, -0.0381],
        [-0.0316, -0.0653,  0.0475,  ..., -0.0597, -0.0423,  0.1006]],
       device='cuda:0'), grad: tensor([[ 4.5970e-06, -7.9945e-06, -5.0887e-06,  ...,  1.2867e-05,
          3.3062e-08, -6.7428e-06],
        [ 6.3218e-06,  2.4319e-05,  1.3728e-06,  ...,  2.7046e-05,
         -9.8627e-07,  5.2061e-07],
        [ 9.3430e-06,  2.4050e-05,  2.6766e-06,  ...,  2.4766e-05,
          3.8929e-07,  5.3551e-07],
        ...,
        [ 1.6302e-05,  1.0550e-05,  1.0051e-05,  ...,  5.1767e-05,
          2.0070e-07,  1.3784e-05],
        [ 2.5019e-05,  2.4378e-05,  2.2560e-05,  ...,  4.9859e-05,
          6.2771e-07,  1.7956e-05],
        [ 7.1116e-06,  1.7568e-05, -2.2367e-05,  ...,  1.8790e-05,
          1.7509e-07, -2.9162e-05]], device='cuda:0')
Epoch 110, bias, value: tensor([ 0.0034,  0.0027,  0.0061,  0.0121,  0.0267,  0.0365, -0.0260,  0.0110,
        -0.0368, -0.0203], device='cuda:0'), grad: tensor([-5.7518e-06,  7.5877e-05,  7.1168e-05, -1.9029e-05, -5.5504e-04,
         1.0920e-04,  4.8101e-05,  1.0926e-04,  1.5938e-04,  6.6683e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 109, time 219.88, cls_loss 0.0057 cls_loss_mapping 0.0080 cls_loss_causal 0.5823 re_mapping 0.0094 re_causal 0.0280 /// teacc 98.81 lr 0.00010000
Epoch 111, weight, value: tensor([[-0.0191,  0.1060,  0.0630,  ..., -0.1320, -0.0937,  0.0258],
        [ 0.0974, -0.0100, -0.0437,  ...,  0.0552,  0.0827, -0.1031],
        [-0.0584, -0.0311, -0.0364,  ..., -0.0609, -0.0152, -0.0328],
        ...,
        [-0.0351,  0.1168, -0.1366,  ..., -0.0967,  0.0132, -0.1023],
        [ 0.0024, -0.0731,  0.0287,  ...,  0.0507, -0.0977, -0.0384],
        [-0.0319, -0.0656,  0.0486,  ..., -0.0598, -0.0426,  0.1018]],
       device='cuda:0'), grad: tensor([[ 2.6058e-06,  6.0536e-08,  7.6462e-07,  ...,  1.9856e-06,
          3.3947e-07,  3.9395e-07],
        [ 6.0955e-07,  3.7951e-07,  1.4948e-07,  ..., -7.7952e-07,
         -5.5879e-07,  7.2177e-08],
        [ 1.0088e-05,  6.5193e-07,  1.3160e-06,  ...,  6.4038e-06,
          1.9297e-06,  6.5193e-07],
        ...,
        [ 1.0487e-06, -3.6806e-06,  8.4750e-07,  ...,  6.0871e-06,
          2.7195e-07,  9.2341e-07],
        [-2.3052e-05,  2.4401e-07, -1.3545e-05,  ..., -1.3284e-05,
          5.7509e-07, -6.5975e-06],
        [ 1.4946e-05,  1.3970e-06,  7.1600e-06,  ...,  1.1750e-05,
          2.1840e-07,  2.2501e-06]], device='cuda:0')
Epoch 111, bias, value: tensor([ 0.0036,  0.0033,  0.0051,  0.0125,  0.0268,  0.0364, -0.0265,  0.0105,
        -0.0374, -0.0195], device='cuda:0'), grad: tensor([ 7.1228e-06,  5.9083e-06,  2.0504e-05, -1.2517e-06, -1.9684e-05,
         1.2189e-05, -2.5257e-05,  1.2934e-05, -5.5313e-05,  4.2737e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 110, time 219.79, cls_loss 0.0053 cls_loss_mapping 0.0084 cls_loss_causal 0.5818 re_mapping 0.0097 re_causal 0.0273 /// teacc 98.92 lr 0.00010000
Epoch 112, weight, value: tensor([[-0.0192,  0.1064,  0.0634,  ..., -0.1324, -0.0940,  0.0260],
        [ 0.0981, -0.0102, -0.0434,  ...,  0.0558,  0.0826, -0.1033],
        [-0.0585, -0.0315, -0.0356,  ..., -0.0608, -0.0149, -0.0329],
        ...,
        [-0.0353,  0.1170, -0.1374,  ..., -0.0976,  0.0136, -0.1033],
        [ 0.0026, -0.0722,  0.0285,  ...,  0.0512, -0.0980, -0.0386],
        [-0.0321, -0.0665,  0.0494,  ..., -0.0605, -0.0429,  0.1025]],
       device='cuda:0'), grad: tensor([[ 9.2462e-06,  1.2927e-06, -1.7602e-06,  ...,  1.0513e-05,
          7.1758e-07, -2.1085e-06],
        [ 1.9614e-06,  2.6412e-06,  7.2829e-07,  ...,  3.2298e-06,
          5.7695e-07,  3.5809e-07],
        [ 1.6410e-06,  1.2834e-06,  4.2794e-07,  ...,  2.0862e-06,
         -4.8354e-06,  5.8906e-07],
        ...,
        [ 4.9872e-07, -9.7454e-06,  1.4910e-06,  ...,  1.1325e-06,
          1.2675e-06,  1.2117e-06],
        [ 1.3001e-05,  3.1590e-06,  5.6922e-06,  ...,  1.3441e-05,
          1.6503e-06,  9.0674e-06],
        [ 1.9278e-06,  5.8711e-06,  2.8498e-07,  ...,  3.0920e-06,
          6.0862e-07,  8.2888e-07]], device='cuda:0')
Epoch 112, bias, value: tensor([ 0.0038,  0.0032,  0.0055,  0.0126,  0.0269,  0.0365, -0.0274,  0.0102,
        -0.0367, -0.0197], device='cuda:0'), grad: tensor([ 1.7300e-05,  1.2845e-05, -1.3098e-05, -2.1122e-06,  3.1024e-05,
        -3.7074e-05, -5.5254e-05, -5.9046e-06,  3.8177e-05,  1.4044e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 111, time 219.68, cls_loss 0.0042 cls_loss_mapping 0.0064 cls_loss_causal 0.5716 re_mapping 0.0092 re_causal 0.0261 /// teacc 98.85 lr 0.00010000
Epoch 113, weight, value: tensor([[-0.0194,  0.1066,  0.0642,  ..., -0.1330, -0.0941,  0.0264],
        [ 0.0989, -0.0102, -0.0431,  ...,  0.0566,  0.0831, -0.1030],
        [-0.0588, -0.0319, -0.0351,  ..., -0.0606, -0.0147, -0.0330],
        ...,
        [-0.0355,  0.1172, -0.1390,  ..., -0.0981,  0.0136, -0.1042],
        [ 0.0024, -0.0727,  0.0281,  ...,  0.0509, -0.0985, -0.0393],
        [-0.0326, -0.0667,  0.0499,  ..., -0.0610, -0.0435,  0.1031]],
       device='cuda:0'), grad: tensor([[ 9.5740e-07, -2.4308e-06, -7.4357e-06,  ...,  2.9579e-06,
          5.1688e-08, -1.3359e-05],
        [-1.7555e-07,  5.8487e-07,  4.7609e-06,  ...,  8.2143e-07,
         -1.4016e-07,  4.5411e-06],
        [ 4.0652e-07,  4.9500e-07,  1.0990e-05,  ...,  1.9651e-06,
          1.9092e-08,  2.9616e-06],
        ...,
        [ 2.7288e-07, -1.6475e-06,  6.2548e-06,  ...,  1.3988e-06,
          1.8068e-07,  6.5491e-06],
        [-8.3447e-07,  9.6299e-07,  8.5309e-06,  ..., -6.6543e-07,
          6.8452e-08,  1.8030e-06],
        [ 3.6974e-07,  1.1772e-06,  1.1409e-06,  ...,  1.8757e-06,
         -2.9383e-07, -1.0528e-05]], device='cuda:0')
Epoch 113, bias, value: tensor([ 0.0042,  0.0034,  0.0058,  0.0132,  0.0268,  0.0361, -0.0273,  0.0099,
        -0.0372, -0.0198], device='cuda:0'), grad: tensor([-1.5974e-05,  1.5333e-05,  2.9907e-05, -1.0639e-04,  8.8632e-05,
         1.6347e-05, -9.0003e-05,  1.5393e-05,  3.4779e-05,  1.2077e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 112, time 219.36, cls_loss 0.0071 cls_loss_mapping 0.0102 cls_loss_causal 0.5708 re_mapping 0.0101 re_causal 0.0273 /// teacc 98.86 lr 0.00010000
Epoch 114, weight, value: tensor([[-0.0196,  0.1060,  0.0635,  ..., -0.1339, -0.0941,  0.0250],
        [ 0.0991, -0.0104, -0.0437,  ...,  0.0572,  0.0833, -0.1035],
        [-0.0590, -0.0326, -0.0351,  ..., -0.0608, -0.0146, -0.0323],
        ...,
        [-0.0357,  0.1184, -0.1392,  ..., -0.0987,  0.0135, -0.1042],
        [ 0.0012, -0.0747,  0.0264,  ...,  0.0499, -0.0985, -0.0418],
        [-0.0334, -0.0664,  0.0513,  ..., -0.0614, -0.0437,  0.1050]],
       device='cuda:0'), grad: tensor([[-1.4435e-08, -2.9188e-06, -5.7742e-06,  ...,  4.1677e-07,
          3.7719e-08, -6.1393e-06],
        [-1.1455e-06,  5.8115e-06,  1.7183e-07,  ..., -1.2843e-06,
         -2.5472e-07,  1.2526e-07],
        [ 5.9791e-07,  3.9712e-06,  2.4633e-07,  ...,  4.2561e-07,
         -5.4017e-08,  2.0443e-07],
        ...,
        [ 1.0533e-06, -2.3648e-05,  5.2713e-07,  ...,  1.4389e-06,
          3.3947e-07,  6.3935e-07],
        [ 6.4308e-07,  5.9605e-07,  1.0198e-06,  ...,  1.8068e-07,
          3.1199e-07,  1.1856e-06],
        [ 4.4983e-07,  6.1989e-06,  2.0824e-06,  ...,  7.9488e-07,
          7.7765e-08,  2.7604e-06]], device='cuda:0')
Epoch 114, bias, value: tensor([ 0.0029,  0.0034,  0.0059,  0.0135,  0.0259,  0.0353, -0.0262,  0.0104,
        -0.0383, -0.0187], device='cuda:0'), grad: tensor([-8.9556e-06,  5.8040e-06,  6.4820e-07,  1.5333e-05,  1.5134e-07,
        -1.7807e-06, -2.7083e-06, -2.2605e-05,  3.2391e-06,  1.0870e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 113, time 219.56, cls_loss 0.0049 cls_loss_mapping 0.0064 cls_loss_causal 0.5931 re_mapping 0.0091 re_causal 0.0264 /// teacc 98.98 lr 0.00010000
Epoch 115, weight, value: tensor([[-0.0200,  0.1065,  0.0639,  ..., -0.1346, -0.0942,  0.0254],
        [ 0.0999, -0.0096, -0.0439,  ...,  0.0577,  0.0836, -0.1036],
        [-0.0594, -0.0323, -0.0352,  ..., -0.0613, -0.0150, -0.0330],
        ...,
        [-0.0361,  0.1180, -0.1396,  ..., -0.0991,  0.0139, -0.1050],
        [ 0.0003, -0.0752,  0.0261,  ...,  0.0493, -0.0997, -0.0423],
        [-0.0339, -0.0671,  0.0517,  ..., -0.0621, -0.0440,  0.1052]],
       device='cuda:0'), grad: tensor([[ 7.8045e-07, -6.8499e-07, -1.4063e-06,  ...,  6.5900e-06,
          1.9139e-07, -3.5670e-07],
        [ 3.2485e-05, -4.5635e-08,  3.3557e-05,  ...,  1.3614e-04,
          1.0863e-05,  5.5760e-05],
        [-3.3341e-06,  4.6566e-08,  5.2340e-07,  ..., -1.3256e-04,
          1.5507e-07,  7.4133e-07],
        ...,
        [ 2.3581e-06,  3.5483e-07,  5.6550e-06,  ...,  2.0191e-05,
          2.6356e-07,  6.2995e-06],
        [-3.1963e-06,  8.6613e-08,  3.1013e-07,  ..., -1.9193e-05,
          2.6859e-06,  1.1370e-05],
        [ 1.7300e-05, -8.6613e-07,  3.6899e-06,  ...,  2.3082e-05,
          6.3479e-06,  1.3009e-05]], device='cuda:0')
Epoch 115, bias, value: tensor([ 0.0031,  0.0040,  0.0066,  0.0129,  0.0263,  0.0362, -0.0260,  0.0095,
        -0.0393, -0.0190], device='cuda:0'), grad: tensor([ 3.0607e-05,  6.5756e-04, -7.4720e-04,  5.4747e-05,  4.7982e-05,
        -1.3673e-04,  2.1473e-05,  5.7638e-05,  6.6590e-08,  1.2949e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 114, time 219.59, cls_loss 0.0036 cls_loss_mapping 0.0066 cls_loss_causal 0.6067 re_mapping 0.0088 re_causal 0.0276 /// teacc 98.87 lr 0.00010000
Epoch 116, weight, value: tensor([[-0.0201,  0.1067,  0.0641,  ..., -0.1354, -0.0942,  0.0256],
        [ 0.1001, -0.0093, -0.0437,  ...,  0.0579,  0.0837, -0.1037],
        [-0.0595, -0.0321, -0.0349,  ..., -0.0615, -0.0151, -0.0336],
        ...,
        [-0.0365,  0.1179, -0.1407,  ..., -0.0995,  0.0137, -0.1067],
        [ 0.0009, -0.0755,  0.0265,  ...,  0.0502, -0.0997, -0.0419],
        [-0.0343, -0.0672,  0.0514,  ..., -0.0634, -0.0442,  0.1051]],
       device='cuda:0'), grad: tensor([[ 3.9535e-07, -3.3174e-06, -1.1399e-06,  ...,  1.4165e-06,
          8.2050e-07, -1.0170e-06],
        [-3.0268e-07,  1.0334e-05,  8.0699e-07,  ...,  5.5470e-06,
         -2.6310e-07,  4.0093e-07],
        [ 4.3726e-07,  2.1607e-06,  1.2442e-06,  ...,  1.5106e-06,
          7.3947e-07,  4.1351e-07],
        ...,
        [ 4.8056e-07, -2.2784e-05, -3.7719e-08,  ...,  1.0654e-05,
          2.2678e-07,  1.1381e-06],
        [-3.5055e-06,  4.2515e-07, -6.1616e-06,  ..., -4.1649e-06,
          1.9874e-06, -7.9162e-07],
        [ 3.3947e-07,  8.7544e-06, -2.5257e-06,  ...,  8.8513e-06,
          8.6147e-08, -3.6266e-06]], device='cuda:0')
Epoch 116, bias, value: tensor([ 0.0032,  0.0042,  0.0068,  0.0132,  0.0267,  0.0359, -0.0262,  0.0090,
        -0.0387, -0.0193], device='cuda:0'), grad: tensor([-1.9688e-06,  2.5228e-05,  9.2536e-06,  2.4170e-05, -2.9847e-05,
        -2.1115e-05,  8.6278e-06, -3.7998e-05, -3.3118e-06,  2.6822e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 115, time 220.37, cls_loss 0.0049 cls_loss_mapping 0.0067 cls_loss_causal 0.5790 re_mapping 0.0086 re_causal 0.0257 /// teacc 98.89 lr 0.00010000
Epoch 117, weight, value: tensor([[-0.0205,  0.1073,  0.0644,  ..., -0.1364, -0.0944,  0.0255],
        [ 0.1006, -0.0094, -0.0435,  ...,  0.0581,  0.0840, -0.1040],
        [-0.0598, -0.0325, -0.0356,  ..., -0.0619, -0.0155, -0.0346],
        ...,
        [-0.0367,  0.1187, -0.1411,  ..., -0.0997,  0.0143, -0.1074],
        [ 0.0010, -0.0759,  0.0283,  ...,  0.0514, -0.1006, -0.0403],
        [-0.0351, -0.0681,  0.0513,  ..., -0.0638, -0.0446,  0.1055]],
       device='cuda:0'), grad: tensor([[ 1.2899e-06,  1.8813e-06,  1.6149e-06,  ...,  7.6555e-07,
          6.3330e-08,  1.7863e-06],
        [ 1.1316e-07,  1.2657e-06,  3.3677e-05,  ...,  7.2643e-08,
         -8.5216e-08,  5.1081e-05],
        [ 4.1490e-07, -3.3695e-06,  3.2876e-07,  ...,  2.3423e-07,
          1.4016e-07,  3.5344e-07],
        ...,
        [ 8.4937e-07, -2.6915e-06,  6.3851e-06,  ...,  8.8476e-07,
          6.7987e-08,  5.6848e-06],
        [-7.9907e-07,  1.8124e-06,  3.5524e-05,  ...,  2.6599e-06,
          2.9709e-07,  2.8685e-05],
        [ 3.5111e-07,  1.2890e-06, -1.7154e-04,  ..., -6.9402e-06,
          2.7940e-08, -2.2888e-04]], device='cuda:0')
Epoch 117, bias, value: tensor([ 0.0031,  0.0042,  0.0065,  0.0129,  0.0270,  0.0356, -0.0269,  0.0094,
        -0.0375, -0.0197], device='cuda:0'), grad: tensor([ 3.2693e-05,  8.6784e-05, -9.1553e-05,  4.7795e-06,  2.0564e-04,
         1.2971e-05, -8.1956e-06,  3.1173e-05,  9.4533e-05, -3.6883e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 116, time 219.06, cls_loss 0.0044 cls_loss_mapping 0.0067 cls_loss_causal 0.5838 re_mapping 0.0092 re_causal 0.0264 /// teacc 98.85 lr 0.00010000
Epoch 118, weight, value: tensor([[-0.0206,  0.1075,  0.0644,  ..., -0.1368, -0.0944,  0.0253],
        [ 0.1008, -0.0088, -0.0438,  ...,  0.0581,  0.0844, -0.1047],
        [-0.0601, -0.0328, -0.0360,  ..., -0.0624, -0.0156, -0.0352],
        ...,
        [-0.0370,  0.1186, -0.1418,  ..., -0.0998,  0.0141, -0.1084],
        [ 0.0008, -0.0763,  0.0283,  ...,  0.0517, -0.1010, -0.0405],
        [-0.0354, -0.0685,  0.0523,  ..., -0.0637, -0.0447,  0.1069]],
       device='cuda:0'), grad: tensor([[ 3.9227e-06, -2.6375e-06,  6.1728e-06,  ...,  6.0201e-06,
          1.9278e-07,  2.0731e-06],
        [-1.3433e-05,  4.2003e-07,  6.1234e-07,  ..., -1.9163e-05,
         -5.6289e-06,  6.6916e-07],
        [ 4.8913e-06,  1.6624e-07,  2.0210e-07,  ...,  6.3516e-06,
          2.0210e-06,  1.3178e-06],
        ...,
        [ 7.3295e-07, -8.6194e-07,  6.1188e-07,  ...,  2.1439e-06,
          1.5367e-07,  5.0990e-07],
        [-3.7313e-05,  1.3178e-07, -4.5598e-05,  ..., -4.7117e-05,
         -6.8024e-06, -3.0354e-05],
        [ 6.8024e-06,  2.4196e-06,  1.8537e-05,  ...,  3.0816e-05,
          3.0082e-07,  1.6078e-05]], device='cuda:0')
Epoch 118, bias, value: tensor([ 0.0029,  0.0045,  0.0066,  0.0120,  0.0265,  0.0358, -0.0264,  0.0093,
        -0.0378, -0.0191], device='cuda:0'), grad: tensor([ 1.1124e-05, -3.0816e-05, -2.0891e-05,  2.6301e-05, -2.2948e-05,
         3.4757e-06,  6.9439e-05,  3.2410e-06, -1.0979e-04,  7.0810e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 117, time 219.96, cls_loss 0.0040 cls_loss_mapping 0.0069 cls_loss_causal 0.5664 re_mapping 0.0090 re_causal 0.0264 /// teacc 98.84 lr 0.00010000
Epoch 119, weight, value: tensor([[-0.0214,  0.1078,  0.0646,  ..., -0.1386, -0.0951,  0.0253],
        [ 0.1011, -0.0093, -0.0444,  ...,  0.0586,  0.0846, -0.1049],
        [-0.0604, -0.0331, -0.0365,  ..., -0.0628, -0.0157, -0.0357],
        ...,
        [-0.0367,  0.1194, -0.1415,  ..., -0.1001,  0.0140, -0.1095],
        [ 0.0004, -0.0769,  0.0281,  ...,  0.0516, -0.1012, -0.0407],
        [-0.0358, -0.0690,  0.0522,  ..., -0.0642, -0.0448,  0.1072]],
       device='cuda:0'), grad: tensor([[ 4.7088e-06, -5.7276e-08,  6.8285e-06,  ...,  4.6976e-06,
          2.6962e-07,  2.3786e-06],
        [ 1.9185e-06,  1.0654e-06,  2.5872e-06,  ...,  4.6901e-06,
          9.4995e-08,  1.0785e-06],
        [ 3.8557e-06,  3.0175e-07,  1.2524e-05,  ...,  2.9504e-06,
          2.2203e-06,  9.7230e-07],
        ...,
        [ 1.0356e-06, -1.3113e-05,  2.0098e-06,  ...,  2.9095e-06,
          2.3749e-07,  1.0580e-06],
        [-2.3395e-05,  1.3746e-06, -2.1607e-05,  ..., -2.1994e-05,
          2.8033e-07, -3.2373e-06],
        [ 4.3921e-06,  9.0003e-06, -2.9374e-06,  ..., -1.7393e-04,
          6.3796e-08, -1.7858e-04]], device='cuda:0')
Epoch 119, bias, value: tensor([ 0.0023,  0.0043,  0.0065,  0.0117,  0.0268,  0.0363, -0.0256,  0.0098,
        -0.0383, -0.0195], device='cuda:0'), grad: tensor([ 1.7047e-05,  1.5959e-05,  8.4162e-05, -8.6129e-05,  6.5088e-04,
         4.6007e-06,  1.4141e-05, -1.1981e-05, -3.0056e-05, -6.5851e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 118, time 219.59, cls_loss 0.0044 cls_loss_mapping 0.0060 cls_loss_causal 0.6092 re_mapping 0.0087 re_causal 0.0259 /// teacc 98.97 lr 0.00010000
Epoch 120, weight, value: tensor([[-0.0220,  0.1085,  0.0647,  ..., -0.1402, -0.0952,  0.0252],
        [ 0.1013, -0.0097, -0.0456,  ...,  0.0587,  0.0847, -0.1051],
        [-0.0608, -0.0335, -0.0372,  ..., -0.0634, -0.0158, -0.0360],
        ...,
        [-0.0367,  0.1200, -0.1419,  ..., -0.1006,  0.0139, -0.1103],
        [ 0.0017, -0.0760,  0.0298,  ...,  0.0529, -0.1012, -0.0400],
        [-0.0364, -0.0695,  0.0525,  ..., -0.0644, -0.0450,  0.1077]],
       device='cuda:0'), grad: tensor([[ 7.9768e-07, -8.9034e-07, -1.1083e-07,  ...,  3.8892e-06,
          1.5367e-08, -1.6484e-07],
        [-2.4214e-06,  1.0140e-05,  4.3958e-07,  ...,  1.5097e-06,
         -1.2666e-07,  2.6403e-07],
        [ 5.7230e-07,  9.5367e-07,  6.6170e-07,  ...,  1.8969e-05,
         -2.0210e-07,  1.6438e-07],
        ...,
        [ 1.2973e-06, -1.8612e-05,  1.1455e-06,  ...,  3.4273e-06,
          2.3516e-07,  9.2387e-07],
        [ 7.7710e-06,  9.3691e-07,  6.2473e-06,  ...,  1.4640e-05,
          3.6834e-07,  7.3351e-06],
        [ 1.6633e-06,  5.9530e-06,  1.1288e-06,  ...,  8.8364e-06,
          6.1002e-08,  4.5262e-07]], device='cuda:0')
Epoch 120, bias, value: tensor([ 0.0023,  0.0040,  0.0061,  0.0113,  0.0270,  0.0366, -0.0268,  0.0098,
        -0.0363, -0.0195], device='cuda:0'), grad: tensor([ 5.0962e-06,  2.4304e-05,  2.8253e-05, -8.3819e-06, -5.0020e-04,
        -2.0623e-05,  4.2486e-04, -2.1994e-05,  3.9548e-05,  2.8834e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 119, time 219.88, cls_loss 0.0036 cls_loss_mapping 0.0061 cls_loss_causal 0.5716 re_mapping 0.0086 re_causal 0.0256 /// teacc 98.91 lr 0.00010000
Epoch 121, weight, value: tensor([[-0.0222,  0.1091,  0.0647,  ..., -0.1409, -0.0953,  0.0250],
        [ 0.1017, -0.0097, -0.0458,  ...,  0.0589,  0.0849, -0.1052],
        [-0.0611, -0.0338, -0.0374,  ..., -0.0638, -0.0160, -0.0362],
        ...,
        [-0.0370,  0.1206, -0.1423,  ..., -0.1009,  0.0138, -0.1105],
        [ 0.0016, -0.0769,  0.0295,  ...,  0.0528, -0.1015, -0.0402],
        [-0.0366, -0.0702,  0.0532,  ..., -0.0654, -0.0450,  0.1083]],
       device='cuda:0'), grad: tensor([[ 5.5879e-07, -2.3544e-06,  2.5472e-07,  ...,  6.0629e-07,
          1.8114e-07, -5.0897e-07],
        [-1.4314e-06,  1.8720e-07,  2.3730e-06,  ..., -2.0154e-06,
         -1.3690e-07,  1.2619e-07],
        [ 9.0674e-06,  4.9593e-07,  1.6928e-05,  ...,  1.7434e-06,
          7.3984e-06,  2.9104e-07],
        ...,
        [ 6.4913e-07, -8.3400e-07,  6.8685e-07,  ...,  6.5845e-07,
          2.4866e-07,  2.9709e-07],
        [ 1.0114e-06,  2.9849e-07,  2.8126e-06,  ..., -1.1977e-06,
          1.3402e-06,  5.4529e-07],
        [ 7.3249e-07,  1.3020e-06,  5.6345e-07,  ...,  1.1306e-06,
          2.1886e-07,  3.7346e-07]], device='cuda:0')
Epoch 121, bias, value: tensor([ 0.0023,  0.0041,  0.0060,  0.0113,  0.0276,  0.0364, -0.0266,  0.0098,
        -0.0367, -0.0198], device='cuda:0'), grad: tensor([-2.4326e-06, -2.2119e-07,  2.9728e-05, -2.8282e-05,  4.0000e-07,
        -4.1813e-05,  3.3528e-05,  1.3784e-06,  3.9376e-06,  3.9265e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 120, time 219.47, cls_loss 0.0043 cls_loss_mapping 0.0082 cls_loss_causal 0.5748 re_mapping 0.0089 re_causal 0.0253 /// teacc 98.91 lr 0.00010000
Epoch 122, weight, value: tensor([[-0.0222,  0.1102,  0.0650,  ..., -0.1412, -0.0953,  0.0252],
        [ 0.1020, -0.0100, -0.0464,  ...,  0.0593,  0.0854, -0.1056],
        [-0.0612, -0.0346, -0.0375,  ..., -0.0640, -0.0162, -0.0366],
        ...,
        [-0.0371,  0.1225, -0.1424,  ..., -0.1018,  0.0133, -0.1120],
        [ 0.0016, -0.0793,  0.0295,  ...,  0.0531, -0.1016, -0.0403],
        [-0.0369, -0.0713,  0.0539,  ..., -0.0652, -0.0450,  0.1094]],
       device='cuda:0'), grad: tensor([[ 1.9185e-06, -1.8165e-05, -9.3877e-06,  ...,  3.2205e-06,
          1.2713e-07, -1.0721e-05],
        [-2.3562e-07,  2.9672e-06,  2.0862e-06,  ...,  3.9935e-06,
          8.3353e-07,  4.0885e-07],
        [-2.6952e-06,  8.5458e-06, -3.8594e-05,  ..., -7.5391e-07,
          8.5309e-07, -3.4392e-05],
        ...,
        [ 2.8592e-07, -7.4625e-05,  6.9523e-07,  ...,  7.5512e-06,
         -3.5226e-05,  7.5996e-07],
        [-8.1165e-07,  6.7532e-05,  3.4217e-06,  ..., -1.5143e-06,
          2.9087e-05,  2.3879e-06],
        [ 4.7591e-07,  4.3549e-06,  1.2822e-05,  ...,  8.7470e-06,
          8.9174e-07,  1.3933e-05]], device='cuda:0')
Epoch 122, bias, value: tensor([ 0.0026,  0.0040,  0.0061,  0.0107,  0.0271,  0.0363, -0.0270,  0.0108,
        -0.0374, -0.0195], device='cuda:0'), grad: tensor([-7.1883e-05,  2.5645e-05, -1.3089e-04,  9.9778e-05, -3.7849e-05,
         2.6390e-05,  6.6981e-06, -2.0576e-04,  2.2829e-04,  5.9545e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 121, time 219.12, cls_loss 0.0038 cls_loss_mapping 0.0070 cls_loss_causal 0.5679 re_mapping 0.0087 re_causal 0.0257 /// teacc 98.96 lr 0.00010000
Epoch 123, weight, value: tensor([[-0.0224,  0.1109,  0.0653,  ..., -0.1418, -0.0953,  0.0253],
        [ 0.1013, -0.0102, -0.0466,  ...,  0.0580,  0.0845, -0.1056],
        [-0.0598, -0.0349, -0.0378,  ..., -0.0618, -0.0152, -0.0368],
        ...,
        [-0.0372,  0.1234, -0.1433,  ..., -0.1021,  0.0132, -0.1125],
        [ 0.0014, -0.0803,  0.0297,  ...,  0.0531, -0.1018, -0.0402],
        [-0.0375, -0.0724,  0.0540,  ..., -0.0657, -0.0451,  0.1096]],
       device='cuda:0'), grad: tensor([[ 9.2201e-08, -6.8452e-08,  9.3132e-10,  ...,  1.3132e-07,
          7.9162e-09,  9.3132e-10],
        [-8.7731e-07,  3.7812e-07,  7.7300e-08,  ..., -1.7649e-06,
         -6.9384e-08,  4.6100e-08],
        [ 8.2515e-07,  1.5348e-06,  5.6485e-07,  ...,  8.9174e-07,
         -2.4680e-08,  3.9581e-08],
        ...,
        [ 5.3504e-07, -4.7609e-06,  2.1933e-07,  ...,  8.5123e-07,
          8.5216e-08,  1.4342e-07],
        [-1.8626e-07,  6.3470e-07, -3.8184e-08,  ..., -6.6124e-08,
         -4.3772e-08,  1.2312e-06],
        [ 2.6776e-07,  1.4426e-06, -3.0780e-07,  ...,  6.8359e-07,
          1.0245e-08, -3.9907e-07]], device='cuda:0')
Epoch 123, bias, value: tensor([ 0.0028,  0.0029,  0.0077,  0.0117,  0.0266,  0.0359, -0.0269,  0.0108,
        -0.0376, -0.0196], device='cuda:0'), grad: tensor([ 7.6042e-07,  6.1700e-07, -4.9114e-05,  9.7677e-06,  1.2135e-06,
        -3.4440e-06,  1.2722e-06,  2.8789e-05,  7.8827e-06,  2.2184e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 122, time 218.99, cls_loss 0.0045 cls_loss_mapping 0.0079 cls_loss_causal 0.5839 re_mapping 0.0086 re_causal 0.0256 /// teacc 98.93 lr 0.00010000
Epoch 124, weight, value: tensor([[-0.0235,  0.1116,  0.0657,  ..., -0.1435, -0.0962,  0.0253],
        [ 0.1023, -0.0084, -0.0471,  ...,  0.0592,  0.0847, -0.1060],
        [-0.0600, -0.0359, -0.0381,  ..., -0.0620, -0.0153, -0.0370],
        ...,
        [-0.0388,  0.1231, -0.1432,  ..., -0.1043,  0.0131, -0.1127],
        [ 0.0007, -0.0824,  0.0289,  ...,  0.0522, -0.1020, -0.0414],
        [-0.0381, -0.0744,  0.0529,  ..., -0.0665, -0.0455,  0.1091]],
       device='cuda:0'), grad: tensor([[ 1.4640e-06, -1.6652e-06, -6.6031e-07,  ...,  1.6252e-06,
         -3.9581e-08, -1.5358e-06],
        [-3.1758e-06,  1.3374e-06,  1.1846e-06,  ..., -3.8780e-06,
         -1.3765e-06,  1.1288e-06],
        [ 2.9393e-06,  7.5018e-07,  1.3672e-06,  ...,  3.3211e-06,
          1.5739e-07,  3.0873e-07],
        ...,
        [ 1.9222e-06, -7.5288e-06,  5.9642e-06,  ...,  3.3937e-06,
          4.7637e-07,  6.3218e-06],
        [-1.1757e-05,  8.1863e-07, -6.3404e-06,  ..., -1.3158e-05,
          2.3935e-07,  1.0626e-06],
        [ 8.3912e-07,  3.4235e-06, -1.5721e-05,  ...,  1.0453e-05,
          1.2992e-07, -1.7345e-05]], device='cuda:0')
Epoch 124, bias, value: tensor([ 0.0029,  0.0037,  0.0077,  0.0119,  0.0265,  0.0369, -0.0265,  0.0105,
        -0.0386, -0.0205], device='cuda:0'), grad: tensor([ 1.7388e-06, -8.1863e-07,  3.5800e-06,  5.1767e-05, -6.8545e-06,
        -3.5882e-05,  1.4342e-05,  6.0797e-06, -2.8431e-05, -5.4576e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 123, time 218.59, cls_loss 0.0033 cls_loss_mapping 0.0055 cls_loss_causal 0.5471 re_mapping 0.0088 re_causal 0.0248 /// teacc 98.92 lr 0.00010000
Epoch 125, weight, value: tensor([[-0.0238,  0.1118,  0.0659,  ..., -0.1442, -0.0961,  0.0254],
        [ 0.1025, -0.0085, -0.0475,  ...,  0.0595,  0.0848, -0.1064],
        [-0.0603, -0.0359, -0.0383,  ..., -0.0623, -0.0152, -0.0371],
        ...,
        [-0.0391,  0.1236, -0.1438,  ..., -0.1047,  0.0129, -0.1131],
        [ 0.0009, -0.0827,  0.0290,  ...,  0.0525, -0.1026, -0.0414],
        [-0.0384, -0.0754,  0.0531,  ..., -0.0675, -0.0458,  0.1094]],
       device='cuda:0'), grad: tensor([[ 1.4948e-07, -3.9535e-07, -2.5425e-07,  ...,  1.6205e-07,
          2.7940e-08, -4.2655e-07],
        [-3.2783e-05,  4.5123e-07,  3.6508e-07,  ..., -5.5999e-05,
         -3.1233e-05,  3.1292e-07],
        [ 1.5482e-05,  1.0291e-07,  1.2945e-06,  ...,  2.5585e-05,
          1.4320e-05,  5.2154e-08],
        ...,
        [ 1.7107e-05, -2.0266e-06,  6.2473e-06,  ...,  3.4153e-05,
          1.5423e-05,  1.5810e-05],
        [ 5.0925e-06,  2.6310e-07,  1.1683e-05,  ...,  2.7865e-06,
          1.3271e-07,  4.4703e-06],
        [ 2.8545e-07,  6.1374e-07, -1.2413e-05,  ..., -2.7522e-05,
          6.4261e-08, -7.6711e-05]], device='cuda:0')
Epoch 125, bias, value: tensor([ 0.0029,  0.0037,  0.0079,  0.0116,  0.0269,  0.0372, -0.0265,  0.0106,
        -0.0386, -0.0211], device='cuda:0'), grad: tensor([-5.3318e-07, -5.4687e-05,  2.8312e-05, -3.1829e-05,  1.0687e-04,
         5.9977e-06, -1.3318e-07,  5.7817e-05,  3.3587e-05, -1.4532e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 124, time 218.14, cls_loss 0.0042 cls_loss_mapping 0.0059 cls_loss_causal 0.5615 re_mapping 0.0086 re_causal 0.0247 /// teacc 98.88 lr 0.00010000
Epoch 126, weight, value: tensor([[-0.0246,  0.1120,  0.0663,  ..., -0.1458, -0.0966,  0.0256],
        [ 0.1020, -0.0086, -0.0486,  ...,  0.0591,  0.0847, -0.1078],
        [-0.0594, -0.0363, -0.0387,  ..., -0.0618, -0.0149, -0.0373],
        ...,
        [-0.0393,  0.1240, -0.1443,  ..., -0.1048,  0.0127, -0.1141],
        [ 0.0024, -0.0824,  0.0283,  ...,  0.0539, -0.1030, -0.0423],
        [-0.0389, -0.0757,  0.0538,  ..., -0.0676, -0.0455,  0.1104]],
       device='cuda:0'), grad: tensor([[ 3.8091e-07, -6.9337e-07, -4.3539e-07,  ...,  6.2538e-07,
          5.7742e-08, -7.7533e-07],
        [ 1.8135e-05,  2.9756e-07,  5.1083e-07,  ...,  3.5077e-05,
          5.0291e-06,  1.6764e-08],
        [ 1.3262e-06,  2.4773e-07, -5.3318e-07,  ...,  2.0117e-06,
          1.4529e-07,  5.4948e-08],
        ...,
        [ 4.6045e-06,  3.3528e-06,  2.3156e-05,  ...,  7.1758e-07,
          8.5682e-08,  8.6147e-08],
        [-2.0638e-05,  1.2433e-07,  1.2824e-06,  ..., -4.0710e-05,
         -5.7295e-06,  8.0094e-08],
        [ 5.6485e-07,  9.6858e-07,  2.2668e-06,  ...,  2.2352e-07,
          2.3283e-08,  3.1991e-07]], device='cuda:0')
Epoch 126, bias, value: tensor([ 0.0029,  0.0026,  0.0092,  0.0119,  0.0269,  0.0372, -0.0279,  0.0107,
        -0.0378, -0.0209], device='cuda:0'), grad: tensor([-3.0827e-07,  4.6611e-05,  2.5611e-07, -5.9783e-05,  1.5385e-06,
         5.9158e-06, -1.0626e-06,  4.9382e-05, -4.8250e-05,  5.8077e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 125, time 218.17, cls_loss 0.0039 cls_loss_mapping 0.0057 cls_loss_causal 0.5538 re_mapping 0.0086 re_causal 0.0249 /// teacc 98.92 lr 0.00010000
Epoch 127, weight, value: tensor([[-0.0251,  0.1112,  0.0653,  ..., -0.1468, -0.0969,  0.0242],
        [ 0.1028, -0.0088, -0.0487,  ...,  0.0596,  0.0855, -0.1080],
        [-0.0600, -0.0372, -0.0391,  ..., -0.0623, -0.0155, -0.0375],
        ...,
        [-0.0396,  0.1247, -0.1449,  ..., -0.1051,  0.0123, -0.1148],
        [ 0.0022, -0.0826,  0.0282,  ...,  0.0538, -0.1034, -0.0424],
        [-0.0396, -0.0753,  0.0548,  ..., -0.0678, -0.0457,  0.1119]],
       device='cuda:0'), grad: tensor([[ 2.4140e-06, -1.9193e-05, -2.0206e-05,  ...,  1.9092e-06,
          2.7940e-09, -2.2322e-05],
        [ 6.9849e-08,  1.5851e-06,  7.2550e-07,  ..., -2.2305e-07,
         -6.8452e-08,  1.0151e-06],
        [ 8.1304e-07, -8.3074e-06,  7.4506e-07,  ...,  6.1430e-06,
          2.1886e-08,  6.4820e-07],
        ...,
        [ 4.6426e-07,  6.7279e-06,  1.1493e-06,  ...,  7.0594e-07,
          4.3306e-08,  9.2611e-06],
        [ 7.6741e-07,  2.0415e-06,  2.8722e-06,  ...,  7.8091e-07,
          8.7079e-08,  2.0023e-06],
        [ 7.0874e-07,  1.6332e-05,  1.3016e-05,  ...,  1.6745e-06,
          1.2107e-08,  2.1840e-07]], device='cuda:0')
Epoch 127, bias, value: tensor([ 0.0012,  0.0029,  0.0087,  0.0120,  0.0266,  0.0376, -0.0278,  0.0109,
        -0.0381, -0.0198], device='cuda:0'), grad: tensor([-7.2718e-05,  8.9705e-06, -9.2268e-05, -2.0079e-06,  4.1455e-05,
         6.0052e-06, -3.6448e-05,  1.2124e-04,  9.4771e-06,  1.6317e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 126, time 218.89, cls_loss 0.0037 cls_loss_mapping 0.0046 cls_loss_causal 0.5610 re_mapping 0.0089 re_causal 0.0255 /// teacc 98.86 lr 0.00010000
Epoch 128, weight, value: tensor([[-0.0249,  0.1119,  0.0663,  ..., -0.1465, -0.0972,  0.0244],
        [ 0.1024, -0.0090, -0.0508,  ...,  0.0585,  0.0857, -0.1093],
        [-0.0600, -0.0380, -0.0376,  ..., -0.0613, -0.0155, -0.0375],
        ...,
        [-0.0398,  0.1255, -0.1445,  ..., -0.1053,  0.0121, -0.1138],
        [ 0.0020, -0.0832,  0.0280,  ...,  0.0536, -0.1038, -0.0428],
        [-0.0400, -0.0764,  0.0542,  ..., -0.0683, -0.0458,  0.1118]],
       device='cuda:0'), grad: tensor([[-3.9302e-06, -7.8261e-05, -1.0943e-04,  ..., -4.2468e-05,
          4.6566e-10, -1.0145e-04],
        [ 3.1805e-07,  8.9360e-07,  1.0598e-06,  ...,  2.1644e-06,
         -1.3970e-09,  1.0319e-06],
        [ 4.7078e-07,  6.8638e-07, -6.9011e-07,  ...,  2.1514e-06,
          9.3132e-10,  3.5297e-07],
        ...,
        [ 1.5041e-06,  2.5854e-05,  2.9709e-06,  ...,  8.7917e-05,
          1.8626e-09,  3.1572e-06],
        [ 6.0320e-05,  1.9029e-05,  1.9506e-05,  ...,  6.1929e-05,
          1.3039e-08,  3.7670e-05],
        [ 1.0662e-05,  5.3495e-05,  5.6088e-05,  ...,  7.2002e-05,
          0.0000e+00,  4.7833e-05]], device='cuda:0')
Epoch 128, bias, value: tensor([ 0.0016,  0.0020,  0.0094,  0.0121,  0.0262,  0.0380, -0.0275,  0.0118,
        -0.0384, -0.0206], device='cuda:0'), grad: tensor([-2.0099e-04,  6.1840e-06,  1.5507e-06,  1.3866e-05, -3.1114e-04,
        -3.9554e-04,  3.7408e-04,  2.0599e-04,  9.9599e-05,  2.0742e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 127, time 217.69, cls_loss 0.0038 cls_loss_mapping 0.0059 cls_loss_causal 0.5678 re_mapping 0.0080 re_causal 0.0242 /// teacc 98.82 lr 0.00010000
Epoch 129, weight, value: tensor([[-0.0255,  0.1126,  0.0667,  ..., -0.1473, -0.0978,  0.0246],
        [ 0.1028, -0.0096, -0.0518,  ...,  0.0590,  0.0860, -0.1096],
        [-0.0605, -0.0388, -0.0374,  ..., -0.0618, -0.0157, -0.0379],
        ...,
        [-0.0399,  0.1263, -0.1450,  ..., -0.1056,  0.0121, -0.1144],
        [ 0.0027, -0.0821,  0.0295,  ...,  0.0548, -0.1052, -0.0420],
        [-0.0412, -0.0770,  0.0542,  ..., -0.0691, -0.0459,  0.1118]],
       device='cuda:0'), grad: tensor([[ 1.8510e-07, -3.0873e-07, -1.2550e-07,  ...,  3.6694e-07,
          7.9721e-07, -4.1444e-08],
        [-1.3009e-05,  2.4904e-06, -2.5844e-08,  ..., -2.1622e-05,
          3.7672e-07,  1.3690e-07],
        [ 2.2110e-06,  6.6590e-07,  1.3527e-07,  ...,  3.7793e-06,
         -1.2226e-05,  3.5623e-08],
        ...,
        [ 1.6429e-06, -5.6103e-06,  6.4913e-07,  ...,  1.7891e-06,
          1.3225e-06,  8.8476e-07],
        [ 1.2584e-05,  3.0990e-07,  4.8764e-06,  ...,  2.3305e-05,
          3.6019e-07,  1.0192e-05],
        [ 3.0990e-07,  1.3523e-06, -2.1309e-06,  ...,  1.6671e-06,
          3.8906e-07, -3.0492e-06]], device='cuda:0')
Epoch 129, bias, value: tensor([ 0.0018,  0.0019,  0.0093,  0.0118,  0.0262,  0.0380, -0.0278,  0.0120,
        -0.0378, -0.0208], device='cuda:0'), grad: tensor([ 1.7077e-05, -3.5074e-06, -2.6202e-04,  1.8990e-04,  3.2596e-06,
        -1.7792e-05,  8.9258e-06,  2.4125e-05,  3.1859e-05,  8.0690e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 128, time 216.95, cls_loss 0.0045 cls_loss_mapping 0.0078 cls_loss_causal 0.5343 re_mapping 0.0086 re_causal 0.0235 /// teacc 98.98 lr 0.00010000
Epoch 130, weight, value: tensor([[-0.0260,  0.1134,  0.0674,  ..., -0.1482, -0.0981,  0.0251],
        [ 0.1046, -0.0096, -0.0511,  ...,  0.0607,  0.0884, -0.1087],
        [-0.0612, -0.0397, -0.0375,  ..., -0.0624, -0.0172, -0.0394],
        ...,
        [-0.0409,  0.1270, -0.1454,  ..., -0.1066,  0.0104, -0.1151],
        [ 0.0023, -0.0817,  0.0295,  ...,  0.0542, -0.1056, -0.0423],
        [-0.0425, -0.0781,  0.0548,  ..., -0.0673, -0.0462,  0.1134]],
       device='cuda:0'), grad: tensor([[ 7.7067e-08, -4.2953e-06, -2.7511e-06,  ...,  2.3469e-07,
          1.6904e-07, -4.8503e-06],
        [-2.1188e-08,  2.9020e-06,  9.4064e-07,  ...,  1.2480e-07,
          4.4308e-07,  2.9965e-07],
        [ 2.0373e-07,  7.8827e-06,  3.8370e-06,  ...,  8.6054e-07,
          1.2387e-06,  8.7544e-07],
        ...,
        [ 4.2259e-07, -2.8282e-05,  8.1211e-06,  ...,  2.1756e-06,
          4.9220e-07, -2.7083e-06],
        [ 6.1374e-07,  7.1479e-07,  2.3879e-06,  ...,  1.1232e-06,
          8.3260e-07,  9.2667e-07],
        [ 1.1967e-07,  8.9109e-06,  2.9784e-06,  ...,  2.7902e-06,
          2.0228e-06,  5.1335e-06]], device='cuda:0')
Epoch 130, bias, value: tensor([ 0.0022,  0.0031,  0.0089,  0.0114,  0.0240,  0.0379, -0.0271,  0.0118,
        -0.0387, -0.0199], device='cuda:0'), grad: tensor([-9.1046e-06,  4.5240e-05, -2.1458e-05, -3.5763e-05,  4.1425e-06,
         1.0140e-05,  2.7083e-06, -3.0190e-05,  7.5623e-06,  2.6688e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 129, time 217.09, cls_loss 0.0030 cls_loss_mapping 0.0053 cls_loss_causal 0.6039 re_mapping 0.0082 re_causal 0.0251 /// teacc 98.94 lr 0.00010000
Epoch 131, weight, value: tensor([[-0.0270,  0.1138,  0.0676,  ..., -0.1489, -0.0989,  0.0252],
        [ 0.1051, -0.0099, -0.0512,  ...,  0.0612,  0.0889, -0.1086],
        [-0.0615, -0.0404, -0.0375,  ..., -0.0625, -0.0173, -0.0399],
        ...,
        [-0.0410,  0.1276, -0.1462,  ..., -0.1067,  0.0102, -0.1163],
        [ 0.0020, -0.0824,  0.0292,  ...,  0.0539, -0.1058, -0.0426],
        [-0.0430, -0.0785,  0.0551,  ..., -0.0675, -0.0464,  0.1138]],
       device='cuda:0'), grad: tensor([[ 2.7511e-06, -1.0068e-06, -1.2224e-07,  ...,  3.1292e-06,
          3.4692e-08, -3.9674e-07],
        [-1.3188e-05,  9.6392e-07,  2.8014e-05,  ...,  3.2205e-06,
         -3.7462e-05,  2.9713e-05],
        [ 2.0698e-05,  5.6252e-07,  1.6112e-06,  ...,  1.7837e-05,
          3.2395e-05,  8.9966e-07],
        ...,
        [ 3.9004e-06, -3.4571e-06,  1.6931e-06,  ...,  4.2245e-06,
          4.8839e-06,  1.3681e-06],
        [ 1.9848e-04,  2.0908e-07,  1.3411e-06,  ...,  2.1315e-04,
          1.8883e-07,  3.9011e-05],
        [-1.8299e-05,  1.6401e-06, -6.7651e-05,  ..., -4.7237e-05,
          2.2328e-07, -7.1585e-05]], device='cuda:0')
Epoch 131, bias, value: tensor([ 0.0021,  0.0031,  0.0088,  0.0116,  0.0239,  0.0382, -0.0269,  0.0120,
        -0.0392, -0.0200], device='cuda:0'), grad: tensor([ 4.2766e-06,  1.9580e-05,  5.0694e-05, -1.3374e-05,  9.0659e-05,
         4.9710e-05, -4.8566e-04,  8.1733e-06,  4.2439e-04, -1.4806e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 130, time 217.19, cls_loss 0.0041 cls_loss_mapping 0.0070 cls_loss_causal 0.5723 re_mapping 0.0082 re_causal 0.0247 /// teacc 98.85 lr 0.00010000
Epoch 132, weight, value: tensor([[-0.0271,  0.1122,  0.0667,  ..., -0.1495, -0.0990,  0.0231],
        [ 0.1055, -0.0104, -0.0514,  ...,  0.0614,  0.0894, -0.1091],
        [-0.0619, -0.0410, -0.0384,  ..., -0.0628, -0.0177, -0.0406],
        ...,
        [-0.0411,  0.1283, -0.1466,  ..., -0.1066,  0.0098, -0.1173],
        [ 0.0025, -0.0828,  0.0294,  ...,  0.0543, -0.1060, -0.0426],
        [-0.0435, -0.0772,  0.0564,  ..., -0.0678, -0.0466,  0.1163]],
       device='cuda:0'), grad: tensor([[ 5.5227e-07, -7.4785e-07,  2.5239e-07,  ...,  7.8557e-07,
          1.2107e-08, -2.4633e-07],
        [-4.1090e-06,  6.9709e-07,  3.8510e-07,  ..., -9.4026e-06,
         -1.5199e-06,  3.4040e-07],
        [ 2.1886e-06,  2.4540e-07,  5.0571e-07,  ...,  4.3884e-06,
          8.1258e-07,  2.5565e-07],
        ...,
        [ 8.0094e-07, -2.2799e-06,  1.7285e-06,  ...,  1.3858e-06,
          1.8207e-07,  2.5909e-06],
        [ 4.3027e-07,  3.3341e-07, -4.3958e-07,  ...,  9.5926e-08,
          1.5413e-07,  5.4240e-06],
        [ 2.1607e-06,  7.6648e-07,  1.9670e-06,  ...,  2.8424e-06,
          4.6566e-08,  9.3598e-07]], device='cuda:0')
Epoch 132, bias, value: tensor([ 8.0441e-05,  2.7230e-03,  8.1190e-03,  1.2262e-02,  2.3700e-02,
         3.8310e-02, -2.7228e-02,  1.2495e-02, -3.8886e-02, -1.8500e-02],
       device='cuda:0'), grad: tensor([ 3.1106e-06, -7.9423e-06, -1.9789e-05,  3.1263e-05,  3.1777e-06,
        -3.4034e-05,  6.0871e-06,  9.4548e-06,  3.8035e-06,  4.8205e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 131, time 217.26, cls_loss 0.0040 cls_loss_mapping 0.0060 cls_loss_causal 0.5742 re_mapping 0.0083 re_causal 0.0240 /// teacc 98.91 lr 0.00010000
Epoch 133, weight, value: tensor([[-0.0264,  0.1138,  0.0674,  ..., -0.1497, -0.0995,  0.0236],
        [ 0.1060, -0.0107, -0.0514,  ...,  0.0621,  0.0898, -0.1087],
        [-0.0621, -0.0439, -0.0411,  ..., -0.0638, -0.0181, -0.0442],
        ...,
        [-0.0413,  0.1290, -0.1472,  ..., -0.1072,  0.0095, -0.1181],
        [ 0.0020, -0.0833,  0.0286,  ...,  0.0539, -0.1067, -0.0436],
        [-0.0440, -0.0780,  0.0565,  ..., -0.0684, -0.0473,  0.1163]],
       device='cuda:0'), grad: tensor([[ 7.2643e-08, -5.7191e-05, -2.0385e-05,  ...,  2.1281e-07,
          3.7253e-09, -8.0228e-05],
        [-3.1590e-06,  2.8312e-07,  1.9046e-07,  ..., -2.7977e-06,
         -4.7823e-07,  2.8312e-07],
        [ 7.0082e-07,  2.1085e-06,  7.2876e-07,  ...,  1.3653e-06,
          8.8476e-09,  2.7698e-06],
        ...,
        [ 1.2852e-06,  1.6570e-05,  6.2510e-06,  ...,  9.7007e-06,
          1.1874e-07,  2.4512e-05],
        [ 1.3644e-07,  3.7178e-06,  1.9241e-06,  ...,  3.0547e-07,
          1.1642e-08,  6.2175e-06],
        [ 7.6881e-07,  3.1721e-06, -3.0287e-06,  ...,  1.3381e-05,
          2.9989e-07, -2.9709e-06]], device='cuda:0')
Epoch 133, bias, value: tensor([ 0.0010,  0.0027,  0.0065,  0.0127,  0.0241,  0.0400, -0.0275,  0.0125,
        -0.0397, -0.0189], device='cuda:0'), grad: tensor([-1.7560e-04, -3.2764e-06,  8.3372e-06,  8.3372e-06, -4.1604e-05,
         6.7353e-05,  2.6450e-05,  7.0333e-05,  1.3143e-05,  2.6584e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 132, time 217.19, cls_loss 0.0032 cls_loss_mapping 0.0061 cls_loss_causal 0.5685 re_mapping 0.0084 re_causal 0.0237 /// teacc 98.97 lr 0.00010000
Epoch 134, weight, value: tensor([[-0.0269,  0.1142,  0.0676,  ..., -0.1506, -0.0996,  0.0238],
        [ 0.1065, -0.0108, -0.0515,  ...,  0.0628,  0.0902, -0.1089],
        [-0.0623, -0.0447, -0.0413,  ..., -0.0643, -0.0181, -0.0448],
        ...,
        [-0.0417,  0.1296, -0.1478,  ..., -0.1078,  0.0087, -0.1190],
        [ 0.0020, -0.0835,  0.0289,  ...,  0.0539, -0.1067, -0.0437],
        [-0.0445, -0.0784,  0.0566,  ..., -0.0693, -0.0475,  0.1164]],
       device='cuda:0'), grad: tensor([[ 2.7800e-07, -3.4068e-06, -5.1893e-06,  ...,  6.6590e-07,
          3.6741e-07, -9.1642e-06],
        [-7.6771e-05,  3.1479e-06,  1.1409e-07,  ..., -1.9920e-04,
         -1.6487e-04,  1.4855e-07],
        [ 6.8665e-05,  6.7940e-07,  2.0256e-07,  ...,  1.8036e-04,
          1.4806e-04,  2.1188e-07],
        ...,
        [ 6.3740e-06, -6.1169e-06,  2.3469e-07,  ...,  1.3106e-05,
          1.2286e-05,  3.2922e-07],
        [ 4.1910e-09,  1.2089e-06, -1.4016e-07,  ...,  3.3947e-07,
          6.1281e-07,  3.3621e-07],
        [ 2.4913e-07,  1.6131e-06,  2.2724e-06,  ...,  6.8359e-07,
          3.8277e-07,  3.6061e-06]], device='cuda:0')
Epoch 134, bias, value: tensor([ 0.0011,  0.0026,  0.0064,  0.0122,  0.0246,  0.0400, -0.0271,  0.0126,
        -0.0396, -0.0193], device='cuda:0'), grad: tensor([-1.2517e-05, -5.7459e-04,  5.2214e-04,  6.5453e-06,  4.6901e-06,
         1.7080e-06,  7.1190e-06,  3.3140e-05,  3.5297e-06,  7.4692e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 133, time 217.92, cls_loss 0.0039 cls_loss_mapping 0.0068 cls_loss_causal 0.5475 re_mapping 0.0081 re_causal 0.0236 /// teacc 98.95 lr 0.00010000
Epoch 135, weight, value: tensor([[-0.0271,  0.1147,  0.0681,  ..., -0.1512, -0.0998,  0.0241],
        [ 0.1084, -0.0106, -0.0490,  ...,  0.0650,  0.0907, -0.1066],
        [-0.0629, -0.0450, -0.0414,  ..., -0.0653, -0.0188, -0.0456],
        ...,
        [-0.0425,  0.1295, -0.1498,  ..., -0.1092,  0.0091, -0.1195],
        [ 0.0015, -0.0841,  0.0282,  ...,  0.0539, -0.1060, -0.0444],
        [-0.0470, -0.0790,  0.0560,  ..., -0.0702, -0.0481,  0.1162]],
       device='cuda:0'), grad: tensor([[ 6.0815e-07,  4.6380e-07,  4.5868e-07,  ...,  1.0924e-06,
          4.0233e-07,  9.8534e-07],
        [ 1.8720e-07,  8.4043e-06,  1.2685e-06,  ...,  7.6974e-07,
          3.7067e-07,  2.3693e-06],
        [ 2.9663e-07,  3.9876e-05, -3.9116e-07,  ...,  3.0734e-07,
         -1.4538e-06,  2.1327e-07],
        ...,
        [ 8.8150e-07, -7.5877e-05, -4.6240e-07,  ...,  1.3057e-06,
         -9.4855e-07, -3.4785e-07],
        [ 3.4094e-04,  9.0718e-05,  3.1233e-04,  ...,  4.1032e-04,
          8.3447e-07,  3.8600e-04],
        [ 1.0291e-06,  1.1154e-05,  3.7905e-07,  ...,  4.3809e-06,
          1.1288e-06, -3.1246e-07]], device='cuda:0')
Epoch 135, bias, value: tensor([ 0.0014,  0.0038,  0.0061,  0.0114,  0.0244,  0.0404, -0.0265,  0.0121,
        -0.0396, -0.0200], device='cuda:0'), grad: tensor([ 5.9083e-06,  2.9042e-05,  1.3523e-05,  5.7578e-05, -5.3011e-06,
        -8.1348e-04,  7.4744e-05, -1.4639e-04,  7.5722e-04,  2.7373e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 134, time 217.31, cls_loss 0.0027 cls_loss_mapping 0.0050 cls_loss_causal 0.5486 re_mapping 0.0082 re_causal 0.0238 /// teacc 98.84 lr 0.00010000
Epoch 136, weight, value: tensor([[-0.0276,  0.1150,  0.0680,  ..., -0.1521, -0.1000,  0.0241],
        [ 0.1089, -0.0106, -0.0495,  ...,  0.0652,  0.0910, -0.1075],
        [-0.0632, -0.0452, -0.0412,  ..., -0.0655, -0.0188, -0.0460],
        ...,
        [-0.0428,  0.1297, -0.1508,  ..., -0.1099,  0.0091, -0.1215],
        [ 0.0015, -0.0847,  0.0281,  ...,  0.0539, -0.1065, -0.0449],
        [-0.0471, -0.0791,  0.0570,  ..., -0.0702, -0.0484,  0.1173]],
       device='cuda:0'), grad: tensor([[ 4.0978e-06, -7.4739e-07,  2.0534e-05,  ...,  1.7658e-05,
          9.7789e-09,  1.6615e-05],
        [-4.5542e-07,  1.8347e-07,  1.2089e-06,  ...,  1.3597e-07,
         -2.4028e-07,  1.3355e-06],
        [ 4.4703e-07,  7.4040e-08,  1.4529e-07,  ...,  1.3169e-06,
          1.1642e-08,  1.1474e-06],
        ...,
        [ 3.5111e-07, -1.1697e-06,  6.8471e-06,  ...,  3.2876e-06,
          8.8941e-08,  1.2293e-05],
        [-6.3956e-05,  1.6158e-07, -3.4881e-04,  ..., -2.8896e-04,
          4.0047e-08, -2.7919e-04],
        [ 1.6943e-05,  1.2396e-06,  7.4089e-05,  ...,  6.9022e-05,
          6.2399e-08,  4.1902e-05]], device='cuda:0')
Epoch 136, bias, value: tensor([ 0.0013,  0.0038,  0.0064,  0.0109,  0.0245,  0.0403, -0.0265,  0.0116,
        -0.0400, -0.0193], device='cuda:0'), grad: tensor([ 3.9220e-05,  2.0694e-06, -1.0081e-05,  1.2226e-05,  2.0802e-05,
         4.1747e-04,  2.3201e-05,  2.1100e-05, -6.4754e-04,  1.2147e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 135, time 217.41, cls_loss 0.0034 cls_loss_mapping 0.0045 cls_loss_causal 0.5399 re_mapping 0.0085 re_causal 0.0240 /// teacc 98.85 lr 0.00010000
Epoch 137, weight, value: tensor([[-0.0278,  0.1151,  0.0682,  ..., -0.1528, -0.1000,  0.0242],
        [ 0.1094, -0.0107, -0.0505,  ...,  0.0654,  0.0911, -0.1078],
        [-0.0635, -0.0455, -0.0416,  ..., -0.0658, -0.0190, -0.0461],
        ...,
        [-0.0435,  0.1293, -0.1533,  ..., -0.1107,  0.0096, -0.1208],
        [ 0.0014, -0.0851,  0.0280,  ...,  0.0540, -0.1069, -0.0451],
        [-0.0476, -0.0782,  0.0589,  ..., -0.0705, -0.0497,  0.1175]],
       device='cuda:0'), grad: tensor([[ 1.9401e-05,  3.9525e-06,  9.4697e-06,  ...,  7.3910e-06,
          2.0489e-08,  6.6757e-06],
        [-2.6226e-04, -7.3314e-05, -1.0854e-04,  ..., -1.0622e-04,
         -1.2062e-05, -7.1883e-05],
        [ 4.3325e-06,  9.7416e-07,  2.1271e-06,  ...,  1.8841e-06,
          8.1956e-08,  1.3188e-06],
        ...,
        [ 6.6042e-05,  2.6807e-05,  1.6123e-05,  ...,  3.3021e-05,
          1.0431e-05,  1.1280e-05],
        [ 1.2022e-04,  2.5049e-05,  5.9277e-05,  ...,  4.5061e-05,
          4.9872e-07,  4.2379e-05],
        [ 4.2558e-05,  1.3739e-05,  5.3458e-07,  ...,  1.8045e-05,
          5.3877e-07, -1.8030e-05]], device='cuda:0')
Epoch 137, bias, value: tensor([ 0.0013,  0.0034,  0.0062,  0.0118,  0.0247,  0.0398, -0.0266,  0.0109,
        -0.0401, -0.0183], device='cuda:0'), grad: tensor([ 3.9309e-05, -5.4216e-04,  9.8124e-06,  7.9051e-06, -4.8280e-06,
         3.0160e-05,  1.0924e-06,  1.4102e-04,  2.4533e-04,  7.2002e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 136, time 217.30, cls_loss 0.0032 cls_loss_mapping 0.0055 cls_loss_causal 0.5481 re_mapping 0.0075 re_causal 0.0227 /// teacc 98.98 lr 0.00010000
Epoch 138, weight, value: tensor([[-0.0283,  0.1154,  0.0684,  ..., -0.1536, -0.0999,  0.0243],
        [ 0.1101, -0.0110, -0.0509,  ...,  0.0656,  0.0920, -0.1081],
        [-0.0636, -0.0457, -0.0403,  ..., -0.0659, -0.0191, -0.0448],
        ...,
        [-0.0439,  0.1299, -0.1545,  ..., -0.1114,  0.0086, -0.1222],
        [ 0.0013, -0.0854,  0.0278,  ...,  0.0541, -0.1069, -0.0451],
        [-0.0485, -0.0786,  0.0592,  ..., -0.0707, -0.0503,  0.1181]],
       device='cuda:0'), grad: tensor([[ 3.8464e-07,  4.1910e-08,  1.8114e-07,  ...,  3.6974e-07,
         -1.1409e-07, -2.4028e-07],
        [-1.1809e-05,  2.0996e-05,  1.8226e-06,  ...,  3.8631e-06,
         -3.3379e-06,  6.7195e-07],
        [ 2.3190e-06,  4.0531e-06,  3.3826e-06,  ...,  7.6741e-07,
          8.5961e-07,  2.8592e-07],
        ...,
        [ 1.2279e-05, -2.7850e-05,  3.0398e-06,  ...,  1.6317e-05,
          1.4994e-06,  7.9116e-07],
        [-1.4268e-05,  9.7323e-08, -7.6145e-06,  ..., -2.4617e-05,
          1.9837e-07, -2.0221e-05],
        [ 1.7092e-05,  7.4320e-07,  2.1309e-05,  ...,  2.9400e-05,
          5.0850e-07,  1.3776e-05]], device='cuda:0')
Epoch 138, bias, value: tensor([ 0.0013,  0.0034,  0.0070,  0.0120,  0.0248,  0.0400, -0.0266,  0.0104,
        -0.0406, -0.0183], device='cuda:0'), grad: tensor([ 1.1725e-06,  3.8117e-05,  1.6496e-05, -7.5340e-05, -5.6535e-05,
         1.9744e-05,  6.1169e-06, -7.5214e-06, -2.1741e-05,  7.9334e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 137, time 217.11, cls_loss 0.0046 cls_loss_mapping 0.0070 cls_loss_causal 0.5767 re_mapping 0.0080 re_causal 0.0235 /// teacc 98.92 lr 0.00010000
Epoch 139, weight, value: tensor([[-0.0285,  0.1155,  0.0694,  ..., -0.1560, -0.1001,  0.0245],
        [ 0.1112, -0.0112, -0.0504,  ...,  0.0665,  0.0922, -0.1077],
        [-0.0640, -0.0462, -0.0407,  ..., -0.0664, -0.0188, -0.0451],
        ...,
        [-0.0445,  0.1311, -0.1542,  ..., -0.1121,  0.0085, -0.1219],
        [ 0.0034, -0.0856,  0.0331,  ...,  0.0560, -0.1063, -0.0402],
        [-0.0522, -0.0799,  0.0554,  ..., -0.0707, -0.0521,  0.1158]],
       device='cuda:0'), grad: tensor([[ 6.5677e-06,  1.0245e-06,  5.8785e-06,  ...,  8.3148e-06,
          1.0245e-08,  4.3958e-06],
        [ 3.1898e-07,  8.8988e-07,  1.3988e-06,  ...,  1.4454e-06,
         -1.3737e-07,  1.2890e-06],
        [ 9.3551e-07,  4.1118e-07,  1.3877e-06,  ...,  1.3793e-06,
          7.4971e-08,  7.7765e-07],
        ...,
        [ 6.8313e-07, -4.7199e-06,  7.7710e-06,  ...,  3.1628e-06,
          1.3132e-07,  1.1645e-05],
        [ 4.1444e-07,  1.7043e-07, -4.9025e-06,  ..., -4.2059e-06,
          6.0862e-07, -2.7139e-06],
        [ 4.7637e-07,  3.4496e-06, -1.2487e-05,  ...,  2.6934e-06,
          5.1223e-08, -1.9103e-05]], device='cuda:0')
Epoch 139, bias, value: tensor([ 0.0015,  0.0036,  0.0071,  0.0119,  0.0229,  0.0400, -0.0274,  0.0108,
        -0.0362, -0.0208], device='cuda:0'), grad: tensor([ 3.5256e-05,  7.7784e-06, -7.5400e-05, -2.4419e-06,  3.5554e-05,
         1.8522e-05, -1.2554e-05,  2.8431e-05, -2.8927e-06, -3.2395e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 138, time 217.23, cls_loss 0.0034 cls_loss_mapping 0.0063 cls_loss_causal 0.5555 re_mapping 0.0078 re_causal 0.0228 /// teacc 98.81 lr 0.00010000
Epoch 140, weight, value: tensor([[-0.0288,  0.1160,  0.0697,  ..., -0.1570, -0.1003,  0.0245],
        [ 0.1116, -0.0116, -0.0495,  ...,  0.0662,  0.0936, -0.1074],
        [-0.0643, -0.0465, -0.0409,  ..., -0.0664, -0.0189, -0.0453],
        ...,
        [-0.0447,  0.1324, -0.1533,  ..., -0.1119,  0.0064, -0.1214],
        [ 0.0033, -0.0865,  0.0331,  ...,  0.0560, -0.1068, -0.0402],
        [-0.0536, -0.0812,  0.0551,  ..., -0.0708, -0.0522,  0.1159]],
       device='cuda:0'), grad: tensor([[ 1.7136e-07, -1.4171e-05, -3.5971e-05,  ..., -6.3218e-06,
          2.5611e-08, -2.3663e-05],
        [-3.6089e-07,  9.4390e-07,  1.0207e-06,  ..., -2.5984e-07,
         -2.0489e-07,  8.4704e-07],
        [ 1.2806e-07,  4.8168e-06,  1.3277e-05,  ...,  2.5481e-06,
          2.1886e-08,  8.7470e-06],
        ...,
        [ 3.6228e-07, -4.0419e-06,  2.2240e-06,  ...,  5.1456e-07,
          1.0896e-07,  2.5369e-06],
        [ 4.6305e-06,  1.5898e-06,  2.6956e-05,  ...,  1.1235e-05,
          6.3796e-08,  4.1813e-05],
        [-1.4724e-06,  4.0568e-06, -2.0549e-05,  ..., -5.9940e-06,
          6.1933e-08, -4.3929e-05]], device='cuda:0')
Epoch 140, bias, value: tensor([ 0.0015,  0.0030,  0.0076,  0.0124,  0.0225,  0.0396, -0.0270,  0.0116,
        -0.0363, -0.0211], device='cuda:0'), grad: tensor([-8.1003e-05,  2.6524e-06,  2.9922e-05,  2.6748e-06,  7.6294e-06,
         4.0904e-06,  1.7151e-05, -8.1677e-07,  5.1975e-05, -3.4362e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 139, time 217.21, cls_loss 0.0042 cls_loss_mapping 0.0055 cls_loss_causal 0.5839 re_mapping 0.0083 re_causal 0.0231 /// teacc 98.69 lr 0.00010000
Epoch 141, weight, value: tensor([[-0.0294,  0.1163,  0.0699,  ..., -0.1582, -0.1015,  0.0245],
        [ 0.1112, -0.0119, -0.0499,  ...,  0.0658,  0.0929, -0.1079],
        [-0.0646, -0.0477, -0.0423,  ..., -0.0669, -0.0189, -0.0443],
        ...,
        [-0.0450,  0.1334, -0.1535,  ..., -0.1125,  0.0062, -0.1224],
        [ 0.0031, -0.0871,  0.0334,  ...,  0.0563, -0.1049, -0.0406],
        [-0.0541, -0.0817,  0.0551,  ..., -0.0714, -0.0525,  0.1161]],
       device='cuda:0'), grad: tensor([[ 3.7253e-07, -1.5572e-05, -2.5071e-06,  ...,  4.1816e-07,
         -1.3888e-05, -8.5309e-06],
        [-1.3039e-06,  3.6182e-07,  6.4354e-07,  ...,  4.0270e-06,
          4.3213e-07,  1.1222e-07],
        [ 1.4007e-06,  1.8589e-06, -6.8173e-07,  ...,  6.6310e-07,
         -1.2845e-05,  3.4412e-07],
        ...,
        [ 2.9281e-06,  1.9111e-06,  5.6662e-06,  ...,  1.1295e-05,
          1.8794e-06,  4.7591e-07],
        [ 5.7295e-06,  1.5516e-06,  3.8035e-06,  ...,  6.1393e-06,
          6.9849e-06,  6.8396e-06],
        [ 8.2003e-07,  2.9374e-06,  1.1744e-06,  ...,  5.4277e-06,
          2.1644e-06,  4.7637e-07]], device='cuda:0')
Epoch 141, bias, value: tensor([ 0.0014,  0.0023,  0.0062,  0.0121,  0.0225,  0.0397, -0.0261,  0.0118,
        -0.0350, -0.0215], device='cuda:0'), grad: tensor([-2.2560e-05,  9.2268e-05, -3.3321e-03,  4.2558e-04, -3.2216e-05,
        -4.9233e-05,  2.8908e-05,  2.7657e-03,  9.8765e-05,  2.2471e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 140, time 217.61, cls_loss 0.0063 cls_loss_mapping 0.0072 cls_loss_causal 0.5785 re_mapping 0.0085 re_causal 0.0238 /// teacc 98.90 lr 0.00010000
Epoch 142, weight, value: tensor([[-0.0297,  0.1171,  0.0702,  ..., -0.1590, -0.1013,  0.0247],
        [ 0.1124, -0.0122, -0.0502,  ...,  0.0662,  0.0932, -0.1082],
        [-0.0652, -0.0504, -0.0442,  ..., -0.0679, -0.0193, -0.0443],
        ...,
        [-0.0462,  0.1345, -0.1539,  ..., -0.1139,  0.0059, -0.1230],
        [ 0.0028, -0.0875,  0.0359,  ...,  0.0560, -0.1041, -0.0382],
        [-0.0544, -0.0820,  0.0533,  ..., -0.0719, -0.0526,  0.1146]],
       device='cuda:0'), grad: tensor([[ 1.9372e-07, -1.1129e-07,  4.0652e-07,  ...,  4.1630e-07,
          3.3062e-08,  3.0082e-07],
        [-1.3504e-08,  3.1851e-07,  3.4971e-07,  ..., -1.0915e-05,
         -2.5555e-06,  2.8918e-07],
        [ 1.3083e-05,  9.5461e-08,  3.6415e-07,  ...,  1.7852e-05,
          5.4948e-07,  4.2841e-08],
        ...,
        [ 7.4506e-08, -4.9919e-06,  2.5239e-07,  ...,  5.1558e-06,
          1.1474e-06,  1.8720e-07],
        [ 4.7451e-07,  6.3796e-08,  5.5954e-06,  ...,  2.3320e-06,
          2.6263e-07,  5.6773e-06],
        [ 1.6019e-07,  4.2431e-06, -1.8120e-05,  ..., -2.9467e-06,
          6.6124e-08, -1.6928e-05]], device='cuda:0')
Epoch 142, bias, value: tensor([ 0.0016,  0.0021,  0.0055,  0.0118,  0.0231,  0.0395, -0.0252,  0.0118,
        -0.0329, -0.0232], device='cuda:0'), grad: tensor([ 1.1930e-06, -1.5527e-05,  6.1333e-05,  6.8173e-06,  1.9342e-05,
        -4.5300e-06, -6.2048e-05,  1.7779e-06,  1.0975e-05, -1.9431e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 141, time 217.74, cls_loss 0.0039 cls_loss_mapping 0.0046 cls_loss_causal 0.5521 re_mapping 0.0088 re_causal 0.0244 /// teacc 98.90 lr 0.00010000
Epoch 143, weight, value: tensor([[-0.0298,  0.1175,  0.0703,  ..., -0.1592, -0.1014,  0.0248],
        [ 0.1132, -0.0124, -0.0498,  ...,  0.0669,  0.0934, -0.1081],
        [-0.0652, -0.0491, -0.0471,  ..., -0.0702, -0.0211, -0.0445],
        ...,
        [-0.0465,  0.1341, -0.1547,  ..., -0.1142,  0.0057, -0.1235],
        [ 0.0026, -0.0881,  0.0356,  ...,  0.0556, -0.1042, -0.0384],
        [-0.0547, -0.0818,  0.0538,  ..., -0.0720, -0.0528,  0.1152]],
       device='cuda:0'), grad: tensor([[ 2.8424e-06, -5.7695e-07,  4.0457e-06,  ...,  9.7156e-06,
          4.6566e-10,  3.7160e-06],
        [ 4.1910e-09,  2.6748e-06,  5.9698e-07,  ...,  3.6554e-07,
         -3.6787e-08,  6.6869e-07],
        [ 2.5295e-06,  5.5414e-07,  4.3586e-06,  ...,  8.6948e-06,
          4.6566e-09,  4.0643e-06],
        ...,
        [-2.4214e-08, -2.3916e-05,  1.4193e-06,  ...,  4.7218e-07,
          1.8626e-08,  1.6587e-06],
        [ 4.8392e-06,  5.3346e-06,  1.3806e-05,  ...,  1.6183e-05,
          4.1910e-09,  1.7002e-05],
        [ 1.4389e-07,  7.0967e-07, -1.2435e-05,  ...,  3.2820e-06,
          2.7940e-09, -1.7881e-05]], device='cuda:0')
Epoch 143, bias, value: tensor([ 0.0016,  0.0023,  0.0041,  0.0117,  0.0227,  0.0418, -0.0250,  0.0110,
        -0.0334, -0.0227], device='cuda:0'), grad: tensor([ 1.9073e-05,  6.5342e-06,  1.8761e-05,  2.7806e-05,  1.8422e-06,
         4.8399e-04, -5.5647e-04, -3.9190e-05,  5.9187e-05, -2.1219e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 142, time 217.68, cls_loss 0.0041 cls_loss_mapping 0.0053 cls_loss_causal 0.5561 re_mapping 0.0079 re_causal 0.0230 /// teacc 98.88 lr 0.00010000
Epoch 144, weight, value: tensor([[-0.0305,  0.1180,  0.0706,  ..., -0.1600, -0.1030,  0.0248],
        [ 0.1133, -0.0125, -0.0504,  ...,  0.0669,  0.0933, -0.1083],
        [-0.0650, -0.0491, -0.0469,  ..., -0.0701, -0.0211, -0.0447],
        ...,
        [-0.0466,  0.1350, -0.1548,  ..., -0.1149,  0.0059, -0.1239],
        [ 0.0027, -0.0886,  0.0356,  ...,  0.0559, -0.1042, -0.0385],
        [-0.0549, -0.0824,  0.0540,  ..., -0.0726, -0.0525,  0.1154]],
       device='cuda:0'), grad: tensor([[ 6.7139e-04,  3.6812e-04, -3.7253e-08,  ...,  6.9551e-06,
          1.2178e-03,  1.9836e-04],
        [-1.1265e-05,  3.2410e-07,  9.0338e-08,  ..., -1.8269e-05,
          6.5612e-07,  2.1746e-07],
        [ 7.7635e-06,  1.0133e-06,  1.0245e-07,  ...,  9.6485e-06,
          2.7008e-06,  5.4669e-07],
        ...,
        [ 4.2915e-06, -5.8068e-07,  1.5367e-07,  ...,  6.7279e-06,
          1.4435e-07,  1.0012e-07],
        [ 7.4971e-07,  1.0421e-06, -1.9390e-06,  ..., -4.2170e-06,
          1.6969e-06, -2.8200e-06],
        [ 2.1942e-06,  6.7195e-07,  2.1886e-06,  ...,  6.2101e-06,
          8.2795e-07,  3.1181e-06]], device='cuda:0')
Epoch 144, bias, value: tensor([ 0.0013,  0.0018,  0.0044,  0.0129,  0.0233,  0.0404, -0.0246,  0.0116,
        -0.0334, -0.0231], device='cuda:0'), grad: tensor([ 2.3117e-03, -5.1469e-05,  3.2634e-05,  1.6832e-03,  1.2731e-06,
        -1.6518e-03, -2.3556e-03,  1.9148e-05, -6.6590e-08,  1.3053e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 143, time 217.10, cls_loss 0.0029 cls_loss_mapping 0.0051 cls_loss_causal 0.5340 re_mapping 0.0079 re_causal 0.0231 /// teacc 98.89 lr 0.00010000
Epoch 145, weight, value: tensor([[-0.0314,  0.1182,  0.0712,  ..., -0.1604, -0.1044,  0.0251],
        [ 0.1139, -0.0127, -0.0504,  ...,  0.0670,  0.0942, -0.1084],
        [-0.0656, -0.0488, -0.0477,  ..., -0.0702, -0.0218, -0.0450],
        ...,
        [-0.0472,  0.1352, -0.1552,  ..., -0.1155,  0.0057, -0.1245],
        [ 0.0027, -0.0889,  0.0359,  ...,  0.0560, -0.1043, -0.0386],
        [-0.0554, -0.0827,  0.0539,  ..., -0.0737, -0.0527,  0.1154]],
       device='cuda:0'), grad: tensor([[ 3.4692e-07, -2.7902e-06, -4.6343e-06,  ...,  5.4203e-07,
          8.5216e-08, -5.3346e-06],
        [ 2.9877e-06,  2.6003e-06,  3.2391e-06,  ...,  3.0864e-06,
         -1.9977e-07,  4.4517e-07],
        [ 3.3975e-06,  2.9011e-07,  2.8368e-06,  ...,  2.4978e-06,
         -2.6077e-08,  2.8173e-07],
        ...,
        [ 1.6019e-05, -4.6790e-06,  1.4462e-05,  ...,  1.2591e-05,
          4.2375e-07,  2.6580e-06],
        [ 1.1779e-05, -1.5646e-06,  5.8532e-05,  ...,  2.2382e-05,
          1.1228e-05,  8.0943e-05],
        [ 1.2200e-06,  1.6391e-06, -4.7803e-05,  ..., -1.7449e-05,
         -1.2986e-05, -9.1970e-05]], device='cuda:0')
Epoch 145, bias, value: tensor([ 0.0013,  0.0019,  0.0035,  0.0128,  0.0245,  0.0404, -0.0244,  0.0115,
        -0.0327, -0.0237], device='cuda:0'), grad: tensor([-1.4074e-05,  2.1204e-05,  1.4484e-05, -1.9777e-04,  2.4494e-07,
         4.4674e-05,  3.6284e-06,  6.2048e-05,  1.5354e-04, -8.8036e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 144, time 217.13, cls_loss 0.0030 cls_loss_mapping 0.0042 cls_loss_causal 0.5391 re_mapping 0.0082 re_causal 0.0230 /// teacc 98.87 lr 0.00010000
Epoch 146, weight, value: tensor([[-0.0316,  0.1193,  0.0702,  ..., -0.1608, -0.1052,  0.0240],
        [ 0.1146, -0.0126, -0.0511,  ...,  0.0675,  0.0943, -0.1096],
        [-0.0656, -0.0486, -0.0478,  ..., -0.0705, -0.0218, -0.0452],
        ...,
        [-0.0479,  0.1353, -0.1557,  ..., -0.1160,  0.0056, -0.1250],
        [ 0.0025, -0.0898,  0.0358,  ...,  0.0558, -0.1045, -0.0387],
        [-0.0559, -0.0829,  0.0543,  ..., -0.0740, -0.0520,  0.1160]],
       device='cuda:0'), grad: tensor([[ 3.4459e-07, -1.8813e-07, -8.9407e-08,  ...,  3.8417e-07,
         -4.7497e-08, -2.2398e-07],
        [-4.1910e-08,  1.4259e-06,  1.3271e-07,  ...,  8.1956e-07,
         -8.1491e-08,  9.9652e-08],
        [ 5.6345e-08,  5.4948e-08,  1.2061e-07,  ...,  2.0210e-07,
         -4.0978e-08,  1.8161e-08],
        ...,
        [ 3.6787e-08, -2.5071e-06,  5.3318e-07,  ...,  3.0231e-06,
          1.3271e-07,  3.7346e-07],
        [ 5.8068e-07,  1.7835e-07,  2.3562e-06,  ...,  5.8953e-07,
          1.4203e-07,  2.3898e-06],
        [ 2.2538e-07,  1.3951e-06, -2.0489e-06,  ...,  4.2468e-06,
          7.1712e-08, -2.9393e-06]], device='cuda:0')
Epoch 146, bias, value: tensor([ 0.0005,  0.0019,  0.0036,  0.0128,  0.0245,  0.0409, -0.0246,  0.0110,
        -0.0329, -0.0233], device='cuda:0'), grad: tensor([ 7.1526e-07,  4.6678e-06, -2.4401e-07,  4.0233e-06, -1.3381e-05,
        -8.2999e-06, -2.4941e-06,  2.4829e-06,  6.3553e-06,  6.1840e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 145, time 217.50, cls_loss 0.0024 cls_loss_mapping 0.0041 cls_loss_causal 0.5600 re_mapping 0.0076 re_causal 0.0233 /// teacc 98.90 lr 0.00010000
Epoch 147, weight, value: tensor([[-0.0316,  0.1197,  0.0706,  ..., -0.1611, -0.1053,  0.0242],
        [ 0.1149, -0.0126, -0.0513,  ...,  0.0678,  0.0946, -0.1098],
        [-0.0659, -0.0488, -0.0481,  ..., -0.0707, -0.0220, -0.0452],
        ...,
        [-0.0483,  0.1358, -0.1558,  ..., -0.1164,  0.0054, -0.1254],
        [ 0.0025, -0.0903,  0.0357,  ...,  0.0558, -0.1045, -0.0388],
        [-0.0562, -0.0833,  0.0543,  ..., -0.0743, -0.0521,  0.1162]],
       device='cuda:0'), grad: tensor([[ 2.1718e-06,  3.2224e-06, -1.9325e-07,  ...,  2.2119e-07,
          6.5193e-09,  4.6985e-07],
        [-4.6194e-07,  2.4913e-07,  1.6261e-06,  ..., -2.3842e-07,
         -1.3970e-07,  1.6820e-06],
        [ 1.1995e-06,  1.8869e-06,  2.2799e-06,  ...,  2.7288e-07,
          1.5367e-08,  1.7649e-07],
        ...,
        [ 2.2687e-06,  3.5036e-06,  6.4932e-06,  ...,  4.4284e-07,
          7.2177e-08,  1.6149e-06],
        [ 1.2666e-06,  6.5705e-07,  3.0454e-06,  ...,  4.1910e-07,
          2.8871e-08,  4.1574e-06],
        [ 4.1537e-07,  7.1526e-07, -1.3433e-05,  ...,  6.0583e-07,
          3.4925e-08, -1.8448e-05]], device='cuda:0')
Epoch 147, bias, value: tensor([ 0.0007,  0.0020,  0.0033,  0.0132,  0.0246,  0.0408, -0.0243,  0.0108,
        -0.0330, -0.0233], device='cuda:0'), grad: tensor([ 1.1347e-05,  4.8354e-06,  7.3388e-06, -2.3901e-05,  2.6077e-05,
         8.1677e-07, -1.7479e-05,  1.7807e-05,  1.0617e-05, -3.7491e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 146, time 217.21, cls_loss 0.0027 cls_loss_mapping 0.0049 cls_loss_causal 0.5621 re_mapping 0.0076 re_causal 0.0230 /// teacc 98.92 lr 0.00010000
Epoch 148, weight, value: tensor([[-0.0299,  0.1212,  0.0708,  ..., -0.1613, -0.1053,  0.0242],
        [ 0.1147, -0.0130, -0.0516,  ...,  0.0678,  0.0950, -0.1102],
        [-0.0662, -0.0489, -0.0482,  ..., -0.0708, -0.0223, -0.0458],
        ...,
        [-0.0486,  0.1365, -0.1561,  ..., -0.1176,  0.0052, -0.1261],
        [ 0.0024, -0.0906,  0.0356,  ...,  0.0557, -0.1047, -0.0389],
        [-0.0564, -0.0843,  0.0546,  ..., -0.0746, -0.0523,  0.1167]],
       device='cuda:0'), grad: tensor([[ 2.2352e-08, -2.1793e-06, -1.1623e-06,  ...,  7.1712e-08,
         -1.2107e-08, -1.4994e-06],
        [-3.5437e-07,  1.6810e-07,  3.0641e-07,  ..., -5.5647e-07,
         -8.4285e-08,  3.7253e-08],
        [ 5.8208e-08,  2.3469e-07,  1.3178e-06,  ...,  2.1933e-07,
          2.2817e-08,  6.5658e-08],
        ...,
        [ 8.3819e-08, -4.4098e-07,  2.2277e-06,  ...,  1.9884e-07,
          1.8626e-08,  7.7300e-07],
        [-4.4238e-08,  1.6950e-07,  2.9001e-06,  ..., -6.1328e-07,
          3.7253e-08,  2.3432e-06],
        [ 4.7032e-08,  1.8133e-06, -1.0710e-06,  ...,  1.8626e-07,
          2.9337e-08, -2.3693e-06]], device='cuda:0')
Epoch 148, bias, value: tensor([ 0.0018,  0.0015,  0.0033,  0.0137,  0.0247,  0.0403, -0.0246,  0.0105,
        -0.0332, -0.0230], device='cuda:0'), grad: tensor([-4.0531e-06,  1.3933e-06, -1.0729e-05, -2.3812e-05,  5.5693e-06,
         6.8322e-06,  7.8380e-06,  7.9796e-06,  8.5235e-06,  5.4203e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 147, time 216.86, cls_loss 0.0031 cls_loss_mapping 0.0047 cls_loss_causal 0.5443 re_mapping 0.0077 re_causal 0.0223 /// teacc 98.92 lr 0.00010000
Epoch 149, weight, value: tensor([[-0.0300,  0.1235,  0.0722,  ..., -0.1619, -0.1054,  0.0248],
        [ 0.1148, -0.0140, -0.0517,  ...,  0.0679,  0.0952, -0.1103],
        [-0.0664, -0.0493, -0.0485,  ..., -0.0709, -0.0225, -0.0460],
        ...,
        [-0.0486,  0.1378, -0.1566,  ..., -0.1176,  0.0052, -0.1270],
        [ 0.0028, -0.0920,  0.0355,  ...,  0.0558, -0.1047, -0.0391],
        [-0.0567, -0.0849,  0.0548,  ..., -0.0742, -0.0525,  0.1172]],
       device='cuda:0'), grad: tensor([[ 8.6101e-07,  2.4308e-07,  1.7881e-07,  ...,  1.8124e-06,
          7.6834e-08,  2.6124e-07],
        [-1.0945e-05, -7.5484e-07, -2.8759e-06,  ...,  7.9691e-05,
         -7.3016e-06,  2.3097e-07],
        [ 3.2634e-06,  9.1270e-08,  9.9279e-07,  ...,  3.3714e-06,
          3.1106e-06,  1.4156e-07],
        ...,
        [ 2.9448e-06,  2.6682e-07,  6.2305e-07,  ...,  7.7188e-06,
          1.0980e-06,  8.4285e-08],
        [ 1.8124e-06,  3.4180e-07,  6.6264e-07,  ...,  9.5665e-06,
          4.4750e-07,  5.6531e-07],
        [ 1.5050e-06,  1.3784e-07,  3.6694e-07,  ...,  1.5843e-04,
          1.0338e-06,  7.2829e-07]], device='cuda:0')
Epoch 149, bias, value: tensor([ 0.0031,  0.0010,  0.0032,  0.0127,  0.0240,  0.0413, -0.0250,  0.0109,
        -0.0334, -0.0228], device='cuda:0'), grad: tensor([ 4.5896e-06,  1.4436e-04,  6.9775e-06,  2.9244e-06, -4.9686e-04,
         6.8620e-06,  2.2929e-06,  1.5572e-05,  1.9208e-05,  2.9469e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 148, time 217.35, cls_loss 0.0026 cls_loss_mapping 0.0044 cls_loss_causal 0.5725 re_mapping 0.0075 re_causal 0.0234 /// teacc 98.93 lr 0.00010000
Epoch 150, weight, value: tensor([[-0.0309,  0.1238,  0.0723,  ..., -0.1636, -0.1076,  0.0248],
        [ 0.1150, -0.0144, -0.0519,  ...,  0.0678,  0.0958, -0.1106],
        [-0.0665, -0.0492, -0.0487,  ..., -0.0711, -0.0227, -0.0460],
        ...,
        [-0.0489,  0.1384, -0.1568,  ..., -0.1182,  0.0046, -0.1272],
        [ 0.0026, -0.0927,  0.0354,  ...,  0.0556, -0.1051, -0.0392],
        [-0.0569, -0.0853,  0.0549,  ..., -0.0746, -0.0526,  0.1174]],
       device='cuda:0'), grad: tensor([[ 6.2771e-07, -6.5193e-08,  3.7346e-07,  ...,  6.5658e-07,
          1.6578e-07,  2.8405e-07],
        [ 1.7405e-05,  3.6368e-07,  9.1493e-06,  ...,  1.0677e-05,
          3.5390e-08,  4.6715e-06],
        [ 1.4501e-06,  2.1234e-07,  7.6741e-07,  ...,  9.5274e-07,
          2.9802e-08,  3.1292e-07],
        ...,
        [ 4.9826e-07, -1.1651e-06,  9.3784e-07,  ...,  4.7032e-07,
          8.8941e-08,  6.8778e-07],
        [-3.0786e-05,  1.6904e-07, -7.6890e-06,  ..., -2.0549e-05,
          1.3709e-06, -2.6692e-06],
        [ 6.4541e-07,  4.1304e-07, -3.7365e-06,  ...,  1.1474e-06,
          2.3004e-07, -3.5372e-06]], device='cuda:0')
Epoch 150, bias, value: tensor([ 0.0022,  0.0006,  0.0033,  0.0124,  0.0250,  0.0420, -0.0251,  0.0110,
        -0.0337, -0.0230], device='cuda:0'), grad: tensor([ 1.5134e-06,  2.4244e-05,  3.2000e-06,  6.0163e-06,  7.7020e-07,
        -9.8050e-06,  7.3798e-06,  6.0210e-07, -2.9281e-05, -4.6194e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 149, time 217.01, cls_loss 0.0028 cls_loss_mapping 0.0040 cls_loss_causal 0.5482 re_mapping 0.0075 re_causal 0.0220 /// teacc 98.95 lr 0.00010000
Epoch 151, weight, value: tensor([[-0.0311,  0.1242,  0.0724,  ..., -0.1644, -0.1081,  0.0248],
        [ 0.1152, -0.0144, -0.0521,  ...,  0.0676,  0.0961, -0.1108],
        [-0.0668, -0.0489, -0.0486,  ..., -0.0712, -0.0228, -0.0461],
        ...,
        [-0.0496,  0.1387, -0.1571,  ..., -0.1186,  0.0043, -0.1276],
        [ 0.0028, -0.0935,  0.0353,  ...,  0.0558, -0.1053, -0.0394],
        [-0.0572, -0.0855,  0.0551,  ..., -0.0749, -0.0527,  0.1176]],
       device='cuda:0'), grad: tensor([[ 1.2247e-07,  5.3970e-07,  4.2878e-06,  ...,  1.5050e-06,
          7.9162e-09,  4.5449e-06],
        [-4.0419e-06, -2.6077e-07,  1.2107e-07,  ..., -3.3807e-06,
         -9.1735e-08,  1.1269e-07],
        [ 1.5367e-07,  2.4140e-06,  6.0536e-08,  ...,  1.8720e-07,
          2.5146e-08,  6.0536e-08],
        ...,
        [ 2.7064e-06, -4.1962e-05,  8.0885e-07,  ...,  2.5220e-06,
          1.9791e-07,  7.8510e-07],
        [ 3.5577e-07,  2.2259e-06,  2.6554e-05,  ...,  8.7768e-06,
         -1.5600e-07,  2.8074e-05],
        [ 7.3668e-07,  3.3557e-05, -3.5048e-05,  ..., -9.2462e-06,
          3.4925e-08, -3.6210e-05]], device='cuda:0')
Epoch 151, bias, value: tensor([ 0.0019,  0.0005,  0.0035,  0.0113,  0.0251,  0.0428, -0.0251,  0.0108,
        -0.0338, -0.0229], device='cuda:0'), grad: tensor([ 1.0140e-05, -7.1898e-06,  3.0100e-06,  6.3293e-06,  4.2506e-06,
         6.2771e-07,  5.6904e-07, -6.0588e-05,  5.7846e-05, -1.4879e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 150, time 217.20, cls_loss 0.0023 cls_loss_mapping 0.0044 cls_loss_causal 0.5272 re_mapping 0.0073 re_causal 0.0221 /// teacc 98.98 lr 0.00010000
Epoch 152, weight, value: tensor([[-0.0317,  0.1247,  0.0726,  ..., -0.1650, -0.1085,  0.0249],
        [ 0.1160, -0.0144, -0.0522,  ...,  0.0679,  0.0965, -0.1111],
        [-0.0671, -0.0489, -0.0486,  ..., -0.0713, -0.0230, -0.0461],
        ...,
        [-0.0501,  0.1389, -0.1574,  ..., -0.1190,  0.0042, -0.1282],
        [ 0.0010, -0.0964,  0.0350,  ...,  0.0544, -0.1054, -0.0398],
        [-0.0573, -0.0857,  0.0551,  ..., -0.0762, -0.0527,  0.1178]],
       device='cuda:0'), grad: tensor([[ 7.4506e-09, -5.3868e-06, -2.9989e-06,  ...,  4.0280e-08,
         -8.9873e-07, -4.2282e-06],
        [-2.5798e-07,  2.2724e-07,  9.7789e-09,  ..., -3.2317e-07,
         -1.1642e-08,  4.4703e-08],
        [ 1.2130e-07,  1.5763e-07,  6.9849e-08,  ...,  2.2096e-07,
         -5.3551e-09,  5.9605e-08],
        ...,
        [ 1.1059e-07, -4.2934e-07,  8.1258e-08,  ...,  2.3679e-07,
          2.1188e-08,  1.4924e-07],
        [-2.5379e-08,  1.3225e-07,  6.5425e-08,  ...,  3.4925e-09,
          1.8161e-08,  2.0908e-07],
        [ 2.5844e-08,  3.8147e-06,  2.1942e-06,  ...,  1.7439e-07,
          7.2550e-07,  2.8461e-06]], device='cuda:0')
Epoch 152, bias, value: tensor([ 0.0019,  0.0006,  0.0034,  0.0114,  0.0262,  0.0435, -0.0250,  0.0108,
        -0.0346, -0.0235], device='cuda:0'), grad: tensor([-1.3314e-05,  3.7951e-08,  6.7148e-07,  5.3225e-07,  4.8149e-07,
         1.2051e-06,  1.0692e-06,  1.4971e-07,  3.1316e-07,  8.8215e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 151, time 217.66, cls_loss 0.0025 cls_loss_mapping 0.0048 cls_loss_causal 0.5431 re_mapping 0.0076 re_causal 0.0212 /// teacc 98.96 lr 0.00010000
Epoch 153, weight, value: tensor([[-0.0319,  0.1250,  0.0728,  ..., -0.1654, -0.1085,  0.0250],
        [ 0.1162, -0.0146, -0.0524,  ...,  0.0678,  0.0966, -0.1114],
        [-0.0674, -0.0487, -0.0487,  ..., -0.0715, -0.0230, -0.0459],
        ...,
        [-0.0503,  0.1392, -0.1577,  ..., -0.1195,  0.0042, -0.1285],
        [ 0.0010, -0.0967,  0.0350,  ...,  0.0545, -0.1054, -0.0399],
        [-0.0576, -0.0859,  0.0553,  ..., -0.0767, -0.0528,  0.1181]],
       device='cuda:0'), grad: tensor([[ 2.9267e-07, -1.7406e-06, -7.1852e-07,  ...,  5.5972e-07,
         -1.0813e-06, -1.1697e-06],
        [ 6.2492e-07, -7.1945e-08,  4.4121e-07,  ..., -8.2189e-08,
         -7.2643e-07, -2.0745e-07],
        [ 5.5693e-07,  1.2736e-07,  1.2107e-07,  ...,  5.2992e-07,
          1.6112e-07,  8.8476e-08],
        ...,
        [ 1.3104e-06, -4.8243e-07,  2.0466e-07,  ...,  1.0617e-06,
          4.5565e-07,  2.7148e-07],
        [-2.2158e-05,  9.8487e-08, -3.3788e-06,  ..., -1.1146e-05,
         -6.5658e-07,  1.5125e-06],
        [ 1.0235e-06,  1.2415e-06,  4.1467e-07,  ...,  9.3970e-07,
          9.7509e-07,  6.3330e-07]], device='cuda:0')
Epoch 153, bias, value: tensor([ 0.0020,  0.0003,  0.0039,  0.0118,  0.0266,  0.0432, -0.0249,  0.0105,
        -0.0346, -0.0236], device='cuda:0'), grad: tensor([-5.0776e-06,  4.4773e-07,  1.8235e-06,  2.1845e-05,  1.5693e-07,
         6.4671e-06,  9.1502e-07,  2.4382e-06, -3.5048e-05,  6.0722e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 152, time 217.32, cls_loss 0.0028 cls_loss_mapping 0.0047 cls_loss_causal 0.5532 re_mapping 0.0073 re_causal 0.0214 /// teacc 98.98 lr 0.00010000
Epoch 154, weight, value: tensor([[-0.0322,  0.1253,  0.0722,  ..., -0.1662, -0.1087,  0.0242],
        [ 0.1168, -0.0148, -0.0530,  ...,  0.0681,  0.0968, -0.1117],
        [-0.0675, -0.0488, -0.0487,  ..., -0.0715, -0.0228, -0.0461],
        ...,
        [-0.0505,  0.1398, -0.1579,  ..., -0.1200,  0.0040, -0.1294],
        [ 0.0008, -0.0973,  0.0350,  ...,  0.0542, -0.1055, -0.0401],
        [-0.0582, -0.0861,  0.0556,  ..., -0.0770, -0.0529,  0.1187]],
       device='cuda:0'), grad: tensor([[ 5.5600e-07,  2.7940e-09,  2.4289e-06,  ...,  4.8522e-07,
          4.1910e-09,  3.1223e-07],
        [-6.9663e-06, -1.1008e-06,  2.4196e-06,  ..., -7.6666e-06,
         -5.1223e-09,  1.7360e-06],
        [ 1.9744e-06,  1.6019e-07,  4.2245e-06,  ...,  2.4550e-06,
          3.2829e-08,  6.1002e-07],
        ...,
        [ 3.1758e-06, -1.6764e-08,  1.3495e-06,  ...,  2.4941e-06,
          3.6089e-08,  3.7719e-07],
        [-1.4909e-05,  1.3062e-07, -1.5393e-05,  ..., -4.3392e-05,
          5.9372e-08, -3.7521e-05],
        [ 1.2189e-05,  5.9791e-07,  1.6123e-05,  ...,  2.9460e-05,
          7.6834e-09,  2.3499e-05]], device='cuda:0')
Epoch 154, bias, value: tensor([ 0.0013,  0.0002,  0.0044,  0.0115,  0.0267,  0.0434, -0.0245,  0.0103,
        -0.0351, -0.0234], device='cuda:0'), grad: tensor([ 7.4171e-06, -1.5393e-05,  1.5527e-05, -3.0851e-04,  4.9770e-06,
         2.7394e-04,  6.8992e-06,  1.1832e-05, -5.8442e-05,  6.1333e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 153, time 217.54, cls_loss 0.0031 cls_loss_mapping 0.0066 cls_loss_causal 0.5615 re_mapping 0.0076 re_causal 0.0217 /// teacc 98.96 lr 0.00010000
Epoch 155, weight, value: tensor([[-0.0323,  0.1255,  0.0721,  ..., -0.1674, -0.1088,  0.0241],
        [ 0.1172, -0.0149, -0.0537,  ...,  0.0683,  0.0969, -0.1125],
        [-0.0669, -0.0490, -0.0491,  ..., -0.0721, -0.0227, -0.0462],
        ...,
        [-0.0511,  0.1403, -0.1584,  ..., -0.1206,  0.0037, -0.1304],
        [ 0.0007, -0.0979,  0.0349,  ...,  0.0545, -0.1056, -0.0403],
        [-0.0589, -0.0864,  0.0560,  ..., -0.0779, -0.0531,  0.1193]],
       device='cuda:0'), grad: tensor([[ 6.1933e-08, -9.9763e-06, -7.6592e-06,  ..., -2.4065e-06,
          3.7253e-09, -3.1590e-06],
        [-1.5516e-06,  2.1383e-06,  1.7765e-07,  ..., -1.8245e-06,
         -1.6065e-08,  9.9186e-08],
        [ 3.3039e-07,  4.9882e-06,  3.8464e-07,  ...,  4.8568e-07,
         -7.0548e-08,  1.6391e-07],
        ...,
        [ 6.2305e-07, -2.0042e-05,  2.6799e-07,  ...,  8.3307e-07,
          1.8626e-08,  2.1770e-07],
        [ 3.6135e-07,  7.5810e-07,  9.8348e-07,  ...,  2.2631e-07,
          1.1013e-07,  1.0142e-06],
        [ 3.4273e-07,  1.0572e-05,  9.1642e-07,  ...,  2.1514e-06,
          6.0536e-09, -9.5926e-07]], device='cuda:0')
Epoch 155, bias, value: tensor([ 0.0012, -0.0004,  0.0049,  0.0105,  0.0272,  0.0433, -0.0230,  0.0104,
        -0.0357, -0.0234], device='cuda:0'), grad: tensor([-2.9042e-05,  6.6962e-07,  9.6932e-06,  6.1542e-06,  4.3325e-06,
         2.5313e-06,  1.4752e-05, -3.7402e-05,  4.2208e-06,  2.4021e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 154, time 217.20, cls_loss 0.0028 cls_loss_mapping 0.0040 cls_loss_causal 0.5425 re_mapping 0.0075 re_causal 0.0216 /// teacc 98.87 lr 0.00010000
Epoch 156, weight, value: tensor([[-0.0327,  0.1261,  0.0721,  ..., -0.1681, -0.1089,  0.0241],
        [ 0.1211, -0.0151, -0.0516,  ...,  0.0707,  0.0975, -0.1127],
        [-0.0681, -0.0488, -0.0496,  ..., -0.0725, -0.0233, -0.0462],
        ...,
        [-0.0516,  0.1408, -0.1587,  ..., -0.1210,  0.0036, -0.1307],
        [-0.0009, -0.0983,  0.0343,  ...,  0.0537, -0.1057, -0.0404],
        [-0.0594, -0.0867,  0.0561,  ..., -0.0781, -0.0533,  0.1196]],
       device='cuda:0'), grad: tensor([[-2.8443e-04, -3.0208e-04, -1.5981e-06,  ...,  5.3924e-07,
          2.8498e-07, -2.7958e-06],
        [ 1.0121e-04,  1.2082e-04,  8.7777e-08,  ..., -1.3448e-05,
         -1.0140e-05,  6.7987e-08],
        [ 3.1590e-05,  2.9370e-05,  1.7858e-07,  ..., -3.5256e-05,
         -6.6102e-05,  2.5705e-07],
        ...,
        [ 8.0168e-06,  3.1628e-06,  3.1199e-07,  ...,  5.5917e-06,
          4.5598e-06,  4.2538e-07],
        [ 3.8054e-06,  3.7868e-06,  4.4610e-07,  ...,  1.1679e-06,
          4.2585e-07,  9.9745e-07],
        [ 2.2519e-06,  2.5295e-06, -3.5716e-07,  ...,  1.1921e-06,
          9.2713e-07, -3.8720e-07]], device='cuda:0')
Epoch 156, bias, value: tensor([ 0.0012,  0.0015,  0.0052,  0.0105,  0.0271,  0.0433, -0.0236,  0.0103,
        -0.0368, -0.0234], device='cuda:0'), grad: tensor([-9.6464e-04,  2.9707e-04, -1.8072e-04,  2.1577e-05,  2.2918e-05,
        -2.6941e-05,  7.4673e-04,  5.4181e-05,  1.6510e-05,  1.3798e-05],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 155----------------------------------------------------
epoch 155, time 217.97, cls_loss 0.0032 cls_loss_mapping 0.0052 cls_loss_causal 0.5341 re_mapping 0.0076 re_causal 0.0215 /// teacc 99.00 lr 0.00010000
Epoch 157, weight, value: tensor([[-0.0322,  0.1270,  0.0718,  ..., -0.1686, -0.1089,  0.0240],
        [ 0.1222, -0.0141, -0.0519,  ...,  0.0726,  0.0976, -0.1131],
        [-0.0686, -0.0493, -0.0500,  ..., -0.0728, -0.0232, -0.0464],
        ...,
        [-0.0535,  0.1407, -0.1591,  ..., -0.1235,  0.0036, -0.1311],
        [-0.0012, -0.0989,  0.0344,  ...,  0.0534, -0.1058, -0.0406],
        [-0.0604, -0.0874,  0.0566,  ..., -0.0774, -0.0535,  0.1206]],
       device='cuda:0'), grad: tensor([[ 1.2387e-07,  5.0943e-07, -2.1583e-07,  ...,  3.8277e-07,
          4.0745e-08, -2.5891e-07],
        [-4.6613e-07,  8.9593e-07,  1.3388e-07,  ...,  6.1840e-07,
          2.6077e-08,  6.3796e-08],
        [ 9.3831e-08,  2.2165e-07, -2.2096e-07,  ..., -5.6671e-07,
          7.2177e-09,  2.7940e-08],
        ...,
        [ 2.0070e-07,  1.6633e-06,  3.8999e-07,  ...,  4.6134e-05,
         -1.0189e-06, -2.4587e-07],
        [ 1.4552e-07,  1.8859e-07,  5.0664e-07,  ...,  2.0433e-06,
          8.1491e-09,  1.6391e-07],
        [ 7.8231e-08,  5.1521e-06, -4.7474e-07,  ...,  1.4290e-05,
          2.0210e-07, -8.6799e-07]], device='cuda:0')
Epoch 157, bias, value: tensor([ 0.0014,  0.0020,  0.0049,  0.0100,  0.0258,  0.0439, -0.0232,  0.0099,
        -0.0369, -0.0227], device='cuda:0'), grad: tensor([ 1.0589e-06,  3.5968e-06, -1.8729e-06, -2.4438e-06, -1.6296e-04,
         1.3679e-05, -3.1237e-06,  1.0687e-04,  5.7369e-06,  3.9458e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 156, time 217.45, cls_loss 0.0029 cls_loss_mapping 0.0053 cls_loss_causal 0.5657 re_mapping 0.0073 re_causal 0.0213 /// teacc 98.96 lr 0.00010000
Epoch 158, weight, value: tensor([[-0.0323,  0.1284,  0.0717,  ..., -0.1687, -0.1090,  0.0235],
        [ 0.1224, -0.0144, -0.0524,  ...,  0.0727,  0.0979, -0.1136],
        [-0.0698, -0.0507, -0.0505,  ..., -0.0729, -0.0233, -0.0470],
        ...,
        [-0.0540,  0.1412, -0.1599,  ..., -0.1238,  0.0034, -0.1319],
        [-0.0010, -0.0992,  0.0342,  ...,  0.0535, -0.1059, -0.0408],
        [-0.0611, -0.0882,  0.0574,  ..., -0.0777, -0.0537,  0.1216]],
       device='cuda:0'), grad: tensor([[ 5.9530e-06,  1.5907e-06,  7.7263e-06,  ...,  5.0552e-06,
          0.0000e+00,  2.5965e-06],
        [-1.3828e-05, -2.2203e-06, -3.8883e-08,  ..., -1.8731e-05,
          0.0000e+00,  4.3493e-07],
        [-5.3830e-07, -1.0468e-05, -1.6242e-05,  ...,  9.3058e-06,
          0.0000e+00,  1.8673e-07],
        ...,
        [ 8.0317e-06,  3.5553e-07,  1.5106e-06,  ...,  7.9647e-06,
          0.0000e+00,  2.4354e-07],
        [-7.0445e-06,  7.6815e-06,  1.9325e-08,  ..., -1.0669e-05,
          0.0000e+00, -5.4799e-06],
        [ 2.2110e-06,  1.0319e-06,  7.9721e-07,  ...,  1.1064e-06,
          0.0000e+00, -4.6706e-07]], device='cuda:0')
Epoch 158, bias, value: tensor([ 0.0016,  0.0017,  0.0049,  0.0111,  0.0256,  0.0435, -0.0241,  0.0098,
        -0.0370, -0.0222], device='cuda:0'), grad: tensor([ 2.1622e-05, -2.5481e-05, -1.1981e-04,  4.8168e-06,  5.5553e-07,
         1.4216e-05,  8.3260e-07,  1.5453e-05,  8.3029e-05,  4.8578e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 157, time 217.00, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.5195 re_mapping 0.0072 re_causal 0.0210 /// teacc 98.96 lr 0.00010000
Epoch 159, weight, value: tensor([[-0.0325,  0.1293,  0.0725,  ..., -0.1693, -0.1089,  0.0241],
        [ 0.1233, -0.0145, -0.0531,  ...,  0.0731,  0.0983, -0.1144],
        [-0.0716, -0.0511, -0.0503,  ..., -0.0736, -0.0237, -0.0473],
        ...,
        [-0.0544,  0.1418, -0.1602,  ..., -0.1241,  0.0033, -0.1330],
        [-0.0007, -0.0996,  0.0343,  ...,  0.0538, -0.1059, -0.0408],
        [-0.0616, -0.0885,  0.0573,  ..., -0.0779, -0.0539,  0.1217]],
       device='cuda:0'), grad: tensor([[ 2.9523e-07, -1.2824e-06, -7.4040e-07,  ...,  4.3912e-07,
          9.3132e-10, -1.7937e-06],
        [-2.3767e-06,  3.2503e-07, -1.0943e-08,  ..., -2.1048e-06,
          4.4238e-09, -6.8219e-08],
        [-3.1311e-06, -3.5129e-06, -2.9560e-06,  ...,  6.1002e-07,
          6.9849e-10,  2.5379e-07],
        ...,
        [ 7.4320e-07, -4.9397e-06,  4.6007e-07,  ...,  6.4448e-07,
          6.5193e-09,  5.5786e-07],
        [ 5.0776e-06,  3.8408e-06,  2.7642e-06,  ...,  4.0187e-07,
          4.0280e-08,  1.5479e-06],
        [ 5.7369e-07,  4.2245e-06, -6.5472e-07,  ...,  9.4622e-07,
          2.3283e-09, -3.7253e-07]], device='cuda:0')
Epoch 159, bias, value: tensor([ 0.0022,  0.0025,  0.0042,  0.0113,  0.0257,  0.0430, -0.0241,  0.0098,
        -0.0370, -0.0224], device='cuda:0'), grad: tensor([-3.6284e-06, -2.1346e-06, -6.9797e-05,  8.6427e-06,  2.7828e-06,
        -6.9737e-06,  1.9986e-06, -4.0494e-06,  6.6698e-05,  6.3963e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 158, time 217.31, cls_loss 0.0020 cls_loss_mapping 0.0042 cls_loss_causal 0.5469 re_mapping 0.0070 re_causal 0.0215 /// teacc 98.97 lr 0.00010000
Epoch 160, weight, value: tensor([[-0.0331,  0.1297,  0.0724,  ..., -0.1705, -0.1089,  0.0242],
        [ 0.1249, -0.0139, -0.0531,  ...,  0.0743,  0.0991, -0.1144],
        [-0.0734, -0.0519, -0.0503,  ..., -0.0745, -0.0244, -0.0479],
        ...,
        [-0.0556,  0.1417, -0.1604,  ..., -0.1254,  0.0032, -0.1340],
        [-0.0006, -0.1000,  0.0343,  ...,  0.0537, -0.1059, -0.0408],
        [-0.0624, -0.0883,  0.0574,  ..., -0.0782, -0.0540,  0.1220]],
       device='cuda:0'), grad: tensor([[ 1.1874e-06,  2.7427e-07,  6.5845e-07,  ...,  1.4799e-06,
          0.0000e+00, -1.0454e-07],
        [ 1.9360e-04,  6.6340e-05,  2.1956e-07,  ...,  2.1112e-04,
         -5.5879e-09,  4.6333e-08],
        [ 1.0572e-05,  3.6359e-06, -3.5893e-06,  ...,  7.4245e-06,
          2.3283e-10,  3.4692e-08],
        ...,
        [ 2.3302e-06, -7.0501e-07,  2.5891e-07,  ...,  3.1032e-06,
          2.0955e-09,  1.4226e-07],
        [-2.0945e-04, -7.1585e-05,  2.7437e-06,  ..., -2.2602e-04,
          2.3283e-10,  5.8860e-07],
        [ 4.8010e-07,  9.2015e-07, -2.5565e-07,  ...,  1.0375e-06,
          1.3970e-09, -9.3551e-07]], device='cuda:0')
Epoch 160, bias, value: tensor([ 0.0021,  0.0033,  0.0039,  0.0111,  0.0259,  0.0429, -0.0239,  0.0092,
        -0.0371, -0.0222], device='cuda:0'), grad: tensor([ 5.3942e-06,  5.2118e-04, -1.1958e-06, -1.4730e-05,  2.7893e-07,
         2.4661e-05,  5.9828e-06,  4.0904e-06, -5.4693e-04,  2.3022e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 159, time 217.56, cls_loss 0.0024 cls_loss_mapping 0.0045 cls_loss_causal 0.5345 re_mapping 0.0070 re_causal 0.0214 /// teacc 98.96 lr 0.00010000
Epoch 161, weight, value: tensor([[-0.0333,  0.1301,  0.0724,  ..., -0.1712, -0.1089,  0.0242],
        [ 0.1257, -0.0134, -0.0530,  ...,  0.0745,  0.0997, -0.1145],
        [-0.0737, -0.0521, -0.0503,  ..., -0.0745, -0.0244, -0.0483],
        ...,
        [-0.0567,  0.1422, -0.1609,  ..., -0.1258,  0.0024, -0.1355],
        [-0.0006, -0.1004,  0.0341,  ...,  0.0537, -0.1059, -0.0410],
        [-0.0628, -0.0893,  0.0578,  ..., -0.0783, -0.0543,  0.1226]],
       device='cuda:0'), grad: tensor([[ 2.6310e-08,  3.9209e-07, -2.6985e-07,  ...,  4.5169e-08,
          8.6147e-09, -2.7008e-07],
        [-2.5844e-08,  3.3751e-06,  3.9348e-08,  ..., -3.7486e-08,
         -1.4668e-08,  6.8452e-08],
        [ 2.0256e-08,  4.4145e-07,  1.6810e-07,  ...,  1.4668e-08,
          1.3970e-09,  1.4203e-08],
        ...,
        [ 4.6566e-09, -3.6049e-04,  6.2399e-08,  ...,  5.6811e-08,
          5.5879e-09, -5.6513e-06],
        [ 6.4727e-08,  6.9197e-07,  4.0629e-07,  ...,  4.8196e-08,
          5.3551e-09,  2.1956e-07],
        [ 2.6077e-08,  3.5238e-04, -2.7381e-07,  ...,  2.7241e-08,
          2.3283e-09,  4.9025e-06]], device='cuda:0')
Epoch 161, bias, value: tensor([ 0.0021,  0.0036,  0.0040,  0.0112,  0.0257,  0.0427, -0.0240,  0.0090,
        -0.0372, -0.0219], device='cuda:0'), grad: tensor([ 4.8336e-07,  6.0834e-06,  8.7451e-07, -7.9442e-07,  4.5449e-06,
         2.2147e-06, -2.0396e-07, -6.5851e-04,  2.1234e-06,  6.4373e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 160, time 217.33, cls_loss 0.0022 cls_loss_mapping 0.0035 cls_loss_causal 0.5651 re_mapping 0.0072 re_causal 0.0216 /// teacc 98.89 lr 0.00010000
Epoch 162, weight, value: tensor([[-0.0337,  0.1302,  0.0723,  ..., -0.1720, -0.1090,  0.0241],
        [ 0.1260, -0.0140, -0.0534,  ...,  0.0747,  0.1000, -0.1152],
        [-0.0740, -0.0526, -0.0502,  ..., -0.0749, -0.0245, -0.0485],
        ...,
        [-0.0567,  0.1434, -0.1617,  ..., -0.1260,  0.0023, -0.1373],
        [-0.0006, -0.1013,  0.0342,  ...,  0.0539, -0.1060, -0.0409],
        [-0.0632, -0.0895,  0.0579,  ..., -0.0785, -0.0544,  0.1229]],
       device='cuda:0'), grad: tensor([[ 3.4459e-08,  1.1572e-07, -4.4471e-08,  ...,  1.1688e-07,
          1.2340e-08, -1.1828e-07],
        [-1.0571e-07,  3.5297e-06,  5.3132e-07,  ...,  2.2608e-07,
          6.5193e-09,  5.6578e-08],
        [ 1.8068e-07,  3.0234e-05,  3.6284e-06,  ...,  3.1921e-07,
         -1.1711e-07,  6.8452e-08],
        ...,
        [ 2.2235e-07, -9.6917e-05, -1.1854e-05,  ...,  4.8522e-07,
          2.3050e-08,  5.8906e-08],
        [-1.6410e-06,  6.2585e-07, -1.1660e-06,  ..., -1.9427e-06,
          1.0012e-08, -3.9791e-07],
        [ 2.0163e-07,  5.5730e-05,  6.8992e-06,  ...,  2.1905e-06,
          9.5461e-09, -2.4005e-07]], device='cuda:0')
Epoch 162, bias, value: tensor([ 0.0019,  0.0033,  0.0042,  0.0110,  0.0259,  0.0426, -0.0241,  0.0091,
        -0.0373, -0.0216], device='cuda:0'), grad: tensor([ 9.9000e-07,  9.6709e-06,  7.0751e-05,  6.2697e-06,  4.5560e-06,
         6.6943e-06,  2.4959e-06, -2.4676e-04, -2.2221e-06,  1.4734e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 161, time 217.28, cls_loss 0.0028 cls_loss_mapping 0.0051 cls_loss_causal 0.5337 re_mapping 0.0075 re_causal 0.0210 /// teacc 98.89 lr 0.00010000
Epoch 163, weight, value: tensor([[-0.0339,  0.1315,  0.0727,  ..., -0.1729, -0.1094,  0.0242],
        [ 0.1261, -0.0142, -0.0539,  ...,  0.0745,  0.1000, -0.1159],
        [-0.0740, -0.0539, -0.0506,  ..., -0.0746, -0.0243, -0.0488],
        ...,
        [-0.0570,  0.1448, -0.1620,  ..., -0.1263,  0.0022, -0.1382],
        [-0.0010, -0.1011,  0.0342,  ...,  0.0536, -0.1060, -0.0412],
        [-0.0639, -0.0912,  0.0580,  ..., -0.0792, -0.0546,  0.1232]],
       device='cuda:0'), grad: tensor([[ 5.4808e-07, -1.8075e-05, -1.3702e-05,  ...,  2.1495e-06,
          4.5169e-08, -2.0623e-05],
        [ 2.4870e-05,  3.2574e-05,  1.8045e-05,  ...,  3.2157e-05,
          1.1958e-05,  1.5318e-05],
        [ 4.0643e-06,  5.9698e-07,  1.8142e-06,  ...,  3.2276e-05,
          2.2873e-06,  8.9873e-07],
        ...,
        [-1.2949e-05, -4.3571e-05,  4.3982e-07,  ..., -6.3032e-06,
         -2.1949e-05,  3.2503e-07],
        [-1.4581e-05,  6.3255e-06, -2.1324e-05,  ..., -2.7180e-05,
          3.2932e-06, -1.2994e-05],
        [ 1.5367e-06,  8.7321e-06,  6.3255e-06,  ...,  1.5944e-06,
          7.0501e-07,  8.8066e-06]], device='cuda:0')
Epoch 163, bias, value: tensor([ 0.0024,  0.0029,  0.0040,  0.0095,  0.0261,  0.0434, -0.0233,  0.0094,
        -0.0372, -0.0221], device='cuda:0'), grad: tensor([-5.2303e-05,  1.4746e-04,  5.8472e-05,  1.0245e-05, -3.8564e-05,
         1.4633e-05, -1.2062e-05, -1.2517e-04, -3.3200e-05,  3.0667e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 162, time 217.42, cls_loss 0.0036 cls_loss_mapping 0.0061 cls_loss_causal 0.5676 re_mapping 0.0075 re_causal 0.0212 /// teacc 98.99 lr 0.00010000
Epoch 164, weight, value: tensor([[-0.0345,  0.1319,  0.0727,  ..., -0.1739, -0.1094,  0.0244],
        [ 0.1257, -0.0162, -0.0561,  ...,  0.0750,  0.1004, -0.1164],
        [-0.0743, -0.0536, -0.0508,  ..., -0.0751, -0.0244, -0.0491],
        ...,
        [-0.0558,  0.1465, -0.1628,  ..., -0.1266,  0.0023, -0.1379],
        [-0.0011, -0.1018,  0.0342,  ...,  0.0533, -0.1063, -0.0412],
        [-0.0655, -0.0911,  0.0594,  ..., -0.0812, -0.0550,  0.1238]],
       device='cuda:0'), grad: tensor([[-5.8208e-09, -2.9076e-06, -3.8669e-06,  ...,  1.8161e-08,
         -2.3423e-07, -5.2564e-06],
        [-1.0920e-07,  3.0082e-07,  1.3388e-07,  ..., -8.4285e-08,
         -1.0943e-08,  1.6578e-07],
        [ 2.1420e-08,  2.0862e-07,  1.0384e-07,  ...,  2.1188e-08,
         -2.3283e-08,  1.2410e-07],
        ...,
        [ 4.8662e-08, -8.0885e-07,  3.7253e-07,  ...,  8.5682e-08,
          3.7253e-08,  6.4075e-07],
        [-2.1188e-08,  5.8673e-07,  8.4005e-07,  ..., -8.1258e-08,
          2.3516e-08,  1.1018e-06],
        [ 3.5623e-08,  1.8142e-06,  1.3411e-06,  ...,  1.5227e-07,
          1.4156e-07,  1.3849e-06]], device='cuda:0')
Epoch 164, bias, value: tensor([ 0.0024,  0.0013,  0.0043,  0.0125,  0.0264,  0.0410, -0.0230,  0.0100,
        -0.0374, -0.0219], device='cuda:0'), grad: tensor([-1.4581e-05,  1.3094e-06, -1.6186e-06,  4.3400e-07,  7.3388e-07,
         8.5495e-07,  2.4308e-06,  8.4797e-07,  3.0920e-06,  6.4671e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 163, time 217.61, cls_loss 0.0022 cls_loss_mapping 0.0040 cls_loss_causal 0.5235 re_mapping 0.0074 re_causal 0.0205 /// teacc 98.98 lr 0.00010000
Epoch 165, weight, value: tensor([[-0.0354,  0.1313,  0.0730,  ..., -0.1746, -0.1095,  0.0242],
        [ 0.1263, -0.0160, -0.0560,  ...,  0.0757,  0.1006, -0.1165],
        [-0.0745, -0.0540, -0.0508,  ..., -0.0752, -0.0245, -0.0493],
        ...,
        [-0.0565,  0.1468, -0.1630,  ..., -0.1273,  0.0023, -0.1380],
        [-0.0010, -0.1022,  0.0341,  ...,  0.0534, -0.1064, -0.0411],
        [-0.0666, -0.0917,  0.0595,  ..., -0.0814, -0.0556,  0.1243]],
       device='cuda:0'), grad: tensor([[ 5.6578e-08, -2.2096e-07, -8.0168e-06,  ...,  1.2573e-07,
          4.8196e-08, -1.0945e-05],
        [ 2.0070e-07,  1.3039e-08,  1.1828e-07,  ...,  1.4985e-06,
          8.2422e-07,  1.4622e-07],
        [ 1.9167e-06,  5.9837e-08,  8.2888e-08,  ...,  8.2999e-06,
          4.0755e-06,  1.2619e-07],
        ...,
        [ 1.6093e-06, -5.1502e-07,  2.1141e-07,  ...,  7.0557e-06,
          3.2447e-06,  3.3597e-07],
        [-4.9174e-06,  1.0710e-07, -4.1984e-06,  ..., -1.9819e-05,
         -1.0185e-05, -4.4107e-06],
        [ 7.7533e-07,  5.0105e-07,  7.0222e-06,  ...,  4.0978e-07,
          1.6065e-08,  8.1807e-06]], device='cuda:0')
Epoch 165, bias, value: tensor([ 0.0019,  0.0016,  0.0044,  0.0124,  0.0261,  0.0409, -0.0221,  0.0101,
        -0.0375, -0.0220], device='cuda:0'), grad: tensor([-2.1785e-05,  3.5278e-06,  1.5825e-05,  2.7101e-06,  2.2352e-06,
         1.7853e-06,  1.3232e-05,  1.3448e-05, -5.5045e-05,  2.4095e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 164, time 217.33, cls_loss 0.0027 cls_loss_mapping 0.0048 cls_loss_causal 0.5711 re_mapping 0.0067 re_causal 0.0206 /// teacc 99.00 lr 0.00010000
Epoch 166, weight, value: tensor([[-0.0350,  0.1322,  0.0733,  ..., -0.1748, -0.1096,  0.0242],
        [ 0.1268, -0.0159, -0.0561,  ...,  0.0760,  0.1005, -0.1168],
        [-0.0743, -0.0539, -0.0509,  ..., -0.0751, -0.0250, -0.0497],
        ...,
        [-0.0570,  0.1469, -0.1639,  ..., -0.1278,  0.0032, -0.1398],
        [-0.0010, -0.1024,  0.0341,  ...,  0.0538, -0.1067, -0.0412],
        [-0.0678, -0.0921,  0.0598,  ..., -0.0820, -0.0560,  0.1249]],
       device='cuda:0'), grad: tensor([[ 2.2142e-07, -2.4755e-06, -6.5845e-07,  ...,  3.7719e-07,
          1.6298e-08, -2.0247e-06],
        [-3.4878e-07,  8.2655e-07,  2.8592e-07,  ...,  4.3749e-07,
         -1.9791e-07,  4.1095e-07],
        [ 5.1223e-07,  3.2387e-07,  1.6508e-07,  ...,  9.3784e-07,
          1.6321e-07,  2.6054e-07],
        ...,
        [ 1.8300e-07, -3.4701e-06,  5.5460e-07,  ...,  6.8871e-07,
          4.5868e-08,  9.3644e-07],
        [ 1.1325e-06,  3.2131e-07,  3.0193e-06,  ...,  1.6233e-06,
          1.3062e-07,  3.8296e-06],
        [ 6.6310e-07,  3.4980e-06, -2.7549e-06,  ...,  3.8981e-05,
          2.0023e-08,  1.1269e-06]], device='cuda:0')
Epoch 166, bias, value: tensor([ 0.0023,  0.0013,  0.0049,  0.0123,  0.0264,  0.0410, -0.0224,  0.0098,
        -0.0376, -0.0221], device='cuda:0'), grad: tensor([-7.6741e-06,  2.7884e-06,  2.9001e-06,  8.3447e-06, -9.5487e-05,
        -1.4305e-05,  4.2580e-06, -1.8328e-06,  1.0461e-05,  9.0361e-05],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 165----------------------------------------------------
epoch 165, time 218.57, cls_loss 0.0024 cls_loss_mapping 0.0040 cls_loss_causal 0.5314 re_mapping 0.0070 re_causal 0.0198 /// teacc 99.02 lr 0.00010000
Epoch 167, weight, value: tensor([[-0.0353,  0.1328,  0.0731,  ..., -0.1757, -0.1096,  0.0238],
        [ 0.1273, -0.0159, -0.0557,  ...,  0.0767,  0.1006, -0.1167],
        [-0.0745, -0.0547, -0.0510,  ..., -0.0754, -0.0252, -0.0500],
        ...,
        [-0.0579,  0.1468, -0.1641,  ..., -0.1296,  0.0035, -0.1403],
        [-0.0008, -0.1005,  0.0339,  ...,  0.0545, -0.1069, -0.0415],
        [-0.0688, -0.0925,  0.0600,  ..., -0.0827, -0.0562,  0.1254]],
       device='cuda:0'), grad: tensor([[ 2.7940e-07, -2.1681e-06, -7.8045e-07,  ...,  3.2061e-07,
          3.6322e-08, -4.4145e-06],
        [-1.4305e-06, -1.0384e-07,  4.0978e-08,  ..., -1.2247e-06,
         -3.7812e-07,  1.0221e-07],
        [ 1.5809e-07,  3.4459e-08, -2.1327e-07,  ...,  2.2748e-07,
          6.3563e-08,  1.8394e-07],
        ...,
        [ 4.4145e-07, -1.1828e-07,  9.6392e-08,  ...,  6.5239e-07,
          1.1688e-07,  2.0000e-07],
        [ 7.6368e-08,  1.7090e-07,  3.8277e-07,  ...,  2.7684e-07,
          2.6543e-08,  4.5076e-07],
        [ 9.5926e-08,  1.6512e-06,  3.2154e-07,  ...,  4.7614e-07,
          2.1188e-08,  2.8275e-06]], device='cuda:0')
Epoch 167, bias, value: tensor([ 0.0021,  0.0015,  0.0048,  0.0118,  0.0267,  0.0415, -0.0225,  0.0091,
        -0.0371, -0.0221], device='cuda:0'), grad: tensor([-8.4490e-06, -2.1700e-06, -4.4890e-07,  7.6834e-07, -2.1365e-06,
         6.3609e-07,  1.2415e-06,  1.3420e-06,  2.0899e-06,  7.1190e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 166, time 217.43, cls_loss 0.0025 cls_loss_mapping 0.0035 cls_loss_causal 0.5349 re_mapping 0.0071 re_causal 0.0197 /// teacc 98.97 lr 0.00010000
Epoch 168, weight, value: tensor([[-0.0357,  0.1335,  0.0734,  ..., -0.1774, -0.1099,  0.0240],
        [ 0.1275, -0.0163, -0.0560,  ...,  0.0767,  0.1008, -0.1169],
        [-0.0743, -0.0547, -0.0511,  ..., -0.0757, -0.0248, -0.0502],
        ...,
        [-0.0581,  0.1475, -0.1645,  ..., -0.1299,  0.0035, -0.1406],
        [-0.0004, -0.1006,  0.0340,  ...,  0.0551, -0.1072, -0.0416],
        [-0.0692, -0.0931,  0.0602,  ..., -0.0830, -0.0564,  0.1256]],
       device='cuda:0'), grad: tensor([[ 5.7835e-07,  2.8173e-08,  1.7788e-06,  ...,  8.5123e-07,
          3.7719e-08,  2.1718e-06],
        [-1.6876e-06,  6.5845e-07,  1.1846e-06,  ..., -1.6391e-07,
         -6.8359e-07,  7.0268e-07],
        [ 6.7279e-06,  5.0478e-06,  8.7395e-06,  ...,  8.6725e-06,
          6.6869e-07,  1.0617e-07],
        ...,
        [ 1.1250e-06, -1.4696e-06,  2.3730e-06,  ...,  1.5050e-06,
          2.5122e-07,  3.1646e-06],
        [-6.4671e-05, -3.6627e-05, -6.4552e-05,  ..., -1.1295e-04,
         -6.5519e-07,  9.6262e-06],
        [ 3.2387e-07,  8.3167e-07, -2.1085e-05,  ...,  3.2131e-06,
          4.7032e-08, -3.9071e-05]], device='cuda:0')
Epoch 168, bias, value: tensor([ 0.0022,  0.0011,  0.0059,  0.0118,  0.0267,  0.0413, -0.0227,  0.0092,
        -0.0375, -0.0222], device='cuda:0'), grad: tensor([ 6.4224e-06, -1.2377e-06,  4.0740e-05,  3.4094e-05, -5.6997e-06,
         2.6965e-04,  5.0426e-05,  9.2760e-06, -3.3832e-04, -6.5327e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 167, time 217.87, cls_loss 0.0027 cls_loss_mapping 0.0046 cls_loss_causal 0.5459 re_mapping 0.0072 re_causal 0.0200 /// teacc 99.00 lr 0.00010000
Epoch 169, weight, value: tensor([[-0.0361,  0.1339,  0.0732,  ..., -0.1791, -0.1100,  0.0239],
        [ 0.1284, -0.0151, -0.0563,  ...,  0.0767,  0.1030, -0.1174],
        [-0.0745, -0.0530, -0.0512,  ..., -0.0760, -0.0248, -0.0508],
        ...,
        [-0.0601,  0.1460, -0.1649,  ..., -0.1305,  0.0011, -0.1412],
        [ 0.0012, -0.1000,  0.0348,  ...,  0.0574, -0.1074, -0.0409],
        [-0.0696, -0.0936,  0.0605,  ..., -0.0830, -0.0568,  0.1262]],
       device='cuda:0'), grad: tensor([[ 1.4901e-07,  1.1129e-07,  2.9802e-08,  ...,  3.2806e-07,
          1.4738e-07,  1.9325e-08],
        [ 7.2410e-08,  3.3132e-07,  1.4016e-07,  ...,  5.5227e-07,
          2.4214e-07,  4.3074e-08],
        [ 1.3155e-07, -1.5842e-06,  1.4692e-07,  ...,  1.7439e-07,
          2.5379e-08,  1.8394e-08],
        ...,
        [ 1.7518e-06,  1.6182e-07,  2.9104e-07,  ...,  4.0978e-06,
          3.0454e-06,  6.2399e-08],
        [ 5.4315e-06,  2.4051e-07,  8.6846e-08,  ...,  1.2390e-05,
          9.3356e-06, -1.3132e-07],
        [ 3.7905e-07,  9.1689e-07, -1.0338e-07,  ...,  5.8003e-06,
          4.1211e-08, -2.1118e-07]], device='cuda:0')
Epoch 169, bias, value: tensor([ 0.0018,  0.0022,  0.0074,  0.0114,  0.0261,  0.0410, -0.0234,  0.0070,
        -0.0360, -0.0219], device='cuda:0'), grad: tensor([ 1.3430e-06,  2.9858e-06, -9.8273e-06,  1.7220e-06, -1.0192e-05,
        -5.8234e-05,  1.2293e-06,  2.1070e-05,  3.8564e-05,  1.1407e-05],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 168----------------------------------------------------
epoch 168, time 217.92, cls_loss 0.0019 cls_loss_mapping 0.0041 cls_loss_causal 0.5386 re_mapping 0.0074 re_causal 0.0211 /// teacc 99.03 lr 0.00010000
Epoch 170, weight, value: tensor([[-0.0363,  0.1344,  0.0733,  ..., -0.1801, -0.1100,  0.0241],
        [ 0.1282, -0.0162, -0.0583,  ...,  0.0766,  0.1029, -0.1193],
        [-0.0741, -0.0530, -0.0503,  ..., -0.0759, -0.0244, -0.0513],
        ...,
        [-0.0599,  0.1473, -0.1648,  ..., -0.1304,  0.0011, -0.1415],
        [ 0.0013, -0.1003,  0.0346,  ...,  0.0573, -0.1075, -0.0411],
        [-0.0704, -0.0940,  0.0608,  ..., -0.0834, -0.0570,  0.1267]],
       device='cuda:0'), grad: tensor([[ 3.1665e-08, -2.3516e-07, -1.1874e-07,  ...,  6.8219e-08,
          1.6298e-09, -4.2701e-07],
        [-6.9104e-07,  8.2655e-08,  5.4017e-08,  ..., -6.0722e-07,
         -3.6554e-08,  1.1199e-07],
        [ 3.7532e-07,  5.6345e-08,  2.6077e-08,  ...,  6.6683e-07,
          1.8394e-08,  3.7719e-08],
        ...,
        [ 1.3504e-07, -1.3635e-06,  1.1316e-07,  ...,  7.5530e-07,
          3.7253e-09,  2.3120e-07],
        [-2.8461e-06,  4.6333e-08, -1.0608e-06,  ..., -3.0342e-06,
          6.9849e-09, -2.1625e-06],
        [ 1.9409e-06,  1.0459e-06,  7.1991e-07,  ...,  1.7792e-05,
          1.3970e-09,  1.5534e-06]], device='cuda:0')
Epoch 170, bias, value: tensor([ 0.0019,  0.0008,  0.0082,  0.0113,  0.0261,  0.0409, -0.0228,  0.0075,
        -0.0362, -0.0218], device='cuda:0'), grad: tensor([-6.5472e-07, -4.5076e-07,  8.0978e-07,  3.4459e-07, -2.8580e-05,
         1.6969e-06,  1.3411e-06,  5.7276e-08, -7.1600e-06,  3.2574e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 169, time 216.63, cls_loss 0.0022 cls_loss_mapping 0.0031 cls_loss_causal 0.5380 re_mapping 0.0070 re_causal 0.0200 /// teacc 99.02 lr 0.00010000
Epoch 171, weight, value: tensor([[-0.0364,  0.1349,  0.0734,  ..., -0.1808, -0.1101,  0.0240],
        [ 0.1282, -0.0165, -0.0589,  ...,  0.0765,  0.1026, -0.1202],
        [-0.0744, -0.0534, -0.0504,  ..., -0.0764, -0.0250, -0.0517],
        ...,
        [-0.0599,  0.1480, -0.1654,  ..., -0.1305,  0.0021, -0.1420],
        [ 0.0014, -0.1007,  0.0347,  ...,  0.0577, -0.1077, -0.0410],
        [-0.0708, -0.0942,  0.0612,  ..., -0.0836, -0.0575,  0.1271]],
       device='cuda:0'), grad: tensor([[ 1.0375e-06, -3.1060e-07,  1.7742e-07,  ...,  2.9299e-06,
          3.2596e-09, -7.1712e-08],
        [-5.7602e-07,  4.0233e-07,  2.9057e-07,  ..., -3.9767e-07,
         -2.3749e-08,  1.7276e-07],
        [ 4.6706e-07,  2.1467e-07,  1.4659e-06,  ...,  1.2135e-06,
         -5.5879e-08,  1.3784e-07],
        ...,
        [ 9.7789e-08, -1.2666e-06,  1.0822e-06,  ...,  3.6135e-07,
          1.2107e-08,  1.1269e-07],
        [ 1.0803e-06,  9.4995e-08,  7.8753e-06,  ...,  2.7865e-06,
          3.2131e-08,  7.7439e-07],
        [ 1.1595e-07,  5.6298e-07, -2.1011e-05,  ...,  4.1490e-07,
          4.6566e-09, -1.8448e-05]], device='cuda:0')
Epoch 171, bias, value: tensor([ 1.8011e-03,  7.5177e-05,  8.0893e-03,  1.1034e-02,  2.6050e-02,
         4.0835e-02, -2.2656e-02,  8.3115e-03, -3.6115e-02, -2.1732e-02],
       device='cuda:0'), grad: tensor([ 4.4107e-06,  3.5483e-07,  2.5071e-06, -4.0866e-06,  1.0453e-05,
         1.2271e-05, -2.3261e-05,  1.2871e-06,  2.2933e-05, -2.6867e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 170, time 216.84, cls_loss 0.0023 cls_loss_mapping 0.0037 cls_loss_causal 0.5338 re_mapping 0.0066 re_causal 0.0197 /// teacc 98.96 lr 0.00010000
Epoch 172, weight, value: tensor([[-0.0366,  0.1358,  0.0737,  ..., -0.1818, -0.1103,  0.0243],
        [ 0.1303, -0.0137, -0.0591,  ...,  0.0796,  0.1025, -0.1207],
        [-0.0748, -0.0523, -0.0506,  ..., -0.0770, -0.0254, -0.0525],
        ...,
        [-0.0624,  0.1454, -0.1656,  ..., -0.1343,  0.0025, -0.1422],
        [ 0.0016, -0.1011,  0.0346,  ...,  0.0581, -0.1077, -0.0410],
        [-0.0714, -0.0947,  0.0614,  ..., -0.0840, -0.0577,  0.1274]],
       device='cuda:0'), grad: tensor([[-1.1399e-06, -2.2501e-05, -1.1101e-05,  ..., -3.4180e-06,
          9.3132e-10, -1.9491e-05],
        [-4.7684e-07, -4.6566e-09,  4.5169e-08,  ..., -4.8894e-07,
         -1.3970e-09,  6.1002e-08],
        [ 5.5879e-08, -4.3493e-07,  1.0664e-07,  ..., -6.6124e-08,
         -9.3132e-10,  6.7521e-08],
        ...,
        [ 3.6322e-07,  1.2573e-08,  1.3597e-07,  ...,  4.9639e-07,
          1.3970e-09,  9.8255e-08],
        [-3.4451e-05,  6.5425e-07,  5.9046e-07,  ..., -6.5029e-05,
          1.2573e-08, -1.0967e-05],
        [ 8.1491e-08,  4.2887e-07,  1.1316e-07,  ...,  1.4901e-07,
          2.3283e-09,  1.6904e-07]], device='cuda:0')
Epoch 172, bias, value: tensor([ 0.0020,  0.0017,  0.0081,  0.0113,  0.0262,  0.0402, -0.0218,  0.0068,
        -0.0361, -0.0219], device='cuda:0'), grad: tensor([-4.7833e-05, -2.7614e-07, -5.1633e-06,  1.5469e-06,  1.2433e-07,
         5.3644e-05,  8.9228e-05,  2.4866e-06, -9.4652e-05,  9.4390e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 171, time 217.17, cls_loss 0.0017 cls_loss_mapping 0.0036 cls_loss_causal 0.5369 re_mapping 0.0068 re_causal 0.0200 /// teacc 98.99 lr 0.00010000
Epoch 173, weight, value: tensor([[-0.0368,  0.1365,  0.0742,  ..., -0.1826, -0.1103,  0.0246],
        [ 0.1301, -0.0141, -0.0595,  ...,  0.0796,  0.1028, -0.1212],
        [-0.0752, -0.0526, -0.0506,  ..., -0.0775, -0.0257, -0.0531],
        ...,
        [-0.0625,  0.1459, -0.1661,  ..., -0.1345,  0.0027, -0.1436],
        [ 0.0018, -0.1014,  0.0347,  ...,  0.0584, -0.1079, -0.0411],
        [-0.0718, -0.0946,  0.0615,  ..., -0.0842, -0.0582,  0.1277]],
       device='cuda:0'), grad: tensor([[ 1.6112e-07, -1.2685e-06, -1.0468e-06,  ...,  1.5134e-07,
          1.8161e-08, -1.7826e-06],
        [-1.1884e-06,  1.8906e-07, -3.6741e-07,  ..., -6.1095e-07,
         -1.2191e-06,  3.3062e-08],
        [ 8.6101e-07,  2.5053e-07,  3.2596e-07,  ...,  7.6927e-07,
          8.9267e-07,  3.0734e-08],
        ...,
        [ 2.2957e-07, -5.6392e-07,  6.4727e-08,  ...,  4.5821e-07,
          2.0675e-07,  4.5914e-07],
        [ 9.4995e-08,  3.4273e-07,  4.5542e-07,  ...,  1.7881e-07,
          1.9092e-08,  6.7381e-07],
        [ 1.9418e-07,  1.0412e-06,  5.7695e-07,  ...,  3.9907e-07,
          2.0768e-07,  8.8522e-07]], device='cuda:0')
Epoch 173, bias, value: tensor([ 0.0023,  0.0014,  0.0082,  0.0116,  0.0263,  0.0398, -0.0218,  0.0069,
        -0.0360, -0.0219], device='cuda:0'), grad: tensor([-3.8035e-06, -1.5264e-06,  2.4624e-06, -4.9025e-06, -2.2016e-06,
         3.9451e-06,  2.6589e-07,  5.0524e-07,  1.6503e-06,  3.5893e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 172, time 217.46, cls_loss 0.0020 cls_loss_mapping 0.0035 cls_loss_causal 0.5576 re_mapping 0.0071 re_causal 0.0206 /// teacc 98.97 lr 0.00010000
Epoch 174, weight, value: tensor([[-0.0373,  0.1370,  0.0753,  ..., -0.1841, -0.1095,  0.0251],
        [ 0.1303, -0.0145, -0.0600,  ...,  0.0797,  0.1035, -0.1225],
        [-0.0758, -0.0531, -0.0507,  ..., -0.0779, -0.0266, -0.0537],
        ...,
        [-0.0623,  0.1468, -0.1664,  ..., -0.1345,  0.0027, -0.1441],
        [ 0.0017, -0.1020,  0.0348,  ...,  0.0584, -0.1080, -0.0411],
        [-0.0724, -0.0951,  0.0612,  ..., -0.0847, -0.0601,  0.1276]],
       device='cuda:0'), grad: tensor([[ 1.2713e-07, -1.9409e-06, -1.3104e-06,  ...,  5.2433e-07,
          2.2817e-08, -1.6671e-06],
        [ 1.3076e-05,  5.1688e-08,  7.4971e-08,  ...,  2.9683e-05,
          2.9244e-06,  8.7544e-08],
        [ 6.9337e-07, -1.2480e-07,  2.6822e-07,  ...,  2.0731e-06,
          9.3132e-08,  2.8312e-07],
        ...,
        [ 9.4483e-07, -1.8533e-07,  8.5216e-08,  ...,  2.0619e-06,
          1.2247e-07,  1.2852e-07],
        [-1.6540e-05,  2.0256e-07, -9.3132e-08,  ..., -3.4750e-05,
         -3.4645e-06,  4.3726e-07],
        [ 1.4296e-07,  9.3179e-07,  1.0943e-07,  ...,  9.0385e-07,
          1.8626e-08, -9.7975e-07]], device='cuda:0')
Epoch 174, bias, value: tensor([ 0.0029,  0.0014,  0.0078,  0.0117,  0.0264,  0.0399, -0.0218,  0.0072,
        -0.0360, -0.0223], device='cuda:0'), grad: tensor([-4.6454e-06,  5.5760e-05,  2.8703e-06,  1.0934e-06, -1.3642e-05,
         1.8273e-06,  1.1794e-05,  5.0329e-06, -6.2823e-05,  2.7288e-06],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 173----------------------------------------------------
epoch 173, time 217.45, cls_loss 0.0023 cls_loss_mapping 0.0031 cls_loss_causal 0.5156 re_mapping 0.0068 re_causal 0.0190 /// teacc 99.04 lr 0.00010000
Epoch 175, weight, value: tensor([[-0.0378,  0.1381,  0.0757,  ..., -0.1859, -0.1094,  0.0253],
        [ 0.1305, -0.0146, -0.0618,  ...,  0.0795,  0.1039, -0.1266],
        [-0.0762, -0.0537, -0.0508,  ..., -0.0783, -0.0271, -0.0543],
        ...,
        [-0.0627,  0.1471, -0.1669,  ..., -0.1349,  0.0028, -0.1456],
        [ 0.0027, -0.1012,  0.0348,  ...,  0.0595, -0.1082, -0.0406],
        [-0.0720, -0.0951,  0.0617,  ..., -0.0842, -0.0607,  0.1295]],
       device='cuda:0'), grad: tensor([[ 2.4028e-06,  1.5367e-08, -8.3819e-09,  ...,  9.3356e-06,
          0.0000e+00, -1.2573e-08],
        [-2.1271e-06, -1.2042e-06,  2.7008e-08,  ..., -5.1521e-06,
          0.0000e+00,  3.3993e-08],
        [ 2.4196e-06,  1.1735e-06,  1.0477e-07,  ...,  6.0759e-06,
          0.0000e+00,  9.4529e-08],
        ...,
        [ 6.3796e-07, -1.0803e-06,  3.0734e-08,  ...,  1.2126e-06,
          0.0000e+00,  4.2841e-08],
        [ 3.6918e-06,  2.2585e-07, -1.8952e-07,  ...,  5.4240e-06,
          0.0000e+00, -4.5355e-07],
        [ 2.5099e-07,  4.9500e-07,  1.5367e-08,  ...,  9.5274e-07,
          0.0000e+00,  1.6764e-07]], device='cuda:0')
Epoch 175, bias, value: tensor([ 0.0032,  0.0009,  0.0075,  0.0125,  0.0259,  0.0391, -0.0220,  0.0067,
        -0.0355, -0.0213], device='cuda:0'), grad: tensor([ 1.6049e-05, -1.3143e-05,  1.5259e-05,  1.8887e-06,  3.3736e-05,
         3.8818e-06, -7.4983e-05,  1.1083e-06,  1.3642e-05,  2.5425e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 174, time 217.55, cls_loss 0.0025 cls_loss_mapping 0.0040 cls_loss_causal 0.5165 re_mapping 0.0064 re_causal 0.0184 /// teacc 98.99 lr 0.00010000
Epoch 176, weight, value: tensor([[-0.0394,  0.1376,  0.0758,  ..., -0.1889, -0.1097,  0.0252],
        [ 0.1317, -0.0149, -0.0622,  ...,  0.0806,  0.1043, -0.1272],
        [-0.0767, -0.0542, -0.0509,  ..., -0.0787, -0.0275, -0.0547],
        ...,
        [-0.0629,  0.1485, -0.1671,  ..., -0.1351,  0.0027, -0.1466],
        [ 0.0022, -0.1024,  0.0344,  ...,  0.0589, -0.1083, -0.0411],
        [-0.0714, -0.0960,  0.0623,  ..., -0.0845, -0.0609,  0.1305]],
       device='cuda:0'), grad: tensor([[ 7.8697e-08, -1.6578e-07,  7.8082e-06,  ...,  4.0494e-06,
          0.0000e+00,  8.9109e-06],
        [-1.6997e-07,  8.0094e-08,  1.1828e-07,  ..., -9.0804e-08,
         -6.0536e-09,  1.3225e-07],
        [ 3.6787e-08,  8.4750e-08,  7.3109e-08,  ...,  8.8010e-08,
          9.3132e-10,  7.8231e-08],
        ...,
        [ 1.4063e-07, -3.6694e-07,  5.3085e-08,  ...,  2.2212e-07,
          2.3283e-09,  5.8673e-08],
        [ 1.1548e-07,  7.4971e-08,  1.4508e-04,  ...,  7.0274e-05,
          1.3970e-09,  1.6499e-04],
        [ 4.5169e-08,  3.1106e-07, -1.5461e-04,  ..., -7.4089e-05,
          9.3132e-10, -1.7560e-04]], device='cuda:0')
Epoch 176, bias, value: tensor([ 0.0026,  0.0012,  0.0072,  0.0122,  0.0259,  0.0395, -0.0221,  0.0072,
        -0.0362, -0.0211], device='cuda:0'), grad: tensor([ 1.8090e-05,  4.9360e-08,  3.4226e-07,  1.6317e-06,  7.2783e-07,
        -1.5199e-06,  2.9337e-08,  5.1688e-08,  3.3307e-04, -3.5262e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 175, time 217.39, cls_loss 0.0028 cls_loss_mapping 0.0042 cls_loss_causal 0.5232 re_mapping 0.0068 re_causal 0.0199 /// teacc 99.02 lr 0.00010000
Epoch 177, weight, value: tensor([[-0.0398,  0.1381,  0.0759,  ..., -0.1898, -0.1097,  0.0253],
        [ 0.1319, -0.0149, -0.0636,  ...,  0.0805,  0.1034, -0.1280],
        [-0.0765, -0.0540, -0.0497,  ..., -0.0784, -0.0266, -0.0552],
        ...,
        [-0.0631,  0.1488, -0.1677,  ..., -0.1353,  0.0034, -0.1476],
        [ 0.0020, -0.1032,  0.0339,  ...,  0.0588, -0.1085, -0.0418],
        [-0.0722, -0.0967,  0.0627,  ..., -0.0850, -0.0613,  0.1312]],
       device='cuda:0'), grad: tensor([[ 1.7369e-07, -1.2619e-07,  2.0117e-07,  ...,  1.2992e-07,
          1.3970e-09, -8.0094e-08],
        [-4.5076e-07, -1.6298e-08,  2.4308e-07,  ..., -6.5938e-07,
         -3.9116e-08, -9.7789e-09],
        [ 2.2305e-07,  4.6100e-08,  2.0349e-07,  ...,  1.0943e-07,
          6.0536e-09,  1.4435e-08],
        ...,
        [ 2.2165e-07, -3.1991e-07,  3.4133e-07,  ...,  1.6158e-07,
          6.9849e-09,  9.7789e-09],
        [ 1.2871e-06,  4.8429e-08,  2.1290e-06,  ...,  9.4343e-07,
          6.9849e-09,  1.7835e-07],
        [ 1.8813e-07,  2.2491e-07,  1.8021e-07,  ...,  2.0256e-07,
          7.9162e-09, -1.1642e-08]], device='cuda:0')
Epoch 177, bias, value: tensor([ 0.0026,  0.0001,  0.0085,  0.0091,  0.0257,  0.0430, -0.0231,  0.0075,
        -0.0369, -0.0210], device='cuda:0'), grad: tensor([ 6.1421e-07, -3.7625e-07,  8.0373e-07, -1.0860e-04,  2.1001e-07,
         9.8705e-05, -1.3988e-06,  7.6694e-07,  8.0466e-06,  1.2396e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 176, time 217.16, cls_loss 0.0028 cls_loss_mapping 0.0041 cls_loss_causal 0.5138 re_mapping 0.0065 re_causal 0.0188 /// teacc 98.97 lr 0.00010000
Epoch 178, weight, value: tensor([[-0.0426,  0.1362,  0.0754,  ..., -0.1922, -0.1132,  0.0244],
        [ 0.1329, -0.0151, -0.0627,  ...,  0.0818,  0.1041, -0.1274],
        [-0.0775, -0.0529, -0.0497,  ..., -0.0798, -0.0275, -0.0557],
        ...,
        [-0.0632,  0.1491, -0.1679,  ..., -0.1359,  0.0036, -0.1479],
        [ 0.0021, -0.1034,  0.0338,  ...,  0.0590, -0.1086, -0.0420],
        [-0.0748, -0.0974,  0.0629,  ..., -0.0859, -0.0618,  0.1317]],
       device='cuda:0'), grad: tensor([[-2.0582e-07, -1.3746e-06, -9.0245e-07,  ..., -6.8918e-07,
         -4.1956e-07, -3.8520e-06],
        [ 4.7032e-08,  1.9558e-08,  5.2620e-08,  ...,  2.6263e-07,
          2.5611e-08,  1.1362e-07],
        [ 2.7474e-08,  3.3062e-08,  3.9581e-08,  ...,  1.6978e-06,
          1.2573e-08,  4.9360e-08],
        ...,
        [ 2.9337e-08, -4.7963e-08,  4.8429e-08,  ...,  7.9628e-07,
          7.9162e-09,  1.1595e-07],
        [ 9.7416e-07,  1.9558e-08,  5.4343e-07,  ..., -2.0210e-07,
          1.0245e-07,  1.7844e-06],
        [ 7.5437e-08,  4.0047e-08, -6.3330e-08,  ...,  1.5991e-06,
          2.9802e-08, -2.5565e-07]], device='cuda:0')
Epoch 178, bias, value: tensor([ 0.0001,  0.0004,  0.0092,  0.0083,  0.0266,  0.0438, -0.0226,  0.0075,
        -0.0373, -0.0214], device='cuda:0'), grad: tensor([-2.7508e-05,  8.1724e-07,  9.4026e-06,  1.3094e-06, -4.9807e-06,
        -4.3996e-06,  2.7567e-05,  1.8477e-06, -7.2196e-06,  3.1553e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 177, time 217.13, cls_loss 0.0023 cls_loss_mapping 0.0026 cls_loss_causal 0.5396 re_mapping 0.0065 re_causal 0.0193 /// teacc 98.97 lr 0.00010000
Epoch 179, weight, value: tensor([[-0.0429,  0.1379,  0.0743,  ..., -0.1924, -0.1131,  0.0227],
        [ 0.1334, -0.0153, -0.0630,  ...,  0.0820,  0.1044, -0.1278],
        [-0.0780, -0.0508, -0.0496,  ..., -0.0802, -0.0273, -0.0550],
        ...,
        [-0.0634,  0.1477, -0.1682,  ..., -0.1363,  0.0035, -0.1485],
        [ 0.0020, -0.1040,  0.0336,  ...,  0.0589, -0.1088, -0.0423],
        [-0.0755, -0.0979,  0.0635,  ..., -0.0867, -0.0623,  0.1330]],
       device='cuda:0'), grad: tensor([[ 2.3283e-08, -3.5577e-07, -1.2619e-07,  ...,  3.9116e-08,
          4.6566e-09, -1.2200e-07],
        [-8.7079e-08,  1.5367e-08,  3.9581e-08,  ..., -1.0058e-07,
          5.1223e-09,  8.0094e-08],
        [ 2.6543e-08,  8.1956e-08,  4.0513e-08,  ...,  3.6787e-08,
          9.3132e-10,  4.8429e-08],
        ...,
        [ 2.1420e-08, -6.5193e-08,  1.1129e-07,  ...,  3.1199e-08,
          3.2596e-09,  1.9092e-07],
        [ 5.7742e-08,  2.9802e-08,  7.3202e-07,  ...,  1.0384e-07,
          2.8871e-08,  1.2880e-06],
        [ 3.8650e-08,  9.5461e-08, -1.3756e-06,  ...,  6.8918e-08,
          8.3819e-09, -2.3767e-06]], device='cuda:0')
Epoch 179, bias, value: tensor([-0.0005,  0.0003,  0.0110,  0.0087,  0.0272,  0.0434, -0.0230,  0.0063,
        -0.0377, -0.0211], device='cuda:0'), grad: tensor([-7.9675e-07, -4.6566e-10,  9.7323e-08,  5.4343e-07,  1.5870e-06,
        -1.1194e-06,  8.9919e-07,  2.8918e-07,  2.0564e-06, -3.5651e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 178, time 217.81, cls_loss 0.0022 cls_loss_mapping 0.0035 cls_loss_causal 0.4831 re_mapping 0.0066 re_causal 0.0186 /// teacc 98.81 lr 0.00010000
Epoch 180, weight, value: tensor([[-0.0429,  0.1385,  0.0746,  ..., -0.1927, -0.1131,  0.0228],
        [ 0.1352, -0.0147, -0.0633,  ...,  0.0841,  0.1045, -0.1281],
        [-0.0787, -0.0507, -0.0497,  ..., -0.0806, -0.0275, -0.0551],
        ...,
        [-0.0643,  0.1480, -0.1685,  ..., -0.1377,  0.0042, -0.1486],
        [ 0.0015, -0.1051,  0.0334,  ...,  0.0586, -0.1094, -0.0425],
        [-0.0777, -0.0990,  0.0639,  ..., -0.0877, -0.0624,  0.1335]],
       device='cuda:0'), grad: tensor([[ 1.3225e-07, -1.8813e-07, -6.7521e-08,  ...,  1.1083e-07,
          2.3283e-09, -4.5169e-08],
        [ 1.7714e-06,  4.9919e-06,  3.5763e-07,  ...,  1.7509e-07,
          3.0734e-08,  4.4005e-07],
        [ 4.4703e-08,  2.3562e-07, -6.0536e-09,  ...,  7.5903e-08,
          5.1223e-09,  2.3749e-08],
        ...,
        [-3.4124e-06, -1.2845e-05, -1.9139e-07,  ...,  1.6158e-07,
         -1.2573e-07,  7.1712e-08],
        [ 3.5074e-06,  1.1269e-07,  1.8738e-06,  ...,  1.5516e-06,
          1.0431e-07,  3.2485e-06],
        [ 2.2221e-06,  6.9663e-06,  4.0513e-07,  ...,  6.5938e-07,
          1.2200e-07,  3.3667e-07]], device='cuda:0')
Epoch 180, bias, value: tensor([-0.0003,  0.0008,  0.0111,  0.0089,  0.0271,  0.0433, -0.0230,  0.0065,
        -0.0384, -0.0212], device='cuda:0'), grad: tensor([-3.7858e-07,  8.5309e-06, -7.6788e-07,  8.0233e-07, -1.9977e-07,
        -9.6858e-06,  3.1665e-06, -1.9491e-05,  5.5023e-06,  1.2480e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 179, time 216.95, cls_loss 0.0021 cls_loss_mapping 0.0029 cls_loss_causal 0.5251 re_mapping 0.0068 re_causal 0.0198 /// teacc 98.94 lr 0.00010000
Epoch 181, weight, value: tensor([[-0.0431,  0.1391,  0.0740,  ..., -0.1933, -0.1131,  0.0222],
        [ 0.1357, -0.0151, -0.0630,  ...,  0.0847,  0.1049, -0.1285],
        [-0.0780, -0.0510, -0.0499,  ..., -0.0812, -0.0276, -0.0557],
        ...,
        [-0.0645,  0.1488, -0.1689,  ..., -0.1380,  0.0044, -0.1490],
        [ 0.0015, -0.1054,  0.0333,  ...,  0.0588, -0.1094, -0.0427],
        [-0.0782, -0.0994,  0.0643,  ..., -0.0882, -0.0631,  0.1343]],
       device='cuda:0'), grad: tensor([[ 5.1223e-08, -8.8885e-06, -8.8811e-06,  ..., -2.0005e-06,
          4.3306e-08, -1.0006e-05],
        [-4.8190e-05,  4.0531e-06,  2.6636e-07,  ..., -1.5438e-05,
         -9.1970e-05,  3.2270e-07],
        [ 2.4483e-05,  1.2936e-06,  9.9000e-07,  ...,  8.2329e-06,
          4.6700e-05,  1.0943e-06],
        ...,
        [ 2.2918e-05, -9.6709e-06,  1.1269e-07,  ...,  7.4431e-06,
          4.2677e-05,  1.1455e-07],
        [-2.5928e-06,  3.3006e-06, -2.5500e-06,  ..., -4.0904e-06,
          6.7893e-07, -3.5260e-06],
        [ 2.4661e-06,  4.5337e-06,  4.8727e-06,  ...,  3.9861e-06,
          9.3179e-07,  6.1542e-06]], device='cuda:0')
Epoch 181, bias, value: tensor([-0.0005,  0.0006,  0.0114,  0.0090,  0.0271,  0.0430, -0.0237,  0.0069,
        -0.0385, -0.0211], device='cuda:0'), grad: tensor([-2.8849e-05, -1.5187e-04,  8.5890e-05,  2.1942e-06,  1.0571e-06,
         1.8245e-06,  1.4797e-05,  5.4926e-05, -3.2000e-06,  2.3350e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 180, time 217.46, cls_loss 0.0017 cls_loss_mapping 0.0041 cls_loss_causal 0.5551 re_mapping 0.0065 re_causal 0.0190 /// teacc 99.01 lr 0.00010000
Epoch 182, weight, value: tensor([[-0.0433,  0.1395,  0.0743,  ..., -0.1938, -0.1132,  0.0224],
        [ 0.1365, -0.0151, -0.0642,  ...,  0.0851,  0.1056, -0.1305],
        [-0.0794, -0.0511, -0.0502,  ..., -0.0823, -0.0282, -0.0570],
        ...,
        [-0.0646,  0.1493, -0.1692,  ..., -0.1382,  0.0041, -0.1481],
        [ 0.0016, -0.1056,  0.0333,  ...,  0.0590, -0.1095, -0.0427],
        [-0.0793, -0.1004,  0.0651,  ..., -0.0881, -0.0632,  0.1355]],
       device='cuda:0'), grad: tensor([[ 3.0082e-07,  1.8254e-07,  1.2480e-07,  ...,  1.0105e-07,
          0.0000e+00,  5.5274e-07],
        [ 4.7730e-07,  2.0117e-07,  3.2037e-07,  ...,  4.8941e-07,
         -1.8626e-09,  1.4529e-07],
        [ 3.6396e-06,  7.8790e-07,  1.4342e-06,  ...,  3.7104e-06,
         -4.6566e-10,  2.3143e-07],
        ...,
        [ 1.1735e-06,  9.4203e-07,  1.5646e-06,  ...,  3.4552e-07,
          1.3970e-09,  1.1660e-06],
        [-1.1586e-05,  3.4738e-07, -1.8962e-06,  ..., -1.4767e-05,
          0.0000e+00,  2.5984e-06],
        [ 1.7229e-07,  9.6858e-08, -4.2319e-06,  ...,  3.0966e-07,
          0.0000e+00, -5.9828e-06]], device='cuda:0')
Epoch 182, bias, value: tensor([-0.0003,  0.0005,  0.0108,  0.0092,  0.0269,  0.0429, -0.0238,  0.0072,
        -0.0384, -0.0207], device='cuda:0'), grad: tensor([ 1.8682e-06,  2.3823e-06,  1.3389e-05,  3.4422e-06,  2.5239e-06,
         9.9391e-06,  3.0287e-06,  7.7486e-06, -3.4869e-05, -9.4101e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 181, time 217.56, cls_loss 0.0019 cls_loss_mapping 0.0036 cls_loss_causal 0.5393 re_mapping 0.0061 re_causal 0.0190 /// teacc 99.00 lr 0.00010000
Epoch 183, weight, value: tensor([[-0.0436,  0.1398,  0.0748,  ..., -0.1942, -0.1131,  0.0228],
        [ 0.1375, -0.0147, -0.0647,  ...,  0.0856,  0.1060, -0.1313],
        [-0.0798, -0.0513, -0.0505,  ..., -0.0827, -0.0284, -0.0577],
        ...,
        [-0.0658,  0.1493, -0.1695,  ..., -0.1389,  0.0039, -0.1490],
        [ 0.0020, -0.1059,  0.0334,  ...,  0.0593, -0.1096, -0.0427],
        [-0.0800, -0.1012,  0.0655,  ..., -0.0887, -0.0634,  0.1359]],
       device='cuda:0'), grad: tensor([[ 1.3411e-07, -7.6881e-07, -8.3959e-07,  ...,  8.9873e-08,
         -7.0315e-08, -1.1865e-06],
        [-2.7893e-07,  6.7912e-06, -1.0952e-06,  ..., -2.5518e-06,
         -4.1910e-09, -7.5065e-07],
        [ 3.0315e-07,  5.4669e-07,  9.4064e-08,  ...,  1.9465e-07,
          1.3970e-09,  5.3085e-08],
        ...,
        [-1.6652e-06, -7.7188e-05, -4.4070e-06,  ...,  1.6997e-07,
          2.3283e-09,  5.4017e-08],
        [ 7.3807e-07,  1.5106e-06,  5.1735e-07,  ...,  1.1362e-07,
          9.3132e-10,  1.1269e-07],
        [ 1.7509e-06,  6.7592e-05,  6.2920e-06,  ...,  2.1830e-06,
          4.2375e-08,  1.4547e-06]], device='cuda:0')
Epoch 183, bias, value: tensor([-2.5532e-05,  7.0022e-04,  1.0523e-02,  9.2398e-03,  2.7203e-02,
         4.3542e-02, -2.5544e-02,  6.8184e-03, -3.8187e-02, -2.0872e-02],
       device='cuda:0'), grad: tensor([-2.3451e-06,  7.9349e-06,  1.4678e-06, -9.8161e-07,  1.4585e-06,
         1.2666e-07, -6.2725e-07, -1.2887e-04,  3.7923e-06,  1.1808e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 182, time 217.45, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.5278 re_mapping 0.0064 re_causal 0.0196 /// teacc 98.98 lr 0.00010000
Epoch 184, weight, value: tensor([[-0.0442,  0.1403,  0.0751,  ..., -0.1951, -0.1133,  0.0229],
        [ 0.1385, -0.0144, -0.0646,  ...,  0.0861,  0.1062, -0.1316],
        [-0.0802, -0.0515, -0.0508,  ..., -0.0829, -0.0286, -0.0583],
        ...,
        [-0.0660,  0.1504, -0.1687,  ..., -0.1392,  0.0038, -0.1489],
        [ 0.0017, -0.1073,  0.0334,  ...,  0.0593, -0.1097, -0.0428],
        [-0.0821, -0.1035,  0.0653,  ..., -0.0893, -0.0635,  0.1358]],
       device='cuda:0'), grad: tensor([[ 2.3283e-08, -1.3504e-08,  2.9337e-08,  ...,  2.1886e-08,
          4.6566e-10,  2.7474e-08],
        [-3.7253e-08, -4.6566e-10,  1.0524e-07,  ..., -1.8161e-08,
         -7.4506e-09,  1.2200e-07],
        [ 2.3283e-08,  4.6566e-09,  4.4238e-08,  ...,  2.0489e-08,
          3.2596e-09,  1.2107e-08],
        ...,
        [ 4.1910e-08,  3.3528e-08,  2.7474e-07,  ...,  5.5414e-08,
          7.4506e-09,  2.6077e-07],
        [ 1.2806e-07,  2.9802e-08,  3.4925e-07,  ...,  1.4016e-07,
          1.3970e-09,  4.6985e-07],
        [ 4.9127e-07, -9.4529e-08, -2.2398e-07,  ...,  6.8778e-07,
          9.3132e-10,  2.3888e-07]], device='cuda:0')
Epoch 184, bias, value: tensor([ 9.9534e-05,  9.5707e-04,  1.0190e-02,  9.1858e-03,  2.7522e-02,
         4.3569e-02, -2.5344e-02,  7.6505e-03, -3.8411e-02, -2.1817e-02],
       device='cuda:0'), grad: tensor([ 9.7323e-08,  1.8580e-07, -4.0978e-08, -9.7789e-08,  3.3574e-07,
        -2.7232e-06,  9.4716e-07,  7.4273e-07,  8.0420e-07, -2.4447e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 183, time 217.52, cls_loss 0.0029 cls_loss_mapping 0.0046 cls_loss_causal 0.5287 re_mapping 0.0065 re_causal 0.0185 /// teacc 98.92 lr 0.00010000
Epoch 185, weight, value: tensor([[-0.0457,  0.1401,  0.0750,  ..., -0.1976, -0.1135,  0.0228],
        [ 0.1411, -0.0128, -0.0654,  ...,  0.0874,  0.1075, -0.1324],
        [-0.0816, -0.0517, -0.0511,  ..., -0.0838, -0.0296, -0.0590],
        ...,
        [-0.0698,  0.1474, -0.1693,  ..., -0.1424,  0.0036, -0.1497],
        [ 0.0047, -0.1045,  0.0336,  ...,  0.0615, -0.1099, -0.0428],
        [-0.0841, -0.1046,  0.0658,  ..., -0.0903, -0.0637,  0.1376]],
       device='cuda:0'), grad: tensor([[ 7.0035e-07, -2.3190e-07, -5.2107e-07,  ...,  3.8883e-07,
          1.1642e-08, -1.0859e-06],
        [-3.1497e-06,  1.2321e-06,  3.5111e-07,  ..., -2.2203e-06,
         -1.3225e-07,  4.5402e-07],
        [ 1.8207e-07,  3.5437e-07,  7.2177e-08,  ...,  3.5437e-07,
         -1.8626e-09,  4.9360e-08],
        ...,
        [ 9.8720e-08, -1.5780e-05, -2.7865e-06,  ...,  2.7847e-07,
          5.1223e-09,  6.7055e-08],
        [ 1.5572e-06,  6.0629e-07,  2.6217e-07,  ...,  1.8291e-06,
          1.0850e-07,  5.8021e-07],
        [ 6.2119e-07,  3.7439e-06,  1.7621e-06,  ...,  7.7114e-06,
          5.1223e-09,  4.4145e-06]], device='cuda:0')
Epoch 185, bias, value: tensor([-0.0005,  0.0025,  0.0098,  0.0091,  0.0280,  0.0436, -0.0250,  0.0047,
        -0.0356, -0.0221], device='cuda:0'), grad: tensor([-6.3516e-07, -6.2026e-07,  1.1632e-06,  2.3231e-05, -2.0981e-05,
        -7.3433e-05,  7.5936e-05, -3.2812e-05,  4.9658e-06,  2.3171e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 184, time 217.35, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5288 re_mapping 0.0067 re_causal 0.0195 /// teacc 98.96 lr 0.00010000
Epoch 186, weight, value: tensor([[-0.0462,  0.1401,  0.0750,  ..., -0.1985, -0.1136,  0.0228],
        [ 0.1413, -0.0127, -0.0665,  ...,  0.0873,  0.1077, -0.1331],
        [-0.0820, -0.0516, -0.0504,  ..., -0.0837, -0.0295, -0.0599],
        ...,
        [-0.0699,  0.1476, -0.1695,  ..., -0.1426,  0.0039, -0.1496],
        [ 0.0049, -0.1045,  0.0338,  ...,  0.0622, -0.1101, -0.0427],
        [-0.0846, -0.1056,  0.0662,  ..., -0.0902, -0.0642,  0.1381]],
       device='cuda:0'), grad: tensor([[ 1.5879e-07, -6.6683e-06, -3.1069e-06,  ...,  1.3690e-07,
         -1.8161e-08, -2.1905e-06],
        [-5.9307e-06, -4.3446e-07,  3.8184e-08,  ..., -9.6411e-06,
          4.6566e-10,  1.3970e-08],
        [ 5.5088e-07,  9.7752e-06,  2.6729e-06,  ...,  7.7672e-07,
          2.3283e-09,  1.8943e-06],
        ...,
        [ 9.9465e-07, -5.4017e-06,  6.2399e-08,  ...,  1.4044e-06,
          4.6566e-10,  1.9092e-08],
        [ 3.8408e-06,  1.3430e-06,  2.2305e-07,  ...,  6.5416e-06,
          2.7940e-09,  3.6228e-07],
        [ 1.3830e-07,  8.6427e-07,  2.8452e-07,  ...,  2.1886e-07,
          6.5193e-09,  1.7881e-07]], device='cuda:0')
Epoch 186, bias, value: tensor([-0.0006,  0.0023,  0.0104,  0.0090,  0.0277,  0.0436, -0.0251,  0.0047,
        -0.0355, -0.0219], device='cuda:0'), grad: tensor([-1.7717e-05, -1.1146e-05,  1.1548e-05, -1.1129e-06,  1.1679e-06,
         3.8818e-06, -1.2061e-07, -1.7369e-06,  1.2234e-05,  2.9765e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 185, time 216.97, cls_loss 0.0021 cls_loss_mapping 0.0033 cls_loss_causal 0.5310 re_mapping 0.0066 re_causal 0.0193 /// teacc 98.97 lr 0.00010000
Epoch 187, weight, value: tensor([[-0.0464,  0.1398,  0.0749,  ..., -0.1992, -0.1136,  0.0228],
        [ 0.1415, -0.0131, -0.0667,  ...,  0.0873,  0.1082, -0.1332],
        [-0.0825, -0.0518, -0.0505,  ..., -0.0840, -0.0299, -0.0603],
        ...,
        [-0.0700,  0.1487, -0.1687,  ..., -0.1427,  0.0037, -0.1488],
        [ 0.0055, -0.1044,  0.0343,  ...,  0.0634, -0.1101, -0.0424],
        [-0.0851, -0.1087,  0.0659,  ..., -0.0904, -0.0644,  0.1382]],
       device='cuda:0'), grad: tensor([[ 1.5507e-07,  7.4040e-08,  4.1910e-09,  ...,  2.6077e-07,
          4.6566e-10,  1.3039e-08],
        [-1.6065e-07,  5.6345e-08,  2.8871e-08,  ..., -2.1281e-07,
          4.8429e-08,  5.0757e-08],
        [-1.3225e-07,  2.9802e-08,  2.3749e-08,  ...,  1.2293e-07,
         -1.4715e-07,  1.2573e-08],
        ...,
        [ 1.5879e-07, -2.8079e-07,  4.4703e-08,  ...,  1.0850e-07,
          4.7963e-08,  8.0094e-08],
        [ 2.6952e-06,  1.6969e-06,  2.1234e-07,  ...,  4.8093e-06,
          2.7940e-09,  4.5029e-07],
        [ 3.1665e-08,  1.8207e-07, -9.5041e-07,  ...,  5.2154e-08,
          9.3132e-10, -1.8040e-06]], device='cuda:0')
Epoch 187, bias, value: tensor([-0.0009,  0.0021,  0.0102,  0.0088,  0.0278,  0.0438, -0.0266,  0.0058,
        -0.0349, -0.0229], device='cuda:0'), grad: tensor([ 5.4156e-07,  2.2855e-06, -7.0594e-06,  1.2079e-06,  1.9781e-06,
         4.3400e-07, -9.3579e-06,  2.3395e-06,  9.8422e-06, -2.2054e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 186, time 217.30, cls_loss 0.0022 cls_loss_mapping 0.0029 cls_loss_causal 0.5668 re_mapping 0.0068 re_causal 0.0195 /// teacc 98.91 lr 0.00010000
Epoch 188, weight, value: tensor([[-0.0468,  0.1403,  0.0750,  ..., -0.2001, -0.1136,  0.0230],
        [ 0.1420, -0.0137, -0.0668,  ...,  0.0874,  0.1088, -0.1333],
        [-0.0833, -0.0524, -0.0508,  ..., -0.0845, -0.0302, -0.0611],
        ...,
        [-0.0699,  0.1494, -0.1696,  ..., -0.1429,  0.0034, -0.1495],
        [ 0.0054, -0.1046,  0.0344,  ...,  0.0635, -0.1102, -0.0423],
        [-0.0864, -0.1094,  0.0662,  ..., -0.0908, -0.0645,  0.1383]],
       device='cuda:0'), grad: tensor([[ 1.8626e-08, -1.5944e-06, -5.1968e-07,  ...,  2.3749e-08,
          0.0000e+00, -2.4624e-06],
        [-2.0256e-07,  1.0571e-07,  6.3796e-08,  ..., -1.2945e-07,
         -4.6566e-10,  9.8720e-08],
        [ 5.2620e-08,  8.0094e-08,  7.2177e-08,  ...,  4.2841e-08,
          0.0000e+00,  1.3504e-07],
        ...,
        [ 1.0943e-07, -3.0641e-07,  1.0477e-07,  ...,  1.4296e-07,
          0.0000e+00,  2.1374e-07],
        [ 1.7649e-07,  1.2480e-07,  8.8476e-08,  ...,  2.4354e-07,
          0.0000e+00,  3.3667e-07],
        [ 2.5611e-08,  6.3563e-07,  1.3225e-07,  ...,  6.1747e-07,
          0.0000e+00,  6.5565e-07]], device='cuda:0')
Epoch 188, bias, value: tensor([-0.0008,  0.0017,  0.0093,  0.0087,  0.0280,  0.0440, -0.0265,  0.0062,
        -0.0351, -0.0231], device='cuda:0'), grad: tensor([-7.4133e-06,  2.4633e-07,  1.8161e-07, -6.3796e-08, -1.4175e-06,
         1.9390e-06,  1.2014e-06,  5.9465e-07,  1.1530e-06,  3.5670e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 187, time 217.38, cls_loss 0.0026 cls_loss_mapping 0.0046 cls_loss_causal 0.5645 re_mapping 0.0064 re_causal 0.0190 /// teacc 98.98 lr 0.00010000
Epoch 189, weight, value: tensor([[-0.0474,  0.1403,  0.0749,  ..., -0.2009, -0.1136,  0.0230],
        [ 0.1425, -0.0142, -0.0671,  ...,  0.0876,  0.1095, -0.1334],
        [-0.0854, -0.0525, -0.0516,  ..., -0.0856, -0.0311, -0.0616],
        ...,
        [-0.0700,  0.1499, -0.1712,  ..., -0.1431,  0.0033, -0.1499],
        [ 0.0055, -0.1046,  0.0346,  ...,  0.0634, -0.1103, -0.0425],
        [-0.0871, -0.1103,  0.0669,  ..., -0.0911, -0.0646,  0.1387]],
       device='cuda:0'), grad: tensor([[ 1.5181e-06,  7.9349e-07,  9.3132e-10,  ...,  1.1828e-06,
          4.6566e-09, -4.0047e-08],
        [-6.5193e-08,  1.5786e-07,  2.6543e-08,  ...,  3.0734e-08,
          1.7229e-08,  1.3039e-08],
        [ 4.6566e-08,  3.6787e-08,  1.1176e-08,  ...,  7.0315e-08,
          3.2596e-09,  2.3283e-09],
        ...,
        [ 1.7695e-08, -7.7672e-07,  3.6787e-08,  ...,  7.5437e-08,
         -2.8033e-07,  4.2841e-08],
        [-4.3306e-07,  7.8697e-08,  4.5169e-08,  ..., -7.7300e-07,
          1.6298e-08,  3.5297e-07],
        [ 3.9581e-08,  2.4168e-07, -3.6880e-07,  ...,  1.9046e-07,
          1.1455e-07, -5.0105e-07]], device='cuda:0')
Epoch 189, bias, value: tensor([-0.0009,  0.0016,  0.0085,  0.0113,  0.0279,  0.0415, -0.0264,  0.0063,
        -0.0349, -0.0228], device='cuda:0'), grad: tensor([ 9.6783e-06,  3.3006e-06, -1.6004e-05,  3.7905e-06,  8.7079e-08,
         1.9837e-06, -8.1882e-06,  3.2280e-06,  1.5013e-06,  5.8161e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 188, time 216.92, cls_loss 0.0021 cls_loss_mapping 0.0036 cls_loss_causal 0.5321 re_mapping 0.0062 re_causal 0.0186 /// teacc 98.88 lr 0.00010000
Epoch 190, weight, value: tensor([[-0.0473,  0.1409,  0.0747,  ..., -0.2012, -0.1136,  0.0225],
        [ 0.1429, -0.0145, -0.0672,  ...,  0.0878,  0.1098, -0.1336],
        [-0.0861, -0.0526, -0.0519,  ..., -0.0863, -0.0314, -0.0622],
        ...,
        [-0.0700,  0.1502, -0.1719,  ..., -0.1432,  0.0033, -0.1498],
        [ 0.0052, -0.1048,  0.0344,  ...,  0.0629, -0.1104, -0.0432],
        [-0.0885, -0.1108,  0.0672,  ..., -0.0920, -0.0646,  0.1387]],
       device='cuda:0'), grad: tensor([[ 1.7323e-07,  2.5611e-08, -1.1176e-08,  ...,  2.2724e-07,
          1.8626e-09,  6.7055e-08],
        [-2.5379e-07,  5.0757e-08,  3.8184e-08,  ..., -3.4086e-07,
         -1.5367e-08,  8.7079e-08],
        [ 3.8603e-07, -1.3970e-09,  3.8650e-08,  ...,  5.3737e-07,
          1.4435e-08,  1.0012e-07],
        ...,
        [ 1.6345e-07, -4.8755e-07,  2.3516e-07,  ...,  2.2165e-07,
          9.7789e-09,  6.3190e-07],
        [ 1.4529e-06,  3.0734e-08,  1.8533e-07,  ...,  1.7788e-06,
          2.0023e-08,  8.3493e-07],
        [ 2.1327e-07,  7.7300e-08, -9.9279e-07,  ...,  3.1525e-07,
          4.6566e-09, -2.9616e-06]], device='cuda:0')
Epoch 190, bias, value: tensor([-0.0010,  0.0015,  0.0082,  0.0110,  0.0287,  0.0419, -0.0259,  0.0066,
        -0.0353, -0.0235], device='cuda:0'), grad: tensor([ 8.8708e-07, -2.0163e-07, -3.2922e-07,  4.8848e-07,  5.3495e-06,
         1.5870e-05, -2.2128e-05,  1.2135e-06,  2.8741e-06, -4.0084e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 189, time 216.85, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5367 re_mapping 0.0062 re_causal 0.0185 /// teacc 98.95 lr 0.00010000
Epoch 191, weight, value: tensor([[-0.0476,  0.1414,  0.0753,  ..., -0.2019, -0.1136,  0.0228],
        [ 0.1434, -0.0145, -0.0671,  ...,  0.0883,  0.1099, -0.1333],
        [-0.0866, -0.0527, -0.0519,  ..., -0.0867, -0.0313, -0.0625],
        ...,
        [-0.0701,  0.1503, -0.1729,  ..., -0.1433,  0.0033, -0.1502],
        [ 0.0050, -0.1049,  0.0342,  ...,  0.0627, -0.1105, -0.0435],
        [-0.0891, -0.1109,  0.0677,  ..., -0.0921, -0.0647,  0.1389]],
       device='cuda:0'), grad: tensor([[ 3.2084e-07, -2.5611e-09,  1.9316e-06,  ...,  1.3532e-06,
          1.4901e-08,  1.7975e-06],
        [ 4.7311e-07,  2.9244e-07,  1.0310e-06,  ...,  1.0701e-06,
          5.5879e-09,  6.1374e-07],
        [ 1.2284e-06,  1.4538e-06,  9.6038e-06,  ...,  5.1223e-06,
          1.2876e-07,  5.3123e-06],
        ...,
        [ 2.2259e-07, -2.8163e-06,  1.7639e-06,  ...,  9.4436e-07,
          2.5611e-08,  1.1381e-06],
        [-5.4464e-06,  6.1700e-08, -1.6186e-06,  ..., -8.2105e-06,
          1.1409e-07, -9.9000e-07],
        [ 5.4110e-07,  1.0082e-07,  2.6487e-06,  ...,  1.9036e-06,
          3.4925e-08,  1.1902e-06]], device='cuda:0')
Epoch 191, bias, value: tensor([-0.0003,  0.0014,  0.0091,  0.0112,  0.0282,  0.0415, -0.0258,  0.0067,
        -0.0355, -0.0234], device='cuda:0'), grad: tensor([ 7.0743e-06,  5.4725e-06,  3.1948e-05,  3.6746e-05,  1.2629e-06,
        -6.0916e-05,  1.8720e-06,  1.5823e-06, -3.4779e-05,  9.6634e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 190, time 217.16, cls_loss 0.0019 cls_loss_mapping 0.0035 cls_loss_causal 0.5090 re_mapping 0.0060 re_causal 0.0181 /// teacc 98.90 lr 0.00010000
Epoch 192, weight, value: tensor([[-0.0477,  0.1416,  0.0753,  ..., -0.2025, -0.1136,  0.0230],
        [ 0.1431, -0.0147, -0.0679,  ...,  0.0878,  0.1101, -0.1341],
        [-0.0869, -0.0527, -0.0519,  ..., -0.0871, -0.0315, -0.0630],
        ...,
        [-0.0701,  0.1507, -0.1734,  ..., -0.1435,  0.0030, -0.1505],
        [ 0.0054, -0.1049,  0.0353,  ...,  0.0640, -0.1102, -0.0421],
        [-0.0913, -0.1113,  0.0679,  ..., -0.0924, -0.0649,  0.1390]],
       device='cuda:0'), grad: tensor([[ 1.3388e-07,  2.4750e-07, -1.4901e-08,  ...,  2.1816e-07,
          4.6566e-10, -2.0256e-08],
        [-1.3458e-07,  2.6776e-08,  3.3993e-08,  ...,  1.0524e-06,
         -2.9569e-08,  5.8906e-08],
        [ 5.3085e-08,  6.0303e-08,  1.0012e-08,  ...,  1.8300e-07,
          3.0268e-09,  1.8161e-08],
        ...,
        [ 2.9197e-07,  4.5169e-08,  2.3516e-07,  ...,  1.0636e-06,
          8.3819e-09,  1.2037e-07],
        [-4.6031e-07,  1.9860e-07, -1.3551e-07,  ..., -1.4175e-06,
          1.2340e-08, -6.7241e-07],
        [ 4.9639e-07,  8.1956e-08, -3.6485e-07,  ...,  3.9749e-06,
          1.3970e-09, -1.2782e-07]], device='cuda:0')
Epoch 192, bias, value: tensor([-0.0001,  0.0008,  0.0092,  0.0111,  0.0279,  0.0415, -0.0255,  0.0069,
        -0.0351, -0.0234], device='cuda:0'), grad: tensor([ 5.2806e-07,  2.5257e-06,  2.7660e-07, -9.0990e-07, -1.1027e-05,
         4.5002e-06, -4.6864e-06,  3.4459e-06, -1.8831e-06,  7.2271e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 191, time 217.21, cls_loss 0.0022 cls_loss_mapping 0.0030 cls_loss_causal 0.5340 re_mapping 0.0060 re_causal 0.0182 /// teacc 98.91 lr 0.00010000
Epoch 193, weight, value: tensor([[-0.0484,  0.1415,  0.0751,  ..., -0.2035, -0.1138,  0.0228],
        [ 0.1439, -0.0145, -0.0691,  ...,  0.0880,  0.1107, -0.1355],
        [-0.0881, -0.0531, -0.0523,  ..., -0.0887, -0.0322, -0.0641],
        ...,
        [-0.0703,  0.1510, -0.1742,  ..., -0.1438,  0.0026, -0.1515],
        [ 0.0054, -0.1050,  0.0355,  ...,  0.0637, -0.1094, -0.0422],
        [-0.0921, -0.1118,  0.0685,  ..., -0.0930, -0.0651,  0.1393]],
       device='cuda:0'), grad: tensor([[ 1.0943e-08,  6.8024e-06,  1.6764e-08,  ...,  7.9498e-06,
          0.0000e+00,  1.5469e-06],
        [-6.1747e-07,  1.0729e-06,  1.4901e-08,  ..., -3.4925e-08,
         -3.4925e-09,  9.0571e-08],
        [ 2.4214e-08,  1.1278e-06,  3.9581e-08,  ...,  2.0908e-07,
         -2.0955e-09,  3.9348e-08],
        ...,
        [ 2.9732e-07, -3.6880e-06,  3.4692e-08,  ...,  3.8208e-07,
          2.3283e-09,  4.0745e-08],
        [-1.1688e-07,  9.7789e-07,  3.7509e-07,  ...,  8.4750e-07,
          2.3283e-10,  8.7032e-07],
        [ 4.1234e-07,  1.3579e-06, -7.5903e-08,  ...,  1.6186e-06,
          6.9849e-10,  1.5297e-07]], device='cuda:0')
Epoch 193, bias, value: tensor([-0.0005,  0.0008,  0.0085,  0.0112,  0.0285,  0.0414, -0.0250,  0.0071,
        -0.0352, -0.0237], device='cuda:0'), grad: tensor([ 3.1888e-05,  1.6261e-06,  1.6196e-06,  1.4864e-06,  2.4602e-05,
         6.2399e-07, -6.8486e-05, -3.6880e-06,  4.5076e-06,  5.8189e-06],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 192----------------------------------------------------
epoch 192, time 217.92, cls_loss 0.0020 cls_loss_mapping 0.0034 cls_loss_causal 0.5147 re_mapping 0.0058 re_causal 0.0172 /// teacc 99.05 lr 0.00010000
Epoch 194, weight, value: tensor([[-0.0493,  0.1398,  0.0756,  ..., -0.2064, -0.1150,  0.0232],
        [ 0.1442, -0.0160, -0.0693,  ...,  0.0876,  0.1107, -0.1360],
        [-0.0884, -0.0534, -0.0525,  ..., -0.0890, -0.0323, -0.0652],
        ...,
        [-0.0703,  0.1515, -0.1744,  ..., -0.1432,  0.0027, -0.1517],
        [ 0.0053, -0.1048,  0.0353,  ...,  0.0625, -0.1095, -0.0425],
        [-0.0926, -0.1121,  0.0686,  ..., -0.0933, -0.0651,  0.1395]],
       device='cuda:0'), grad: tensor([[ 7.9162e-09,  2.2352e-08,  2.7940e-09,  ...,  1.5367e-08,
          0.0000e+00, -3.2596e-09],
        [ 2.6403e-07,  5.5740e-07,  1.9139e-07,  ...,  6.7754e-07,
         -1.3970e-09,  3.3202e-07],
        [ 1.8626e-08,  9.8161e-07,  2.7008e-08,  ...,  3.2131e-08,
          0.0000e+00,  6.5193e-09],
        ...,
        [ 6.8452e-08, -4.9509e-06,  2.3982e-07,  ...,  2.0256e-07,
          9.3132e-10,  4.2981e-07],
        [-4.2468e-07,  3.4878e-07,  1.1129e-07,  ..., -8.4797e-07,
          0.0000e+00,  1.7555e-07],
        [ 4.8429e-08,  9.5135e-07, -1.5143e-06,  ..., -3.1525e-07,
          0.0000e+00, -2.7865e-06]], device='cuda:0')
Epoch 194, bias, value: tensor([-0.0016, -0.0007,  0.0085,  0.0111,  0.0286,  0.0416, -0.0238,  0.0076,
        -0.0353, -0.0239], device='cuda:0'), grad: tensor([ 1.1921e-07,  2.7232e-06,  1.3541e-06,  2.4270e-06,  3.9786e-06,
        -3.8967e-06,  4.3325e-06, -7.0743e-06, -3.8417e-07, -3.6322e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 193, time 217.25, cls_loss 0.0022 cls_loss_mapping 0.0040 cls_loss_causal 0.4958 re_mapping 0.0064 re_causal 0.0177 /// teacc 99.01 lr 0.00010000
Epoch 195, weight, value: tensor([[-0.0494,  0.1409,  0.0749,  ..., -0.2068, -0.1150,  0.0224],
        [ 0.1445, -0.0165, -0.0710,  ...,  0.0866,  0.1123, -0.1377],
        [-0.0893, -0.0537, -0.0512,  ..., -0.0890, -0.0339, -0.0632],
        ...,
        [-0.0703,  0.1521, -0.1756,  ..., -0.1432,  0.0025, -0.1526],
        [ 0.0053, -0.1050,  0.0352,  ...,  0.0621, -0.1095, -0.0426],
        [-0.0929, -0.1125,  0.0702,  ..., -0.0925, -0.0653,  0.1409]],
       device='cuda:0'), grad: tensor([[ 4.1910e-09, -1.8254e-07, -1.3039e-08,  ...,  2.5146e-08,
          9.3132e-10, -3.1199e-08],
        [-1.6112e-07,  3.9581e-08,  3.5856e-08,  ..., -2.5006e-07,
          4.6566e-10,  4.0978e-08],
        [ 1.4435e-08,  1.0850e-07,  1.2573e-08,  ...,  2.9802e-08,
         -1.2107e-08,  1.2107e-08],
        ...,
        [ 2.9802e-08, -1.5274e-07,  1.3830e-07,  ...,  9.0338e-08,
          2.3283e-09,  1.9558e-07],
        [ 3.1199e-08,  5.2154e-08,  2.2072e-07,  ...,  6.5658e-08,
          3.7253e-09,  3.2689e-07],
        [ 6.1002e-08,  6.5658e-08, -4.8056e-07,  ...,  1.2014e-07,
          4.6566e-10, -6.9849e-07]], device='cuda:0')
Epoch 195, bias, value: tensor([-0.0023, -0.0022,  0.0093,  0.0110,  0.0270,  0.0415, -0.0232,  0.0078,
        -0.0357, -0.0220], device='cuda:0'), grad: tensor([-1.7788e-07, -2.8033e-07,  3.0268e-08, -6.2305e-07,  8.8010e-08,
         7.3574e-07, -6.9849e-08,  3.4878e-07,  8.6939e-07, -9.3831e-07],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 194----------------------------------------------------
epoch 194, time 218.21, cls_loss 0.0019 cls_loss_mapping 0.0037 cls_loss_causal 0.5179 re_mapping 0.0063 re_causal 0.0183 /// teacc 99.09 lr 0.00010000
Epoch 196, weight, value: tensor([[-0.0497,  0.1411,  0.0745,  ..., -0.2076, -0.1150,  0.0219],
        [ 0.1457, -0.0165, -0.0708,  ...,  0.0874,  0.1126, -0.1379],
        [-0.0897, -0.0540, -0.0512,  ..., -0.0891, -0.0342, -0.0629],
        ...,
        [-0.0705,  0.1523, -0.1762,  ..., -0.1436,  0.0025, -0.1536],
        [ 0.0053, -0.1051,  0.0352,  ...,  0.0622, -0.1096, -0.0422],
        [-0.0940, -0.1126,  0.0705,  ..., -0.0929, -0.0654,  0.1411]],
       device='cuda:0'), grad: tensor([[ 4.4238e-07,  8.7544e-08, -6.5193e-09,  ...,  5.6485e-07,
          9.3132e-10,  1.2247e-07],
        [-4.5076e-06, -1.1139e-06, -2.1374e-07,  ..., -7.1004e-06,
          5.1223e-09,  2.2817e-08],
        [ 5.0291e-07,  3.2736e-07,  1.3039e-08,  ...,  6.5891e-07,
         -1.3970e-08,  1.6764e-08],
        ...,
        [ 1.3821e-06, -3.7719e-07,  1.4668e-07,  ...,  2.7362e-06,
          1.8626e-09,  1.6764e-08],
        [ 5.2340e-06,  2.1420e-06,  3.2131e-08,  ...,  6.5118e-06,
          2.3283e-09,  2.4885e-06],
        [ 4.8196e-07,  5.1409e-07,  1.1642e-08,  ...,  9.7509e-07,
          4.6566e-10, -1.8161e-08]], device='cuda:0')
Epoch 196, bias, value: tensor([-0.0028, -0.0022,  0.0094,  0.0109,  0.0270,  0.0413, -0.0229,  0.0078,
        -0.0356, -0.0218], device='cuda:0'), grad: tensor([ 9.1922e-07, -1.4685e-05,  7.7439e-07,  3.7113e-07,  9.2061e-07,
         6.7830e-05, -7.5161e-05,  5.1744e-06,  1.1533e-05,  2.5332e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 195, time 217.14, cls_loss 0.0025 cls_loss_mapping 0.0050 cls_loss_causal 0.5187 re_mapping 0.0066 re_causal 0.0175 /// teacc 98.95 lr 0.00010000
Epoch 197, weight, value: tensor([[-0.0503,  0.1413,  0.0747,  ..., -0.2087, -0.1154,  0.0221],
        [ 0.1467, -0.0167, -0.0708,  ...,  0.0881,  0.1134, -0.1381],
        [-0.0906, -0.0571, -0.0514,  ..., -0.0897, -0.0346, -0.0631],
        ...,
        [-0.0706,  0.1546, -0.1766,  ..., -0.1439,  0.0021, -0.1546],
        [ 0.0054, -0.1052,  0.0349,  ...,  0.0626, -0.1096, -0.0431],
        [-0.0947, -0.1131,  0.0712,  ..., -0.0925, -0.0658,  0.1418]],
       device='cuda:0'), grad: tensor([[-2.0489e-08, -4.8196e-07,  3.3155e-07,  ...,  9.4995e-08,
          4.6566e-10,  8.4750e-08],
        [-1.8850e-06,  1.2852e-07,  9.9186e-08,  ..., -2.5053e-06,
         -5.1223e-09,  3.4366e-07],
        [ 3.5670e-07,  1.3504e-08,  2.5379e-07,  ...,  4.8708e-07,
          4.6566e-10,  1.0198e-07],
        ...,
        [ 3.5297e-07, -5.9605e-08,  7.0734e-07,  ...,  6.0070e-07,
          1.8626e-09,  8.6613e-07],
        [-3.8669e-06, -1.3970e-08,  3.3043e-06,  ..., -6.9216e-06,
          4.6566e-10, -3.7607e-06],
        [ 2.9188e-06,  8.7544e-08,  6.5304e-06,  ...,  6.6757e-06,
          9.3132e-10,  6.2287e-06]], device='cuda:0')
Epoch 197, bias, value: tensor([-0.0030, -0.0019,  0.0085,  0.0107,  0.0266,  0.0415, -0.0238,  0.0091,
        -0.0361, -0.0213], device='cuda:0'), grad: tensor([ 4.3772e-07, -3.9712e-06,  8.0932e-07, -3.4004e-05, -1.6876e-06,
         4.3511e-06,  4.2319e-06,  3.2298e-06, -2.6450e-06,  2.9191e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 196, time 216.86, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5055 re_mapping 0.0065 re_causal 0.0190 /// teacc 99.01 lr 0.00010000
Epoch 198, weight, value: tensor([[-0.0504,  0.1418,  0.0746,  ..., -0.2091, -0.1155,  0.0222],
        [ 0.1474, -0.0169, -0.0709,  ...,  0.0883,  0.1140, -0.1383],
        [-0.0911, -0.0571, -0.0511,  ..., -0.0900, -0.0350, -0.0631],
        ...,
        [-0.0708,  0.1547, -0.1770,  ..., -0.1443,  0.0018, -0.1548],
        [ 0.0056, -0.1054,  0.0348,  ...,  0.0631, -0.1087, -0.0434],
        [-0.0952, -0.1131,  0.0714,  ..., -0.0924, -0.0662,  0.1421]],
       device='cuda:0'), grad: tensor([[ 4.6566e-10,  8.3353e-07,  1.8869e-06,  ...,  1.1232e-06,
          3.7253e-08,  2.3544e-06],
        [-1.6764e-08,  2.6748e-05,  1.3836e-05,  ...,  7.9023e-07,
          2.7940e-09,  1.7444e-06],
        [ 1.8626e-09,  1.1735e-05,  9.9167e-06,  ...,  4.0904e-06,
          1.3039e-08,  7.1302e-06],
        ...,
        [ 1.4901e-08,  7.1907e-04,  3.4547e-04,  ...,  4.7311e-07,
          1.3504e-08,  1.5944e-06],
        [-9.3132e-09,  9.5218e-06,  5.8152e-06,  ...,  7.7672e-07,
          2.9337e-08,  2.0936e-06],
        [ 4.1910e-09, -7.7438e-04, -3.3593e-04,  ...,  2.7388e-05,
          8.3819e-09,  5.9813e-05]], device='cuda:0')
Epoch 198, bias, value: tensor([-0.0029, -0.0018,  0.0086,  0.0107,  0.0262,  0.0413, -0.0241,  0.0089,
        -0.0358, -0.0209], device='cuda:0'), grad: tensor([ 7.8902e-06,  1.2732e-04,  6.6400e-05,  2.2733e-04,  2.2218e-05,
        -3.2783e-04,  3.3304e-06,  3.3607e-03,  4.7296e-05, -3.5362e-03],
       device='cuda:0')
100
0.0001
changing lr
epoch 197, time 216.86, cls_loss 0.0019 cls_loss_mapping 0.0040 cls_loss_causal 0.5165 re_mapping 0.0064 re_causal 0.0180 /// teacc 99.02 lr 0.00010000
Epoch 199, weight, value: tensor([[-0.0504,  0.1427,  0.0751,  ..., -0.2094, -0.1155,  0.0225],
        [ 0.1475, -0.0178, -0.0712,  ...,  0.0884,  0.1142, -0.1387],
        [-0.0914, -0.0569, -0.0512,  ..., -0.0903, -0.0356, -0.0633],
        ...,
        [-0.0708,  0.1545, -0.1789,  ..., -0.1444,  0.0026, -0.1567],
        [ 0.0057, -0.1055,  0.0348,  ...,  0.0634, -0.1089, -0.0433],
        [-0.0957, -0.1113,  0.0709,  ..., -0.0933, -0.0664,  0.1416]],
       device='cuda:0'), grad: tensor([[ 4.9360e-08, -3.1199e-08, -1.3039e-08,  ...,  1.5134e-07,
          1.8626e-09, -1.9558e-08],
        [ 1.4435e-08,  1.1036e-07,  8.3819e-09,  ...,  4.3772e-08,
          4.6566e-10,  2.1420e-08],
        [ 1.3504e-08,  1.3039e-08,  6.0536e-09,  ..., -2.9523e-07,
         -3.8184e-08,  8.8476e-09],
        ...,
        [-1.8626e-09, -2.4401e-07,  1.3970e-08,  ...,  5.1688e-08,
          3.2596e-09,  3.0268e-08],
        [ 2.5658e-07,  5.7742e-08,  1.1688e-07,  ...,  3.1432e-07,
          2.5611e-08,  3.4133e-07],
        [ 4.4238e-08,  1.2806e-07, -1.1409e-07,  ...,  1.3923e-07,
          9.3132e-10, -1.7788e-07]], device='cuda:0')
Epoch 199, bias, value: tensor([-0.0027, -0.0023,  0.0088,  0.0107,  0.0265,  0.0413, -0.0235,  0.0081,
        -0.0358, -0.0204], device='cuda:0'), grad: tensor([ 3.7625e-07,  4.3772e-07, -2.8051e-06,  1.0692e-06,  1.6108e-05,
        -1.7546e-06, -1.5661e-05,  8.2748e-07,  1.3653e-06,  2.3283e-09],
       device='cuda:0')
100
0.0001
changing lr
epoch 198, time 216.85, cls_loss 0.0015 cls_loss_mapping 0.0026 cls_loss_causal 0.4966 re_mapping 0.0064 re_causal 0.0181 /// teacc 98.99 lr 0.00010000
Epoch 200, weight, value: tensor([[-0.0507,  0.1431,  0.0754,  ..., -0.2101, -0.1155,  0.0227],
        [ 0.1477, -0.0180, -0.0714,  ...,  0.0886,  0.1144, -0.1389],
        [-0.0920, -0.0569, -0.0513,  ..., -0.0905, -0.0358, -0.0635],
        ...,
        [-0.0708,  0.1547, -0.1790,  ..., -0.1447,  0.0025, -0.1569],
        [ 0.0059, -0.1055,  0.0348,  ...,  0.0638, -0.1090, -0.0435],
        [-0.0961, -0.1116,  0.0712,  ..., -0.0939, -0.0664,  0.1419]],
       device='cuda:0'), grad: tensor([[ 2.8405e-08, -1.3039e-08,  1.2107e-07,  ...,  1.1502e-07,
          0.0000e+00,  2.0862e-07],
        [-2.1253e-06,  1.1222e-07,  4.4238e-08,  ..., -2.5351e-06,
          0.0000e+00,  7.6368e-08],
        [ 1.8086e-06,  6.2166e-07,  2.3376e-07,  ...,  2.5742e-06,
          0.0000e+00,  3.2736e-07],
        ...,
        [ 1.8114e-07, -8.8243e-07,  7.2177e-08,  ...,  3.8277e-07,
          0.0000e+00,  1.2480e-07],
        [ 6.6590e-08,  2.0489e-08,  8.7824e-07,  ...,  2.0489e-07,
          0.0000e+00,  1.6317e-06],
        [ 4.2841e-08,  1.0058e-07,  3.3900e-06,  ...,  2.0750e-06,
          0.0000e+00,  6.1169e-06]], device='cuda:0')
Epoch 200, bias, value: tensor([-0.0026, -0.0023,  0.0088,  0.0107,  0.0268,  0.0416, -0.0240,  0.0081,
        -0.0358, -0.0206], device='cuda:0'), grad: tensor([ 5.3924e-07, -4.6045e-06,  4.9360e-06,  8.6203e-06, -4.7497e-08,
        -2.2501e-05,  6.7009e-07, -1.6531e-07,  2.4941e-06,  1.0096e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 199, time 216.92, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.5240 re_mapping 0.0060 re_causal 0.0182 /// teacc 99.08 lr 0.00010000
Epoch 201, weight, value: tensor([[-0.0514,  0.1431,  0.0759,  ..., -0.2107, -0.1163,  0.0230],
        [ 0.1490, -0.0178, -0.0715,  ...,  0.0892,  0.1154, -0.1391],
        [-0.0925, -0.0568, -0.0514,  ..., -0.0908, -0.0360, -0.0637],
        ...,
        [-0.0713,  0.1547, -0.1791,  ..., -0.1456,  0.0012, -0.1571],
        [ 0.0058, -0.1056,  0.0346,  ...,  0.0637, -0.1092, -0.0439],
        [-0.0964, -0.1120,  0.0711,  ..., -0.0942, -0.0668,  0.1419]],
       device='cuda:0'), grad: tensor([[ 2.3283e-08, -6.9849e-08,  1.1176e-07,  ...,  2.0824e-06,
          1.3970e-09, -1.9092e-08],
        [ 3.8370e-07,  1.6065e-07,  2.2259e-07,  ...,  1.0636e-06,
          1.2573e-08,  1.7928e-07],
        [ 4.6566e-08,  7.9628e-08,  5.1036e-07,  ...,  3.6508e-07,
          5.0757e-08,  1.4110e-07],
        ...,
        [ 6.2864e-08, -2.1886e-07,  1.6764e-07,  ...,  2.0349e-07,
         -9.7789e-09,  8.1025e-08],
        [-1.3284e-05, -4.5635e-07, -7.5214e-06,  ..., -3.0175e-05,
          3.7253e-09, -6.0573e-06],
        [ 1.7043e-07,  9.4064e-08, -1.7881e-07,  ...,  4.5858e-06,
          5.5879e-09, -2.7753e-07]], device='cuda:0')
Epoch 201, bias, value: tensor([-0.0025, -0.0017,  0.0088,  0.0109,  0.0269,  0.0416, -0.0242,  0.0077,
        -0.0359, -0.0209], device='cuda:0'), grad: tensor([ 9.0674e-06,  1.9334e-06,  2.7902e-06,  8.7684e-07, -3.6150e-05,
         2.2322e-05,  2.4587e-05,  6.2445e-07, -4.4048e-05,  1.8016e-05],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 200----------------------------------------------------
epoch 200, time 217.82, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.4658 re_mapping 0.0062 re_causal 0.0179 /// teacc 99.11 lr 0.00010000
Epoch 202, weight, value: tensor([[-0.0547,  0.1418,  0.0762,  ..., -0.2116, -0.1191,  0.0232],
        [ 0.1490, -0.0179, -0.0716,  ...,  0.0892,  0.1155, -0.1393],
        [-0.0926, -0.0569, -0.0515,  ..., -0.0908, -0.0362, -0.0639],
        ...,
        [-0.0713,  0.1549, -0.1794,  ..., -0.1456,  0.0012, -0.1576],
        [ 0.0062, -0.1057,  0.0345,  ...,  0.0645, -0.1090, -0.0438],
        [-0.0970, -0.1122,  0.0713,  ..., -0.0945, -0.0670,  0.1421]],
       device='cuda:0'), grad: tensor([[-6.2818e-07, -1.3560e-06,  8.8476e-09,  ...,  2.2911e-07,
          9.5926e-08, -4.3120e-07],
        [ 1.8254e-06,  1.1921e-07,  1.1642e-08,  ...,  2.1197e-06,
          9.8627e-07,  2.8592e-07],
        [ 5.3458e-06,  6.3796e-08,  4.0559e-07,  ...,  6.3293e-06,
          3.3788e-06,  6.5006e-07],
        ...,
        [ 1.0924e-06, -1.4435e-08,  4.0978e-08,  ...,  1.3830e-06,
          6.0257e-07,  1.4156e-07],
        [-9.9361e-05,  2.1514e-07, -9.9372e-07,  ..., -1.1927e-04,
         -5.4091e-05, -1.0602e-05],
        [ 2.0629e-07,  3.6787e-08, -8.5682e-08,  ...,  1.0431e-06,
          9.4529e-08, -1.0245e-07]], device='cuda:0')
Epoch 202, bias, value: tensor([-0.0048, -0.0019,  0.0089,  0.0107,  0.0270,  0.0417, -0.0228,  0.0077,
        -0.0357, -0.0209], device='cuda:0'), grad: tensor([-2.7120e-06,  5.7705e-06,  1.7390e-05,  1.1604e-06, -1.1222e-06,
         2.6488e-04,  9.7677e-06,  3.4925e-06, -3.0184e-04,  2.6524e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 201, time 216.93, cls_loss 0.0016 cls_loss_mapping 0.0042 cls_loss_causal 0.5273 re_mapping 0.0060 re_causal 0.0176 /// teacc 99.01 lr 0.00010000
Epoch 203, weight, value: tensor([[-0.0548,  0.1423,  0.0768,  ..., -0.2120, -0.1192,  0.0237],
        [ 0.1497, -0.0179, -0.0720,  ...,  0.0895,  0.1164, -0.1399],
        [-0.0931, -0.0569, -0.0517,  ..., -0.0909, -0.0367, -0.0643],
        ...,
        [-0.0716,  0.1550, -0.1802,  ..., -0.1462,  0.0004, -0.1580],
        [ 0.0063, -0.1058,  0.0341,  ...,  0.0648, -0.1081, -0.0441],
        [-0.0974, -0.1123,  0.0719,  ..., -0.0943, -0.0685,  0.1425]],
       device='cuda:0'), grad: tensor([[ 2.0210e-07,  4.3306e-08,  1.3504e-07,  ...,  8.5589e-07,
          3.7253e-09, -3.1898e-07],
        [ 3.5763e-07,  2.2519e-06,  5.7276e-08,  ...,  1.3178e-07,
          1.8915e-06,  2.9337e-08],
        [-3.2736e-07,  3.4459e-08, -1.2554e-06,  ...,  8.4145e-07,
         -2.0117e-06, -1.8813e-06],
        ...,
        [ 2.5611e-08, -9.8050e-06,  3.2783e-07,  ...,  2.2352e-08,
          1.8347e-07,  6.2399e-08],
        [ 3.0510e-06,  6.8452e-08,  1.4883e-06,  ...,  7.2233e-06,
          6.9384e-08,  1.9651e-06],
        [ 3.2596e-09,  7.5027e-06,  4.9407e-07,  ...,  2.2305e-07,
          2.1886e-08,  4.8010e-07]], device='cuda:0')
Epoch 203, bias, value: tensor([-0.0046, -0.0015,  0.0088,  0.0107,  0.0266,  0.0417, -0.0228,  0.0074,
        -0.0359, -0.0205], device='cuda:0'), grad: tensor([ 4.2133e-06,  1.5229e-05, -1.3381e-05, -8.2701e-06,  3.0175e-06,
         1.0960e-05, -3.9428e-05, -1.3448e-05,  2.8595e-05,  1.2577e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 202, time 217.26, cls_loss 0.0016 cls_loss_mapping 0.0035 cls_loss_causal 0.4971 re_mapping 0.0063 re_causal 0.0176 /// teacc 98.99 lr 0.00010000
Epoch 204, weight, value: tensor([[-0.0547,  0.1441,  0.0764,  ..., -0.2124, -0.1193,  0.0235],
        [ 0.1505, -0.0176, -0.0725,  ...,  0.0902,  0.1165, -0.1407],
        [-0.0935, -0.0573, -0.0518,  ..., -0.0911, -0.0368, -0.0645],
        ...,
        [-0.0721,  0.1548, -0.1805,  ..., -0.1473,  0.0007, -0.1591],
        [ 0.0065, -0.1059,  0.0339,  ...,  0.0649, -0.1082, -0.0445],
        [-0.0967, -0.1118,  0.0730,  ..., -0.0939, -0.0677,  0.1436]],
       device='cuda:0'), grad: tensor([[ 1.2442e-06,  1.4482e-07,  1.4473e-06,  ...,  1.0580e-06,
          4.6566e-10,  1.5730e-06],
        [-5.9139e-08,  4.3306e-08,  3.0082e-07,  ...,  5.4156e-07,
         -5.5879e-09,  5.5460e-07],
        [ 2.5146e-08,  2.0489e-08,  3.9116e-08,  ...,  3.9581e-08,
          9.3132e-10,  7.7300e-08],
        ...,
        [ 4.5169e-08, -5.6345e-08,  5.0198e-07,  ...,  1.7649e-07,
          9.3132e-10,  1.4184e-06],
        [-4.1723e-06, -8.9360e-07, -3.7923e-06,  ..., -2.4792e-06,
          1.8626e-09, -3.7216e-06],
        [ 6.3004e-07,  1.6345e-07, -3.2373e-06,  ...,  3.5521e-06,
          9.3132e-10, -8.3447e-06]], device='cuda:0')
Epoch 204, bias, value: tensor([-0.0036, -0.0017,  0.0089,  0.0107,  0.0261,  0.0415, -0.0228,  0.0058,
        -0.0361, -0.0182], device='cuda:0'), grad: tensor([ 3.6098e-06,  1.8440e-06,  1.6578e-07,  2.4214e-06,  3.3043e-06,
         4.6603e-06,  6.8499e-07,  3.1497e-06, -7.2867e-06, -1.2532e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 203, time 216.92, cls_loss 0.0012 cls_loss_mapping 0.0029 cls_loss_causal 0.4860 re_mapping 0.0062 re_causal 0.0180 /// teacc 98.89 lr 0.00010000
Epoch 205, weight, value: tensor([[-0.0549,  0.1442,  0.0765,  ..., -0.2132, -0.1193,  0.0236],
        [ 0.1508, -0.0186, -0.0725,  ...,  0.0904,  0.1170, -0.1409],
        [-0.0939, -0.0573, -0.0520,  ..., -0.0913, -0.0370, -0.0647],
        ...,
        [-0.0721,  0.1556, -0.1807,  ..., -0.1474,  0.0014, -0.1597],
        [ 0.0063, -0.1059,  0.0336,  ...,  0.0648, -0.1083, -0.0451],
        [-0.0963, -0.1121,  0.0742,  ..., -0.0940, -0.0681,  0.1448]],
       device='cuda:0'), grad: tensor([[ 3.2596e-09, -1.0850e-07, -3.8929e-07,  ...,  1.7695e-08,
          0.0000e+00, -5.2107e-07],
        [-1.2619e-07,  2.2817e-08,  4.8429e-08,  ..., -1.8626e-07,
         -4.6566e-10,  8.9873e-08],
        [ 6.5193e-09,  1.8207e-07,  9.5461e-08,  ..., -6.0536e-09,
          0.0000e+00,  1.0896e-07],
        ...,
        [ 7.5437e-08, -9.2993e-07,  1.7369e-07,  ...,  2.6729e-07,
         -4.6566e-10,  2.8918e-07],
        [ 2.9197e-07,  2.9337e-08,  2.2398e-07,  ...,  6.4075e-07,
          4.6566e-10,  1.0002e-06],
        [ 4.5635e-08,  6.7707e-07, -1.5348e-05,  ..., -1.2174e-05,
          1.3970e-09, -2.9042e-05]], device='cuda:0')
Epoch 205, bias, value: tensor([-0.0037, -0.0020,  0.0088,  0.0106,  0.0262,  0.0411, -0.0226,  0.0062,
        -0.0364, -0.0179], device='cuda:0'), grad: tensor([-1.1437e-06, -1.5600e-07,  3.9069e-07,  5.2992e-07,  5.0455e-05,
        -5.9232e-07,  6.4820e-07, -5.0850e-07,  9.2434e-07, -5.0515e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 204, time 216.71, cls_loss 0.0022 cls_loss_mapping 0.0041 cls_loss_causal 0.5371 re_mapping 0.0061 re_causal 0.0173 /// teacc 99.03 lr 0.00010000
Epoch 206, weight, value: tensor([[-0.0568,  0.1415,  0.0751,  ..., -0.2169, -0.1197,  0.0221],
        [ 0.1531, -0.0175, -0.0734,  ...,  0.0917,  0.1176, -0.1430],
        [-0.0943, -0.0574, -0.0521,  ..., -0.0915, -0.0372, -0.0649],
        ...,
        [-0.0732,  0.1553, -0.1822,  ..., -0.1497,  0.0008, -0.1603],
        [ 0.0062, -0.1060,  0.0335,  ...,  0.0647, -0.1085, -0.0454],
        [-0.0966, -0.1122,  0.0757,  ..., -0.0939, -0.0663,  0.1457]],
       device='cuda:0'), grad: tensor([[ 4.6566e-09,  1.7121e-05, -2.9244e-07,  ...,  1.1176e-08,
          0.0000e+00, -5.6252e-07],
        [ 1.9930e-07,  6.8871e-07,  1.0664e-07,  ...,  3.4412e-07,
          0.0000e+00,  1.3504e-07],
        [ 6.6590e-08, -4.6611e-05,  4.3772e-08,  ...,  4.4703e-08,
          0.0000e+00,  6.7055e-08],
        ...,
        [ 1.6298e-08,  1.6853e-05,  1.3504e-08,  ...,  7.1246e-08,
          0.0000e+00,  1.3970e-08],
        [-7.3249e-07,  7.8678e-06, -2.2724e-07,  ..., -1.0170e-06,
          0.0000e+00, -2.3609e-07],
        [ 1.1548e-07,  3.2932e-06,  1.8766e-07,  ...,  2.8824e-07,
          0.0000e+00,  3.2876e-07]], device='cuda:0')
Epoch 206, bias, value: tensor([-0.0059, -0.0015,  0.0087,  0.0109,  0.0261,  0.0411, -0.0210,  0.0055,
        -0.0365, -0.0175], device='cuda:0'), grad: tensor([ 4.0978e-05,  2.0079e-06, -1.1355e-04,  6.0489e-07, -2.1840e-07,
         9.4017e-07,  1.0943e-06,  4.4584e-05,  1.7777e-05,  5.8338e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 205, time 217.40, cls_loss 0.0020 cls_loss_mapping 0.0037 cls_loss_causal 0.5254 re_mapping 0.0057 re_causal 0.0167 /// teacc 98.96 lr 0.00010000
Epoch 207, weight, value: tensor([[-0.0569,  0.1424,  0.0760,  ..., -0.2173, -0.1197,  0.0234],
        [ 0.1535, -0.0184, -0.0738,  ...,  0.0915,  0.1183, -0.1435],
        [-0.0944, -0.0572, -0.0523,  ..., -0.0915, -0.0376, -0.0651],
        ...,
        [-0.0734,  0.1566, -0.1825,  ..., -0.1499,  0.0003, -0.1614],
        [ 0.0063, -0.1063,  0.0334,  ...,  0.0647, -0.1088, -0.0453],
        [-0.0976, -0.1146,  0.0757,  ..., -0.0946, -0.0668,  0.1456]],
       device='cuda:0'), grad: tensor([[ 1.0878e-06, -1.2685e-06, -1.6708e-06,  ...,  6.6124e-08,
         -6.0536e-09, -2.8964e-07],
        [-1.8626e-08,  4.7684e-07,  1.4855e-07,  ..., -1.4901e-08,
         -1.8161e-08,  2.2398e-07],
        [ 3.2689e-07, -2.6226e-06,  1.6764e-08,  ...,  3.0175e-07,
         -3.1199e-08,  8.8802e-07],
        ...,
        [ 2.9104e-07,  2.1756e-06,  4.1118e-07,  ...,  3.9767e-07,
          1.5367e-08,  4.9500e-07],
        [-7.4646e-07, -1.1455e-07, -2.4866e-07,  ..., -1.2303e-06,
          4.6566e-09,  5.9651e-07],
        [ 1.3551e-07,  1.7649e-06,  3.8138e-07,  ...,  5.3644e-07,
          1.4435e-08,  1.3188e-06]], device='cuda:0')
Epoch 207, bias, value: tensor([-0.0049, -0.0021,  0.0088,  0.0109,  0.0265,  0.0412, -0.0214,  0.0062,
        -0.0367, -0.0184], device='cuda:0'), grad: tensor([ 2.6934e-06,  1.7062e-06, -9.0078e-06,  8.5915e-07,  3.6741e-07,
         4.8690e-06, -1.7226e-05,  9.9242e-06, -1.0990e-06,  6.9141e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 206, time 217.29, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.5063 re_mapping 0.0061 re_causal 0.0171 /// teacc 99.01 lr 0.00010000
Epoch 208, weight, value: tensor([[-0.0574,  0.1429,  0.0760,  ..., -0.2178, -0.1200,  0.0234],
        [ 0.1549, -0.0186, -0.0743,  ...,  0.0921,  0.1182, -0.1444],
        [-0.0947, -0.0574, -0.0521,  ..., -0.0918, -0.0378, -0.0653],
        ...,
        [-0.0738,  0.1573, -0.1834,  ..., -0.1503,  0.0006, -0.1622],
        [ 0.0063, -0.1065,  0.0333,  ...,  0.0647, -0.1092, -0.0456],
        [-0.1001, -0.1156,  0.0756,  ..., -0.0958, -0.0659,  0.1455]],
       device='cuda:0'), grad: tensor([[ 3.8650e-08,  1.2992e-07,  1.3327e-06,  ...,  3.2131e-07,
          3.7253e-09,  3.9907e-07],
        [-6.1747e-07,  2.4475e-06,  2.5285e-07,  ..., -8.7498e-07,
         -3.2596e-09,  1.2899e-07],
        [ 1.1642e-07,  3.1330e-06,  2.4527e-05,  ...,  8.9630e-06,
         -4.1910e-08,  1.5095e-05],
        ...,
        [ 1.9791e-07, -1.9163e-05,  2.1793e-07,  ...,  3.5483e-07,
         -1.1362e-07,  1.2759e-07],
        [-2.7940e-06, -3.0771e-06, -3.4332e-05,  ..., -1.3240e-05,
          2.9337e-08, -2.0653e-05],
        [ 1.0151e-07,  1.3970e-05,  3.8184e-06,  ...,  2.3637e-06,
          1.2573e-08,  2.4438e-06]], device='cuda:0')
Epoch 208, bias, value: tensor([-0.0048, -0.0020,  0.0087,  0.0110,  0.0273,  0.0416, -0.0218,  0.0065,
        -0.0370, -0.0193], device='cuda:0'), grad: tensor([ 3.3602e-06,  3.0454e-06,  5.1290e-05,  6.6459e-06, -1.4361e-06,
         6.8620e-06,  8.1258e-07, -3.0518e-05, -7.2420e-05,  3.2336e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 207, time 217.06, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.5266 re_mapping 0.0059 re_causal 0.0169 /// teacc 98.93 lr 0.00010000
Epoch 209, weight, value: tensor([[-0.0576,  0.1434,  0.0756,  ..., -0.2181, -0.1199,  0.0232],
        [ 0.1549, -0.0185, -0.0760,  ...,  0.0916,  0.1186, -0.1468],
        [-0.0953, -0.0574, -0.0535,  ..., -0.0921, -0.0380, -0.0666],
        ...,
        [-0.0743,  0.1577, -0.1857,  ..., -0.1509,  0.0004, -0.1639],
        [ 0.0083, -0.1067,  0.0355,  ...,  0.0674, -0.1100, -0.0426],
        [-0.1023, -0.1160,  0.0760,  ..., -0.0965, -0.0663,  0.1457]],
       device='cuda:0'), grad: tensor([[ 4.5635e-08, -1.2051e-06,  5.1688e-08,  ...,  8.4750e-08,
         -7.9488e-07, -1.1213e-06],
        [-3.5716e-07,  4.5672e-06,  7.6368e-08,  ...,  2.5276e-06,
          2.4447e-07,  5.3085e-08],
        [ 4.8894e-08,  1.9651e-07, -5.3877e-07,  ...,  1.0058e-07,
          2.9802e-08,  5.0757e-08],
        ...,
        [-4.5775e-07, -5.0999e-06,  2.2119e-07,  ...,  1.0319e-06,
         -2.2538e-07,  3.0175e-07],
        [-2.8126e-06, -6.4261e-08,  1.7304e-06,  ..., -1.7174e-06,
          8.8010e-08,  3.4608e-06],
        [ 1.7742e-07,  3.6228e-07, -4.9621e-06,  ...,  1.1977e-06,
          1.5786e-07, -8.9332e-06]], device='cuda:0')
Epoch 209, bias, value: tensor([-0.0048, -0.0021,  0.0085,  0.0121,  0.0273,  0.0405, -0.0218,  0.0062,
        -0.0359, -0.0194], device='cuda:0'), grad: tensor([-3.0678e-06,  1.2301e-05, -6.4746e-06,  4.9267e-07, -3.5930e-06,
         6.3442e-06,  3.7961e-06, -3.8147e-06,  1.1176e-05, -1.7270e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 208, time 217.29, cls_loss 0.0020 cls_loss_mapping 0.0028 cls_loss_causal 0.4938 re_mapping 0.0058 re_causal 0.0168 /// teacc 99.06 lr 0.00010000
Epoch 210, weight, value: tensor([[-0.0577,  0.1443,  0.0762,  ..., -0.2187, -0.1199,  0.0242],
        [ 0.1563, -0.0183, -0.0771,  ...,  0.0924,  0.1196, -0.1476],
        [-0.0955, -0.0576, -0.0540,  ..., -0.0924, -0.0381, -0.0672],
        ...,
        [-0.0749,  0.1581, -0.1874,  ..., -0.1513, -0.0009, -0.1660],
        [ 0.0083, -0.1069,  0.0357,  ...,  0.0675, -0.1101, -0.0424],
        [-0.1032, -0.1169,  0.0777,  ..., -0.0968, -0.0664,  0.1464]],
       device='cuda:0'), grad: tensor([[ 1.3690e-07, -8.9407e-06, -1.1310e-05,  ...,  2.1141e-07,
          0.0000e+00, -2.0474e-05],
        [ 1.7388e-06,  1.2387e-07,  8.2981e-07,  ...,  2.6301e-06,
          0.0000e+00,  6.1980e-07],
        [ 1.5292e-06,  2.2398e-07,  2.3097e-07,  ...,  2.4550e-06,
          0.0000e+00,  7.5949e-07],
        ...,
        [ 3.8091e-07, -4.2655e-07,  1.5786e-07,  ...,  5.7276e-07,
          0.0000e+00,  3.6461e-07],
        [-9.5740e-06,  1.2321e-06,  4.4564e-07,  ..., -1.3642e-05,
          0.0000e+00,  1.1502e-07],
        [ 1.4855e-07,  1.9576e-06,  4.6194e-06,  ...,  4.9639e-07,
          0.0000e+00,  8.0168e-06]], device='cuda:0')
Epoch 210, bias, value: tensor([-0.0043, -0.0017,  0.0084,  0.0121,  0.0268,  0.0392, -0.0199,  0.0059,
        -0.0360, -0.0190], device='cuda:0'), grad: tensor([-4.0472e-05,  6.4224e-06,  4.7386e-06,  3.1069e-06, -1.6671e-06,
         1.8135e-05,  1.8030e-05,  1.2983e-06, -2.7463e-05,  1.7866e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 209, time 217.16, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.5452 re_mapping 0.0058 re_causal 0.0186 /// teacc 99.03 lr 0.00010000
Epoch 211, weight, value: tensor([[-0.0576,  0.1458,  0.0771,  ..., -0.2182, -0.1199,  0.0250],
        [ 0.1566, -0.0200, -0.0774,  ...,  0.0927,  0.1203, -0.1478],
        [-0.0986, -0.0577, -0.0543,  ..., -0.0931, -0.0384, -0.0677],
        ...,
        [-0.0748,  0.1590, -0.1878,  ..., -0.1518, -0.0015, -0.1664],
        [ 0.0081, -0.1071,  0.0355,  ...,  0.0673, -0.1102, -0.0427],
        [-0.1037, -0.1174,  0.0776,  ..., -0.0975, -0.0665,  0.1463]],
       device='cuda:0'), grad: tensor([[ 3.2596e-09,  5.4482e-08, -9.7789e-09,  ...,  1.0710e-08,
          0.0000e+00, -1.3504e-08],
        [-3.9116e-08,  4.9826e-08,  3.2596e-09,  ..., -5.8673e-08,
          0.0000e+00,  2.7940e-09],
        [ 5.1223e-09, -4.1090e-06,  1.2573e-08,  ...,  3.6787e-08,
          0.0000e+00,  1.3970e-09],
        ...,
        [ 1.2573e-08,  3.6769e-06,  6.9849e-09,  ...,  4.1910e-08,
          0.0000e+00,  5.5879e-09],
        [ 4.2375e-08,  4.2375e-08,  4.6566e-09,  ...,  3.0268e-08,
          0.0000e+00,  1.9092e-08],
        [ 9.7789e-09,  4.9360e-08, -6.2305e-07,  ...,  1.8021e-07,
          0.0000e+00, -6.9616e-07]], device='cuda:0')
Epoch 211, bias, value: tensor([-0.0034, -0.0023,  0.0071,  0.0122,  0.0273,  0.0391, -0.0183,  0.0061,
        -0.0363, -0.0195], device='cuda:0'), grad: tensor([ 1.4529e-07,  3.7253e-08, -1.0625e-05,  4.8801e-07,  9.3644e-07,
         5.9139e-08, -1.1316e-07,  9.7528e-06,  1.7043e-07, -8.2469e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 210, time 217.21, cls_loss 0.0015 cls_loss_mapping 0.0027 cls_loss_causal 0.5085 re_mapping 0.0060 re_causal 0.0176 /// teacc 99.08 lr 0.00010000
Epoch 212, weight, value: tensor([[-0.0579,  0.1453,  0.0758,  ..., -0.2194, -0.1199,  0.0245],
        [ 0.1575, -0.0205, -0.0776,  ...,  0.0935,  0.1205, -0.1481],
        [-0.0988, -0.0578, -0.0545,  ..., -0.0933, -0.0384, -0.0679],
        ...,
        [-0.0750,  0.1596, -0.1880,  ..., -0.1522, -0.0016, -0.1668],
        [ 0.0081, -0.1072,  0.0358,  ...,  0.0674, -0.1104, -0.0426],
        [-0.1043, -0.1181,  0.0775,  ..., -0.0980, -0.0665,  0.1463]],
       device='cuda:0'), grad: tensor([[ 2.2817e-08, -1.2107e-08,  6.3796e-08,  ...,  2.5611e-08,
          0.0000e+00,  5.3085e-08],
        [-2.3935e-07,  2.7809e-06, -8.4285e-08,  ..., -2.5379e-07,
          0.0000e+00, -2.8871e-08],
        [ 5.4948e-08,  5.7295e-06,  3.6974e-07,  ...,  7.0315e-08,
          0.0000e+00,  2.4494e-07],
        ...,
        [ 2.8405e-08, -9.2387e-06,  5.4017e-08,  ...,  3.5996e-07,
          0.0000e+00,  2.5611e-08],
        [ 2.4447e-07,  2.1607e-07,  2.3982e-07,  ...,  2.2817e-07,
          0.0000e+00,  2.3609e-07],
        [ 1.6950e-07,  2.8126e-07, -5.0059e-07,  ...,  4.2049e-07,
          0.0000e+00, -7.1386e-07]], device='cuda:0')
Epoch 212, bias, value: tensor([-0.0040, -0.0019,  0.0070,  0.0121,  0.0277,  0.0393, -0.0184,  0.0063,
        -0.0363, -0.0200], device='cuda:0'), grad: tensor([ 1.5646e-07,  3.5241e-06,  9.0152e-06, -7.4552e-07, -2.1216e-06,
         3.2550e-07, -4.2608e-07, -1.1712e-05,  1.5069e-06,  4.6939e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 211, time 217.24, cls_loss 0.0014 cls_loss_mapping 0.0020 cls_loss_causal 0.5065 re_mapping 0.0059 re_causal 0.0176 /// teacc 98.98 lr 0.00010000
Epoch 213, weight, value: tensor([[-0.0580,  0.1455,  0.0761,  ..., -0.2197, -0.1199,  0.0251],
        [ 0.1574, -0.0206, -0.0789,  ...,  0.0934,  0.1211, -0.1486],
        [-0.0990, -0.0577, -0.0531,  ..., -0.0935, -0.0387, -0.0675],
        ...,
        [-0.0751,  0.1602, -0.1878,  ..., -0.1526, -0.0021, -0.1673],
        [ 0.0085, -0.1074,  0.0362,  ...,  0.0682, -0.1105, -0.0428],
        [-0.1046, -0.1188,  0.0775,  ..., -0.0990, -0.0665,  0.1465]],
       device='cuda:0'), grad: tensor([[ 4.6566e-10, -4.6566e-10,  1.1828e-07,  ...,  7.9162e-09,
          0.0000e+00, -3.2596e-08],
        [-3.2596e-09,  1.2107e-08,  4.0047e-08,  ...,  7.6368e-07,
          0.0000e+00,  1.7229e-08],
        [ 4.1910e-09,  1.4435e-08,  3.9581e-08,  ...,  2.5611e-08,
          9.3132e-10,  1.2107e-08],
        ...,
        [ 1.8626e-09,  4.7823e-07,  9.4436e-07,  ...,  1.0012e-07,
          0.0000e+00,  8.3866e-07],
        [-4.6566e-09,  4.1910e-08,  2.3469e-07,  ...,  8.0559e-08,
          0.0000e+00,  1.4948e-07],
        [ 1.3970e-09, -7.0967e-07, -8.7079e-07,  ...,  1.7602e-07,
          0.0000e+00, -2.1365e-06]], device='cuda:0')
Epoch 213, bias, value: tensor([-0.0038, -0.0022,  0.0073,  0.0121,  0.0286,  0.0393, -0.0187,  0.0066,
        -0.0360, -0.0208], device='cuda:0'), grad: tensor([ 1.8347e-07,  1.1437e-06,  1.2526e-07, -2.4084e-06,  1.0226e-06,
         2.9989e-07,  1.3597e-07,  3.4738e-06,  7.1805e-07, -4.7013e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 212, time 217.28, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.5026 re_mapping 0.0062 re_causal 0.0173 /// teacc 99.04 lr 0.00010000
Epoch 214, weight, value: tensor([[-0.0580,  0.1459,  0.0757,  ..., -0.2200, -0.1200,  0.0252],
        [ 0.1579, -0.0213, -0.0799,  ...,  0.0941,  0.1226, -0.1490],
        [-0.0992, -0.0579, -0.0532,  ..., -0.0936, -0.0392, -0.0678],
        ...,
        [-0.0755,  0.1610, -0.1874,  ..., -0.1537, -0.0037, -0.1680],
        [ 0.0087, -0.1075,  0.0365,  ...,  0.0684, -0.1106, -0.0430],
        [-0.1053, -0.1191,  0.0777,  ..., -0.0996, -0.0667,  0.1467]],
       device='cuda:0'), grad: tensor([[ 6.7055e-07, -7.5111e-07,  6.5193e-09,  ...,  1.3215e-06,
          0.0000e+00, -1.6158e-07],
        [ 4.4495e-05,  8.0559e-08,  1.7928e-08,  ...,  7.9334e-05,
          0.0000e+00,  1.1869e-05],
        [ 7.6368e-07,  3.4925e-08,  3.6089e-08,  ...,  1.6834e-07,
          0.0000e+00,  2.2794e-07],
        ...,
        [ 8.5449e-08,  7.1479e-07,  6.0908e-07,  ...,  2.0280e-07,
          0.0000e+00,  1.0561e-06],
        [ 5.9232e-06,  3.5437e-07,  4.7777e-07,  ...,  1.2480e-05,
          0.0000e+00,  2.3134e-06],
        [ 1.0733e-07, -3.5670e-07, -6.2957e-07,  ...,  7.3574e-07,
          0.0000e+00, -8.0839e-07]], device='cuda:0')
Epoch 214, bias, value: tensor([-0.0038, -0.0026,  0.0074,  0.0111,  0.0290,  0.0400, -0.0189,  0.0070,
        -0.0359, -0.0213], device='cuda:0'), grad: tensor([ 1.9744e-06,  1.9920e-04, -1.6198e-05, -1.6508e-07,  2.5928e-06,
         5.9009e-05, -2.9635e-04,  3.3285e-06,  4.7743e-05, -7.9628e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 213, time 217.33, cls_loss 0.0014 cls_loss_mapping 0.0030 cls_loss_causal 0.5260 re_mapping 0.0059 re_causal 0.0177 /// teacc 99.01 lr 0.00010000
Epoch 215, weight, value: tensor([[-0.0581,  0.1459,  0.0754,  ..., -0.2209, -0.1200,  0.0248],
        [ 0.1584, -0.0212, -0.0799,  ...,  0.0943,  0.1233, -0.1493],
        [-0.0993, -0.0580, -0.0533,  ..., -0.0938, -0.0393, -0.0683],
        ...,
        [-0.0759,  0.1612, -0.1879,  ..., -0.1545, -0.0045, -0.1688],
        [ 0.0088, -0.1076,  0.0360,  ...,  0.0684, -0.1107, -0.0440],
        [-0.1058, -0.1193,  0.0793,  ..., -0.0996, -0.0668,  0.1482]],
       device='cuda:0'), grad: tensor([[ 6.9849e-09, -5.1223e-09,  6.9849e-09,  ...,  1.1176e-08,
          2.3283e-10, -1.4668e-08],
        [-3.6787e-08,  6.7148e-07,  2.0256e-08,  ..., -4.5402e-08,
         -1.1642e-09,  2.3283e-09],
        [ 4.3074e-08,  6.2399e-08,  2.5425e-07,  ...,  6.6124e-08,
          2.3283e-10,  1.8626e-09],
        ...,
        [ 1.6065e-08, -1.0207e-06,  1.5087e-07,  ...,  3.2363e-08,
          4.6566e-10,  1.0710e-08],
        [ 1.3271e-08,  6.5891e-08,  1.3900e-07,  ...,  3.1432e-08,
          0.0000e+00,  4.9127e-08],
        [ 4.4238e-09,  1.7066e-07,  4.7497e-08,  ...,  2.5053e-07,
          2.3283e-10, -6.7521e-09]], device='cuda:0')
Epoch 215, bias, value: tensor([-0.0040, -0.0022,  0.0074,  0.0111,  0.0289,  0.0403, -0.0194,  0.0067,
        -0.0363, -0.0206], device='cuda:0'), grad: tensor([ 6.8452e-08,  1.2163e-06,  6.5612e-07, -2.9728e-06, -2.4564e-07,
         2.3167e-07, -1.9791e-07, -5.0291e-07,  8.5495e-07,  8.9873e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 214, time 217.31, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.5305 re_mapping 0.0057 re_causal 0.0175 /// teacc 99.09 lr 0.00010000
Epoch 216, weight, value: tensor([[-0.0582,  0.1460,  0.0744,  ..., -0.2211, -0.1200,  0.0240],
        [ 0.1592, -0.0212, -0.0800,  ...,  0.0948,  0.1236, -0.1494],
        [-0.0994, -0.0582, -0.0535,  ..., -0.0939, -0.0395, -0.0685],
        ...,
        [-0.0760,  0.1616, -0.1886,  ..., -0.1549, -0.0049, -0.1697],
        [ 0.0086, -0.1076,  0.0359,  ...,  0.0681, -0.1110, -0.0445],
        [-0.1067, -0.1198,  0.0800,  ..., -0.1000, -0.0668,  0.1489]],
       device='cuda:0'), grad: tensor([[ 1.1711e-07, -2.0023e-08,  1.6321e-07,  ...,  3.9535e-07,
          0.0000e+00,  5.3830e-07],
        [ 3.0082e-07,  1.0594e-07,  1.2293e-07,  ...,  1.7392e-07,
         -9.3132e-10,  2.8149e-07],
        [ 2.3702e-07,  2.1420e-08,  1.0408e-07,  ...,  2.5798e-07,
          2.3283e-10,  2.6077e-07],
        ...,
        [ 1.6857e-07, -3.9628e-07,  4.7032e-08,  ...,  1.5530e-07,
          2.3283e-10,  9.8022e-08],
        [ 4.7982e-05,  2.5146e-08,  1.2510e-05,  ...,  3.9101e-05,
          2.3283e-10,  3.2097e-05],
        [ 4.9034e-07,  1.4575e-07,  2.0093e-07,  ...,  4.8289e-07,
          2.3283e-10,  3.6089e-07]], device='cuda:0')
Epoch 216, bias, value: tensor([-0.0045, -0.0019,  0.0073,  0.0113,  0.0291,  0.0403, -0.0196,  0.0065,
        -0.0367, -0.0205], device='cuda:0'), grad: tensor([ 1.1399e-06,  2.3097e-06, -6.9337e-07, -2.4915e-05,  1.6298e-07,
        -1.2577e-04,  2.8014e-05, -3.2340e-07,  1.1843e-04,  1.7611e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 215, time 217.47, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5191 re_mapping 0.0059 re_causal 0.0176 /// teacc 99.05 lr 0.00010000
Epoch 217, weight, value: tensor([[-0.0583,  0.1463,  0.0746,  ..., -0.2214, -0.1200,  0.0243],
        [ 0.1586, -0.0222, -0.0823,  ...,  0.0918,  0.1211, -0.1503],
        [-0.0984, -0.0585, -0.0512,  ..., -0.0911, -0.0373, -0.0687],
        ...,
        [-0.0761,  0.1625, -0.1887,  ..., -0.1550, -0.0050, -0.1701],
        [ 0.0085, -0.1077,  0.0356,  ...,  0.0678, -0.1113, -0.0451],
        [-0.1072, -0.1202,  0.0799,  ..., -0.1027, -0.0665,  0.1482]],
       device='cuda:0'), grad: tensor([[ 1.0245e-08, -6.4261e-08,  2.9802e-08,  ...,  2.2352e-08,
          3.8184e-08, -1.7229e-08],
        [-9.1735e-08,  6.8918e-08,  2.0955e-08,  ..., -1.1409e-07,
          2.7940e-09,  1.6764e-08],
        [ 6.6124e-08,  6.1002e-08,  6.7055e-08,  ...,  3.4599e-07,
         -2.5798e-07,  7.5437e-08],
        ...,
        [ 3.7719e-08, -2.6822e-07,  1.5832e-07,  ...,  9.7323e-08,
          6.1467e-08,  2.5006e-07],
        [-8.4937e-06,  4.5635e-08,  1.0571e-07,  ..., -1.7956e-05,
          7.5903e-08, -4.2021e-06],
        [ 1.0710e-08,  9.5926e-08, -3.4971e-07,  ...,  1.7416e-07,
          2.8871e-08, -6.3144e-07]], device='cuda:0')
Epoch 217, bias, value: tensor([-0.0042, -0.0051,  0.0099,  0.0113,  0.0316,  0.0411, -0.0205,  0.0070,
        -0.0371, -0.0224], device='cuda:0'), grad: tensor([ 1.1129e-07,  1.2573e-07, -1.1213e-06, -2.1979e-07,  7.2177e-08,
         8.1137e-06,  2.1562e-05,  6.1048e-07, -2.8655e-05, -5.8347e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 216, time 217.48, cls_loss 0.0029 cls_loss_mapping 0.0025 cls_loss_causal 0.4983 re_mapping 0.0060 re_causal 0.0169 /// teacc 98.98 lr 0.00010000
Epoch 218, weight, value: tensor([[-0.0588,  0.1465,  0.0747,  ..., -0.2231, -0.1200,  0.0246],
        [ 0.1577, -0.0219, -0.0854,  ...,  0.0887,  0.1181, -0.1537],
        [-0.0963, -0.0584, -0.0481,  ..., -0.0881, -0.0345, -0.0692],
        ...,
        [-0.0763,  0.1626, -0.1892,  ..., -0.1558, -0.0050, -0.1703],
        [ 0.0077, -0.1079,  0.0354,  ...,  0.0672, -0.1118, -0.0454],
        [-0.1082, -0.1205,  0.0803,  ..., -0.1018, -0.0615,  0.1497]],
       device='cuda:0'), grad: tensor([[ 1.7043e-07, -2.3060e-06,  4.6566e-09,  ...,  6.6450e-07,
          2.3283e-09, -5.5600e-07],
        [-1.1846e-06,  4.0419e-07,  1.0710e-08,  ..., -1.0356e-06,
         -1.2107e-06,  2.1001e-07],
        [ 1.4342e-06,  1.7462e-07,  4.4238e-08,  ...,  1.3430e-06,
          1.1157e-06,  3.5111e-07],
        ...,
        [ 1.7835e-07,  4.6892e-07,  1.8161e-08,  ...,  3.5390e-07,
          1.7788e-07,  8.8708e-07],
        [-2.5287e-05,  9.1363e-07,  2.3609e-07,  ..., -3.4094e-05,
          2.3283e-09, -2.4036e-05],
        [ 2.9895e-07,  1.0151e-07,  1.6345e-07,  ...,  4.0326e-07,
          6.5193e-09,  3.0268e-07]], device='cuda:0')
Epoch 218, bias, value: tensor([-0.0043, -0.0081,  0.0128,  0.0114,  0.0314,  0.0411, -0.0205,  0.0068,
        -0.0380, -0.0213], device='cuda:0'), grad: tensor([-3.6750e-06, -3.9674e-07,  2.6599e-06, -3.8333e-06, -7.2177e-08,
         1.3970e-05,  6.4492e-05,  2.4028e-06, -7.7188e-05,  1.6298e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 217, time 217.23, cls_loss 0.0020 cls_loss_mapping 0.0029 cls_loss_causal 0.5147 re_mapping 0.0058 re_causal 0.0169 /// teacc 98.94 lr 0.00010000
Epoch 219, weight, value: tensor([[-0.0590,  0.1468,  0.0749,  ..., -0.2261, -0.1228,  0.0230],
        [ 0.1576, -0.0221, -0.0856,  ...,  0.0887,  0.1181, -0.1546],
        [-0.0965, -0.0586, -0.0481,  ..., -0.0882, -0.0345, -0.0699],
        ...,
        [-0.0769,  0.1625, -0.1904,  ..., -0.1561, -0.0051, -0.1729],
        [ 0.0086, -0.1072,  0.0357,  ...,  0.0679, -0.1119, -0.0451],
        [-0.1085, -0.1205,  0.0814,  ..., -0.1025, -0.0612,  0.1505]],
       device='cuda:0'), grad: tensor([[ 9.7789e-09,  4.6566e-09,  5.5879e-09,  ...,  6.0070e-08,
          0.0000e+00,  1.5832e-08],
        [-5.5740e-07,  6.6590e-08,  5.5879e-09,  ..., -1.1241e-06,
         -2.7940e-09,  7.6368e-08],
        [ 5.2154e-08,  5.4948e-08,  8.6147e-08,  ...,  2.2585e-07,
          3.2596e-09,  2.0955e-08],
        ...,
        [ 6.9849e-08, -1.4529e-07,  1.5413e-07,  ...,  2.3888e-07,
          2.3283e-09,  4.7572e-06],
        [ 1.9092e-08,  1.0431e-07,  1.2573e-08,  ...,  2.5239e-07,
          2.7940e-09,  2.5611e-07],
        [ 2.2352e-08, -2.9709e-07, -5.3039e-07,  ...,  1.2442e-05,
          4.6566e-10, -3.2485e-06]], device='cuda:0')
Epoch 219, bias, value: tensor([-0.0065, -0.0082,  0.0127,  0.0114,  0.0327,  0.0414, -0.0192,  0.0056,
        -0.0366, -0.0214], device='cuda:0'), grad: tensor([ 1.4761e-07, -1.3076e-06,  6.6636e-07, -8.6613e-08, -9.4846e-06,
        -8.1025e-08, -4.9546e-06,  1.0252e-05,  9.8161e-07,  3.8594e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 218, time 216.62, cls_loss 0.0016 cls_loss_mapping 0.0022 cls_loss_causal 0.5047 re_mapping 0.0059 re_causal 0.0172 /// teacc 99.02 lr 0.00010000
Epoch 220, weight, value: tensor([[-0.0591,  0.1469,  0.0748,  ..., -0.2263, -0.1228,  0.0231],
        [ 0.1577, -0.0228, -0.0858,  ...,  0.0887,  0.1182, -0.1546],
        [-0.0966, -0.0587, -0.0481,  ..., -0.0882, -0.0346, -0.0699],
        ...,
        [-0.0770,  0.1628, -0.1917,  ..., -0.1564, -0.0051, -0.1730],
        [ 0.0085, -0.1071,  0.0358,  ...,  0.0677, -0.1121, -0.0455],
        [-0.1087, -0.1204,  0.0823,  ..., -0.1030, -0.0612,  0.1506]],
       device='cuda:0'), grad: tensor([[ 3.7253e-09, -1.8626e-08,  1.7043e-07,  ...,  2.1327e-07,
          0.0000e+00,  1.0524e-07],
        [-1.4761e-07,  1.0300e-06,  8.3353e-08,  ..., -2.1560e-07,
         -5.1223e-09,  1.6904e-07],
        [ 2.5611e-08,  1.8068e-07,  7.5903e-08,  ...,  6.6124e-08,
          1.3970e-09,  1.1409e-07],
        ...,
        [ 3.1199e-08, -5.9716e-06,  2.9113e-06,  ...,  1.1502e-07,
          2.3283e-09,  4.4852e-06],
        [ 6.7521e-08,  3.5251e-07,  1.6810e-07,  ..., -9.2089e-06,
          0.0000e+00,  1.9632e-06],
        [ 1.8626e-08,  3.9823e-06, -7.2345e-06,  ...,  4.2289e-05,
          9.3132e-10, -1.5348e-05]], device='cuda:0')
Epoch 220, bias, value: tensor([-0.0065, -0.0082,  0.0127,  0.0113,  0.0330,  0.0414, -0.0189,  0.0054,
        -0.0365, -0.0213], device='cuda:0'), grad: tensor([ 3.3621e-07,  2.1905e-06,  7.5437e-07, -2.1281e-07, -7.6354e-05,
         8.5607e-06,  8.5123e-07, -6.0536e-06, -2.1532e-06,  7.1824e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 219, time 216.92, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.5224 re_mapping 0.0055 re_causal 0.0169 /// teacc 99.06 lr 0.00010000
Epoch 221, weight, value: tensor([[-0.0591,  0.1474,  0.0750,  ..., -0.2264, -0.1228,  0.0233],
        [ 0.1587, -0.0205, -0.0858,  ...,  0.0888,  0.1182, -0.1548],
        [-0.0967, -0.0590, -0.0481,  ..., -0.0882, -0.0346, -0.0701],
        ...,
        [-0.0782,  0.1624, -0.1918,  ..., -0.1591, -0.0052, -0.1732],
        [ 0.0084, -0.1072,  0.0360,  ...,  0.0678, -0.1128, -0.0459],
        [-0.1096, -0.1214,  0.0827,  ..., -0.1037, -0.0612,  0.1508]],
       device='cuda:0'), grad: tensor([[ 8.3819e-09, -7.8231e-08, -8.8476e-08,  ...,  1.0245e-08,
          9.3132e-10, -2.5565e-07],
        [-2.9383e-07,  3.3528e-08,  3.7253e-09,  ..., -4.1910e-07,
         -2.2817e-08,  2.7940e-09],
        [ 1.3318e-07,  4.8429e-08,  2.3283e-09,  ...,  2.2212e-07,
         -6.0536e-09,  7.4506e-09],
        ...,
        [ 6.7987e-08, -3.6322e-07,  1.0245e-08,  ...,  1.0710e-07,
          1.3970e-08,  1.2107e-08],
        [-2.8405e-08,  2.0023e-08,  4.1910e-09,  ..., -4.1910e-08,
          5.5879e-09,  1.6298e-08],
        [ 2.5146e-08,  3.0687e-07, -4.0978e-08,  ...,  1.7090e-07,
          2.3283e-09,  8.6613e-08]], device='cuda:0')
Epoch 221, bias, value: tensor([-0.0064, -0.0081,  0.0127,  0.0111,  0.0343,  0.0417, -0.0200,  0.0050,
        -0.0366, -0.0218], device='cuda:0'), grad: tensor([-4.2375e-07, -7.7160e-07,  1.0477e-07,  3.2596e-08,  0.0000e+00,
         1.5227e-07,  1.8161e-07, -1.5041e-07,  7.8697e-08,  8.1956e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 220, time 216.54, cls_loss 0.0014 cls_loss_mapping 0.0027 cls_loss_causal 0.4930 re_mapping 0.0055 re_causal 0.0160 /// teacc 99.03 lr 0.00010000
Epoch 222, weight, value: tensor([[-0.0592,  0.1480,  0.0733,  ..., -0.2265, -0.1228,  0.0216],
        [ 0.1596, -0.0203, -0.0857,  ...,  0.0889,  0.1184, -0.1548],
        [-0.0971, -0.0593, -0.0481,  ..., -0.0882, -0.0347, -0.0704],
        ...,
        [-0.0786,  0.1628, -0.1920,  ..., -0.1598, -0.0058, -0.1736],
        [ 0.0084, -0.1073,  0.0359,  ...,  0.0678, -0.1129, -0.0460],
        [-0.1101, -0.1218,  0.0842,  ..., -0.1038, -0.0612,  0.1519]],
       device='cuda:0'), grad: tensor([[ 9.8720e-08, -8.2422e-08,  4.1910e-09,  ...,  1.2666e-07,
          0.0000e+00, -1.4901e-08],
        [-1.0282e-06,  3.5856e-08,  8.3819e-09,  ..., -1.4063e-06,
          0.0000e+00,  1.1176e-08],
        [ 2.6729e-07,  2.3283e-08,  1.2573e-08,  ...,  3.6322e-07,
          4.6566e-10,  1.9092e-08],
        ...,
        [ 7.4692e-07, -1.4622e-07,  3.2596e-08,  ...,  1.0179e-06,
          4.6566e-10,  4.4703e-08],
        [ 7.0920e-07,  3.3993e-08,  1.0524e-07,  ...,  8.4937e-07,
          9.3132e-10,  2.3004e-07],
        [ 7.9628e-08,  5.6345e-08, -2.9942e-07,  ...,  1.0943e-07,
          0.0000e+00, -4.8755e-07]], device='cuda:0')
Epoch 222, bias, value: tensor([-0.0073, -0.0079,  0.0126,  0.0108,  0.0341,  0.0421, -0.0204,  0.0051,
        -0.0367, -0.0211], device='cuda:0'), grad: tensor([ 1.1921e-07, -3.4031e-06,  1.0990e-06, -2.9337e-08,  2.9542e-06,
         1.5656e-06, -6.7167e-06,  2.4159e-06,  2.4382e-06, -4.2794e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 221, time 217.14, cls_loss 0.0017 cls_loss_mapping 0.0026 cls_loss_causal 0.5020 re_mapping 0.0057 re_causal 0.0165 /// teacc 99.03 lr 0.00010000
Epoch 223, weight, value: tensor([[-0.0594,  0.1482,  0.0713,  ..., -0.2269, -0.1228,  0.0198],
        [ 0.1602, -0.0204, -0.0858,  ...,  0.0890,  0.1184, -0.1549],
        [-0.0973, -0.0594, -0.0481,  ..., -0.0883, -0.0347, -0.0706],
        ...,
        [-0.0787,  0.1630, -0.1935,  ..., -0.1600, -0.0063, -0.1739],
        [ 0.0082, -0.1074,  0.0353,  ...,  0.0676, -0.1130, -0.0465],
        [-0.1105, -0.1219,  0.0856,  ..., -0.1047, -0.0612,  0.1529]],
       device='cuda:0'), grad: tensor([[ 9.3132e-09, -2.5425e-07, -2.9244e-07,  ...,  2.7008e-08,
          0.0000e+00, -5.3644e-07],
        [-2.1420e-08,  7.4506e-08,  1.3970e-08,  ..., -2.5146e-08,
         -1.8626e-09,  2.4214e-08],
        [ 1.8626e-07,  4.5728e-07,  1.2387e-07,  ...,  2.9057e-07,
          9.3132e-10,  1.3132e-07],
        ...,
        [ 2.3283e-08, -8.2608e-07,  5.3085e-08,  ...,  5.6811e-08,
          9.3132e-10,  9.2201e-08],
        [-1.7043e-07,  6.2399e-08,  1.4910e-06,  ..., -2.1141e-07,
          0.0000e+00,  3.4273e-06],
        [ 7.3574e-08,  3.9488e-07, -1.4240e-06,  ...,  6.2492e-07,
          0.0000e+00, -3.1367e-06]], device='cuda:0')
Epoch 223, bias, value: tensor([-0.0088, -0.0079,  0.0125,  0.0109,  0.0351,  0.0422, -0.0203,  0.0046,
        -0.0370, -0.0205], device='cuda:0'), grad: tensor([-2.6040e-06,  1.4249e-07,  1.6605e-06,  1.0179e-06, -4.1164e-07,
        -1.1949e-06, -8.3819e-09, -9.9372e-07,  6.6608e-06, -4.2729e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 222, time 217.06, cls_loss 0.0022 cls_loss_mapping 0.0034 cls_loss_causal 0.5202 re_mapping 0.0056 re_causal 0.0163 /// teacc 98.91 lr 0.00010000
Epoch 224, weight, value: tensor([[-0.0595,  0.1483,  0.0718,  ..., -0.2272, -0.1228,  0.0199],
        [ 0.1603, -0.0203, -0.0863,  ...,  0.0890,  0.1184, -0.1556],
        [-0.0977, -0.0599, -0.0480,  ..., -0.0883, -0.0347, -0.0711],
        ...,
        [-0.0791,  0.1639, -0.1938,  ..., -0.1605, -0.0064, -0.1743],
        [ 0.0091, -0.1077,  0.0362,  ...,  0.0685, -0.1132, -0.0462],
        [-0.1124, -0.1228,  0.0852,  ..., -0.1069, -0.0612,  0.1519]],
       device='cuda:0'), grad: tensor([[ 1.7695e-08, -8.3819e-09,  1.6578e-07,  ...,  2.4214e-08,
          2.7940e-09,  6.5193e-09],
        [-8.4750e-08,  6.2399e-08,  7.8231e-08,  ..., -1.4342e-07,
         -3.3528e-08,  9.3132e-09],
        [ 1.0803e-07,  6.0536e-08,  3.5763e-07,  ...,  1.8906e-07,
          5.5879e-09,  3.7253e-08],
        ...,
        [ 4.0047e-08, -5.3458e-07,  4.4424e-07,  ...,  7.2643e-08,
         -1.3970e-08,  3.1665e-08],
        [-5.4352e-06,  1.5832e-08, -1.2763e-05,  ..., -1.0870e-05,
          1.0245e-08, -6.8173e-06],
        [ 1.8533e-07,  3.6415e-07,  1.5302e-06,  ...,  3.6601e-07,
          1.9558e-08,  2.4866e-07]], device='cuda:0')
Epoch 224, bias, value: tensor([-0.0086, -0.0080,  0.0127,  0.0107,  0.0376,  0.0420, -0.0203,  0.0048,
        -0.0368, -0.0227], device='cuda:0'), grad: tensor([ 3.6787e-07, -5.8673e-08,  5.6811e-07, -1.5125e-06,  1.5832e-07,
         2.3916e-05, -3.8743e-06,  4.0233e-07, -2.3559e-05,  3.6154e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 223, time 216.75, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.4844 re_mapping 0.0060 re_causal 0.0168 /// teacc 98.87 lr 0.00010000
Epoch 225, weight, value: tensor([[-0.0596,  0.1493,  0.0725,  ..., -0.2275, -0.1228,  0.0206],
        [ 0.1616, -0.0204, -0.0864,  ...,  0.0891,  0.1186, -0.1557],
        [-0.0982, -0.0603, -0.0481,  ..., -0.0884, -0.0348, -0.0714],
        ...,
        [-0.0789,  0.1686, -0.1908,  ..., -0.1608, -0.0063, -0.1748],
        [ 0.0091, -0.1078,  0.0362,  ...,  0.0686, -0.1134, -0.0465],
        [-0.1167, -0.1290,  0.0826,  ..., -0.1074, -0.0613,  0.1521]],
       device='cuda:0'), grad: tensor([[ 1.8626e-08, -1.2387e-07, -4.0047e-08,  ...,  1.3970e-08,
          1.3970e-08, -7.4506e-08],
        [ 3.6322e-08,  8.8476e-08,  3.3528e-08,  ...,  5.5879e-09,
          5.2154e-08,  4.6566e-08],
        [ 2.6077e-08,  2.2631e-07,  2.9802e-08,  ...,  1.9558e-08,
          1.2387e-07,  2.4214e-08],
        ...,
        [ 8.3819e-09, -1.8105e-06,  7.8231e-08,  ...,  9.3132e-09,
         -8.2981e-07,  1.1455e-07],
        [ 1.4249e-07,  8.1025e-08,  1.5926e-07,  ...,  8.0094e-08,
          1.0803e-07,  1.7695e-07],
        [ 3.3528e-08,  7.5437e-08, -1.7602e-07,  ...,  3.2596e-08,
          2.7008e-08, -2.6450e-07]], device='cuda:0')
Epoch 225, bias, value: tensor([-0.0080, -0.0079,  0.0126,  0.0106,  0.0375,  0.0421, -0.0204,  0.0089,
        -0.0370, -0.0266], device='cuda:0'), grad: tensor([-2.7567e-07,  4.3213e-07,  2.2724e-07,  5.4650e-06,  1.9670e-06,
        -5.6587e-06,  1.7416e-07, -2.9486e-06,  7.4785e-07, -1.5087e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 224, time 217.68, cls_loss 0.0022 cls_loss_mapping 0.0030 cls_loss_causal 0.5144 re_mapping 0.0060 re_causal 0.0165 /// teacc 98.99 lr 0.00010000
Epoch 226, weight, value: tensor([[-0.0597,  0.1498,  0.0721,  ..., -0.2278, -0.1228,  0.0192],
        [ 0.1633, -0.0186, -0.0864,  ...,  0.0891,  0.1186, -0.1558],
        [-0.0984, -0.0599, -0.0481,  ..., -0.0884, -0.0349, -0.0736],
        ...,
        [-0.0811,  0.1683, -0.1910,  ..., -0.1621, -0.0060, -0.1767],
        [ 0.0096, -0.1080,  0.0367,  ...,  0.0696, -0.1142, -0.0464],
        [-0.1175, -0.1290,  0.0829,  ..., -0.1081, -0.0615,  0.1538]],
       device='cuda:0'), grad: tensor([[ 3.1665e-08, -1.4529e-07, -1.8906e-07,  ...,  4.1910e-08,
          6.5193e-09, -1.5646e-07],
        [-1.1828e-07,  6.7987e-08,  7.4506e-09,  ..., -1.9185e-07,
         -1.8626e-08,  2.6077e-08],
        [ 6.4261e-08,  1.5553e-07,  1.0803e-07,  ...,  1.0431e-07,
          1.2107e-08,  1.0803e-07],
        ...,
        [ 1.0058e-07, -2.0955e-07,  1.6764e-08,  ...,  1.4342e-07,
          6.2399e-08,  2.3097e-07],
        [ 5.3644e-07,  1.8626e-08,  5.3830e-07,  ...,  7.3109e-07,
          1.1548e-07,  1.7788e-06],
        [ 9.2201e-08,  7.6368e-08, -1.5832e-08,  ...,  1.4901e-07,
          2.8871e-08, -1.3039e-08]], device='cuda:0')
Epoch 226, bias, value: tensor([-0.0090, -0.0075,  0.0126,  0.0106,  0.0370,  0.0419, -0.0201,  0.0083,
        -0.0369, -0.0261], device='cuda:0'), grad: tensor([-2.6636e-06, -1.8254e-07,  1.9558e-06,  1.1483e-06,  7.0781e-08,
        -3.1590e-05,  2.7820e-05,  5.9605e-08,  2.8759e-06,  4.7684e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 225, time 218.10, cls_loss 0.0019 cls_loss_mapping 0.0031 cls_loss_causal 0.4940 re_mapping 0.0056 re_causal 0.0161 /// teacc 98.94 lr 0.00010000
Epoch 227, weight, value: tensor([[-0.0598,  0.1510,  0.0723,  ..., -0.2282, -0.1228,  0.0195],
        [ 0.1639, -0.0189, -0.0865,  ...,  0.0892,  0.1187, -0.1568],
        [-0.0989, -0.0605, -0.0482,  ..., -0.0884, -0.0350, -0.0738],
        ...,
        [-0.0826,  0.1684, -0.1911,  ..., -0.1624, -0.0058, -0.1786],
        [ 0.0108, -0.1070,  0.0359,  ...,  0.0689, -0.1149, -0.0475],
        [-0.1177, -0.1291,  0.0834,  ..., -0.1082, -0.0610,  0.1550]],
       device='cuda:0'), grad: tensor([[ 5.8766e-07, -1.5832e-08,  5.4017e-08,  ...,  4.4052e-07,
          1.8626e-08,  1.0058e-07],
        [-5.1260e-06,  1.6764e-08,  2.0489e-08,  ..., -4.6566e-06,
         -2.6450e-07,  7.6368e-08],
        [ 1.2713e-06,  5.3085e-08,  1.7416e-07,  ...,  1.2089e-06,
          1.7043e-07,  5.4017e-08],
        ...,
        [ 1.1120e-06, -5.0291e-08,  1.9744e-07,  ...,  7.7300e-07,
          7.0781e-08,  1.5274e-06],
        [ 9.8813e-07,  4.7497e-08, -4.5076e-07,  ..., -6.6869e-07,
          2.8871e-08, -2.0489e-08],
        [-1.4435e-07,  4.0978e-08,  2.9616e-07,  ...,  1.1800e-06,
          3.1665e-08, -3.4831e-06]], device='cuda:0')
Epoch 227, bias, value: tensor([-0.0086, -0.0077,  0.0126,  0.0112,  0.0366,  0.0416, -0.0200,  0.0076,
        -0.0349, -0.0259], device='cuda:0'), grad: tensor([ 1.7267e-06, -1.5303e-05,  4.9621e-06, -3.6377e-06,  4.6417e-06,
         3.3434e-07,  2.3767e-06,  5.4948e-06,  1.8617e-06, -2.5108e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 226, time 217.40, cls_loss 0.0018 cls_loss_mapping 0.0026 cls_loss_causal 0.4829 re_mapping 0.0056 re_causal 0.0158 /// teacc 98.94 lr 0.00010000
Epoch 228, weight, value: tensor([[-0.0601,  0.1515,  0.0722,  ..., -0.2285, -0.1228,  0.0194],
        [ 0.1644, -0.0199, -0.0862,  ...,  0.0894,  0.1189, -0.1562],
        [-0.0998, -0.0607, -0.0484,  ..., -0.0885, -0.0352, -0.0763],
        ...,
        [-0.0824,  0.1687, -0.1912,  ..., -0.1631, -0.0053, -0.1791],
        [ 0.0109, -0.1073,  0.0362,  ...,  0.0693, -0.1169, -0.0475],
        [-0.1181, -0.1291,  0.0837,  ..., -0.1082, -0.0613,  0.1560]],
       device='cuda:0'), grad: tensor([[ 2.0489e-08, -9.8720e-08,  1.4808e-07,  ...,  3.0734e-08,
          2.1420e-08,  3.9395e-07],
        [-2.1651e-05,  2.0582e-07,  1.9558e-08,  ..., -3.2306e-05,
         -2.4185e-05,  3.7253e-08],
        [ 1.9923e-05, -3.1386e-07, -1.3784e-07,  ...,  2.9758e-05,
          2.2277e-05,  1.8999e-07],
        ...,
        [ 1.0384e-06, -6.7614e-07,  6.0536e-08,  ...,  1.5581e-06,
          1.1111e-06,  9.4064e-08],
        [ 1.4715e-07,  1.0710e-07,  8.4564e-07,  ...,  3.4086e-07,
          9.1270e-08,  1.4752e-06],
        [ 5.7742e-08,  7.0687e-07, -1.2834e-06,  ...,  9.4995e-08,
          8.6613e-08, -2.5295e-06]], device='cuda:0')
Epoch 228, bias, value: tensor([-0.0087, -0.0078,  0.0125,  0.0112,  0.0361,  0.0412, -0.0198,  0.0079,
        -0.0350, -0.0258], device='cuda:0'), grad: tensor([ 6.1467e-07, -9.4473e-05,  7.0930e-05,  1.4389e-06,  1.0312e-05,
         5.4669e-07,  2.8275e-06,  5.6662e-06,  5.8040e-06, -3.8035e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 227, time 217.62, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5094 re_mapping 0.0058 re_causal 0.0163 /// teacc 98.94 lr 0.00010000
Epoch 229, weight, value: tensor([[-0.0599,  0.1530,  0.0729,  ..., -0.2287, -0.1229,  0.0197],
        [ 0.1647, -0.0201, -0.0863,  ...,  0.0895,  0.1189, -0.1564],
        [-0.1001, -0.0611, -0.0484,  ..., -0.0886, -0.0353, -0.0764],
        ...,
        [-0.0824,  0.1688, -0.1913,  ..., -0.1643, -0.0053, -0.1806],
        [ 0.0107, -0.1076,  0.0363,  ...,  0.0692, -0.1176, -0.0479],
        [-0.1183, -0.1291,  0.0836,  ..., -0.1086, -0.0614,  0.1568]],
       device='cuda:0'), grad: tensor([[ 2.7940e-09,  8.3819e-09,  1.0245e-08,  ...,  6.5193e-09,
          5.5879e-09,  9.3132e-10],
        [-2.0768e-07,  6.8247e-05,  9.3132e-10,  ..., -4.0140e-07,
          5.2243e-05,  0.0000e+00],
        [ 1.7416e-07,  1.8999e-07,  1.9558e-08,  ...,  3.8277e-07,
          3.4925e-07,  1.8626e-09],
        ...,
        [ 8.3819e-09, -7.4744e-05,  9.3132e-09,  ...,  3.1665e-08,
         -5.7399e-05,  2.7940e-09],
        [ 1.1176e-08,  5.4985e-06,  7.4506e-09,  ...,  1.8626e-08,
          4.2245e-06,  5.5879e-09],
        [ 4.6566e-09,  1.9185e-07, -4.6566e-09,  ...,  5.3085e-08,
          1.3132e-07, -1.9558e-08]], device='cuda:0')
Epoch 229, bias, value: tensor([-0.0079, -0.0077,  0.0125,  0.0108,  0.0356,  0.0427, -0.0207,  0.0079,
        -0.0353, -0.0256], device='cuda:0'), grad: tensor([ 3.7812e-07,  3.7384e-04, -8.3148e-06,  2.3358e-06,  1.8254e-07,
         9.9745e-07,  1.0896e-06, -4.0436e-04,  3.1590e-05,  1.6131e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 228, time 217.74, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.5074 re_mapping 0.0057 re_causal 0.0163 /// teacc 99.01 lr 0.00010000
Epoch 230, weight, value: tensor([[-0.0601,  0.1533,  0.0731,  ..., -0.2288, -0.1229,  0.0199],
        [ 0.1652, -0.0205, -0.0864,  ...,  0.0896,  0.1189, -0.1566],
        [-0.1004, -0.0609, -0.0485,  ..., -0.0887, -0.0353, -0.0772],
        ...,
        [-0.0827,  0.1692, -0.1913,  ..., -0.1636, -0.0047, -0.1814],
        [ 0.0109, -0.1091,  0.0364,  ...,  0.0690, -0.1188, -0.0477],
        [-0.1190, -0.1291,  0.0841,  ..., -0.1089, -0.0614,  0.1574]],
       device='cuda:0'), grad: tensor([[ 1.4529e-07, -1.5339e-06, -3.9712e-06,  ...,  1.4901e-07,
         -3.4180e-06, -5.3197e-06],
        [-2.4214e-06, -2.6077e-08,  9.4995e-08,  ..., -2.4997e-06,
         -2.3562e-07,  8.1956e-08],
        [ 1.0887e-06,  2.9057e-07,  3.7178e-06,  ...,  1.1204e-06,
          4.3958e-07,  2.4904e-06],
        ...,
        [ 3.5018e-07, -4.5821e-07,  2.0582e-07,  ...,  3.6880e-07,
          7.6368e-08,  1.5926e-07],
        [ 5.4669e-07,  1.1176e-07,  2.2091e-06,  ...,  5.6904e-07,
          1.3132e-07,  1.4277e-06],
        [ 1.3225e-07,  5.0850e-07, -9.3803e-06,  ...,  2.2724e-07,
          2.5146e-07, -5.4054e-06]], device='cuda:0')
Epoch 230, bias, value: tensor([-0.0078, -0.0078,  0.0125,  0.0107,  0.0350,  0.0427, -0.0208,  0.0082,
        -0.0358, -0.0255], device='cuda:0'), grad: tensor([-2.2903e-05, -6.9961e-06,  1.1533e-05,  1.0030e-06,  3.4496e-06,
         1.8671e-05,  8.9593e-07,  7.5530e-07,  5.8673e-06, -1.2323e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 229, time 216.99, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.4928 re_mapping 0.0053 re_causal 0.0158 /// teacc 99.11 lr 0.00010000
Epoch 231, weight, value: tensor([[-0.0604,  0.1536,  0.0737,  ..., -0.2292, -0.1228,  0.0202],
        [ 0.1655, -0.0204, -0.0866,  ...,  0.0896,  0.1190, -0.1571],
        [-0.1009, -0.0612, -0.0486,  ..., -0.0888, -0.0354, -0.0775],
        ...,
        [-0.0830,  0.1693, -0.1914,  ..., -0.1642, -0.0045, -0.1816],
        [ 0.0114, -0.1092,  0.0369,  ...,  0.0697, -0.1201, -0.0476],
        [-0.1190, -0.1292,  0.0848,  ..., -0.1086, -0.0615,  0.1580]],
       device='cuda:0'), grad: tensor([[ 7.1712e-08,  1.2051e-06, -3.1758e-07,  ..., -7.2364e-07,
          4.2841e-07, -1.3057e-06],
        [-7.1377e-06, -5.2974e-06,  1.3970e-08,  ..., -5.1335e-06,
          2.5146e-08,  9.3132e-09],
        [ 4.0140e-07,  5.6252e-07,  9.0338e-08,  ...,  3.1944e-07,
          1.4156e-07,  1.0245e-08],
        ...,
        [ 6.2585e-06, -6.7428e-07,  3.2037e-07,  ...,  4.1947e-06,
         -1.7844e-06,  8.1025e-08],
        [ 1.5646e-07,  4.2468e-07,  1.2480e-07,  ...,  3.1572e-07,
          1.2852e-07,  1.6671e-07],
        [ 6.4727e-07,  2.6971e-06,  2.7940e-08,  ...,  8.0466e-07,
          7.4040e-07,  8.8476e-08]], device='cuda:0')
Epoch 231, bias, value: tensor([-0.0075, -0.0078,  0.0124,  0.0110,  0.0340,  0.0424, -0.0207,  0.0081,
        -0.0358, -0.0251], device='cuda:0'), grad: tensor([-7.7300e-07, -3.8117e-05,  3.0696e-06, -2.9877e-06,  6.8638e-07,
         1.4370e-06,  2.0042e-06,  2.4036e-05,  2.1011e-06,  8.5756e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 230, time 216.99, cls_loss 0.0018 cls_loss_mapping 0.0031 cls_loss_causal 0.4933 re_mapping 0.0056 re_causal 0.0155 /// teacc 99.10 lr 0.00010000
Epoch 232, weight, value: tensor([[-0.0609,  0.1548,  0.0742,  ..., -0.2297, -0.1228,  0.0207],
        [ 0.1665, -0.0212, -0.0869,  ...,  0.0899,  0.1194, -0.1582],
        [-0.1017, -0.0613, -0.0486,  ..., -0.0889, -0.0356, -0.0777],
        ...,
        [-0.0832,  0.1696, -0.1914,  ..., -0.1657, -0.0053, -0.1818],
        [ 0.0113, -0.1096,  0.0368,  ...,  0.0697, -0.1215, -0.0479],
        [-0.1195, -0.1292,  0.0851,  ..., -0.1087, -0.0619,  0.1585]],
       device='cuda:0'), grad: tensor([[ 6.5193e-09, -6.4261e-08, -1.0617e-07,  ..., -3.1665e-08,
         -2.7940e-08, -2.0396e-07],
        [-1.7509e-07, -3.0734e-08, -6.5193e-09,  ..., -3.7160e-07,
         -4.5635e-08,  2.7940e-09],
        [ 1.6764e-08,  1.4901e-08,  1.3039e-08,  ..., -6.2399e-08,
          1.2107e-08,  1.9558e-08],
        ...,
        [ 8.1025e-08, -9.3132e-10,  2.7940e-08,  ...,  1.7881e-07,
          2.5146e-08,  1.8626e-08],
        [ 6.2399e-08,  3.7253e-08,  8.4750e-08,  ...,  2.4308e-07,
          2.1420e-08,  1.3784e-07],
        [ 9.3132e-09,  2.5146e-08, -1.0338e-07,  ...,  2.8871e-08,
          7.4506e-09, -1.7136e-07]], device='cuda:0')
Epoch 232, bias, value: tensor([-0.0070, -0.0078,  0.0123,  0.0111,  0.0337,  0.0423, -0.0210,  0.0084,
        -0.0361, -0.0250], device='cuda:0'), grad: tensor([-5.2899e-07, -6.1933e-07, -6.8825e-07, -1.3225e-07,  2.4121e-07,
         8.7544e-08,  4.0978e-08,  4.5169e-07,  1.2917e-06, -1.2480e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 231, time 217.25, cls_loss 0.0016 cls_loss_mapping 0.0024 cls_loss_causal 0.5177 re_mapping 0.0054 re_causal 0.0159 /// teacc 99.02 lr 0.00010000
Epoch 233, weight, value: tensor([[-0.0613,  0.1559,  0.0746,  ..., -0.2300, -0.1229,  0.0210],
        [ 0.1667, -0.0226, -0.0870,  ...,  0.0900,  0.1196, -0.1583],
        [-0.1020, -0.0615, -0.0487,  ..., -0.0891, -0.0358, -0.0781],
        ...,
        [-0.0833,  0.1700, -0.1916,  ..., -0.1658, -0.0053, -0.1826],
        [ 0.0118, -0.1097,  0.0372,  ...,  0.0704, -0.1221, -0.0479],
        [-0.1199, -0.1292,  0.0854,  ..., -0.1092, -0.0621,  0.1587]],
       device='cuda:0'), grad: tensor([[ 5.4948e-08, -7.2550e-07, -2.1048e-07,  ...,  1.4622e-07,
          9.3132e-10, -3.2410e-07],
        [ 6.2287e-06,  3.7160e-07,  3.2783e-06,  ...,  1.0237e-05,
         -2.0489e-08,  3.6098e-06],
        [ 1.1642e-07,  1.2107e-07,  1.7788e-07,  ...,  3.3621e-07,
          2.0582e-07,  7.1712e-08],
        ...,
        [-1.5832e-08, -3.5856e-07,  2.6077e-08,  ...,  3.9674e-07,
          2.0489e-08,  1.9558e-08],
        [-8.1658e-06,  1.5087e-07, -4.1835e-06,  ..., -1.3486e-05,
          1.8626e-08, -4.6119e-06],
        [ 1.7881e-07,  1.9744e-07,  1.3597e-07,  ...,  1.3644e-06,
          5.5879e-09,  1.6112e-07]], device='cuda:0')
Epoch 233, bias, value: tensor([-0.0068, -0.0076,  0.0120,  0.0120,  0.0336,  0.0413, -0.0211,  0.0086,
        -0.0360, -0.0250], device='cuda:0'), grad: tensor([-1.7602e-06,  1.8716e-05,  2.5742e-06, -1.2228e-06, -4.3437e-06,
         2.0899e-06,  1.9670e-06,  7.9814e-07, -2.3156e-05,  4.3213e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 232, time 216.79, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4906 re_mapping 0.0054 re_causal 0.0156 /// teacc 98.94 lr 0.00010000
Epoch 234, weight, value: tensor([[-0.0614,  0.1566,  0.0749,  ..., -0.2302, -0.1229,  0.0211],
        [ 0.1669, -0.0231, -0.0870,  ...,  0.0901,  0.1197, -0.1584],
        [-0.1024, -0.0616, -0.0487,  ..., -0.0892, -0.0358, -0.0783],
        ...,
        [-0.0834,  0.1704, -0.1918,  ..., -0.1661, -0.0051, -0.1853],
        [ 0.0117, -0.1104,  0.0374,  ...,  0.0706, -0.1226, -0.0480],
        [-0.1202, -0.1294,  0.0855,  ..., -0.1096, -0.0622,  0.1595]],
       device='cuda:0'), grad: tensor([[ 1.3039e-08,  7.4506e-09,  0.0000e+00,  ...,  3.9116e-08,
          6.5193e-09, -4.6566e-09],
        [-2.7105e-05,  2.4214e-08,  9.3132e-10,  ..., -1.4082e-05,
         -4.2945e-05,  7.4506e-09],
        [ 2.4542e-05,  3.4459e-08,  9.3132e-10,  ...,  1.4089e-05,
          3.8922e-05,  9.3132e-10],
        ...,
        [ 2.2389e-06, -2.2892e-06,  1.7695e-08,  ...,  1.8952e-06,
          3.5372e-06,  1.7323e-07],
        [ 2.7940e-08,  2.8871e-08,  7.4506e-09,  ...,  3.9823e-06,
          1.9558e-08,  2.8871e-08],
        [ 1.6298e-07,  2.1867e-06, -2.3283e-08,  ...,  1.0319e-05,
          2.3749e-07, -2.4959e-07]], device='cuda:0')
Epoch 234, bias, value: tensor([-0.0067, -0.0077,  0.0119,  0.0134,  0.0334,  0.0401, -0.0212,  0.0087,
        -0.0362, -0.0249], device='cuda:0'), grad: tensor([ 1.0245e-07, -9.7692e-05,  9.0778e-05,  1.5181e-07, -3.3855e-05,
        -3.1665e-08,  8.9332e-06,  6.0797e-06,  6.2250e-06,  1.9163e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 233, time 216.78, cls_loss 0.0016 cls_loss_mapping 0.0036 cls_loss_causal 0.5011 re_mapping 0.0060 re_causal 0.0166 /// teacc 99.01 lr 0.00010000
Epoch 235, weight, value: tensor([[-0.0624,  0.1587,  0.0760,  ..., -0.2308, -0.1231,  0.0225],
        [ 0.1686, -0.0221, -0.0871,  ...,  0.0907,  0.1199, -0.1581],
        [-0.1028, -0.0606, -0.0486,  ..., -0.0892, -0.0360, -0.0786],
        ...,
        [-0.0837,  0.1700, -0.1918,  ..., -0.1683, -0.0064, -0.1862],
        [ 0.0116, -0.1107,  0.0373,  ...,  0.0703, -0.1228, -0.0481],
        [-0.1208, -0.1294,  0.0854,  ..., -0.1105, -0.0623,  0.1595]],
       device='cuda:0'), grad: tensor([[ 3.0734e-08,  1.9558e-08,  4.6566e-09,  ...,  4.4703e-08,
          9.3132e-10,  3.7253e-09],
        [-3.2131e-07, -2.0303e-07,  1.0245e-08,  ..., -5.6531e-07,
         -7.8231e-08,  5.5879e-09],
        [ 8.5682e-08,  6.5193e-08,  1.6764e-08,  ...,  4.2748e-07,
          1.8626e-09,  2.7940e-09],
        ...,
        [ 1.8626e-07,  7.3574e-08,  5.4948e-08,  ...,  3.7346e-07,
          4.6566e-08,  9.4064e-08],
        [ 1.3448e-06,  6.2399e-08,  2.6785e-06,  ...,  5.7928e-07,
          1.4901e-08,  1.4417e-06],
        [ 1.0058e-07,  3.4459e-08,  5.3085e-08,  ...,  1.2852e-07,
          9.3132e-09, -3.3062e-07]], device='cuda:0')
Epoch 235, bias, value: tensor([-0.0058, -0.0070,  0.0124,  0.0109,  0.0335,  0.0418, -0.0229,  0.0079,
        -0.0364, -0.0249], device='cuda:0'), grad: tensor([ 4.4424e-07, -1.0617e-06, -3.5483e-07, -8.2478e-06,  1.5832e-08,
         1.9111e-06, -4.3586e-07,  1.0589e-06,  6.4895e-06,  1.7695e-07],
       device='cuda:0')
100
0.0001
changing lr
---------------------saving model at epoch 234----------------------------------------------------
epoch 234, time 217.92, cls_loss 0.0014 cls_loss_mapping 0.0021 cls_loss_causal 0.5009 re_mapping 0.0057 re_causal 0.0163 /// teacc 99.12 lr 0.00010000
Epoch 236, weight, value: tensor([[-0.0626,  0.1589,  0.0775,  ..., -0.2311, -0.1231,  0.0236],
        [ 0.1688, -0.0226, -0.0872,  ...,  0.0908,  0.1199, -0.1585],
        [-0.1030, -0.0606, -0.0487,  ..., -0.0893, -0.0360, -0.0789],
        ...,
        [-0.0838,  0.1702, -0.1919,  ..., -0.1689, -0.0058, -0.1874],
        [ 0.0128, -0.1109,  0.0372,  ...,  0.0724, -0.1220, -0.0490],
        [-0.1213, -0.1294,  0.0852,  ..., -0.1107, -0.0624,  0.1595]],
       device='cuda:0'), grad: tensor([[ 6.3330e-08,  2.3283e-08,  1.3607e-06,  ...,  6.4261e-08,
          9.3132e-10,  1.9558e-08],
        [ 1.2107e-08,  6.5193e-09,  3.3528e-08,  ...,  1.4901e-08,
          1.8626e-09,  3.7253e-09],
        [ 1.3411e-07,  2.1420e-08, -1.8729e-06,  ...,  1.4715e-07,
          8.3819e-09,  2.7008e-08],
        ...,
        [ 2.2352e-08, -1.2107e-08,  8.2888e-08,  ...,  2.0489e-08,
          3.7253e-09,  2.3283e-08],
        [-2.8778e-07, -3.6322e-08,  2.0675e-07,  ..., -3.3993e-07,
          6.8918e-08, -3.5390e-08],
        [ 1.4901e-08,  1.4901e-08,  2.7008e-08,  ...,  2.4214e-08,
          1.8626e-09, -4.8429e-08]], device='cuda:0')
Epoch 236, bias, value: tensor([-0.0050, -0.0070,  0.0124,  0.0106,  0.0333,  0.0418, -0.0229,  0.0079,
        -0.0358, -0.0250], device='cuda:0'), grad: tensor([ 1.4380e-05,  1.9372e-07, -2.1130e-05, -9.9242e-06,  4.9360e-08,
         1.2182e-05, -7.5437e-07,  3.9581e-07,  4.2729e-06,  2.8964e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 235, time 216.99, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.4868 re_mapping 0.0056 re_causal 0.0156 /// teacc 99.05 lr 0.00010000
Epoch 237, weight, value: tensor([[-0.0630,  0.1592,  0.0779,  ..., -0.2314, -0.1232,  0.0238],
        [ 0.1694, -0.0224, -0.0872,  ...,  0.0910,  0.1201, -0.1586],
        [-0.1033, -0.0607, -0.0487,  ..., -0.0894, -0.0361, -0.0790],
        ...,
        [-0.0840,  0.1703, -0.1919,  ..., -0.1693, -0.0063, -0.1880],
        [ 0.0124, -0.1113,  0.0370,  ...,  0.0718, -0.1231, -0.0493],
        [-0.1215, -0.1294,  0.0852,  ..., -0.1111, -0.0626,  0.1597]],
       device='cuda:0'), grad: tensor([[ 1.1176e-08,  3.0603e-06,  1.8626e-09,  ...,  9.3132e-09,
          0.0000e+00, -3.2783e-07],
        [ 7.4506e-09,  1.4558e-05,  1.8626e-09,  ...,  1.4901e-08,
          0.0000e+00,  1.0245e-08],
        [ 2.7008e-08,  4.9546e-07,  1.7695e-08,  ...,  7.0781e-08,
         -1.8626e-09,  2.4214e-08],
        ...,
        [ 3.7253e-09, -2.3916e-05,  1.3039e-08,  ...,  1.7695e-08,
          9.3132e-10,  7.9162e-08],
        [-1.3039e-08,  4.6939e-07, -1.9558e-08,  ..., -1.2852e-07,
          0.0000e+00,  6.4261e-08],
        [ 6.5193e-09,  3.0212e-06, -8.9407e-08,  ...,  2.0396e-07,
          0.0000e+00, -1.8906e-07]], device='cuda:0')
Epoch 237, bias, value: tensor([-0.0049, -0.0068,  0.0123,  0.0078,  0.0332,  0.0446, -0.0222,  0.0078,
        -0.0363, -0.0251], device='cuda:0'), grad: tensor([ 5.5060e-06,  2.6748e-05,  1.0496e-06,  4.7591e-07,  2.2296e-06,
         1.3039e-06,  1.8254e-07, -4.3690e-05,  6.1374e-07,  5.6289e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 236, time 216.96, cls_loss 0.0018 cls_loss_mapping 0.0022 cls_loss_causal 0.5370 re_mapping 0.0053 re_causal 0.0160 /// teacc 99.10 lr 0.00010000
Epoch 238, weight, value: tensor([[-0.0636,  0.1589,  0.0777,  ..., -0.2321, -0.1232,  0.0237],
        [ 0.1702, -0.0216, -0.0871,  ...,  0.0911,  0.1202, -0.1585],
        [-0.1039, -0.0619, -0.0487,  ..., -0.0894, -0.0361, -0.0789],
        ...,
        [-0.0842,  0.1704, -0.1922,  ..., -0.1698, -0.0063, -0.1889],
        [ 0.0116, -0.1124,  0.0360,  ...,  0.0711, -0.1235, -0.0499],
        [-0.1222, -0.1294,  0.0854,  ..., -0.1140, -0.0629,  0.1597]],
       device='cuda:0'), grad: tensor([[ 3.7253e-09,  8.5682e-08, -7.4506e-09,  ...,  7.4506e-09,
          0.0000e+00, -1.8999e-07],
        [ 7.4506e-09,  4.2561e-07,  1.8626e-09,  ...,  8.3819e-09,
          0.0000e+00,  2.0489e-08],
        [ 2.3283e-08,  6.1691e-06,  5.5879e-09,  ...,  5.7742e-08,
          0.0000e+00,  2.7940e-08],
        ...,
        [ 6.2399e-08, -7.3537e-06,  1.1362e-07,  ...,  1.5367e-07,
          0.0000e+00,  8.8196e-07],
        [-1.3225e-07,  9.4064e-08,  3.7253e-09,  ..., -3.1851e-07,
          0.0000e+00,  2.5146e-08],
        [ 8.3819e-09, -2.3283e-06, -1.0859e-06,  ...,  4.8429e-08,
          0.0000e+00, -8.5086e-06]], device='cuda:0')
Epoch 238, bias, value: tensor([-0.0051, -0.0066,  0.0121,  0.0079,  0.0356,  0.0448, -0.0215,  0.0077,
        -0.0374, -0.0261], device='cuda:0'), grad: tensor([-1.9744e-07,  7.7300e-07,  9.5963e-06,  1.8440e-07,  1.7568e-05,
         4.2841e-07,  2.9895e-07, -9.3803e-06, -4.4703e-07, -1.8805e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 237, time 216.70, cls_loss 0.0016 cls_loss_mapping 0.0026 cls_loss_causal 0.5184 re_mapping 0.0056 re_causal 0.0160 /// teacc 99.12 lr 0.00010000
Epoch 239, weight, value: tensor([[-0.0643,  0.1589,  0.0776,  ..., -0.2333, -0.1232,  0.0236],
        [ 0.1708, -0.0209, -0.0872,  ...,  0.0913,  0.1201, -0.1587],
        [-0.1042, -0.0627, -0.0487,  ..., -0.0895, -0.0361, -0.0796],
        ...,
        [-0.0848,  0.1705, -0.1923,  ..., -0.1715, -0.0059, -0.1902],
        [ 0.0117, -0.1128,  0.0356,  ...,  0.0712, -0.1237, -0.0509],
        [-0.1227, -0.1294,  0.0857,  ..., -0.1140, -0.0630,  0.1607]],
       device='cuda:0'), grad: tensor([[ 9.3132e-09, -2.5146e-08,  9.3132e-10,  ...,  1.5832e-08,
          0.0000e+00, -1.0245e-08],
        [-5.2154e-08,  2.1420e-08,  7.4506e-09,  ..., -1.7323e-07,
          0.0000e+00,  1.3970e-08],
        [ 4.2841e-08,  7.4506e-09,  4.6566e-09,  ...,  1.3877e-07,
         -1.8626e-09,  5.5879e-09],
        ...,
        [ 7.4506e-09, -5.4017e-08,  2.7940e-09,  ...,  2.0489e-08,
          0.0000e+00,  1.1176e-08],
        [ 2.4214e-08,  1.3039e-08,  2.1420e-08,  ...,  3.6322e-08,
          0.0000e+00,  6.1467e-08],
        [ 8.3819e-09,  2.2352e-08,  3.7253e-09,  ...,  2.5146e-08,
          0.0000e+00, -5.9605e-08]], device='cuda:0')
Epoch 239, bias, value: tensor([-0.0054, -0.0065,  0.0120,  0.0080,  0.0354,  0.0450, -0.0224,  0.0077,
        -0.0377, -0.0259], device='cuda:0'), grad: tensor([-2.6077e-08, -2.4214e-07,  1.9744e-07,  6.7521e-07,  9.4064e-08,
        -7.4599e-07, -3.5390e-08, -2.6077e-08,  1.4715e-07, -3.9116e-08],
       device='cuda:0')
100
0.0001
changing lr
epoch 238, time 216.69, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.5046 re_mapping 0.0055 re_causal 0.0156 /// teacc 99.02 lr 0.00010000
Epoch 240, weight, value: tensor([[-0.0647,  0.1596,  0.0778,  ..., -0.2336, -0.1233,  0.0238],
        [ 0.1718, -0.0219, -0.0870,  ...,  0.0916,  0.1203, -0.1580],
        [-0.1047, -0.0601, -0.0489,  ..., -0.0896, -0.0362, -0.0808],
        ...,
        [-0.0847,  0.1703, -0.1923,  ..., -0.1716, -0.0060, -0.1912],
        [ 0.0124, -0.1130,  0.0353,  ...,  0.0720, -0.1231, -0.0512],
        [-0.1233, -0.1297,  0.0859,  ..., -0.1143, -0.0630,  0.1613]],
       device='cuda:0'), grad: tensor([[ 2.5239e-07,  1.4901e-08,  3.0827e-07,  ...,  4.0513e-07,
          0.0000e+00,  3.7253e-09],
        [ 8.9034e-07,  1.2107e-07,  1.3039e-07,  ...,  5.4482e-07,
         -9.3132e-10,  1.8626e-09],
        [ 2.2799e-06,  5.9977e-07,  2.5295e-06,  ...,  4.1015e-06,
          7.4506e-09,  2.7940e-09],
        ...,
        [ 4.0978e-08, -8.7358e-07,  2.2072e-07,  ...,  1.0896e-07,
          0.0000e+00,  6.4261e-08],
        [-3.2093e-06, -1.3039e-08, -3.7812e-06,  ..., -1.0379e-05,
         -9.3132e-09,  1.5367e-07],
        [ 1.0896e-07,  3.6322e-08,  7.2177e-07,  ...,  8.2050e-07,
          0.0000e+00, -2.4214e-08]], device='cuda:0')
Epoch 240, bias, value: tensor([-0.0053, -0.0064,  0.0126,  0.0087,  0.0354,  0.0441, -0.0228,  0.0074,
        -0.0375, -0.0260], device='cuda:0'), grad: tensor([ 1.9073e-06,  2.8536e-06,  2.1964e-05, -9.5546e-05,  8.3260e-07,
         1.0413e-04, -5.9698e-07, -2.2538e-07, -3.9160e-05,  3.8128e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 239, time 217.40, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4959 re_mapping 0.0057 re_causal 0.0162 /// teacc 99.02 lr 0.00010000
Epoch 241, weight, value: tensor([[-0.0651,  0.1597,  0.0778,  ..., -0.2341, -0.1233,  0.0238],
        [ 0.1719, -0.0220, -0.0871,  ...,  0.0917,  0.1203, -0.1582],
        [-0.1049, -0.0602, -0.0490,  ..., -0.0896, -0.0363, -0.0807],
        ...,
        [-0.0847,  0.1704, -0.1925,  ..., -0.1717, -0.0059, -0.1920],
        [ 0.0129, -0.1134,  0.0349,  ...,  0.0724, -0.1234, -0.0514],
        [-0.1235, -0.1297,  0.0862,  ..., -0.1143, -0.0631,  0.1618]],
       device='cuda:0'), grad: tensor([[ 2.7940e-09, -2.5425e-07, -1.3784e-07,  ...,  6.5193e-09,
          1.3970e-08, -3.1479e-07],
        [ 1.0245e-08,  1.6764e-08,  1.9558e-07,  ...,  2.8592e-07,
          4.5635e-08,  1.6298e-07],
        [ 9.3132e-09, -4.0047e-08,  8.6892e-07,  ...,  2.7008e-08,
          4.5411e-06,  1.7695e-08],
        ...,
        [ 4.6566e-09,  4.2841e-08,  2.6915e-07,  ...,  1.7695e-08,
          1.3364e-06,  2.2352e-08],
        [-2.5332e-07,  4.8429e-08, -1.5125e-06,  ..., -2.8834e-06,
          5.4017e-08, -1.2238e-06],
        [ 1.7975e-07,  8.1956e-08,  1.0198e-06,  ...,  1.9260e-06,
          2.6077e-08,  7.3481e-07]], device='cuda:0')
Epoch 241, bias, value: tensor([-0.0053, -0.0064,  0.0126,  0.0087,  0.0353,  0.0441, -0.0230,  0.0073,
        -0.0376, -0.0258], device='cuda:0'), grad: tensor([-7.7579e-07,  7.7393e-07,  3.1441e-05, -4.3392e-05,  8.2795e-07,
         1.6317e-06,  3.4273e-07,  9.7007e-06, -3.5129e-06,  2.9802e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 240, time 217.24, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4897 re_mapping 0.0053 re_causal 0.0151 /// teacc 98.99 lr 0.00010000
Epoch 242, weight, value: tensor([[-0.0657,  0.1594,  0.0776,  ..., -0.2349, -0.1233,  0.0236],
        [ 0.1723, -0.0221, -0.0871,  ...,  0.0918,  0.1203, -0.1582],
        [-0.1053, -0.0605, -0.0491,  ..., -0.0897, -0.0363, -0.0813],
        ...,
        [-0.0849,  0.1707, -0.1929,  ..., -0.1723, -0.0059, -0.1926],
        [ 0.0131, -0.1134,  0.0345,  ...,  0.0726, -0.1241, -0.0516],
        [-0.1239, -0.1299,  0.0868,  ..., -0.1144, -0.0631,  0.1622]],
       device='cuda:0'), grad: tensor([[ 2.5518e-07,  7.3574e-08,  3.6508e-07,  ...,  4.4424e-07,
          0.0000e+00,  7.5903e-07],
        [ 3.8296e-06,  1.1930e-06,  1.0803e-07,  ...,  4.9248e-06,
         -2.7940e-09,  1.2042e-06],
        [ 7.4506e-08,  2.7940e-08,  1.2852e-07,  ...,  1.6764e-07,
          9.3132e-10,  2.3842e-07],
        ...,
        [ 4.1910e-08, -4.3772e-08,  3.5856e-07,  ...,  2.1048e-07,
          9.3132e-10,  6.3609e-07],
        [ 4.0308e-06,  3.6880e-07,  6.0678e-05,  ...,  2.1815e-05,
          0.0000e+00,  1.1122e-04],
        [ 7.4506e-07,  1.4901e-08, -5.8800e-05,  ..., -2.2098e-05,
          9.3132e-10, -1.2612e-04]], device='cuda:0')
Epoch 242, bias, value: tensor([-0.0056, -0.0064,  0.0125,  0.0088,  0.0352,  0.0440, -0.0227,  0.0073,
        -0.0378, -0.0256], device='cuda:0'), grad: tensor([ 1.7304e-06,  7.8306e-06,  3.2410e-07, -5.0783e-05,  1.5432e-06,
         6.8903e-05, -3.3736e-05,  1.2880e-06,  1.9443e-04, -1.9145e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 241, time 217.09, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.5291 re_mapping 0.0056 re_causal 0.0165 /// teacc 99.10 lr 0.00010000
Epoch 243, weight, value: tensor([[-0.0661,  0.1593,  0.0775,  ..., -0.2354, -0.1233,  0.0235],
        [ 0.1727, -0.0222, -0.0872,  ...,  0.0918,  0.1204, -0.1583],
        [-0.1056, -0.0606, -0.0490,  ..., -0.0897, -0.0363, -0.0805],
        ...,
        [-0.0850,  0.1708, -0.1935,  ..., -0.1727, -0.0059, -0.1934],
        [ 0.0138, -0.1132,  0.0336,  ...,  0.0735, -0.1245, -0.0519],
        [-0.1245, -0.1299,  0.0882,  ..., -0.1141, -0.0632,  0.1641]],
       device='cuda:0'), grad: tensor([[ 5.6811e-08, -3.8045e-07, -1.8161e-08,  ...,  4.3772e-08,
          0.0000e+00, -2.3982e-07],
        [-2.0396e-07,  4.0513e-08, -1.8161e-08,  ..., -2.4680e-07,
          0.0000e+00, -1.7229e-08],
        [ 6.3796e-08, -1.9744e-07,  2.3283e-08,  ...,  7.1246e-08,
         -4.6566e-10,  2.6077e-08],
        ...,
        [ 2.4680e-08,  2.1188e-07,  3.1199e-08,  ...,  7.8697e-08,
          0.0000e+00,  4.3306e-08],
        [ 1.4482e-07,  2.3516e-07,  3.3528e-08,  ...,  1.8580e-07,
          0.0000e+00,  1.6252e-07],
        [ 2.8871e-08,  1.2433e-07, -7.5763e-07,  ...,  1.2154e-07,
          0.0000e+00, -1.2517e-06]], device='cuda:0')
Epoch 243, bias, value: tensor([-0.0058, -0.0064,  0.0125,  0.0088,  0.0340,  0.0439, -0.0229,  0.0072,
        -0.0378, -0.0250], device='cuda:0'), grad: tensor([-7.0827e-07, -3.8417e-07, -4.4964e-06, -2.2491e-07,  2.7008e-06,
         3.0966e-07, -3.9069e-07,  4.3176e-06,  1.4119e-06, -2.5369e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 242, time 217.17, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.5190 re_mapping 0.0057 re_causal 0.0163 /// teacc 98.96 lr 0.00010000
Epoch 244, weight, value: tensor([[-0.0669,  0.1590,  0.0774,  ..., -0.2364, -0.1234,  0.0234],
        [ 0.1736, -0.0220, -0.0872,  ...,  0.0918,  0.1209, -0.1584],
        [-0.1061, -0.0610, -0.0491,  ..., -0.0898, -0.0365, -0.0807],
        ...,
        [-0.0858,  0.1710, -0.1939,  ..., -0.1729, -0.0081, -0.1947],
        [ 0.0139, -0.1134,  0.0335,  ...,  0.0737, -0.1246, -0.0518],
        [-0.1248, -0.1299,  0.0887,  ..., -0.1139, -0.0633,  0.1650]],
       device='cuda:0'), grad: tensor([[ 1.3784e-06,  2.1234e-06, -1.3597e-07,  ...,  2.6841e-06,
          4.6566e-10,  1.5190e-06],
        [-1.9558e-08,  2.3283e-08,  7.9162e-09,  ..., -1.3504e-08,
         -4.1910e-09,  2.4214e-08],
        [ 5.7276e-08,  7.5903e-08,  8.3819e-09,  ...,  9.9652e-08,
         -4.1910e-09,  6.0536e-08],
        ...,
        [ 1.5832e-08,  9.3132e-10,  1.2247e-07,  ...,  1.7229e-08,
          5.1223e-09,  1.6298e-07],
        [ 1.2340e-07,  1.9837e-07,  1.4715e-07,  ...,  1.9092e-07,
          1.8626e-09,  3.5390e-07],
        [ 5.4482e-08,  7.2643e-08, -9.7323e-08,  ...,  1.5227e-07,
          1.8626e-09, -7.8697e-08]], device='cuda:0')
Epoch 244, bias, value: tensor([-0.0061, -0.0059,  0.0124,  0.0090,  0.0333,  0.0439, -0.0227,  0.0066,
        -0.0379, -0.0246], device='cuda:0'), grad: tensor([ 8.8811e-06,  3.8184e-08,  2.3702e-07,  1.2107e-08,  8.3679e-07,
         8.3353e-08, -1.1668e-05,  4.9546e-07,  9.8906e-07,  8.8010e-08],
       device='cuda:0')
100
0.0001
changing lr
epoch 243, time 216.89, cls_loss 0.0012 cls_loss_mapping 0.0028 cls_loss_causal 0.5106 re_mapping 0.0057 re_causal 0.0160 /// teacc 98.96 lr 0.00010000
Epoch 245, weight, value: tensor([[-0.0674,  0.1593,  0.0774,  ..., -0.2367, -0.1235,  0.0235],
        [ 0.1739, -0.0224, -0.0873,  ...,  0.0919,  0.1210, -0.1588],
        [-0.1066, -0.0611, -0.0492,  ..., -0.0898, -0.0365, -0.0808],
        ...,
        [-0.0858,  0.1712, -0.1940,  ..., -0.1732, -0.0082, -0.1949],
        [ 0.0138, -0.1136,  0.0330,  ...,  0.0737, -0.1251, -0.0522],
        [-0.1250, -0.1300,  0.0890,  ..., -0.1145, -0.0635,  0.1654]],
       device='cuda:0'), grad: tensor([[ 6.5193e-09, -6.1467e-08, -1.8626e-09,  ...,  5.5879e-09,
          0.0000e+00, -1.3039e-08],
        [ 5.5507e-07,  6.5193e-08,  1.0245e-08,  ...,  4.7311e-07,
         -9.3132e-10,  4.9360e-08],
        [ 2.5146e-08,  1.6764e-08,  6.5193e-09,  ...,  2.3283e-08,
         -9.3132e-10,  6.5193e-09],
        ...,
        [ 4.2841e-08, -1.5087e-07,  3.9116e-08,  ...,  3.8184e-08,
          0.0000e+00,  6.0536e-08],
        [-8.2608e-07,  2.3283e-08,  9.5926e-08,  ..., -7.0874e-07,
          0.0000e+00,  1.2573e-07],
        [ 4.8429e-08,  7.5437e-08, -2.3656e-07,  ...,  4.3772e-08,
          9.3132e-10, -4.9546e-07]], device='cuda:0')
Epoch 245, bias, value: tensor([-0.0060, -0.0059,  0.0123,  0.0089,  0.0337,  0.0440, -0.0227,  0.0067,
        -0.0381, -0.0248], device='cuda:0'), grad: tensor([-2.5798e-07,  1.2284e-06,  7.7300e-08,  9.3784e-07,  5.8487e-07,
        -1.0412e-06,  2.8871e-07,  6.9849e-08, -1.1967e-06, -6.9197e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 244, time 217.16, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4824 re_mapping 0.0056 re_causal 0.0158 /// teacc 99.09 lr 0.00010000
Epoch 246, weight, value: tensor([[-0.0677,  0.1596,  0.0773,  ..., -0.2370, -0.1236,  0.0234],
        [ 0.1748, -0.0225, -0.0872,  ...,  0.0921,  0.1211, -0.1585],
        [-0.1075, -0.0613, -0.0493,  ..., -0.0899, -0.0367, -0.0810],
        ...,
        [-0.0860,  0.1713, -0.1942,  ..., -0.1737, -0.0082, -0.1957],
        [ 0.0133, -0.1140,  0.0323,  ...,  0.0730, -0.1254, -0.0527],
        [-0.1256, -0.1300,  0.0893,  ..., -0.1173, -0.0637,  0.1649]],
       device='cuda:0'), grad: tensor([[ 4.0047e-08,  1.3690e-07,  6.5193e-09,  ...,  4.3772e-08,
          8.0094e-08, -9.3132e-10],
        [-8.2888e-08,  1.9092e-07,  6.5193e-09,  ...,  4.6566e-08,
          6.6124e-08,  7.4506e-09],
        [ 6.7987e-08,  6.4261e-08,  8.3819e-09,  ...,  8.1956e-08,
          3.4459e-08,  3.7253e-09],
        ...,
        [ 1.4901e-08, -1.1828e-06,  1.2107e-08,  ...,  1.0058e-07,
         -4.2748e-07,  1.3039e-08],
        [ 8.6799e-07,  1.4156e-07,  2.9802e-07,  ...,  6.9570e-07,
          4.9919e-07,  3.9861e-07],
        [ 6.5193e-09,  4.8801e-07, -2.2352e-08,  ...,  1.8934e-06,
          1.8161e-07, -1.0896e-07]], device='cuda:0')
Epoch 246, bias, value: tensor([-0.0061, -0.0057,  0.0122,  0.0088,  0.0363,  0.0442, -0.0223,  0.0066,
        -0.0386, -0.0265], device='cuda:0'), grad: tensor([ 3.1572e-07,  5.0012e-07, -8.0094e-07,  3.5297e-07, -3.9749e-06,
        -1.5236e-06, -1.7695e-08, -1.7723e-06,  2.6673e-06,  4.2692e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 245, time 216.47, cls_loss 0.0013 cls_loss_mapping 0.0029 cls_loss_causal 0.4911 re_mapping 0.0055 re_causal 0.0152 /// teacc 98.95 lr 0.00010000
Epoch 247, weight, value: tensor([[-0.0678,  0.1599,  0.0774,  ..., -0.2373, -0.1236,  0.0235],
        [ 0.1773, -0.0232, -0.0872,  ...,  0.0930,  0.1240, -0.1587],
        [-0.1113, -0.0621, -0.0493,  ..., -0.0909, -0.0393, -0.0812],
        ...,
        [-0.0863,  0.1719, -0.1942,  ..., -0.1741, -0.0099, -0.1960],
        [ 0.0132, -0.1142,  0.0322,  ...,  0.0731, -0.1253, -0.0530],
        [-0.1256, -0.1300,  0.0902,  ..., -0.1164, -0.0640,  0.1675]],
       device='cuda:0'), grad: tensor([[ 1.0524e-07, -1.1176e-08, -6.5193e-09,  ...,  1.0151e-07,
          1.7695e-08, -8.3819e-09],
        [-1.3616e-06,  5.5879e-09,  9.5926e-08,  ..., -1.1949e-06,
         -3.0361e-07,  9.0338e-08],
        [ 1.2079e-06,  2.7940e-09,  2.7940e-09,  ...,  1.4268e-06,
          1.0896e-07,  1.0245e-08],
        ...,
        [ 1.8161e-07, -1.7695e-08,  3.2596e-08,  ...,  2.0396e-07,
          2.7008e-08,  7.7300e-08],
        [-2.5295e-06,  2.7940e-09, -7.1339e-07,  ..., -3.0678e-06,
          7.1712e-08, -6.8359e-07],
        [ 2.3376e-07,  9.3132e-09, -4.8243e-07,  ...,  3.8929e-07,
          4.0047e-08, -1.1781e-06]], device='cuda:0')
Epoch 247, bias, value: tensor([-0.0061, -0.0049,  0.0111,  0.0087,  0.0351,  0.0440, -0.0220,  0.0069,
        -0.0388, -0.0255], device='cuda:0'), grad: tensor([ 2.3469e-07, -3.0808e-06,  4.4666e-06,  3.9209e-07,  1.5646e-06,
         3.8147e-06,  1.8030e-06,  6.8638e-07, -8.4490e-06, -1.4678e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 246, time 216.55, cls_loss 0.0013 cls_loss_mapping 0.0027 cls_loss_causal 0.5105 re_mapping 0.0057 re_causal 0.0164 /// teacc 99.03 lr 0.00010000
Epoch 248, weight, value: tensor([[-0.0687,  0.1592,  0.0765,  ..., -0.2384, -0.1237,  0.0228],
        [ 0.1798, -0.0208, -0.0873,  ...,  0.0934,  0.1248, -0.1589],
        [-0.1136, -0.0644, -0.0494,  ..., -0.0911, -0.0398, -0.0814],
        ...,
        [-0.0874,  0.1719, -0.1943,  ..., -0.1753, -0.0114, -0.1963],
        [ 0.0136, -0.1143,  0.0325,  ...,  0.0736, -0.1259, -0.0528],
        [-0.1263, -0.1301,  0.0907,  ..., -0.1165, -0.0645,  0.1683]],
       device='cuda:0'), grad: tensor([[ 2.4214e-08,  1.0245e-08, -5.5879e-09,  ...,  3.5390e-08,
          1.0245e-08, -7.4506e-09],
        [-2.0489e-08,  3.7253e-09,  2.7940e-09,  ..., -5.9605e-08,
          0.0000e+00,  2.7940e-09],
        [ 1.4901e-08,  4.6566e-09,  3.2596e-08,  ...,  3.5390e-08,
          0.0000e+00,  3.7253e-09],
        ...,
        [ 5.5879e-09, -7.4506e-09,  4.6566e-09,  ...,  1.3039e-08,
          0.0000e+00,  1.8626e-09],
        [ 2.2352e-08,  3.7253e-09,  2.4214e-08,  ..., -4.6566e-09,
          0.0000e+00,  3.3528e-08],
        [ 2.2352e-08,  5.5879e-09,  1.8626e-09,  ...,  5.8673e-08,
          0.0000e+00,  2.7940e-09]], device='cuda:0')
Epoch 248, bias, value: tensor([-0.0068, -0.0038,  0.0103,  0.0093,  0.0348,  0.0434, -0.0213,  0.0066,
        -0.0386, -0.0254], device='cuda:0'), grad: tensor([ 4.1910e-08, -1.2573e-07,  2.0489e-07,  8.9128e-07,  7.4506e-09,
        -1.2610e-06,  9.3132e-10,  5.8673e-08,  6.3330e-08,  1.1083e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 247, time 216.59, cls_loss 0.0008 cls_loss_mapping 0.0020 cls_loss_causal 0.5057 re_mapping 0.0056 re_causal 0.0167 /// teacc 99.09 lr 0.00010000
Epoch 249, weight, value: tensor([[-0.0694,  0.1594,  0.0763,  ..., -0.2392, -0.1237,  0.0228],
        [ 0.1792, -0.0226, -0.0872,  ...,  0.0935,  0.1249, -0.1589],
        [-0.1139, -0.0645, -0.0494,  ..., -0.0912, -0.0398, -0.0819],
        ...,
        [-0.0858,  0.1729, -0.1944,  ..., -0.1755, -0.0114, -0.1966],
        [ 0.0135, -0.1145,  0.0324,  ...,  0.0736, -0.1261, -0.0531],
        [-0.1267, -0.1301,  0.0909,  ..., -0.1165, -0.0647,  0.1686]],
       device='cuda:0'), grad: tensor([[ 3.2037e-07, -1.8626e-09,  2.9802e-07,  ...,  3.8929e-07,
          9.3132e-10,  2.0303e-07],
        [-1.1176e-08,  1.8440e-07,  1.6764e-08,  ...,  5.5879e-09,
         -1.6764e-08,  1.2107e-08],
        [ 4.7497e-08,  3.1386e-07,  2.8871e-08,  ...,  6.1467e-08,
          3.7253e-09,  2.1420e-08],
        ...,
        [ 3.4459e-08, -8.3540e-07,  2.3283e-08,  ...,  1.7136e-07,
         -5.5879e-09,  2.0489e-08],
        [-1.5711e-06,  2.5518e-07, -1.3327e-06,  ..., -1.9018e-06,
          5.5879e-09, -9.0990e-07],
        [ 4.4890e-07,  9.9652e-08,  2.1327e-07,  ...,  6.2957e-07,
          9.3132e-09,  9.0338e-08]], device='cuda:0')
Epoch 249, bias, value: tensor([-0.0069, -0.0045,  0.0102,  0.0093,  0.0347,  0.0433, -0.0204,  0.0075,
        -0.0388, -0.0254], device='cuda:0'), grad: tensor([ 1.7770e-06,  3.2131e-07,  7.0687e-07,  2.3656e-06, -2.4028e-07,
         1.5516e-06,  1.4901e-07, -1.0431e-06, -7.9423e-06,  2.3562e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 248, time 217.40, cls_loss 0.0017 cls_loss_mapping 0.0021 cls_loss_causal 0.5201 re_mapping 0.0053 re_causal 0.0151 /// teacc 99.06 lr 0.00010000
Epoch 250, weight, value: tensor([[-0.0697,  0.1601,  0.0763,  ..., -0.2399, -0.1237,  0.0228],
        [ 0.1794, -0.0229, -0.0874,  ...,  0.0935,  0.1249, -0.1595],
        [-0.1140, -0.0646, -0.0496,  ..., -0.0912, -0.0399, -0.0822],
        ...,
        [-0.0860,  0.1729, -0.1944,  ..., -0.1767, -0.0114, -0.1977],
        [ 0.0135, -0.1148,  0.0322,  ...,  0.0739, -0.1264, -0.0537],
        [-0.1261, -0.1301,  0.0920,  ..., -0.1172, -0.0648,  0.1703]],
       device='cuda:0'), grad: tensor([[ 1.8626e-08,  5.5879e-09,  1.3039e-08,  ...,  1.7695e-08,
          2.7940e-09,  2.7940e-09],
        [-3.3587e-05, -3.0145e-05,  1.3039e-08,  ..., -4.3005e-05,
         -3.0734e-08,  1.8626e-09],
        [ 3.7253e-08,  3.3528e-08,  7.5437e-08,  ...,  4.2841e-08,
          1.1176e-08,  1.8626e-09],
        ...,
        [ 2.8029e-05,  2.5049e-05,  7.2643e-08,  ...,  3.5971e-05,
          8.3819e-09,  2.9802e-08],
        [ 2.4680e-07,  2.4401e-07,  1.2107e-08,  ...,  3.0547e-07,
          9.3132e-09, -1.8626e-09],
        [ 3.1739e-06,  2.9132e-06, -1.6671e-07,  ...,  4.0941e-06,
          4.6566e-09, -3.5577e-07]], device='cuda:0')
Epoch 250, bias, value: tensor([-0.0068, -0.0046,  0.0102,  0.0093,  0.0349,  0.0433, -0.0211,  0.0073,
        -0.0388, -0.0251], device='cuda:0'), grad: tensor([ 3.1386e-07, -1.0931e-04, -1.4342e-06, -2.2501e-06,  7.2122e-06,
         8.1118e-07,  9.8068e-07,  9.2387e-05,  1.2508e-06,  1.0066e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 249, time 217.34, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.5086 re_mapping 0.0052 re_causal 0.0152 /// teacc 99.01 lr 0.00010000
Epoch 251, weight, value: tensor([[-0.0706,  0.1596,  0.0761,  ..., -0.2408, -0.1242,  0.0227],
        [ 0.1802, -0.0233, -0.0875,  ...,  0.0936,  0.1255, -0.1597],
        [-0.1142, -0.0647, -0.0497,  ..., -0.0913, -0.0400, -0.0826],
        ...,
        [-0.0868,  0.1736, -0.1945,  ..., -0.1772, -0.0136, -0.1979],
        [ 0.0135, -0.1154,  0.0325,  ...,  0.0742, -0.1267, -0.0540],
        [-0.1269, -0.1303,  0.0923,  ..., -0.1172, -0.0654,  0.1708]],
       device='cuda:0'), grad: tensor([[ 8.0373e-07,  2.5090e-06,  1.1055e-06,  ...,  2.3954e-06,
          9.3132e-10,  7.5996e-07],
        [ 5.5879e-09,  9.3132e-09,  5.8673e-08,  ...,  1.5832e-08,
         -1.6764e-08,  2.6077e-08],
        [ 3.0734e-08,  7.4506e-09, -6.2399e-07,  ...,  8.6613e-08,
          3.7253e-09,  8.3819e-09],
        ...,
        [ 2.5146e-08, -9.3132e-09,  2.4214e-08,  ...,  5.0291e-08,
          5.5879e-09,  1.6764e-08],
        [-2.2613e-06, -3.2783e-07, -1.9372e-06,  ..., -2.0452e-06,
          2.7940e-09, -1.2731e-06],
        [ 4.0419e-07,  6.9849e-08,  3.5204e-07,  ...,  3.7719e-07,
          2.7940e-09,  1.7602e-07]], device='cuda:0')
Epoch 251, bias, value: tensor([-0.0074, -0.0045,  0.0101,  0.0094,  0.0347,  0.0433, -0.0210,  0.0075,
        -0.0388, -0.0251], device='cuda:0'), grad: tensor([ 1.1213e-05,  2.5798e-07, -3.9265e-06,  3.4906e-06, -2.0582e-07,
         1.7053e-06, -7.2569e-06,  2.1979e-07, -6.9179e-06,  1.4063e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 250, time 217.23, cls_loss 0.0014 cls_loss_mapping 0.0026 cls_loss_causal 0.5175 re_mapping 0.0055 re_causal 0.0159 /// teacc 99.04 lr 0.00010000
Epoch 252, weight, value: tensor([[-0.0711,  0.1599,  0.0760,  ..., -0.2414, -0.1243,  0.0226],
        [ 0.1804, -0.0236, -0.0880,  ...,  0.0937,  0.1261, -0.1599],
        [-0.1153, -0.0648, -0.0499,  ..., -0.0915, -0.0406, -0.0829],
        ...,
        [-0.0868,  0.1745, -0.1945,  ..., -0.1763, -0.0139, -0.1984],
        [ 0.0133, -0.1177,  0.0326,  ...,  0.0736, -0.1284, -0.0539],
        [-0.1281, -0.1306,  0.0930,  ..., -0.1171, -0.0658,  0.1720]],
       device='cuda:0'), grad: tensor([[ 9.3132e-09,  1.0245e-08,  1.3970e-08,  ...,  1.0245e-08,
          0.0000e+00, -5.5879e-09],
        [ 5.7369e-07,  4.9174e-06,  1.4808e-07,  ...,  1.0747e-06,
          0.0000e+00,  1.5832e-07],
        [ 1.5832e-08,  4.1910e-08,  5.5879e-09,  ...,  9.9652e-08,
          0.0000e+00,  1.7695e-08],
        ...,
        [-1.0403e-06, -9.9316e-06,  1.0245e-08,  ...,  1.5553e-07,
          0.0000e+00,  1.3970e-08],
        [-2.6077e-08,  6.2399e-08,  1.9558e-08,  ..., -1.4957e-06,
          0.0000e+00,  2.3283e-08],
        [ 4.9081e-07,  4.6901e-06, -4.8243e-07,  ...,  1.3970e-08,
          0.0000e+00, -5.3924e-07]], device='cuda:0')
Epoch 252, bias, value: tensor([-0.0075, -0.0044,  0.0097,  0.0094,  0.0341,  0.0433, -0.0203,  0.0081,
        -0.0400, -0.0247], device='cuda:0'), grad: tensor([ 7.4506e-08,  9.9093e-06,  2.3283e-07,  1.0431e-07,  5.0478e-07,
         8.7731e-07, -2.5891e-07, -1.4395e-05, -3.0696e-06,  6.0126e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 251, time 216.99, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.5002 re_mapping 0.0052 re_causal 0.0150 /// teacc 99.05 lr 0.00010000
Epoch 253, weight, value: tensor([[-0.0714,  0.1604,  0.0753,  ..., -0.2418, -0.1245,  0.0219],
        [ 0.1822, -0.0239, -0.0882,  ...,  0.0939,  0.1279, -0.1600],
        [-0.1173, -0.0648, -0.0497,  ..., -0.0918, -0.0423, -0.0836],
        ...,
        [-0.0870,  0.1750, -0.1946,  ..., -0.1763, -0.0145, -0.1987],
        [ 0.0135, -0.1180,  0.0328,  ...,  0.0741, -0.1294, -0.0537],
        [-0.1284, -0.1309,  0.0936,  ..., -0.1173, -0.0660,  0.1727]],
       device='cuda:0'), grad: tensor([[ 9.3132e-09, -5.0478e-07, -4.3772e-08,  ...,  7.4506e-09,
         -9.3132e-09, -9.1735e-07],
        [-2.0489e-08,  1.2666e-07,  2.0489e-08,  ..., -2.8871e-08,
         -3.7253e-08,  1.1269e-07],
        [ 4.9360e-08,  3.3528e-08,  7.4506e-09,  ...,  6.3330e-08,
         -5.3085e-08,  3.7253e-08],
        ...,
        [ 3.4180e-07, -1.1176e-07,  1.6764e-07,  ...,  2.7940e-08,
          8.1956e-08,  9.8068e-07],
        [-2.8871e-08,  1.5832e-08, -3.9116e-08,  ..., -7.1712e-08,
          3.7253e-09,  1.9558e-08],
        [-5.1316e-07,  9.4995e-08, -2.5332e-07,  ...,  6.6124e-08,
          5.5879e-09, -1.5320e-06]], device='cuda:0')
Epoch 253, bias, value: tensor([-0.0079, -0.0036,  0.0089,  0.0095,  0.0341,  0.0432, -0.0201,  0.0082,
        -0.0401, -0.0248], device='cuda:0'), grad: tensor([-3.8147e-06,  4.9267e-07, -8.6240e-07,  1.9558e-07,  2.0638e-06,
         1.7416e-07,  2.2985e-06,  4.0196e-06, -7.1712e-08, -4.4890e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 252, time 218.08, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4895 re_mapping 0.0052 re_causal 0.0150 /// teacc 98.93 lr 0.00010000
Epoch 254, weight, value: tensor([[-0.0719,  0.1627,  0.0754,  ..., -0.2424, -0.1246,  0.0220],
        [ 0.1830, -0.0238, -0.0887,  ...,  0.0942,  0.1286, -0.1603],
        [-0.1178, -0.0649, -0.0492,  ..., -0.0920, -0.0426, -0.0836],
        ...,
        [-0.0878,  0.1750, -0.1948,  ..., -0.1770, -0.0162, -0.1994],
        [ 0.0132, -0.1183,  0.0328,  ...,  0.0741, -0.1303, -0.0542],
        [-0.1294, -0.1310,  0.0940,  ..., -0.1174, -0.0664,  0.1734]],
       device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.9595e-06,  5.5879e-09,  ...,  4.6566e-09,
         -9.3132e-10,  2.7940e-09],
        [ 7.5437e-08,  3.6322e-07,  6.9849e-08,  ...,  6.9849e-08,
         -4.6566e-09,  1.1176e-08],
        [ 9.2480e-07,  8.5682e-08,  7.4785e-07,  ...,  8.6334e-07,
          3.7253e-09,  9.3132e-10],
        ...,
        [ 7.9162e-08, -1.5087e-07,  1.0431e-07,  ...,  8.5682e-08,
          9.3132e-10,  6.5193e-08],
        [-2.1905e-06,  1.0617e-07, -1.7239e-06,  ..., -2.0452e-06,
          0.0000e+00,  6.1467e-08],
        [ 2.5146e-08,  2.6077e-08, -5.8580e-07,  ...,  3.5390e-08,
          9.3132e-10, -1.0859e-06]], device='cuda:0')
Epoch 254, bias, value: tensor([-0.0069, -0.0034,  0.0088,  0.0096,  0.0340,  0.0431, -0.0205,  0.0080,
        -0.0403, -0.0247], device='cuda:0'), grad: tensor([-7.9572e-06,  1.7174e-06,  8.0541e-06, -1.9088e-05,  2.4997e-06,
         3.5074e-06,  6.5081e-06,  1.5050e-05, -7.6964e-06, -2.6077e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 253, time 216.90, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4777 re_mapping 0.0056 re_causal 0.0154 /// teacc 99.07 lr 0.00010000
Epoch 255, weight, value: tensor([[-0.0724,  0.1644,  0.0751,  ..., -0.2433, -0.1254,  0.0215],
        [ 0.1830, -0.0240, -0.0901,  ...,  0.0941,  0.1281, -0.1604],
        [-0.1176, -0.0647, -0.0479,  ..., -0.0919, -0.0420, -0.0847],
        ...,
        [-0.0878,  0.1752, -0.1950,  ..., -0.1774, -0.0160, -0.2012],
        [ 0.0126, -0.1188,  0.0323,  ...,  0.0736, -0.1327, -0.0550],
        [-0.1299, -0.1312,  0.0949,  ..., -0.1175, -0.0668,  0.1748]],
       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.0338e-08,  4.0978e-08,  ...,  3.3528e-08,
          1.8626e-09,  2.8871e-08],
        [-2.3190e-07,  2.4624e-06,  3.7253e-09,  ..., -2.9150e-07,
          6.8080e-07,  4.6566e-09],
        [ 4.8429e-08,  5.0850e-07,  9.3132e-09,  ...,  6.7055e-08,
          1.3504e-07,  6.5193e-09],
        ...,
        [ 8.3819e-08, -5.7593e-06,  5.5879e-09,  ...,  8.1956e-08,
         -1.6745e-06,  4.6566e-09],
        [ 6.3330e-08,  2.5593e-06,  1.9558e-08,  ...,  1.0151e-07,
          7.7393e-07,  7.5437e-08],
        [ 4.2841e-08,  2.7847e-07,  1.0245e-08,  ...,  1.5553e-07,
          6.6124e-08, -2.6077e-08]], device='cuda:0')
Epoch 255, bias, value: tensor([-0.0067, -0.0039,  0.0094,  0.0104,  0.0338,  0.0422, -0.0203,  0.0077,
        -0.0409, -0.0243], device='cuda:0'), grad: tensor([-2.2352e-08,  3.6582e-06,  1.0226e-06,  4.1015e-06, -2.3842e-07,
        -4.1462e-06, -8.1025e-08, -9.8348e-06,  4.7460e-06,  7.8231e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 254, time 217.28, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.5136 re_mapping 0.0055 re_causal 0.0148 /// teacc 99.02 lr 0.00010000
Epoch 256, weight, value: tensor([[-0.0733,  0.1656,  0.0749,  ..., -0.2445, -0.1253,  0.0219],
        [ 0.1831, -0.0240, -0.0915,  ...,  0.0941,  0.1281, -0.1610],
        [-0.1181, -0.0650, -0.0467,  ..., -0.0920, -0.0419, -0.0852],
        ...,
        [-0.0884,  0.1754, -0.1955,  ..., -0.1782, -0.0163, -0.2016],
        [ 0.0133, -0.1191,  0.0330,  ...,  0.0744, -0.1331, -0.0552],
        [-0.1304, -0.1312,  0.0955,  ..., -0.1177, -0.0673,  0.1751]],
       device='cuda:0'), grad: tensor([[ 3.1665e-08, -1.9222e-06, -1.9278e-07,  ...,  3.1665e-08,
          9.3132e-10, -1.7807e-06],
        [-2.5146e-08,  5.4017e-08,  5.5879e-09,  ..., -5.5879e-09,
         -9.3132e-10,  3.9116e-08],
        [ 3.5390e-08,  2.0489e-08,  5.6811e-08,  ..., -8.3819e-09,
         -3.3528e-08,  1.3970e-08],
        ...,
        [ 1.3039e-08,  1.8626e-08,  8.3819e-09,  ...,  2.0862e-07,
          3.7253e-09,  2.5146e-08],
        [ 1.3970e-07,  4.8429e-08,  8.0094e-08,  ...,  1.7881e-07,
          1.8626e-09,  1.8626e-08],
        [ 1.1176e-08,  1.6950e-06,  1.6950e-07,  ...,  9.3877e-07,
          1.8626e-09,  1.5628e-06]], device='cuda:0')
Epoch 256, bias, value: tensor([-0.0064, -0.0041,  0.0095,  0.0101,  0.0338,  0.0421, -0.0186,  0.0076,
        -0.0407, -0.0242], device='cuda:0'), grad: tensor([-6.1169e-06,  3.1572e-07, -4.4797e-07, -2.8498e-07, -1.8813e-06,
         4.9267e-07, -3.4273e-07,  4.8615e-07,  7.1153e-07,  7.0743e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 255, time 217.54, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4901 re_mapping 0.0054 re_causal 0.0154 /// teacc 98.98 lr 0.00010000
Epoch 257, weight, value: tensor([[-0.0739,  0.1671,  0.0753,  ..., -0.2449, -0.1253,  0.0229],
        [ 0.1816, -0.0265, -0.0920,  ...,  0.0942,  0.1281, -0.1614],
        [-0.1183, -0.0651, -0.0464,  ..., -0.0920, -0.0419, -0.0856],
        ...,
        [-0.0865,  0.1774, -0.1955,  ..., -0.1795, -0.0159, -0.2020],
        [ 0.0138, -0.1195,  0.0334,  ...,  0.0751, -0.1336, -0.0551],
        [-0.1315, -0.1314,  0.0956,  ..., -0.1188, -0.0675,  0.1750]],
       device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.0822e-06, -3.0734e-08,  ..., -2.7660e-07,
          0.0000e+00, -1.0226e-06],
        [ 8.3819e-09,  7.4506e-09,  3.0734e-08,  ...,  2.7940e-09,
          0.0000e+00,  5.4948e-08],
        [ 1.8626e-09,  5.5879e-09,  4.6566e-09,  ...,  1.8626e-09,
          0.0000e+00,  5.5879e-09],
        ...,
        [ 1.9558e-08,  1.4901e-08,  1.1269e-07,  ...,  8.3819e-09,
          0.0000e+00,  2.5425e-07],
        [-4.4703e-08,  2.0489e-08,  1.7695e-08,  ..., -6.3330e-08,
          0.0000e+00,  3.6322e-08],
        [-4.6566e-08,  1.7975e-07, -2.2445e-07,  ...,  2.2352e-08,
          0.0000e+00, -3.7812e-07]], device='cuda:0')
Epoch 257, bias, value: tensor([-0.0058, -0.0054,  0.0097,  0.0100,  0.0344,  0.0420, -0.0185,  0.0091,
        -0.0407, -0.0248], device='cuda:0'), grad: tensor([-3.2298e-06,  1.6205e-07,  8.3819e-09, -5.5879e-09,  4.7684e-07,
         2.4345e-06,  3.3528e-07,  7.4599e-07,  4.2841e-08, -9.5740e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 256, time 217.53, cls_loss 0.0012 cls_loss_mapping 0.0032 cls_loss_causal 0.5167 re_mapping 0.0052 re_causal 0.0154 /// teacc 99.05 lr 0.00010000
Epoch 258, weight, value: tensor([[-0.0743,  0.1677,  0.0751,  ..., -0.2451, -0.1254,  0.0229],
        [ 0.1813, -0.0272, -0.0922,  ...,  0.0942,  0.1282, -0.1617],
        [-0.1184, -0.0648, -0.0463,  ..., -0.0921, -0.0421, -0.0857],
        ...,
        [-0.0879,  0.1766, -0.1957,  ..., -0.1813, -0.0160, -0.2026],
        [ 0.0170, -0.1166,  0.0330,  ...,  0.0768, -0.1348, -0.0552],
        [-0.1318, -0.1315,  0.0960,  ..., -0.1203, -0.0676,  0.1753]],
       device='cuda:0'), grad: tensor([[ 4.6566e-08, -1.8347e-07,  6.8918e-08,  ...,  1.0245e-07,
          0.0000e+00, -8.7544e-08],
        [-1.1176e-08,  1.3970e-08,  2.9802e-08,  ..., -1.5832e-08,
         -1.8626e-09,  3.0734e-08],
        [ 4.2841e-08,  5.4948e-08,  5.3085e-08,  ...,  8.7544e-08,
         -5.5879e-09,  4.2841e-08],
        ...,
        [ 2.1420e-08, -1.3318e-07,  8.2888e-08,  ...,  5.2154e-08,
          1.8626e-09,  1.0524e-07],
        [-1.2293e-07,  1.3039e-07, -4.3493e-07,  ..., -1.0934e-06,
          2.7940e-09, -2.7753e-07],
        [ 1.4901e-07,  7.8231e-08, -1.8720e-07,  ...,  3.3248e-07,
          9.3132e-10, -5.5321e-07]], device='cuda:0')
Epoch 258, bias, value: tensor([-0.0057, -0.0057,  0.0098,  0.0104,  0.0353,  0.0418, -0.0188,  0.0083,
        -0.0382, -0.0254], device='cuda:0'), grad: tensor([-4.2189e-07,  1.5181e-07,  2.4308e-07,  1.7099e-06,  1.5600e-06,
         3.1851e-07, -1.0431e-07,  3.7625e-07, -3.4049e-06, -4.4145e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 257, time 216.89, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4978 re_mapping 0.0053 re_causal 0.0149 /// teacc 99.02 lr 0.00010000
Epoch 259, weight, value: tensor([[-0.0755,  0.1685,  0.0754,  ..., -0.2461, -0.1254,  0.0233],
        [ 0.1816, -0.0272, -0.0925,  ...,  0.0944,  0.1284, -0.1631],
        [-0.1189, -0.0648, -0.0463,  ..., -0.0924, -0.0422, -0.0862],
        ...,
        [-0.0881,  0.1764, -0.1970,  ..., -0.1822, -0.0164, -0.2056],
        [ 0.0170, -0.1167,  0.0329,  ...,  0.0770, -0.1352, -0.0553],
        [-0.1325, -0.1312,  0.0978,  ..., -0.1197, -0.0676,  0.1780]],
       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.2107e-08,  0.0000e+00,  ...,  3.7253e-09,
          0.0000e+00,  1.8626e-09],
        [-8.3260e-07, -5.2713e-07,  0.0000e+00,  ..., -7.2643e-07,
          0.0000e+00,  2.0489e-08],
        [ 5.5879e-09, -1.3551e-06,  0.0000e+00,  ...,  1.5739e-07,
          0.0000e+00,  2.3283e-08],
        ...,
        [ 6.7241e-07,  9.1176e-07,  2.7940e-09,  ...,  1.4035e-06,
          0.0000e+00,  9.6858e-08],
        [ 1.6764e-08,  4.7497e-08,  1.8626e-09,  ...,  2.7008e-08,
          0.0000e+00,  7.4506e-09],
        [ 1.3597e-07,  8.4098e-07, -2.8871e-08,  ...,  5.9485e-05,
          0.0000e+00,  9.3505e-06]], device='cuda:0')
Epoch 259, bias, value: tensor([-0.0056, -0.0056,  0.0095,  0.0104,  0.0344,  0.0418, -0.0177,  0.0078,
        -0.0383, -0.0244], device='cuda:0'), grad: tensor([ 3.9116e-08, -1.2731e-06, -2.4661e-06,  1.2573e-07, -1.6522e-04,
        -9.0338e-08,  2.0303e-07,  3.5502e-06,  1.6205e-07,  1.6499e-04],
       device='cuda:0')
100
0.0001
changing lr
epoch 258, time 217.23, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.4974 re_mapping 0.0052 re_causal 0.0153 /// teacc 98.99 lr 0.00010000
Epoch 260, weight, value: tensor([[-0.0758,  0.1687,  0.0754,  ..., -0.2467, -0.1254,  0.0234],
        [ 0.1819, -0.0270, -0.0926,  ...,  0.0946,  0.1286, -0.1633],
        [-0.1191, -0.0672, -0.0463,  ..., -0.0925, -0.0423, -0.0864],
        ...,
        [-0.0882,  0.1776, -0.1972,  ..., -0.1831, -0.0166, -0.2058],
        [ 0.0166, -0.1169,  0.0319,  ...,  0.0762, -0.1377, -0.0562],
        [-0.1323, -0.1313,  0.0984,  ..., -0.1219, -0.0678,  0.1784]],
       device='cuda:0'), grad: tensor([[ 8.1956e-08, -6.7055e-08,  1.6764e-08,  ...,  1.8068e-07,
          0.0000e+00,  2.1420e-08],
        [ 2.8592e-07,  5.9605e-08,  1.7136e-07,  ...,  3.9767e-07,
          0.0000e+00,  1.7695e-07],
        [ 4.7497e-08,  6.7055e-08,  3.5390e-08,  ...,  6.9849e-08,
          0.0000e+00,  2.1420e-08],
        ...,
        [ 1.9651e-07, -4.7497e-08,  8.1956e-08,  ...,  3.0920e-07,
          0.0000e+00,  8.0094e-08],
        [-3.1423e-06, -3.7160e-07, -1.0645e-06,  ..., -4.8727e-06,
          0.0000e+00, -1.6764e-06],
        [ 7.6555e-07,  2.4308e-07,  3.8277e-07,  ...,  1.1856e-06,
          0.0000e+00,  3.5297e-07]], device='cuda:0')
Epoch 260, bias, value: tensor([-0.0056, -0.0055,  0.0088,  0.0105,  0.0364,  0.0419, -0.0178,  0.0084,
        -0.0391, -0.0260], device='cuda:0'), grad: tensor([ 2.8126e-07,  1.0878e-06,  3.0454e-07,  7.1898e-07,  4.8336e-07,
         3.6880e-06,  1.2200e-06,  5.9139e-07, -1.1377e-05,  2.9951e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 259, time 217.25, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.5104 re_mapping 0.0053 re_causal 0.0153 /// teacc 98.92 lr 0.00010000
Epoch 261, weight, value: tensor([[-0.0761,  0.1691,  0.0754,  ..., -0.2471, -0.1255,  0.0234],
        [ 0.1821, -0.0271, -0.0927,  ...,  0.0948,  0.1290, -0.1633],
        [-0.1194, -0.0670, -0.0463,  ..., -0.0927, -0.0425, -0.0871],
        ...,
        [-0.0884,  0.1776, -0.1974,  ..., -0.1837, -0.0171, -0.2060],
        [ 0.0168, -0.1170,  0.0319,  ...,  0.0769, -0.1382, -0.0562],
        [-0.1331, -0.1313,  0.0987,  ..., -0.1221, -0.0680,  0.1788]],
       device='cuda:0'), grad: tensor([[ 1.3970e-08, -3.7253e-09,  1.5832e-08,  ...,  2.5146e-08,
          0.0000e+00,  1.3039e-08],
        [ 1.8626e-09,  4.2003e-07,  1.3039e-08,  ...,  2.2352e-08,
          2.9802e-08,  1.3970e-08],
        [ 5.5879e-09,  3.7253e-09,  6.5193e-09,  ...,  1.2573e-07,
          0.0000e+00,  5.5879e-09],
        ...,
        [ 4.6566e-09, -4.6846e-07,  5.1223e-08,  ...,  4.6566e-08,
         -3.1665e-08,  7.3574e-08],
        [-1.9372e-07,  1.8626e-09, -3.2876e-07,  ..., -6.2585e-07,
          0.0000e+00, -3.0641e-07],
        [ 1.1362e-07,  4.0047e-08,  2.3283e-08,  ...,  2.4308e-07,
          9.3132e-10, -7.3574e-08]], device='cuda:0')
Epoch 261, bias, value: tensor([-0.0055, -0.0053,  0.0091,  0.0108,  0.0363,  0.0417, -0.0177,  0.0079,
        -0.0391, -0.0260], device='cuda:0'), grad: tensor([ 8.5682e-08,  9.6392e-07, -2.7847e-07,  1.3039e-07,  4.5169e-07,
         2.9895e-07,  2.5425e-07, -3.0734e-07, -1.7826e-06,  2.0117e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 260, time 219.29, cls_loss 0.0019 cls_loss_mapping 0.0031 cls_loss_causal 0.4680 re_mapping 0.0054 re_causal 0.0142 /// teacc 98.94 lr 0.00010000
Epoch 262, weight, value: tensor([[-0.0774,  0.1694,  0.0748,  ..., -0.2480, -0.1255,  0.0231],
        [ 0.1822, -0.0272, -0.0928,  ...,  0.0947,  0.1295, -0.1635],
        [-0.1200, -0.0670, -0.0462,  ..., -0.0929, -0.0429, -0.0875],
        ...,
        [-0.0885,  0.1785, -0.1978,  ..., -0.1846, -0.0177, -0.2063],
        [ 0.0177, -0.1173,  0.0320,  ...,  0.0791, -0.1383, -0.0558],
        [-0.1343, -0.1314,  0.0994,  ..., -0.1246, -0.0685,  0.1797]],
       device='cuda:0'), grad: tensor([[ 1.8161e-07, -6.5193e-09,  2.9895e-07,  ...,  1.4156e-07,
          1.3039e-08,  3.7998e-07],
        [-3.5949e-07,  6.7055e-08,  4.7497e-08,  ..., -3.8184e-07,
         -2.7288e-07,  9.6858e-08],
        [ 1.3225e-07,  1.9558e-08,  3.4459e-08,  ...,  1.7788e-07,
          3.3528e-08,  4.4703e-08],
        ...,
        [ 1.2945e-07, -3.2037e-07,  1.1092e-06,  ...,  2.4773e-07,
          6.1467e-08,  1.5972e-06],
        [-8.1956e-08,  3.7253e-08,  3.3528e-08,  ..., -9.6206e-07,
          3.5390e-08,  3.8743e-07],
        [ 2.2352e-07,  2.0489e-07, -4.5821e-06,  ...,  1.1520e-06,
          7.4506e-08, -7.2792e-06]], device='cuda:0')
Epoch 262, bias, value: tensor([-0.0059, -0.0054,  0.0093,  0.0091,  0.0381,  0.0413, -0.0171,  0.0094,
        -0.0388, -0.0276], device='cuda:0'), grad: tensor([ 1.4091e-06, -3.8557e-07,  2.0210e-07,  7.3574e-07,  1.1601e-05,
         3.0994e-06, -1.0114e-06,  4.9546e-06, -1.2415e-06, -1.9401e-05],
       device='cuda:0')
100
0.0001
changing lr
epoch 261, time 222.27, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4975 re_mapping 0.0057 re_causal 0.0160 /// teacc 99.08 lr 0.00010000
Epoch 263, weight, value: tensor([[-0.0780,  0.1700,  0.0747,  ..., -0.2486, -0.1260,  0.0227],
        [ 0.1822, -0.0276, -0.0929,  ...,  0.0948,  0.1296, -0.1637],
        [-0.1204, -0.0669, -0.0463,  ..., -0.0931, -0.0431, -0.0877],
        ...,
        [-0.0884,  0.1788, -0.1981,  ..., -0.1855, -0.0174, -0.2068],
        [ 0.0178, -0.1174,  0.0321,  ...,  0.0795, -0.1389, -0.0558],
        [-0.1345, -0.1314,  0.1011,  ..., -0.1246, -0.0689,  0.1812]],
       device='cuda:0'), grad: tensor([[ 1.8626e-09, -2.7940e-09,  1.0245e-08,  ...,  2.7940e-09,
          0.0000e+00, -1.8626e-09],
        [-1.6764e-08,  6.7055e-08,  9.3132e-09,  ..., -2.4214e-08,
         -7.4506e-09,  9.3132e-10],
        [ 8.3819e-09,  6.6124e-08,  1.3039e-08,  ...,  1.7695e-08,
          1.0245e-08,  0.0000e+00],
        ...,
        [ 1.8626e-08, -3.9302e-07,  3.9116e-08,  ...,  5.0291e-08,
         -3.3528e-08,  1.8626e-09],
        [-2.0023e-07,  2.2259e-07,  1.1083e-07,  ..., -4.7870e-07,
          2.8871e-08, -9.3132e-09],
        [ 1.3970e-08,  1.5832e-08,  7.4506e-09,  ...,  1.0803e-07,
          1.8626e-09, -3.6322e-08]], device='cuda:0')
Epoch 263, bias, value: tensor([-0.0060, -0.0057,  0.0093,  0.0092,  0.0377,  0.0412, -0.0164,  0.0093,
        -0.0387, -0.0272], device='cuda:0'), grad: tensor([ 3.1665e-08,  9.7789e-08,  5.7649e-07, -1.3277e-05, -3.1944e-07,
         1.1794e-05,  3.3062e-07,  3.9954e-07,  7.6368e-08,  2.7381e-07],
       device='cuda:0')
100
0.0001
changing lr
epoch 262, time 221.87, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.4670 re_mapping 0.0052 re_causal 0.0147 /// teacc 99.03 lr 0.00010000
Epoch 264, weight, value: tensor([[-0.0803,  0.1704,  0.0744,  ..., -0.2508, -0.1275,  0.0224],
        [ 0.1814, -0.0280, -0.0929,  ...,  0.0946,  0.1291, -0.1638],
        [-0.1206, -0.0670, -0.0463,  ..., -0.0931, -0.0432, -0.0879],
        ...,
        [-0.0881,  0.1790, -0.1994,  ..., -0.1863, -0.0167, -0.2085],
        [ 0.0178, -0.1175,  0.0305,  ...,  0.0797, -0.1394, -0.0570],
        [-0.1354, -0.1314,  0.1014,  ..., -0.1250, -0.0689,  0.1815]],
       device='cuda:0'), grad: tensor([[ 3.5390e-08, -1.2675e-06, -3.7346e-07,  ...,  4.5635e-08,
          5.5879e-09, -4.7777e-07],
        [-7.1712e-08,  8.2888e-08,  9.3132e-08,  ..., -1.7695e-07,
         -8.1025e-08,  1.1735e-07],
        [ 4.2841e-08,  2.5332e-07,  1.4808e-07,  ...,  6.9849e-08,
          5.2154e-08,  1.0151e-07],
        ...,
        [ 1.6950e-07, -9.4064e-08,  1.5832e-07,  ...,  3.0268e-07,
          3.9116e-08,  1.5832e-07],
        [ 1.1921e-07,  3.0827e-07,  7.4506e-09,  ..., -1.2107e-08,
          9.8720e-08,  3.3714e-07],
        [ 1.8906e-07,  2.8405e-07,  1.9837e-07,  ...,  2.9150e-07,
          9.7789e-08,  2.9057e-07]], device='cuda:0')
Epoch 264, bias, value: tensor([-0.0068, -0.0063,  0.0093,  0.0097,  0.0377,  0.0410, -0.0142,  0.0092,
        -0.0390, -0.0271], device='cuda:0'), grad: tensor([-6.4075e-06,  4.9360e-08,  1.5637e-06, -8.1025e-08,  1.0524e-07,
        -1.6484e-06,  2.6133e-06,  7.4878e-07,  1.1744e-06,  1.8906e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 263, time 220.78, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.5002 re_mapping 0.0053 re_causal 0.0152 /// teacc 98.99 lr 0.00010000
Epoch 265, weight, value: tensor([[-0.0805,  0.1710,  0.0750,  ..., -0.2517, -0.1275,  0.0224],
        [ 0.1825, -0.0274, -0.0931,  ...,  0.0954,  0.1295, -0.1638],
        [-0.1208, -0.0676, -0.0461,  ..., -0.0933, -0.0432, -0.0884],
        ...,
        [-0.0893,  0.1791, -0.1998,  ..., -0.1907, -0.0184, -0.2090],
        [ 0.0170, -0.1178,  0.0293,  ...,  0.0769, -0.1399, -0.0603],
        [-0.1369, -0.1317,  0.1019,  ..., -0.1255, -0.0698,  0.1819]],
       device='cuda:0'), grad: tensor([[ 4.2375e-08, -6.6124e-08,  2.3283e-09,  ...,  4.8894e-08,
          0.0000e+00, -2.7940e-09],
        [ 3.7719e-08,  2.2305e-07,  5.0757e-08,  ...,  4.7963e-08,
          0.0000e+00,  4.5169e-08],
        [ 1.3039e-08, -6.7521e-08,  1.8161e-08,  ...,  2.0955e-08,
          0.0000e+00,  8.3819e-09],
        ...,
        [ 5.0757e-08, -3.6368e-07,  7.5158e-07,  ...,  8.0094e-08,
          0.0000e+00,  7.2317e-07],
        [-3.6508e-07,  1.5087e-07,  2.0489e-08,  ..., -4.0093e-07,
          0.0000e+00,  5.8673e-08],
        [ 1.0524e-07, -2.6077e-08, -2.0154e-06,  ...,  1.1176e-07,
          0.0000e+00, -2.1234e-06]], device='cuda:0')
Epoch 265, bias, value: tensor([-0.0065, -0.0055,  0.0093,  0.0108,  0.0380,  0.0404, -0.0140,  0.0086,
        -0.0407, -0.0274], device='cuda:0'), grad: tensor([ 2.2585e-07,  6.9151e-07, -3.8138e-07,  1.1418e-06,  3.9749e-06,
        -3.2689e-07,  3.9209e-07,  2.9579e-06, -1.7658e-06, -6.9141e-06],
       device='cuda:0')
100
0.0001
changing lr
epoch 264, time 222.38, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.5126 re_mapping 0.0051 re_causal 0.0147 /// teacc 99.01 lr 0.00010000
Epoch 266, weight, value: tensor([[-0.0806,  0.1719,  0.0751,  ..., -0.2522, -0.1275,  0.0225],
        [ 0.1825, -0.0276, -0.0933,  ...,  0.0954,  0.1295, -0.1641],
        [-0.1209, -0.0676, -0.0466,  ..., -0.0933, -0.0433, -0.0886],
        ...,
        [-0.0893,  0.1794, -0.2009,  ..., -0.1911, -0.0185, -0.2091],
        [ 0.0181, -0.1178,  0.0294,  ...,  0.0789, -0.1400, -0.0590],
        [-0.1371, -0.1319,  0.1022,  ..., -0.1256, -0.0698,  0.1823]],
       device='cuda:0'), grad: tensor([[ 1.0338e-07,  2.0489e-08,  1.3504e-08,  ...,  7.5437e-08,
          1.3970e-09,  4.6566e-09],
        [-4.9472e-06, -4.6100e-07, -3.8650e-08,  ..., -7.7337e-06,
         -3.8892e-06,  1.0710e-08],
        [ 3.3751e-06,  2.1886e-08,  1.2107e-08,  ...,  6.2287e-06,
          3.5241e-06,  7.4506e-09],
        ...,
        [ 5.1735e-07,  2.1420e-08,  2.3749e-08,  ...,  6.6636e-07,
          2.8824e-07,  1.3039e-08],
        [ 6.1886e-07,  1.4482e-07,  1.9651e-07,  ...,  6.9151e-07,
          2.3283e-09,  2.1001e-07],
        [ 4.7917e-07,  1.8766e-07,  1.0803e-07,  ...,  4.1211e-07,
          5.5879e-09,  9.6858e-08]], device='cuda:0')
Epoch 266, bias, value: tensor([-0.0061, -0.0057,  0.0092,  0.0117,  0.0379,  0.0402, -0.0154,  0.0082,
        -0.0397, -0.0274], device='cuda:0'), grad: tensor([ 2.0396e-07, -1.8522e-05,  1.4029e-05,  5.4855e-07,  1.6065e-07,
        -8.8513e-06,  7.7784e-06,  1.6447e-06,  1.7984e-06,  1.2144e-06],
       device='cuda:0')
100
0.0001
changing lr