File size: 6,884 Bytes
9b43be1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
===============================================================================================
Layer (type:depth-idx)                        Output Shape              Param #
===============================================================================================
FIMHawkes                                     --                        256
├─SineTimeEncoding: 1-1                       [6, 1, 100, 256]          --
│    └─Linear: 2-1                            [6, 1, 100, 1]            2
│    └─Sequential: 2-2                        [6, 1, 100, 255]          --
│    │    └─Linear: 3-1                       [6, 1, 100, 255]          510
│    │    └─SinActivation: 3-2                [6, 1, 100, 255]          --
├─SineTimeEncoding: 1-2                       [6, 1, 100, 256]          --
│    └─Linear: 2-3                            [6, 1, 100, 1]            2
│    └─Sequential: 2-4                        [6, 1, 100, 255]          --
│    │    └─Linear: 3-3                       [6, 1, 100, 255]          510
│    │    └─SinActivation: 3-4                [6, 1, 100, 255]          --
├─Linear: 1-3                                 [600, 256]                5,888
├─LayerNorm: 1-4                              [6, 1, 100, 256]          512
├─SineTimeEncoding: 1-5                       [6, 1999, 100, 256]       (recursive)
│    └─Linear: 2-5                            [6, 1999, 100, 1]         (recursive)
│    └─Sequential: 2-6                        [6, 1999, 100, 255]       (recursive)
│    │    └─Linear: 3-5                       [6, 1999, 100, 255]       (recursive)
│    │    └─SinActivation: 3-6                [6, 1999, 100, 255]       --
├─SineTimeEncoding: 1-6                       [6, 1999, 100, 256]       (recursive)
│    └─Linear: 2-7                            [6, 1999, 100, 1]         (recursive)
│    └─Sequential: 2-8                        [6, 1999, 100, 255]       (recursive)
│    │    └─Linear: 3-7                       [6, 1999, 100, 255]       (recursive)
│    │    └─SinActivation: 3-8                [6, 1999, 100, 255]       --
├─Linear: 1-7                                 [1199400, 256]            (recursive)
├─LayerNorm: 1-8                              [6, 1999, 100, 256]       (recursive)
├─TransformerEncoder: 1-9                     [11994, 100, 256]         --
│    └─ModuleList: 2-9                        --                        --
│    │    └─TransformerEncoderLayer: 3-9      [11994, 100, 256]         1,315,072
│    │    └─TransformerEncoderLayer: 3-10     [11994, 100, 256]         1,315,072
│    │    └─TransformerEncoderLayer: 3-11     [11994, 100, 256]         1,315,072
│    │    └─TransformerEncoderLayer: 3-12     [11994, 100, 256]         1,315,072
├─AttentionOperator: 1-10                     [11994, 1, 256]           --
│    └─ModuleList: 2-10                       --                        --
│    │    └─ResidualAttentionLayer: 3-13      [11994, 1, 256]           1,315,072
├─TransformerEncoder: 1-11                    [6, 1999, 256]            --
│    └─ModuleList: 2-11                       --                        --
│    │    └─TransformerEncoderLayer: 3-14     [6, 1999, 256]            1,315,072
│    │    └─TransformerEncoderLayer: 3-15     [6, 1999, 256]            1,315,072
├─TransformerDecoder: 1-12                    [6, 100, 256]             --
│    └─ModuleList: 2-12                       --                        --
│    │    └─TransformerDecoderLayer: 3-16     [6, 100, 256]             1,578,752
│    │    └─TransformerDecoderLayer: 3-17     [6, 100, 256]             1,578,752
│    │    └─TransformerDecoderLayer: 3-18     [6, 100, 256]             1,578,752
│    │    └─TransformerDecoderLayer: 3-19     [6, 100, 256]             1,578,752
├─Linear: 1-13                                [1, 256]                  5,888
├─MLP: 1-14                                   [600, 1]                  --
│    └─Sequential: 2-13                       [600, 1]                  --
│    │    └─Linear: 3-20                      [600, 256]                131,328
│    │    └─GELU: 3-21                        [600, 256]                --
│    │    └─Dropout: 3-22                     [600, 256]                --
│    │    └─Linear: 3-23                      [600, 256]                65,792
│    │    └─GELU: 3-24                        [600, 256]                --
│    │    └─Dropout: 3-25                     [600, 256]                --
│    │    └─Linear: 3-26                      [600, 1]                  257
├─MLP: 1-15                                   [600, 1]                  --
│    └─Sequential: 2-14                       [600, 1]                  --
│    │    └─Linear: 3-27                      [600, 256]                131,328
│    │    └─GELU: 3-28                        [600, 256]                --
│    │    └─Dropout: 3-29                     [600, 256]                --
│    │    └─Linear: 3-30                      [600, 256]                65,792
│    │    └─GELU: 3-31                        [600, 256]                --
│    │    └─Dropout: 3-32                     [600, 256]                --
│    │    └─Linear: 3-33                      [600, 1]                  257
├─MLP: 1-16                                   [600, 1]                  --
│    └─Sequential: 2-15                       [600, 1]                  --
│    │    └─Linear: 3-34                      [600, 256]                131,328
│    │    └─GELU: 3-35                        [600, 256]                --
│    │    └─Dropout: 3-36                     [600, 256]                --
│    │    └─Linear: 3-37                      [600, 256]                65,792
│    │    └─GELU: 3-38                        [600, 256]                --
│    │    └─Dropout: 3-39                     [600, 256]                --
│    │    └─Linear: 3-40                      [600, 1]                  257
===============================================================================================
Total params: 16,126,211
Trainable params: 16,126,211
Non-trainable params: 0
Total mult-adds (Units.GIGABYTES): 70.54
===============================================================================================
Input size (MB): 28.96
Forward/backward pass size (MB): 118787.71
Params size (MB): 48.71
Estimated Total Size (MB): 118865.38
===============================================================================================