File size: 213,962 Bytes

08276da

2025-10-14 02:33:37,074 - train - INFO - ConformerModel(
  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (conformer_blocks): Sequential(
    (0): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (1): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (2): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (3): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (4): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (5): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (6): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (7): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (8): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (9): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
  )
  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
)
2025-10-14 02:41:40,845 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 02:43:53,269 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 02:53:22,675 - train - INFO -     epoch          : 1
2025-10-14 02:53:22,676 - train - INFO -     loss           : 1.8004077727144414
2025-10-14 02:53:22,676 - train - INFO -     grad_norm      : 1.1968199670916857
2025-10-14 02:53:22,676 - train - INFO -     val_loss       : 1.467006968049442
2025-10-14 02:53:22,676 - train - INFO -     val_CER_(Argmax): 0.46757403776657935
2025-10-14 02:53:22,676 - train - INFO -     val_WER_(Argmax): 0.91038943818923
2025-10-14 02:53:22,676 - train - INFO -     val_WER        : 0.91038943818923
2025-10-14 02:53:22,677 - train - INFO -     val_CER        : 0.4676158105801009
2025-10-14 02:53:22,677 - train - INFO -     test_loss      : 1.430062472820282
2025-10-14 02:53:22,677 - train - INFO -     test_CER_(Argmax): 0.4589772069767894
2025-10-14 02:53:22,677 - train - INFO -     test_WER_(Argmax): 0.906752747897352
2025-10-14 02:53:22,677 - train - INFO -     test_WER       : 0.906752747897352
2025-10-14 02:53:22,677 - train - INFO -     test_CER       : 0.45909848600936254
2025-10-14 02:53:23,214 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 03:03:20,978 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 03:05:39,207 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 03:13:20,217 - train - INFO -     epoch          : 2
2025-10-14 03:13:20,217 - train - INFO -     loss           : 0.9497057100636276
2025-10-14 03:13:20,217 - train - INFO -     grad_norm      : 1.2964627569045253
2025-10-14 03:13:20,218 - train - INFO -     val_loss       : 0.9703210683429943
2025-10-14 03:13:20,218 - train - INFO -     val_CER_(Argmax): 0.3104969995818503
2025-10-14 03:13:20,218 - train - INFO -     val_WER_(Argmax): 0.7484133288798358
2025-10-14 03:13:20,218 - train - INFO -     val_WER        : 0.7484133288798358
2025-10-14 03:13:20,218 - train - INFO -     val_CER        : 0.30930462548815907
2025-10-14 03:13:20,218 - train - INFO -     test_loss      : 0.9425025051686822
2025-10-14 03:13:20,218 - train - INFO -     test_CER_(Argmax): 0.30274019803097907
2025-10-14 03:13:20,218 - train - INFO -     test_WER_(Argmax): 0.7372494591821148
2025-10-14 03:13:20,218 - train - INFO -     test_WER       : 0.7372494591821148
2025-10-14 03:13:20,219 - train - INFO -     test_CER       : 0.30157728834330844
2025-10-14 03:13:20,885 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 03:25:20,451 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 03:33:10,510 - train - INFO -     epoch          : 3
2025-10-14 03:33:10,510 - train - INFO -     loss           : 0.7622273603081703
2025-10-14 03:33:10,510 - train - INFO -     grad_norm      : 1.1402055078744888
2025-10-14 03:33:10,511 - train - INFO -     val_loss       : 0.8829054685199962
2025-10-14 03:33:10,511 - train - INFO -     val_CER_(Argmax): 0.28195997427460867
2025-10-14 03:33:10,511 - train - INFO -     val_WER_(Argmax): 0.686879415725692
2025-10-14 03:33:10,511 - train - INFO -     val_WER        : 0.686879415725692
2025-10-14 03:33:10,511 - train - INFO -     val_CER        : 0.28205835407842134
2025-10-14 03:33:10,511 - train - INFO -     test_loss      : 0.8557483960942525
2025-10-14 03:33:10,511 - train - INFO -     test_CER_(Argmax): 0.2709563942448364
2025-10-14 03:33:10,511 - train - INFO -     test_WER_(Argmax): 0.6692670294343694
2025-10-14 03:33:10,511 - train - INFO -     test_WER       : 0.6692670294343694
2025-10-14 03:33:10,512 - train - INFO -     test_CER       : 0.27099345931346924
2025-10-14 03:33:11,148 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 03:53:06,907 - train - INFO -     epoch          : 4
2025-10-14 03:53:06,908 - train - INFO -     loss           : 0.602354964017868
2025-10-14 03:53:06,908 - train - INFO -     grad_norm      : 0.8039740589261055
2025-10-14 03:53:06,908 - train - INFO -     val_loss       : 0.7007653839447919
2025-10-14 03:53:06,908 - train - INFO -     val_CER_(Argmax): 0.22225459871101402
2025-10-14 03:53:06,908 - train - INFO -     val_WER_(Argmax): 0.5930371723301392
2025-10-14 03:53:06,908 - train - INFO -     val_WER        : 0.5930371723301392
2025-10-14 03:53:06,908 - train - INFO -     val_CER        : 0.22210362264174635
2025-10-14 03:53:06,908 - train - INFO -     test_loss      : 0.6907694921260927
2025-10-14 03:53:06,908 - train - INFO -     test_CER_(Argmax): 0.2163203087967603
2025-10-14 03:53:06,909 - train - INFO -     test_WER_(Argmax): 0.5772301195235712
2025-10-14 03:53:06,909 - train - INFO -     test_WER       : 0.5772301195235712
2025-10-14 03:53:06,909 - train - INFO -     test_CER       : 0.21606124644889366
2025-10-14 03:53:07,539 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 03:58:05,821 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 04:13:08,317 - train - INFO -     epoch          : 5
2025-10-14 04:13:08,318 - train - INFO -     loss           : 0.5589919736981392
2025-10-14 04:13:08,318 - train - INFO -     grad_norm      : 0.6693760113418102
2025-10-14 04:13:08,318 - train - INFO -     val_loss       : 0.6744126432082233
2025-10-14 04:13:08,318 - train - INFO -     val_CER_(Argmax): 0.21458751555183747
2025-10-14 04:13:08,319 - train - INFO -     val_WER_(Argmax): 0.5772959000644565
2025-10-14 04:13:08,319 - train - INFO -     val_WER        : 0.5772959000644565
2025-10-14 04:13:08,319 - train - INFO -     val_CER        : 0.2145634022145982
2025-10-14 04:13:08,319 - train - INFO -     test_loss      : 0.6590640392245316
2025-10-14 04:13:08,319 - train - INFO -     test_CER_(Argmax): 0.20839209387247756
2025-10-14 04:13:08,319 - train - INFO -     test_WER_(Argmax): 0.5701414952271677
2025-10-14 04:13:08,319 - train - INFO -     test_WER       : 0.5701414952271677
2025-10-14 04:13:08,320 - train - INFO -     test_CER       : 0.20839523910387514
2025-10-14 04:13:08,988 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 04:14:24,248 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 04:24:28,763 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 04:33:06,709 - train - INFO -     epoch          : 6
2025-10-14 04:33:06,709 - train - INFO -     loss           : 0.510627674460411
2025-10-14 04:33:06,709 - train - INFO -     grad_norm      : 0.5528287927806378
2025-10-14 04:33:06,710 - train - INFO -     val_loss       : 0.6022388451239642
2025-10-14 04:33:06,710 - train - INFO -     val_CER_(Argmax): 0.18296962699849365
2025-10-14 04:33:06,710 - train - INFO -     val_WER_(Argmax): 0.5093214369543156
2025-10-14 04:33:06,710 - train - INFO -     val_WER        : 0.5093214369543156
2025-10-14 04:33:06,710 - train - INFO -     val_CER        : 0.18261087096328094
2025-10-14 04:33:06,710 - train - INFO -     test_loss      : 0.6027363142589244
2025-10-14 04:33:06,710 - train - INFO -     test_CER_(Argmax): 0.1820291797987071
2025-10-14 04:33:06,710 - train - INFO -     test_WER_(Argmax): 0.5047745633151853
2025-10-14 04:33:06,710 - train - INFO -     test_WER       : 0.5047745633151853
2025-10-14 04:33:06,710 - train - INFO -     test_CER       : 0.18158809112179367
2025-10-14 04:33:07,385 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 04:42:03,191 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 04:53:08,991 - train - INFO -     epoch          : 7
2025-10-14 04:53:08,992 - train - INFO -     loss           : 0.49359407886188833
2025-10-14 04:53:08,992 - train - INFO -     grad_norm      : 0.5190753033712282
2025-10-14 04:53:08,992 - train - INFO -     val_loss       : 0.6014730471021988
2025-10-14 04:53:08,992 - train - INFO -     val_CER_(Argmax): 0.181704769539811
2025-10-14 04:53:08,993 - train - INFO -     val_WER_(Argmax): 0.5059981667294224
2025-10-14 04:53:08,993 - train - INFO -     val_WER        : 0.5059981667294224
2025-10-14 04:53:08,993 - train - INFO -     val_CER        : 0.1815978525961797
2025-10-14 04:53:08,993 - train - INFO -     test_loss      : 0.5996043998293761
2025-10-14 04:53:08,993 - train - INFO -     test_CER_(Argmax): 0.1791391732758246
2025-10-14 04:53:08,993 - train - INFO -     test_WER_(Argmax): 0.4997126493658538
2025-10-14 04:53:08,993 - train - INFO -     test_WER       : 0.4997126493658538
2025-10-14 04:53:08,994 - train - INFO -     test_CER       : 0.179074904175568
2025-10-14 04:53:09,676 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 04:58:15,378 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 05:13:07,029 - train - INFO -     epoch          : 8
2025-10-14 05:13:07,030 - train - INFO -     loss           : 0.46707881450653077
2025-10-14 05:13:07,030 - train - INFO -     grad_norm      : 0.48182750105857847
2025-10-14 05:13:07,030 - train - INFO -     val_loss       : 0.6367673782741322
2025-10-14 05:13:07,030 - train - INFO -     val_CER_(Argmax): 0.19087030186457948
2025-10-14 05:13:07,030 - train - INFO -     val_WER_(Argmax): 0.5220166510054483
2025-10-14 05:13:07,030 - train - INFO -     val_WER        : 0.5220166510054483
2025-10-14 05:13:07,030 - train - INFO -     val_CER        : 0.190838427285644
2025-10-14 05:13:07,031 - train - INFO -     test_loss      : 0.6175299279573487
2025-10-14 05:13:07,031 - train - INFO -     test_CER_(Argmax): 0.18446621558922244
2025-10-14 05:13:07,031 - train - INFO -     test_WER_(Argmax): 0.5084007759551228
2025-10-14 05:13:07,031 - train - INFO -     test_WER       : 0.5084007759551228
2025-10-14 05:13:07,031 - train - INFO -     test_CER       : 0.184502159264417
2025-10-14 05:20:54,798 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 05:33:02,433 - train - INFO -     epoch          : 9
2025-10-14 05:33:02,434 - train - INFO -     loss           : 0.45376209877244195
2025-10-14 05:33:02,434 - train - INFO -     grad_norm      : 0.45064780400626026
2025-10-14 05:33:02,435 - train - INFO -     val_loss       : 0.5756007843157824
2025-10-14 05:33:02,435 - train - INFO -     val_CER_(Argmax): 0.16914851214323548
2025-10-14 05:33:02,435 - train - INFO -     val_WER_(Argmax): 0.47379946747058904
2025-10-14 05:33:02,435 - train - INFO -     val_WER        : 0.47379946747058904
2025-10-14 05:33:02,435 - train - INFO -     val_CER        : 0.16900721738636365
2025-10-14 05:33:02,435 - train - INFO -     test_loss      : 0.5721487871757368
2025-10-14 05:33:02,436 - train - INFO -     test_CER_(Argmax): 0.16664663014275632
2025-10-14 05:33:02,436 - train - INFO -     test_WER_(Argmax): 0.4681725557437241
2025-10-14 05:33:02,436 - train - INFO -     test_WER       : 0.4681725557437241
2025-10-14 05:33:02,436 - train - INFO -     test_CER       : 0.16649619330717766
2025-10-14 05:33:03,081 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 05:33:14,650 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 05:43:25,713 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 05:52:54,270 - train - INFO -     epoch          : 10
2025-10-14 05:52:54,271 - train - INFO -     loss           : 0.45315693199634555
2025-10-14 05:52:54,271 - train - INFO -     grad_norm      : 0.4713628640770912
2025-10-14 05:52:54,271 - train - INFO -     val_loss       : 0.5362565857522628
2025-10-14 05:52:54,271 - train - INFO -     val_CER_(Argmax): 0.16329148533434748
2025-10-14 05:52:54,271 - train - INFO -     val_WER_(Argmax): 0.46387223589891163
2025-10-14 05:52:54,271 - train - INFO -     val_WER        : 0.46387223589891163
2025-10-14 05:52:54,271 - train - INFO -     val_CER        : 0.16286558348739288
2025-10-14 05:52:54,271 - train - INFO -     test_loss      : 0.5317229174259233
2025-10-14 05:52:54,271 - train - INFO -     test_CER_(Argmax): 0.16059709717785184
2025-10-14 05:52:54,271 - train - INFO -     test_WER_(Argmax): 0.45693877851173287
2025-10-14 05:52:54,272 - train - INFO -     test_WER       : 0.45693877851173287
2025-10-14 05:52:54,272 - train - INFO -     test_CER       : 0.1603862774668369
2025-10-14 05:52:54,905 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 06:12:35,761 - train - INFO -     epoch          : 11
2025-10-14 06:12:35,762 - train - INFO -     loss           : 0.39052830457687376
2025-10-14 06:12:35,762 - train - INFO -     grad_norm      : 0.4450642728060484
2025-10-14 06:12:35,762 - train - INFO -     val_loss       : 0.51932592532214
2025-10-14 06:12:35,762 - train - INFO -     val_CER_(Argmax): 0.15941955542976455
2025-10-14 06:12:35,762 - train - INFO -     val_WER_(Argmax): 0.45788092649283985
2025-10-14 06:12:35,763 - train - INFO -     val_WER        : 0.45788092649283985
2025-10-14 06:12:35,763 - train - INFO -     val_CER        : 0.15936533181396875
2025-10-14 06:12:35,763 - train - INFO -     test_loss      : 0.5151232182979584
2025-10-14 06:12:35,763 - train - INFO -     test_CER_(Argmax): 0.15455427775801173
2025-10-14 06:12:35,763 - train - INFO -     test_WER_(Argmax): 0.44637718160637985
2025-10-14 06:12:35,763 - train - INFO -     test_WER       : 0.44637718160637985
2025-10-14 06:12:35,763 - train - INFO -     test_CER       : 0.15453517470721737
2025-10-14 06:12:36,429 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 06:13:48,904 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 06:23:40,844 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 06:32:20,518 - train - INFO -     epoch          : 12
2025-10-14 06:32:20,518 - train - INFO -     loss           : 0.34388998910784724
2025-10-14 06:32:20,518 - train - INFO -     grad_norm      : 0.40590107560157773
2025-10-14 06:32:20,518 - train - INFO -     val_loss       : 0.5381783243487863
2025-10-14 06:32:20,518 - train - INFO -     val_CER_(Argmax): 0.16583726089869136
2025-10-14 06:32:20,519 - train - INFO -     val_WER_(Argmax): 0.465543927183187
2025-10-14 06:32:20,519 - train - INFO -     val_WER        : 0.465543927183187
2025-10-14 06:32:20,519 - train - INFO -     val_CER        : 0.16531468827653925
2025-10-14 06:32:20,519 - train - INFO -     test_loss      : 0.5295760235408458
2025-10-14 06:32:20,519 - train - INFO -     test_CER_(Argmax): 0.16174688828818035
2025-10-14 06:32:20,519 - train - INFO -     test_WER_(Argmax): 0.4550225790980045
2025-10-14 06:32:20,519 - train - INFO -     test_WER       : 0.4550225790980045
2025-10-14 06:32:20,519 - train - INFO -     test_CER       : 0.16122770436209705
2025-10-14 06:43:29,714 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 06:52:09,495 - train - INFO -     epoch          : 13
2025-10-14 06:52:09,496 - train - INFO -     loss           : 0.34937265180051325
2025-10-14 06:52:09,496 - train - INFO -     grad_norm      : 0.4043967518210411
2025-10-14 06:52:09,496 - train - INFO -     val_loss       : 0.48908867941183204
2025-10-14 06:52:09,496 - train - INFO -     val_CER_(Argmax): 0.14971865099250545
2025-10-14 06:52:09,497 - train - INFO -     val_WER_(Argmax): 0.4332590763851437
2025-10-14 06:52:09,497 - train - INFO -     val_WER        : 0.4332590763851437
2025-10-14 06:52:09,497 - train - INFO -     val_CER        : 0.1497014184247999
2025-10-14 06:52:09,497 - train - INFO -     test_loss      : 0.49085995009759575
2025-10-14 06:52:09,497 - train - INFO -     test_CER_(Argmax): 0.1494535796558252
2025-10-14 06:52:09,497 - train - INFO -     test_WER_(Argmax): 0.4310647728310606
2025-10-14 06:52:09,497 - train - INFO -     test_WER       : 0.4310647728310606
2025-10-14 06:52:09,497 - train - INFO -     test_CER       : 0.14945445213192635
2025-10-14 06:52:10,157 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 06:57:44,296 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 07:11:49,105 - train - INFO -     epoch          : 14
2025-10-14 07:11:49,105 - train - INFO -     loss           : 0.32730326041579244
2025-10-14 07:11:49,105 - train - INFO -     grad_norm      : 0.37786272332072257
2025-10-14 07:11:49,105 - train - INFO -     val_loss       : 0.5277743637561798
2025-10-14 07:11:49,106 - train - INFO -     val_CER_(Argmax): 0.15338718155863898
2025-10-14 07:11:49,106 - train - INFO -     val_WER_(Argmax): 0.44184830517379275
2025-10-14 07:11:49,106 - train - INFO -     val_WER        : 0.44184830517379275
2025-10-14 07:11:49,106 - train - INFO -     val_CER        : 0.15328479401941472
2025-10-14 07:11:49,106 - train - INFO -     test_loss      : 0.5241630139147363
2025-10-14 07:11:49,106 - train - INFO -     test_CER_(Argmax): 0.14972207345168487
2025-10-14 07:11:49,106 - train - INFO -     test_WER_(Argmax): 0.43158279188478127
2025-10-14 07:11:49,106 - train - INFO -     test_WER       : 0.43158279188478127
2025-10-14 07:11:49,106 - train - INFO -     test_CER       : 0.14960003782834835
2025-10-14 07:31:25,217 - train - INFO -     epoch          : 15
2025-10-14 07:31:25,218 - train - INFO -     loss           : 0.3190571042895317
2025-10-14 07:31:25,219 - train - INFO -     grad_norm      : 0.3733240906894207
2025-10-14 07:31:25,219 - train - INFO -     val_loss       : 0.4872164645615746
2025-10-14 07:31:25,219 - train - INFO -     val_CER_(Argmax): 0.14572484758853044
2025-10-14 07:31:25,219 - train - INFO -     val_WER_(Argmax): 0.4191253071785101
2025-10-14 07:31:25,219 - train - INFO -     val_WER        : 0.4191253071785101
2025-10-14 07:31:25,219 - train - INFO -     val_CER        : 0.1452825863232472
2025-10-14 07:31:25,219 - train - INFO -     test_loss      : 0.48767780676120664
2025-10-14 07:31:25,219 - train - INFO -     test_CER_(Argmax): 0.1442184158052019
2025-10-14 07:31:25,219 - train - INFO -     test_WER_(Argmax): 0.4156251226875968
2025-10-14 07:31:25,219 - train - INFO -     test_WER       : 0.4156251226875968
2025-10-14 07:31:25,220 - train - INFO -     test_CER       : 0.14397894549224005
2025-10-14 07:31:25,873 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 07:32:07,397 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 07:38:29,332 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 07:51:09,085 - train - INFO -     epoch          : 16
2025-10-14 07:51:09,085 - train - INFO -     loss           : 0.32288431376218796
2025-10-14 07:51:09,085 - train - INFO -     grad_norm      : 0.3875794377923012
2025-10-14 07:51:09,085 - train - INFO -     val_loss       : 0.4824349988909329
2025-10-14 07:51:09,086 - train - INFO -     val_CER_(Argmax): 0.1440481174169628
2025-10-14 07:51:09,086 - train - INFO -     val_WER_(Argmax): 0.41937533251399106
2025-10-14 07:51:09,086 - train - INFO -     val_WER        : 0.41937533251399106
2025-10-14 07:51:09,086 - train - INFO -     val_CER        : 0.14402863422008916
2025-10-14 07:51:09,086 - train - INFO -     test_loss      : 0.4875093171509301
2025-10-14 07:51:09,086 - train - INFO -     test_CER_(Argmax): 0.1435495187572233
2025-10-14 07:51:09,086 - train - INFO -     test_WER_(Argmax): 0.41857261206475077
2025-10-14 07:51:09,086 - train - INFO -     test_WER       : 0.41857261206475077
2025-10-14 07:51:09,086 - train - INFO -     test_CER       : 0.14345600543528397
2025-10-14 07:53:04,340 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 08:11:00,249 - train - INFO -     epoch          : 17
2025-10-14 08:11:00,250 - train - INFO -     loss           : 0.3117878006398678
2025-10-14 08:11:00,250 - train - INFO -     grad_norm      : 0.37129794418811796
2025-10-14 08:11:00,250 - train - INFO -     val_loss       : 0.46727428611587074
2025-10-14 08:11:00,251 - train - INFO -     val_CER_(Argmax): 0.1398674099185118
2025-10-14 08:11:00,251 - train - INFO -     val_WER_(Argmax): 0.4029957532757304
2025-10-14 08:11:00,251 - train - INFO -     val_WER        : 0.4029957532757304
2025-10-14 08:11:00,251 - train - INFO -     val_CER        : 0.138428207923737
2025-10-14 08:11:00,251 - train - INFO -     test_loss      : 0.4605345202655327
2025-10-14 08:11:00,251 - train - INFO -     test_CER_(Argmax): 0.13763281168297406
2025-10-14 08:11:00,251 - train - INFO -     test_WER_(Argmax): 0.40026093361768017
2025-10-14 08:11:00,251 - train - INFO -     test_WER       : 0.40026093361768017
2025-10-14 08:11:00,251 - train - INFO -     test_CER       : 0.13695235893427762
2025-10-14 08:11:00,897 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 08:20:41,969 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 08:31:03,757 - train - INFO -     epoch          : 18
2025-10-14 08:31:03,757 - train - INFO -     loss           : 0.3081890671846256
2025-10-14 08:31:03,758 - train - INFO -     grad_norm      : 0.37016375235576726
2025-10-14 08:31:03,758 - train - INFO -     val_loss       : 0.4678590574685265
2025-10-14 08:31:03,758 - train - INFO -     val_CER_(Argmax): 0.13379779068102082
2025-10-14 08:31:03,758 - train - INFO -     val_WER_(Argmax): 0.3922874175956862
2025-10-14 08:31:03,758 - train - INFO -     val_WER        : 0.3922874175956862
2025-10-14 08:31:03,758 - train - INFO -     val_CER        : 0.13369347277137167
2025-10-14 08:31:03,758 - train - INFO -     test_loss      : 0.4725317922307224
2025-10-14 08:31:03,758 - train - INFO -     test_CER_(Argmax): 0.13567544579262084
2025-10-14 08:31:03,758 - train - INFO -     test_WER_(Argmax): 0.3943974565677792
2025-10-14 08:31:03,758 - train - INFO -     test_WER       : 0.3943974565677792
2025-10-14 08:31:03,759 - train - INFO -     test_CER       : 0.13559223799657805
2025-10-14 08:31:04,419 - train - INFO - Saving current best: model_best.pth ...
2025-10-14 08:36:17,211 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 08:50:46,825 - train - INFO -     epoch          : 19
2025-10-14 08:50:46,825 - train - INFO -     loss           : 0.2682218397408724
2025-10-14 08:50:46,825 - train - INFO -     grad_norm      : 0.32187166772782805
2025-10-14 08:50:46,826 - train - INFO -     val_loss       : 0.47410393462461586
2025-10-14 08:50:46,826 - train - INFO -     val_CER_(Argmax): 0.14253732992734036
2025-10-14 08:50:46,826 - train - INFO -     val_WER_(Argmax): 0.409711592751532
2025-10-14 08:50:46,826 - train - INFO -     val_WER        : 0.409711592751532
2025-10-14 08:50:46,826 - train - INFO -     val_CER        : 0.14251998090573448
2025-10-14 08:50:46,826 - train - INFO -     test_loss      : 0.470459710170583
2025-10-14 08:50:46,826 - train - INFO -     test_CER_(Argmax): 0.14044063030058693
2025-10-14 08:50:46,826 - train - INFO -     test_WER_(Argmax): 0.40506228117177334
2025-10-14 08:50:46,826 - train - INFO -     test_WER       : 0.40506228117177334
2025-10-14 08:50:46,827 - train - INFO -     test_CER       : 0.1404145806112171
2025-10-14 08:53:19,357 - urllib3.connectionpool - WARNING - Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ReadTimeoutError("HTTPSConnectionPool(host='www.comet.com', port=443): Read timed out. (read timeout=10)")': /clientlib/status-report/update
2025-10-14 08:53:21,310 - urllib3.connectionpool - WARNING - Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ReadTimeoutError("HTTPSConnectionPool(host='www.comet.com', port=443): Read timed out. (read timeout=10)")': /clientlib/rest/v2/write/experiment/output
2025-10-14 08:57:22,238 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 09:02:29,246 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 09:10:42,467 - train - INFO -     epoch          : 20
2025-10-14 09:10:42,468 - train - INFO -     loss           : 0.26297851376235487
2025-10-14 09:10:42,468 - train - INFO -     grad_norm      : 0.36333887211978433
2025-10-14 09:10:42,468 - train - INFO -     val_loss       : 0.498136385048137
2025-10-14 09:10:42,468 - train - INFO -     val_CER_(Argmax): 0.1409829398308886
2025-10-14 09:10:42,468 - train - INFO -     val_WER_(Argmax): 0.40756040553729267
2025-10-14 09:10:42,468 - train - INFO -     val_WER        : 0.40756040553729267
2025-10-14 09:10:42,468 - train - INFO -     val_CER        : 0.14095097487519742
2025-10-14 09:10:42,468 - train - INFO -     test_loss      : 0.48370018637761836
2025-10-14 09:10:42,469 - train - INFO -     test_CER_(Argmax): 0.1360583083333615
2025-10-14 09:10:42,469 - train - INFO -     test_WER_(Argmax): 0.39381178720670307
2025-10-14 09:10:42,469 - train - INFO -     test_WER       : 0.39381178720670307
2025-10-14 09:10:42,469 - train - INFO -     test_CER       : 0.1360182842490938
2025-10-14 09:10:42,992 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch20.pth ...
2025-10-14 09:11:48,738 - train - INFO - Saving model on keyboard interrupt
2025-10-14 09:11:49,259 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch21.pth ...
2025-10-14 23:15:37,958 - train - INFO - ConformerModel(
  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (conformer_blocks): Sequential(
    (0): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (1): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (2): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (3): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (4): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (5): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (6): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (7): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (8): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (9): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
  )
  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
)
2025-10-14 23:15:37,974 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch21.pth ...
2025-10-14 23:15:38,389 - train - INFO - Checkpoint loaded. Resume training from epoch 22
2025-10-14 23:23:52,739 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 23:26:06,300 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 23:36:17,410 - train - INFO -     epoch          : 22
2025-10-14 23:36:17,411 - train - INFO -     loss           : 0.2934816901129906
2025-10-14 23:36:17,411 - train - INFO -     grad_norm      : 0.3821600427982783
2025-10-14 23:36:17,411 - train - INFO -     val_loss       : 0.4874178209725548
2025-10-14 23:36:17,411 - train - INFO -     val_CER_(Argmax): 0.13945358821010811
2025-10-14 23:36:17,411 - train - INFO -     val_WER_(Argmax): 0.40280195242601624
2025-10-14 23:36:17,412 - train - INFO -     val_WER        : 0.40280195242601624
2025-10-14 23:36:17,412 - train - INFO -     val_CER        : 0.13942245845447518
2025-10-14 23:36:17,412 - train - INFO -     test_loss      : 0.48479962312593694
2025-10-14 23:36:17,412 - train - INFO -     test_CER_(Argmax): 0.13631144181611937
2025-10-14 23:36:17,412 - train - INFO -     test_WER_(Argmax): 0.3958590163824199
2025-10-14 23:36:17,412 - train - INFO -     test_WER       : 0.3958590163824199
2025-10-14 23:36:17,412 - train - INFO -     test_CER       : 0.13629110738251396
2025-10-14 23:46:20,954 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 23:48:42,744 - train - WARNING - OOM on batch. Skipping batch.
2025-10-14 23:56:39,785 - train - INFO -     epoch          : 23
2025-10-14 23:56:39,786 - train - INFO -     loss           : 0.2551273109775093
2025-10-14 23:56:39,786 - train - INFO -     grad_norm      : 0.3137171796368594
2025-10-14 23:56:39,786 - train - INFO -     val_loss       : 0.46369018204071943
2025-10-14 23:56:39,786 - train - INFO -     val_CER_(Argmax): 0.13684675847070465
2025-10-14 23:56:39,786 - train - INFO -     val_WER_(Argmax): 0.39398508692774187
2025-10-14 23:56:39,787 - train - INFO -     val_WER        : 0.39398508692774187
2025-10-14 23:56:39,787 - train - INFO -     val_CER        : 0.13685407007272402
2025-10-14 23:56:39,787 - train - INFO -     test_loss      : 0.4581556451029894
2025-10-14 23:56:39,787 - train - INFO -     test_CER_(Argmax): 0.1350574156452121
2025-10-14 23:56:39,787 - train - INFO -     test_WER_(Argmax): 0.3875261612050869
2025-10-14 23:56:39,787 - train - INFO -     test_WER       : 0.3875261612050869
2025-10-14 23:56:39,787 - train - INFO -     test_CER       : 0.13511500315245614
2025-10-15 00:08:52,697 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 00:17:07,562 - train - INFO -     epoch          : 24
2025-10-15 00:17:07,562 - train - INFO -     loss           : 0.245378298163414
2025-10-15 00:17:07,563 - train - INFO -     grad_norm      : 0.3387820851057768
2025-10-15 00:17:07,563 - train - INFO -     val_loss       : 0.5287014912156498
2025-10-15 00:17:07,563 - train - INFO -     val_CER_(Argmax): 0.1539106275040438
2025-10-15 00:17:07,563 - train - INFO -     val_WER_(Argmax): 0.42460000884399807
2025-10-15 00:17:07,563 - train - INFO -     val_WER        : 0.42460000884399807
2025-10-15 00:17:07,563 - train - INFO -     val_CER        : 0.15297842974722475
2025-10-15 00:17:07,563 - train - INFO -     test_loss      : 0.5029914589916787
2025-10-15 00:17:07,563 - train - INFO -     test_CER_(Argmax): 0.14657635076122771
2025-10-15 00:17:07,564 - train - INFO -     test_WER_(Argmax): 0.41203503318541046
2025-10-15 00:17:07,564 - train - INFO -     test_WER       : 0.41203503318541046
2025-10-15 00:17:07,564 - train - INFO -     test_CER       : 0.1457842404666151
2025-10-15 00:37:36,383 - train - INFO -     epoch          : 25
2025-10-15 00:37:36,384 - train - INFO -     loss           : 0.23428807348012926
2025-10-15 00:37:36,384 - train - INFO -     grad_norm      : 0.3239304776489735
2025-10-15 00:37:36,384 - train - INFO -     val_loss       : 0.44715122440282035
2025-10-15 00:37:36,384 - train - INFO -     val_CER_(Argmax): 0.12522702466393065
2025-10-15 00:37:36,384 - train - INFO -     val_WER_(Argmax): 0.36798136361847184
2025-10-15 00:37:36,385 - train - INFO -     val_WER        : 0.36798136361847184
2025-10-15 00:37:36,385 - train - INFO -     val_CER        : 0.12516017792671708
2025-10-15 00:37:36,385 - train - INFO -     test_loss      : 0.4525063423121848
2025-10-15 00:37:36,385 - train - INFO -     test_CER_(Argmax): 0.12637926517100662
2025-10-15 00:37:36,385 - train - INFO -     test_WER_(Argmax): 0.3720632078294957
2025-10-15 00:37:36,385 - train - INFO -     test_WER       : 0.3720632078294957
2025-10-15 00:37:36,385 - train - INFO -     test_CER       : 0.1263555695987811
2025-10-15 00:37:36,962 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 00:42:33,247 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 00:57:31,683 - train - INFO -     epoch          : 26
2025-10-15 00:57:31,684 - train - INFO -     loss           : 0.21956679798662662
2025-10-15 00:57:31,684 - train - INFO -     grad_norm      : 0.30377400361001494
2025-10-15 00:57:31,684 - train - INFO -     val_loss       : 0.4440635372610653
2025-10-15 00:57:31,684 - train - INFO -     val_CER_(Argmax): 0.12553994948531128
2025-10-15 00:57:31,684 - train - INFO -     val_WER_(Argmax): 0.3683140692106527
2025-10-15 00:57:31,684 - train - INFO -     val_WER        : 0.3683140692106527
2025-10-15 00:57:31,685 - train - INFO -     val_CER        : 0.12547953415857194
2025-10-15 00:57:31,685 - train - INFO -     test_loss      : 0.43620326751615945
2025-10-15 00:57:31,685 - train - INFO -     test_CER_(Argmax): 0.12184782350276652
2025-10-15 00:57:31,685 - train - INFO -     test_WER_(Argmax): 0.36093858955137864
2025-10-15 00:57:31,685 - train - INFO -     test_WER       : 0.36093858955137864
2025-10-15 00:57:31,685 - train - INFO -     test_CER       : 0.12182641046616761
2025-10-15 00:58:46,849 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 01:08:54,287 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 01:18:58,969 - train - INFO -     epoch          : 27
2025-10-15 01:18:58,970 - train - INFO -     loss           : 0.23763787642121315
2025-10-15 01:18:58,970 - train - INFO -     grad_norm      : 0.33571442432701587
2025-10-15 01:18:58,970 - train - INFO -     val_loss       : 0.43435747272828046
2025-10-15 01:18:58,970 - train - INFO -     val_CER_(Argmax): 0.12460465956934305
2025-10-15 01:18:58,970 - train - INFO -     val_WER_(Argmax): 0.3689147427735292
2025-10-15 01:18:58,970 - train - INFO -     val_WER        : 0.3689147427735292
2025-10-15 01:18:58,970 - train - INFO -     val_CER        : 0.12435221723652463
2025-10-15 01:18:58,970 - train - INFO -     test_loss      : 0.42551243159829116
2025-10-15 01:18:58,971 - train - INFO -     test_CER_(Argmax): 0.12051501557557807
2025-10-15 01:18:58,971 - train - INFO -     test_WER_(Argmax): 0.35871069551154516
2025-10-15 01:18:58,971 - train - INFO -     test_WER       : 0.35871069551154516
2025-10-15 01:18:58,971 - train - INFO -     test_CER       : 0.12040524447063847
2025-10-15 01:28:06,616 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 01:40:43,152 - train - INFO -     epoch          : 28
2025-10-15 01:40:43,152 - train - INFO -     loss           : 0.2343284837414871
2025-10-15 01:40:43,152 - train - INFO -     grad_norm      : 0.32623336228293986
2025-10-15 01:40:43,152 - train - INFO -     val_loss       : 0.45126108702491313
2025-10-15 01:40:43,153 - train - INFO -     val_CER_(Argmax): 0.12340088072525852
2025-10-15 01:40:43,153 - train - INFO -     val_WER_(Argmax): 0.36056492495645576
2025-10-15 01:40:43,153 - train - INFO -     val_WER        : 0.36056492495645576
2025-10-15 01:40:43,153 - train - INFO -     val_CER        : 0.12344191243753086
2025-10-15 01:40:43,153 - train - INFO -     test_loss      : 0.44489473068132634
2025-10-15 01:40:43,153 - train - INFO -     test_CER_(Argmax): 0.12100421883695911
2025-10-15 01:40:43,153 - train - INFO -     test_WER_(Argmax): 0.3557473436617356
2025-10-15 01:40:43,153 - train - INFO -     test_WER       : 0.3557473436617356
2025-10-15 01:40:43,153 - train - INFO -     test_CER       : 0.1209957554068205
2025-10-15 01:40:43,788 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 01:45:52,826 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 02:02:15,203 - train - INFO -     epoch          : 29
2025-10-15 02:02:15,204 - train - INFO -     loss           : 0.2276789116859436
2025-10-15 02:02:15,204 - train - INFO -     grad_norm      : 0.31875048592686656
2025-10-15 02:02:15,204 - train - INFO -     val_loss       : 0.4515169536366182
2025-10-15 02:02:15,204 - train - INFO -     val_CER_(Argmax): 0.12343411279442047
2025-10-15 02:02:15,205 - train - INFO -     val_WER_(Argmax): 0.35693396607175665
2025-10-15 02:02:15,205 - train - INFO -     val_WER        : 0.35693396607175665
2025-10-15 02:02:15,205 - train - INFO -     val_CER        : 0.12296479435758914
2025-10-15 02:02:15,205 - train - INFO -     test_loss      : 0.4444568338917523
2025-10-15 02:02:15,205 - train - INFO -     test_CER_(Argmax): 0.12155681713388337
2025-10-15 02:02:15,205 - train - INFO -     test_WER_(Argmax): 0.355160702184518
2025-10-15 02:02:15,206 - train - INFO -     test_WER       : 0.355160702184518
2025-10-15 02:02:15,206 - train - INFO -     test_CER       : 0.1213823591345638
2025-10-15 02:02:16,139 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 02:10:06,354 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 02:23:50,140 - train - INFO -     epoch          : 30
2025-10-15 02:23:50,141 - train - INFO -     loss           : 0.23757737919912866
2025-10-15 02:23:50,141 - train - INFO -     grad_norm      : 0.3481074444313145
2025-10-15 02:23:50,141 - train - INFO -     val_loss       : 0.4355435743051417
2025-10-15 02:23:50,141 - train - INFO -     val_CER_(Argmax): 0.12227846859888573
2025-10-15 02:23:50,141 - train - INFO -     val_WER_(Argmax): 0.3600137657491089
2025-10-15 02:23:50,141 - train - INFO -     val_WER        : 0.3600137657491089
2025-10-15 02:23:50,142 - train - INFO -     val_CER        : 0.12224294816692473
2025-10-15 02:23:50,142 - train - INFO -     test_loss      : 0.4234782213844904
2025-10-15 02:23:50,142 - train - INFO -     test_CER_(Argmax): 0.11799567883835432
2025-10-15 02:23:50,142 - train - INFO -     test_WER_(Argmax): 0.3509967284700314
2025-10-15 02:23:50,142 - train - INFO -     test_WER       : 0.3509967284700314
2025-10-15 02:23:50,142 - train - INFO -     test_CER       : 0.11798016735938993
2025-10-15 02:23:50,653 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch30.pth ...
2025-10-15 02:24:02,264 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 02:34:18,495 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 02:45:15,288 - train - INFO -     epoch          : 31
2025-10-15 02:45:15,289 - train - INFO -     loss           : 0.2335624401271343
2025-10-15 02:45:15,289 - train - INFO -     grad_norm      : 0.33499817200005055
2025-10-15 02:45:15,289 - train - INFO -     val_loss       : 0.42463123097139244
2025-10-15 02:45:15,289 - train - INFO -     val_CER_(Argmax): 0.1214074309645935
2025-10-15 02:45:15,289 - train - INFO -     val_WER_(Argmax): 0.36004170998968105
2025-10-15 02:45:15,289 - train - INFO -     val_WER        : 0.36004170998968105
2025-10-15 02:45:15,289 - train - INFO -     val_CER        : 0.12133784581497396
2025-10-15 02:45:15,289 - train - INFO -     test_loss      : 0.4196070029241283
2025-10-15 02:45:15,289 - train - INFO -     test_CER_(Argmax): 0.1190913597673928
2025-10-15 02:45:15,289 - train - INFO -     test_WER_(Argmax): 0.3543684771257035
2025-10-15 02:45:15,289 - train - INFO -     test_WER       : 0.3543684771257035
2025-10-15 02:45:15,290 - train - INFO -     test_CER       : 0.11909188803428304
2025-10-15 03:06:34,594 - train - INFO -     epoch          : 32
2025-10-15 03:06:34,595 - train - INFO -     loss           : 0.19390573374927045
2025-10-15 03:06:34,595 - train - INFO -     grad_norm      : 0.2884246703982353
2025-10-15 03:06:34,595 - train - INFO -     val_loss       : 0.4251282506129321
2025-10-15 03:06:34,595 - train - INFO -     val_CER_(Argmax): 0.11977977920474925
2025-10-15 03:06:34,596 - train - INFO -     val_WER_(Argmax): 0.35403802314681054
2025-10-15 03:06:34,596 - train - INFO -     val_WER        : 0.35403802314681054
2025-10-15 03:06:34,596 - train - INFO -     val_CER        : 0.11974593748907238
2025-10-15 03:06:34,596 - train - INFO -     test_loss      : 0.4268707185983658
2025-10-15 03:06:34,596 - train - INFO -     test_CER_(Argmax): 0.11750315678556099
2025-10-15 03:06:34,596 - train - INFO -     test_WER_(Argmax): 0.34796513829846193
2025-10-15 03:06:34,596 - train - INFO -     test_WER       : 0.34796513829846193
2025-10-15 03:06:34,596 - train - INFO -     test_CER       : 0.11745897923149805
2025-10-15 03:06:35,206 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 03:07:47,566 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 03:17:49,399 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 03:27:58,262 - train - INFO -     epoch          : 33
2025-10-15 03:27:58,263 - train - INFO -     loss           : 0.18811449602246286
2025-10-15 03:27:58,263 - train - INFO -     grad_norm      : 0.3027683352679014
2025-10-15 03:27:58,263 - train - INFO -     val_loss       : 0.4447146780350629
2025-10-15 03:27:58,263 - train - INFO -     val_CER_(Argmax): 0.1167911485471282
2025-10-15 03:27:58,263 - train - INFO -     val_WER_(Argmax): 0.34777324203356125
2025-10-15 03:27:58,263 - train - INFO -     val_WER        : 0.34777324203356125
2025-10-15 03:27:58,264 - train - INFO -     val_CER        : 0.11672586478730562
2025-10-15 03:27:58,264 - train - INFO -     test_loss      : 0.44641188295876105
2025-10-15 03:27:58,264 - train - INFO -     test_CER_(Argmax): 0.11520872571090347
2025-10-15 03:27:58,264 - train - INFO -     test_WER_(Argmax): 0.34454126380885003
2025-10-15 03:27:58,264 - train - INFO -     test_WER       : 0.34454126380885003
2025-10-15 03:27:58,264 - train - INFO -     test_CER       : 0.11515496969675332
2025-10-15 03:27:58,876 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 03:39:06,057 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 03:49:07,853 - train - INFO -     epoch          : 34
2025-10-15 03:49:07,854 - train - INFO -     loss           : 0.19895173616707326
2025-10-15 03:49:07,854 - train - INFO -     grad_norm      : 0.3446432762593031
2025-10-15 03:49:07,854 - train - INFO -     val_loss       : 0.438978297920788
2025-10-15 03:49:07,854 - train - INFO -     val_CER_(Argmax): 0.12138526768120507
2025-10-15 03:49:07,854 - train - INFO -     val_WER_(Argmax): 0.3567880885491568
2025-10-15 03:49:07,854 - train - INFO -     val_WER        : 0.3567880885491568
2025-10-15 03:49:07,855 - train - INFO -     val_CER        : 0.12133834485438902
2025-10-15 03:49:07,855 - train - INFO -     test_loss      : 0.4366752952337265
2025-10-15 03:49:07,855 - train - INFO -     test_CER_(Argmax): 0.11889285769529587
2025-10-15 03:49:07,855 - train - INFO -     test_WER_(Argmax): 0.3499597095170695
2025-10-15 03:49:07,855 - train - INFO -     test_WER       : 0.3499597095170695
2025-10-15 03:49:07,855 - train - INFO -     test_CER       : 0.11886283480129935
2025-10-15 03:54:43,121 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 04:10:10,751 - train - INFO -     epoch          : 35
2025-10-15 04:10:10,752 - train - INFO -     loss           : 0.18583452805876732
2025-10-15 04:10:10,752 - train - INFO -     grad_norm      : 0.2995685636997223
2025-10-15 04:10:10,752 - train - INFO -     val_loss       : 0.4410898643381455
2025-10-15 04:10:10,752 - train - INFO -     val_CER_(Argmax): 0.11951493903695873
2025-10-15 04:10:10,752 - train - INFO -     val_WER_(Argmax): 0.3514972872290408
2025-10-15 04:10:10,752 - train - INFO -     val_WER        : 0.3514972872290408
2025-10-15 04:10:10,752 - train - INFO -     val_CER        : 0.11950992517253951
2025-10-15 04:10:10,752 - train - INFO -     test_loss      : 0.43057214050758175
2025-10-15 04:10:10,753 - train - INFO -     test_CER_(Argmax): 0.11632696628536299
2025-10-15 04:10:10,753 - train - INFO -     test_WER_(Argmax): 0.34279318429294053
2025-10-15 04:10:10,753 - train - INFO -     test_WER       : 0.34279318429294053
2025-10-15 04:10:10,753 - train - INFO -     test_CER       : 0.11630289332594408
2025-10-15 04:10:11,240 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch35.pth ...
2025-10-15 04:31:14,040 - train - INFO -     epoch          : 36
2025-10-15 04:31:14,041 - train - INFO -     loss           : 0.20375656172633172
2025-10-15 04:31:14,041 - train - INFO -     grad_norm      : 0.3344234121590853
2025-10-15 04:31:14,041 - train - INFO -     val_loss       : 0.4425490912269143
2025-10-15 04:31:14,042 - train - INFO -     val_CER_(Argmax): 0.12107380933012289
2025-10-15 04:31:14,042 - train - INFO -     val_WER_(Argmax): 0.35624895795851813
2025-10-15 04:31:14,042 - train - INFO -     val_WER        : 0.35624895795851813
2025-10-15 04:31:14,042 - train - INFO -     val_CER        : 0.12094349863299866
2025-10-15 04:31:14,042 - train - INFO -     test_loss      : 0.4421439832303582
2025-10-15 04:31:14,042 - train - INFO -     test_CER_(Argmax): 0.1203417035792212
2025-10-15 04:31:14,042 - train - INFO -     test_WER_(Argmax): 0.3539471761721452
2025-10-15 04:31:14,042 - train - INFO -     test_WER       : 0.3539471761721452
2025-10-15 04:31:14,042 - train - INFO -     test_CER       : 0.12014604748975138
2025-10-15 04:31:55,800 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 04:38:23,938 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 04:52:26,034 - train - INFO -     epoch          : 37
2025-10-15 04:52:26,035 - train - INFO -     loss           : 0.19795498616993426
2025-10-15 04:52:26,035 - train - INFO -     grad_norm      : 0.3208508171141148
2025-10-15 04:52:26,036 - train - INFO -     val_loss       : 0.4592762873453252
2025-10-15 04:52:26,036 - train - INFO -     val_CER_(Argmax): 0.1294481027382875
2025-10-15 04:52:26,036 - train - INFO -     val_WER_(Argmax): 0.3774834616766213
2025-10-15 04:52:26,036 - train - INFO -     val_WER        : 0.3774834616766213
2025-10-15 04:52:26,037 - train - INFO -     val_CER        : 0.1291189030153579
2025-10-15 04:52:26,037 - train - INFO -     test_loss      : 0.45307019171191426
2025-10-15 04:52:26,037 - train - INFO -     test_CER_(Argmax): 0.12595557229485574
2025-10-15 04:52:26,037 - train - INFO -     test_WER_(Argmax): 0.36986993718068867
2025-10-15 04:52:26,038 - train - INFO -     test_WER       : 0.36986993718068867
2025-10-15 04:52:26,038 - train - INFO -     test_CER       : 0.12586377840829696
2025-10-15 04:54:23,286 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 05:13:56,065 - train - INFO -     epoch          : 38
2025-10-15 05:13:56,065 - train - INFO -     loss           : 0.19663494504988194
2025-10-15 05:13:56,065 - train - INFO -     grad_norm      : 0.3321287203580141
2025-10-15 05:13:56,066 - train - INFO -     val_loss       : 0.4284120608778561
2025-10-15 05:13:56,066 - train - INFO -     val_CER_(Argmax): 0.11491743825574693
2025-10-15 05:13:56,066 - train - INFO -     val_WER_(Argmax): 0.34405708317994527
2025-10-15 05:13:56,066 - train - INFO -     val_WER        : 0.34405708317994527
2025-10-15 05:13:56,066 - train - INFO -     val_CER        : 0.11487393368251399
2025-10-15 05:13:56,066 - train - INFO -     test_loss      : 0.42923609730674
2025-10-15 05:13:56,066 - train - INFO -     test_CER_(Argmax): 0.11365153750471271
2025-10-15 05:13:56,066 - train - INFO -     test_WER_(Argmax): 0.34081102085255915
2025-10-15 05:13:56,066 - train - INFO -     test_WER       : 0.34081102085255915
2025-10-15 05:13:56,066 - train - INFO -     test_CER       : 0.11363074827669829
2025-10-15 05:13:56,668 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 05:23:38,950 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 05:35:12,536 - train - INFO -     epoch          : 39
2025-10-15 05:35:12,538 - train - INFO -     loss           : 0.18985670647728983
2025-10-15 05:35:12,538 - train - INFO -     grad_norm      : 0.3164519183150488
2025-10-15 05:35:12,538 - train - INFO -     val_loss       : 0.4361394615734325
2025-10-15 05:35:12,538 - train - INFO -     val_CER_(Argmax): 0.11303924020618653
2025-10-15 05:35:12,538 - train - INFO -     val_WER_(Argmax): 0.336099117293402
2025-10-15 05:35:12,539 - train - INFO -     val_WER        : 0.336099117293402
2025-10-15 05:35:12,539 - train - INFO -     val_CER        : 0.11297259763035278
2025-10-15 05:35:12,539 - train - INFO -     test_loss      : 0.4445284605026245
2025-10-15 05:35:12,539 - train - INFO -     test_CER_(Argmax): 0.11357265394174307
2025-10-15 05:35:12,540 - train - INFO -     test_WER_(Argmax): 0.33712349274851
2025-10-15 05:35:12,540 - train - INFO -     test_WER       : 0.33712349274851
2025-10-15 05:35:12,540 - train - INFO -     test_CER       : 0.11356115257526862
2025-10-15 05:35:13,651 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 05:40:26,534 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 05:56:08,877 - train - INFO -     epoch          : 40
2025-10-15 05:56:08,878 - train - INFO -     loss           : 0.1758589457720518
2025-10-15 05:56:08,878 - train - INFO -     grad_norm      : 0.3102634911984205
2025-10-15 05:56:08,878 - train - INFO -     val_loss       : 0.43493274906102347
2025-10-15 05:56:08,878 - train - INFO -     val_CER_(Argmax): 0.1127735913870602
2025-10-15 05:56:08,878 - train - INFO -     val_WER_(Argmax): 0.3333324824481823
2025-10-15 05:56:08,878 - train - INFO -     val_WER        : 0.3333324824481823
2025-10-15 05:56:08,879 - train - INFO -     val_CER        : 0.11270196248096376
2025-10-15 05:56:08,879 - train - INFO -     test_loss      : 0.4304133802652359
2025-10-15 05:56:08,879 - train - INFO -     test_CER_(Argmax): 0.10964191141102644
2025-10-15 05:56:08,879 - train - INFO -     test_WER_(Argmax): 0.3288502833506312
2025-10-15 05:56:08,879 - train - INFO -     test_WER       : 0.3288502833506312
2025-10-15 05:56:08,879 - train - INFO -     test_CER       : 0.10959007331535237
2025-10-15 05:56:09,478 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 06:02:47,603 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 06:07:57,641 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 06:17:32,447 - train - INFO -     epoch          : 41
2025-10-15 06:17:32,448 - train - INFO -     loss           : 0.1584758448600769
2025-10-15 06:17:32,448 - train - INFO -     grad_norm      : 0.31132353775203225
2025-10-15 06:17:32,448 - train - INFO -     val_loss       : 0.4486117271816029
2025-10-15 06:17:32,449 - train - INFO -     val_CER_(Argmax): 0.11394301416811013
2025-10-15 06:17:32,449 - train - INFO -     val_WER_(Argmax): 0.3352175680667114
2025-10-15 06:17:32,449 - train - INFO -     val_WER        : 0.3352175680667114
2025-10-15 06:17:32,449 - train - INFO -     val_CER        : 0.11388101864339778
2025-10-15 06:17:32,449 - train - INFO -     test_loss      : 0.4439057616925821
2025-10-15 06:17:32,450 - train - INFO -     test_CER_(Argmax): 0.11181283918602594
2025-10-15 06:17:32,450 - train - INFO -     test_WER_(Argmax): 0.3330420680106056
2025-10-15 06:17:32,450 - train - INFO -     test_WER       : 0.3330420680106056
2025-10-15 06:17:32,450 - train - INFO -     test_CER       : 0.11175747260237462
2025-10-15 06:38:32,900 - train - INFO -     epoch          : 42
2025-10-15 06:38:32,901 - train - INFO -     loss           : 0.15154085498303174
2025-10-15 06:38:32,901 - train - INFO -     grad_norm      : 0.31321163214743136
2025-10-15 06:38:32,901 - train - INFO -     val_loss       : 0.4170303176431095
2025-10-15 06:38:32,901 - train - INFO -     val_CER_(Argmax): 0.11403384671386754
2025-10-15 06:38:32,901 - train - INFO -     val_WER_(Argmax): 0.339910982840436
2025-10-15 06:38:32,901 - train - INFO -     val_WER        : 0.339910982840436
2025-10-15 06:38:32,901 - train - INFO -     val_CER        : 0.11396475986393424
2025-10-15 06:38:32,902 - train - INFO -     test_loss      : 0.4154184039046125
2025-10-15 06:38:32,902 - train - INFO -     test_CER_(Argmax): 0.11247534045841451
2025-10-15 06:38:32,902 - train - INFO -     test_WER_(Argmax): 0.3328717059031543
2025-10-15 06:38:32,902 - train - INFO -     test_WER       : 0.3328717059031543
2025-10-15 06:38:32,902 - train - INFO -     test_CER       : 0.1123930726890102
2025-10-15 06:42:35,159 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 06:49:28,757 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 06:59:48,120 - train - INFO -     epoch          : 43
2025-10-15 06:59:48,120 - train - INFO -     loss           : 0.15414640687406064
2025-10-15 06:59:48,121 - train - INFO -     grad_norm      : 0.2877813006937504
2025-10-15 06:59:48,121 - train - INFO -     val_loss       : 0.4414702657391043
2025-10-15 06:59:48,121 - train - INFO -     val_CER_(Argmax): 0.12070044864926999
2025-10-15 06:59:48,121 - train - INFO -     val_WER_(Argmax): 0.3537302879447558
2025-10-15 06:59:48,121 - train - INFO -     val_WER        : 0.3537302879447558
2025-10-15 06:59:48,121 - train - INFO -     val_CER        : 0.12068197627972231
2025-10-15 06:59:48,121 - train - INFO -     test_loss      : 0.4438759840843154
2025-10-15 06:59:48,121 - train - INFO -     test_CER_(Argmax): 0.11862870450615648
2025-10-15 06:59:48,121 - train - INFO -     test_WER_(Argmax): 0.34733577061982585
2025-10-15 06:59:48,121 - train - INFO -     test_WER       : 0.34733577061982585
2025-10-15 06:59:48,122 - train - INFO -     test_CER       : 0.11862613781757472
2025-10-15 07:20:43,415 - train - INFO -     epoch          : 44
2025-10-15 07:20:43,415 - train - INFO -     loss           : 0.1363305367529392
2025-10-15 07:20:43,416 - train - INFO -     grad_norm      : 0.2479817882925272
2025-10-15 07:20:43,416 - train - INFO -     val_loss       : 0.4520348629530738
2025-10-15 07:20:43,416 - train - INFO -     val_CER_(Argmax): 0.11507168537958189
2025-10-15 07:20:43,416 - train - INFO -     val_WER_(Argmax): 0.3395088421236314
2025-10-15 07:20:43,416 - train - INFO -     val_WER        : 0.3395088421236314
2025-10-15 07:20:43,417 - train - INFO -     val_CER        : 0.11507427832449559
2025-10-15 07:20:43,417 - train - INFO -     test_loss      : 0.4543668962106472
2025-10-15 07:20:43,417 - train - INFO -     test_CER_(Argmax): 0.11321039333306016
2025-10-15 07:20:43,417 - train - INFO -     test_WER_(Argmax): 0.3319809926281677
2025-10-15 07:20:43,417 - train - INFO -     test_WER       : 0.3319809926281677
2025-10-15 07:20:43,417 - train - INFO -     test_CER       : 0.1131822929806515
2025-10-15 07:20:51,021 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 07:23:10,474 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 07:41:51,854 - train - INFO -     epoch          : 45
2025-10-15 07:41:51,855 - train - INFO -     loss           : 0.13987333193421364
2025-10-15 07:41:51,855 - train - INFO -     grad_norm      : 0.26614324234426023
2025-10-15 07:41:51,855 - train - INFO -     val_loss       : 0.4230976984781377
2025-10-15 07:41:51,855 - train - INFO -     val_CER_(Argmax): 0.11541515342609154
2025-10-15 07:41:51,855 - train - INFO -     val_WER_(Argmax): 0.34157605694474263
2025-10-15 07:41:51,855 - train - INFO -     val_WER        : 0.34157605694474263
2025-10-15 07:41:51,856 - train - INFO -     val_CER        : 0.11539626185146624
2025-10-15 07:41:51,856 - train - INFO -     test_loss      : 0.4274728712512226
2025-10-15 07:41:51,856 - train - INFO -     test_CER_(Argmax): 0.11464870047179306
2025-10-15 07:41:51,856 - train - INFO -     test_WER_(Argmax): 0.3363408865261514
2025-10-15 07:41:51,856 - train - INFO -     test_WER       : 0.3363408865261514
2025-10-15 07:41:51,856 - train - INFO -     test_CER       : 0.11463597320095606
2025-10-15 07:41:52,350 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch45.pth ...
2025-10-15 07:49:37,815 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 08:03:12,872 - train - INFO -     epoch          : 46
2025-10-15 08:03:12,873 - train - INFO -     loss           : 0.15541664376180975
2025-10-15 08:03:12,873 - train - INFO -     grad_norm      : 0.30704583459763074
2025-10-15 08:03:12,873 - train - INFO -     val_loss       : 0.4262906141140882
2025-10-15 08:03:12,873 - train - INFO -     val_CER_(Argmax): 0.10697360241698037
2025-10-15 08:03:12,873 - train - INFO -     val_WER_(Argmax): 0.31894312216255877
2025-10-15 08:03:12,873 - train - INFO -     val_WER        : 0.31894312216255877
2025-10-15 08:03:12,873 - train - INFO -     val_CER        : 0.10697432792093566
2025-10-15 08:03:12,874 - train - INFO -     test_loss      : 0.4236972459205767
2025-10-15 08:03:12,874 - train - INFO -     test_CER_(Argmax): 0.1036966429887784
2025-10-15 08:03:12,874 - train - INFO -     test_WER_(Argmax): 0.31260322305849975
2025-10-15 08:03:12,874 - train - INFO -     test_WER       : 0.31260322305849975
2025-10-15 08:03:12,874 - train - INFO -     test_CER       : 0.10368049391363919
2025-10-15 08:03:13,468 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 08:11:04,939 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 08:14:33,659 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 08:24:28,330 - train - INFO -     epoch          : 47
2025-10-15 08:24:28,331 - train - INFO -     loss           : 0.1484343280369912
2025-10-15 08:24:28,331 - train - INFO -     grad_norm      : 0.2978131380212966
2025-10-15 08:24:28,331 - train - INFO -     val_loss       : 0.41686498592881593
2025-10-15 08:24:28,331 - train - INFO -     val_CER_(Argmax): 0.10715906838873794
2025-10-15 08:24:28,331 - train - INFO -     val_WER_(Argmax): 0.3189208901687594
2025-10-15 08:24:28,331 - train - INFO -     val_WER        : 0.3189208901687594
2025-10-15 08:24:28,331 - train - INFO -     val_CER        : 0.1070721680237797
2025-10-15 08:24:28,331 - train - INFO -     test_loss      : 0.4248736776956698
2025-10-15 08:24:28,332 - train - INFO -     test_CER_(Argmax): 0.10606248870942041
2025-10-15 08:24:28,332 - train - INFO -     test_WER_(Argmax): 0.31392775456406125
2025-10-15 08:24:28,332 - train - INFO -     test_WER       : 0.31392775456406125
2025-10-15 08:24:28,332 - train - INFO -     test_CER       : 0.10608059527809617
2025-10-15 08:24:28,964 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 08:45:42,227 - train - INFO -     epoch          : 48
2025-10-15 08:45:42,227 - train - INFO -     loss           : 0.1307941133156419
2025-10-15 08:45:42,228 - train - INFO -     grad_norm      : 0.27077246375381947
2025-10-15 08:45:42,228 - train - INFO -     val_loss       : 0.42694155994583577
2025-10-15 08:45:42,228 - train - INFO -     val_CER_(Argmax): 0.10582719959543849
2025-10-15 08:45:42,228 - train - INFO -     val_WER_(Argmax): 0.31559900742699704
2025-10-15 08:45:42,228 - train - INFO -     val_WER        : 0.31559900742699704
2025-10-15 08:45:42,228 - train - INFO -     val_CER        : 0.10572084591343127
2025-10-15 08:45:42,228 - train - INFO -     test_loss      : 0.43384504790713146
2025-10-15 08:45:42,228 - train - INFO -     test_CER_(Argmax): 0.10381538597811517
2025-10-15 08:45:42,228 - train - INFO -     test_WER_(Argmax): 0.311420565217544
2025-10-15 08:45:42,229 - train - INFO -     test_WER       : 0.311420565217544
2025-10-15 08:45:42,229 - train - INFO -     test_CER       : 0.10370990247742001
2025-10-15 08:45:42,872 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 08:50:42,467 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 08:53:44,773 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 09:07:09,369 - train - INFO -     epoch          : 49
2025-10-15 09:07:09,371 - train - INFO -     loss           : 0.10918797556329612
2025-10-15 09:07:09,371 - train - INFO -     grad_norm      : 0.25354656966487366
2025-10-15 09:07:09,371 - train - INFO -     val_loss       : 0.45092080375727484
2025-10-15 09:07:09,371 - train - INFO -     val_CER_(Argmax): 0.10998150896043028
2025-10-15 09:07:09,371 - train - INFO -     val_WER_(Argmax): 0.3251663764785473
2025-10-15 09:07:09,372 - train - INFO -     val_WER        : 0.3251663764785473
2025-10-15 09:07:09,372 - train - INFO -     val_CER        : 0.10883912407170318
2025-10-15 09:07:09,372 - train - INFO -     test_loss      : 0.45026707503853775
2025-10-15 09:07:09,372 - train - INFO -     test_CER_(Argmax): 0.1083685399307039
2025-10-15 09:07:09,372 - train - INFO -     test_WER_(Argmax): 0.31903264381702373
2025-10-15 09:07:09,373 - train - INFO -     test_WER       : 0.31903264381702373
2025-10-15 09:07:09,373 - train - INFO -     test_CER       : 0.10773803375770985
2025-10-15 09:28:10,598 - train - INFO -     epoch          : 50
2025-10-15 09:28:10,598 - train - INFO -     loss           : 0.10687003966420888
2025-10-15 09:28:10,598 - train - INFO -     grad_norm      : 0.2543030245602131
2025-10-15 09:28:10,599 - train - INFO -     val_loss       : 0.45245280335931215
2025-10-15 09:28:10,599 - train - INFO -     val_CER_(Argmax): 0.10794419929359747
2025-10-15 09:28:10,599 - train - INFO -     val_WER_(Argmax): 0.319912166248811
2025-10-15 09:28:10,599 - train - INFO -     val_WER        : 0.319912166248811
2025-10-15 09:28:10,599 - train - INFO -     val_CER        : 0.10779546715487702
2025-10-15 09:28:10,599 - train - INFO -     test_loss      : 0.44923570715799566
2025-10-15 09:28:10,599 - train - INFO -     test_CER_(Argmax): 0.10577866073952201
2025-10-15 09:28:10,599 - train - INFO -     test_WER_(Argmax): 0.3148882348303448
2025-10-15 09:28:10,599 - train - INFO -     test_WER       : 0.3148882348303448
2025-10-15 09:28:10,599 - train - INFO -     test_CER       : 0.10566427550858948
2025-10-15 09:28:11,086 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch50.pth ...
2025-10-15 09:31:04,615 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 09:33:16,245 - train - INFO - Saving model on keyboard interrupt
2025-10-15 09:33:16,720 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch51.pth ...
2025-10-15 21:28:51,805 - train - INFO - ConformerModel(
  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (conformer_blocks): Sequential(
    (0): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (1): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (2): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (3): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (4): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (5): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (6): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (7): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (8): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (9): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
  )
  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
)
2025-10-15 21:28:51,826 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/conformer_30m/checkpoint-epoch51.pth ...
2025-10-15 21:29:48,755 - train - INFO - ConformerModel(
  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (conformer_blocks): Sequential(
    (0): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (1): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (2): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (3): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (4): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (5): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (6): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (7): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (8): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (9): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
  )
  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
)
2025-10-15 21:29:48,772 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch51.pth ...
2025-10-15 21:29:49,382 - train - WARNING - Warning: Optimizer or lr_scheduler given in the config file is different from that of the checkpoint. Optimizer and scheduler parameters are not resumed.
2025-10-15 21:29:49,383 - train - INFO - Checkpoint loaded. Resume training from epoch 52
2025-10-15 21:32:46,047 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 21:36:14,907 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 21:36:28,019 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 21:37:11,355 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 21:37:28,040 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 21:38:05,327 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 21:38:37,856 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 21:59:34,376 - train - INFO - ConformerModel(
  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (conformer_blocks): Sequential(
    (0): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (1): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (2): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (3): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (4): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (5): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (6): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (7): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (8): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (9): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
  )
  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
)
2025-10-15 21:59:34,392 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch51.pth ...
2025-10-15 21:59:34,755 - train - WARNING - Warning: Optimizer or lr_scheduler given in the config file is different from that of the checkpoint. Optimizer and scheduler parameters are not resumed.
2025-10-15 21:59:34,756 - train - INFO - Checkpoint loaded. Resume training from epoch 52
2025-10-15 22:02:34,318 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:06:06,199 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:06:18,792 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:07:20,904 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:07:57,912 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:08:30,148 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:09:56,709 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:10:56,816 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:18:26,896 - train - INFO -     epoch          : 52
2025-10-15 22:18:26,897 - train - INFO -     loss           : 0.5125516548677145
2025-10-15 22:18:26,897 - train - INFO -     grad_norm      : 0.5027066829240867
2025-10-15 22:18:26,897 - train - INFO -     val_loss       : 0.3037505878524466
2025-10-15 22:18:26,897 - train - INFO -     val_CER_(Argmax): 0.09129654682855147
2025-10-15 22:18:26,897 - train - INFO -     val_WER_(Argmax): 0.28161343918875303
2025-10-15 22:18:26,897 - train - INFO -     val_WER        : 0.28161343918875303
2025-10-15 22:18:26,897 - train - INFO -     val_CER        : 0.09130862404528663
2025-10-15 22:18:26,897 - train - INFO -     test_loss      : 0.30807594836435537
2025-10-15 22:18:26,897 - train - INFO -     test_CER_(Argmax): 0.09054438299605952
2025-10-15 22:18:26,898 - train - INFO -     test_WER_(Argmax): 0.2782349555610264
2025-10-15 22:18:26,898 - train - INFO -     test_WER       : 0.2782349555610264
2025-10-15 22:18:26,898 - train - INFO -     test_CER       : 0.09054140648346386
2025-10-15 22:18:27,452 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 22:18:34,798 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:19:35,681 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:20:45,068 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:21:17,097 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:28:13,972 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:28:43,629 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:37:01,553 - train - INFO -     epoch          : 53
2025-10-15 22:37:01,554 - train - INFO -     loss           : 0.4767994123697281
2025-10-15 22:37:01,554 - train - INFO -     grad_norm      : 0.5589224849641323
2025-10-15 22:37:01,554 - train - INFO -     val_loss       : 0.287550592979232
2025-10-15 22:37:01,555 - train - INFO -     val_CER_(Argmax): 0.08663647521630864
2025-10-15 22:37:01,555 - train - INFO -     val_WER_(Argmax): 0.26653980578276465
2025-10-15 22:37:01,555 - train - INFO -     val_WER        : 0.26653980578276465
2025-10-15 22:37:01,555 - train - INFO -     val_CER        : 0.08663647998507391
2025-10-15 22:37:01,555 - train - INFO -     test_loss      : 0.29402880726212804
2025-10-15 22:37:01,555 - train - INFO -     test_CER_(Argmax): 0.08634445495520625
2025-10-15 22:37:01,555 - train - INFO -     test_WER_(Argmax): 0.26760766956081206
2025-10-15 22:37:01,555 - train - INFO -     test_WER       : 0.26760766956081206
2025-10-15 22:37:01,555 - train - INFO -     test_CER       : 0.0863314313346999
2025-10-15 22:37:02,160 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 22:38:36,055 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:41:57,959 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:42:05,218 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:47:32,830 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:55:34,476 - train - INFO -     epoch          : 54
2025-10-15 22:55:34,476 - train - INFO -     loss           : 0.4517164458334446
2025-10-15 22:55:34,476 - train - INFO -     grad_norm      : 0.6237075063586235
2025-10-15 22:55:34,476 - train - INFO -     val_loss       : 0.28015144562328254
2025-10-15 22:55:34,476 - train - INFO -     val_CER_(Argmax): 0.08501164964665332
2025-10-15 22:55:34,477 - train - INFO -     val_WER_(Argmax): 0.26355578235185695
2025-10-15 22:55:34,477 - train - INFO -     val_WER        : 0.26355578235185695
2025-10-15 22:55:34,477 - train - INFO -     val_CER        : 0.08501273757687683
2025-10-15 22:55:34,477 - train - INFO -     test_loss      : 0.28677379729395563
2025-10-15 22:55:34,477 - train - INFO -     test_CER_(Argmax): 0.08556362216950926
2025-10-15 22:55:34,477 - train - INFO -     test_WER_(Argmax): 0.26548957249503236
2025-10-15 22:55:34,477 - train - INFO -     test_WER       : 0.26548957249503236
2025-10-15 22:55:34,477 - train - INFO -     test_CER       : 0.08552682603878249
2025-10-15 22:55:35,084 - train - INFO - Saving current best: model_best.pth ...
2025-10-15 22:58:30,490 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 22:59:07,816 - urllib3.connectionpool - WARNING - Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ReadTimeoutError("HTTPSConnectionPool(host='www.comet.com', port=443): Read timed out. (read timeout=10)")': /clientlib/rest/v2/write/experiment/output
2025-10-15 23:03:27,906 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:14:15,775 - train - INFO -     epoch          : 55
2025-10-15 23:14:15,775 - train - INFO -     loss           : 0.43951718381900884
2025-10-15 23:14:15,775 - train - INFO -     grad_norm      : 0.610138273718369
2025-10-15 23:14:15,775 - train - INFO -     val_loss       : 0.28494494465681225
2025-10-15 23:14:15,775 - train - INFO -     val_CER_(Argmax): 0.08762042370466316
2025-10-15 23:14:15,775 - train - INFO -     val_WER_(Argmax): 0.26894677637977005
2025-10-15 23:14:15,776 - train - INFO -     val_WER        : 0.26894677637977005
2025-10-15 23:14:15,776 - train - INFO -     val_CER        : 0.08761403647985697
2025-10-15 23:14:15,776 - train - INFO -     test_loss      : 0.284894541583278
2025-10-15 23:14:15,776 - train - INFO -     test_CER_(Argmax): 0.08618727251740227
2025-10-15 23:14:15,776 - train - INFO -     test_WER_(Argmax): 0.2651266555833503
2025-10-15 23:14:15,776 - train - INFO -     test_WER       : 0.2651266555833503
2025-10-15 23:14:15,776 - train - INFO -     test_CER       : 0.08613433873893521
2025-10-15 23:14:16,264 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch55.pth ...
2025-10-15 23:17:14,837 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:24:01,730 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:32:58,682 - train - INFO -     epoch          : 56
2025-10-15 23:32:58,682 - train - INFO -     loss           : 0.4343975530564785
2025-10-15 23:32:58,682 - train - INFO -     grad_norm      : 0.6229039686918258
2025-10-15 23:32:58,682 - train - INFO -     val_loss       : 0.29983231277911215
2025-10-15 23:32:58,682 - train - INFO -     val_CER_(Argmax): 0.08955679162254075
2025-10-15 23:32:58,683 - train - INFO -     val_WER_(Argmax): 0.27534571803696956
2025-10-15 23:32:58,683 - train - INFO -     val_WER        : 0.27534571803696956
2025-10-15 23:32:58,683 - train - INFO -     val_CER        : 0.08951839197980865
2025-10-15 23:32:58,683 - train - INFO -     test_loss      : 0.29415979016233573
2025-10-15 23:32:58,683 - train - INFO -     test_CER_(Argmax): 0.08593879618718768
2025-10-15 23:32:58,683 - train - INFO -     test_WER_(Argmax): 0.27041946687163093
2025-10-15 23:32:58,683 - train - INFO -     test_WER       : 0.27041946687163093
2025-10-15 23:32:58,683 - train - INFO -     test_CER       : 0.0859091788688324
2025-10-15 23:34:07,974 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:34:55,062 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:37:46,718 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:51:41,538 - train - INFO -     epoch          : 57
2025-10-15 23:51:41,539 - train - INFO -     loss           : 0.44212916776537897
2025-10-15 23:51:41,539 - train - INFO -     grad_norm      : 0.6302911515533924
2025-10-15 23:51:41,539 - train - INFO -     val_loss       : 0.3111286821601155
2025-10-15 23:51:41,539 - train - INFO -     val_CER_(Argmax): 0.09671470586458569
2025-10-15 23:51:41,539 - train - INFO -     val_WER_(Argmax): 0.2970807443308442
2025-10-15 23:51:41,539 - train - INFO -     val_WER        : 0.2970807443308442
2025-10-15 23:51:41,539 - train - INFO -     val_CER        : 0.09666179815724249
2025-10-15 23:51:41,540 - train - INFO -     test_loss      : 0.3062010456553914
2025-10-15 23:51:41,540 - train - INFO -     test_CER_(Argmax): 0.09478064453852167
2025-10-15 23:51:41,540 - train - INFO -     test_WER_(Argmax): 0.2917665250029616
2025-10-15 23:51:41,540 - train - INFO -     test_WER       : 0.2917665250029616
2025-10-15 23:51:41,540 - train - INFO -     test_CER       : 0.09473352732799264
2025-10-15 23:52:00,536 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:52:02,784 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:52:37,963 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:53:55,377 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:54:35,227 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:55:49,514 - train - WARNING - OOM on batch. Skipping batch.
2025-10-15 23:59:59,392 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:01:41,820 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:11:38,086 - train - INFO -     epoch          : 58
2025-10-16 00:11:38,087 - train - INFO -     loss           : 0.4711415856028322
2025-10-16 00:11:38,088 - train - INFO -     grad_norm      : 0.5886639985606898
2025-10-16 00:11:38,088 - train - INFO -     val_loss       : 0.3353017005291614
2025-10-16 00:11:38,088 - train - INFO -     val_CER_(Argmax): 0.10235041302713359
2025-10-16 00:11:38,088 - train - INFO -     val_WER_(Argmax): 0.3116658465074636
2025-10-16 00:11:38,088 - train - INFO -     val_WER        : 0.3116658465074636
2025-10-16 00:11:38,088 - train - INFO -     val_CER        : 0.1023209039028333
2025-10-16 00:11:38,088 - train - INFO -     test_loss      : 0.3331021143292839
2025-10-16 00:11:38,089 - train - INFO -     test_CER_(Argmax): 0.09998714099883693
2025-10-16 00:11:38,089 - train - INFO -     test_WER_(Argmax): 0.30518309281193207
2025-10-16 00:11:38,089 - train - INFO -     test_WER       : 0.30518309281193207
2025-10-16 00:11:38,089 - train - INFO -     test_CER       : 0.10000657190144936
2025-10-16 00:15:31,484 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:17:40,029 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:21:20,102 - train - INFO - Saving model on keyboard interrupt
2025-10-16 00:21:20,725 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch59.pth ...
2025-10-16 00:25:35,941 - train - INFO - ConformerModel(
  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (conformer_blocks): Sequential(
    (0): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (1): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (2): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (3): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (4): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (5): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (6): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (7): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (8): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (9): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
  )
  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
)
2025-10-16 00:25:35,957 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch55.pth ...
2025-10-16 00:25:36,354 - train - WARNING - Warning: Optimizer or lr_scheduler given in the config file is different from that of the checkpoint. Optimizer and scheduler parameters are not resumed.
2025-10-16 00:25:36,354 - train - INFO - Checkpoint loaded. Resume training from epoch 56
2025-10-16 00:28:38,563 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:32:12,325 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:32:25,198 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:33:27,019 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:34:03,944 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:34:36,076 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:36:03,448 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:37:05,549 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:45:33,019 - train - INFO -     epoch          : 56
2025-10-16 00:45:33,019 - train - INFO -     loss           : 0.3975452154420959
2025-10-16 00:45:33,020 - train - INFO -     grad_norm      : 0.5853364494851399
2025-10-16 00:45:33,020 - train - INFO -     val_loss       : 0.26601492441617525
2025-10-16 00:45:33,020 - train - INFO -     val_CER_(Argmax): 0.08095286654242909
2025-10-16 00:45:33,020 - train - INFO -     val_WER_(Argmax): 0.25238181992836795
2025-10-16 00:45:33,020 - train - INFO -     val_WER        : 0.25238181992836795
2025-10-16 00:45:33,020 - train - INFO -     val_CER        : 0.08094647931762287
2025-10-16 00:45:33,020 - train - INFO -     test_loss      : 0.2680981419980526
2025-10-16 00:45:33,020 - train - INFO -     test_CER_(Argmax): 0.08014114209410332
2025-10-16 00:45:33,020 - train - INFO -     test_WER_(Argmax): 0.2506958176100273
2025-10-16 00:45:33,021 - train - INFO -     test_WER       : 0.2506958176100273
2025-10-16 00:45:33,021 - train - INFO -     test_CER       : 0.08013405791041706
2025-10-16 00:45:33,634 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 00:45:40,678 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:46:41,544 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:47:51,335 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:48:23,005 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 00:55:25,594 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:05:45,591 - train - INFO -     epoch          : 57
2025-10-16 01:05:45,591 - train - INFO -     loss           : 0.3919293682277203
2025-10-16 01:05:45,591 - train - INFO -     grad_norm      : 0.5571760645508766
2025-10-16 01:05:45,592 - train - INFO -     val_loss       : 0.26085271825502204
2025-10-16 01:05:45,592 - train - INFO -     val_CER_(Argmax): 0.07941454723878524
2025-10-16 01:05:45,592 - train - INFO -     val_WER_(Argmax): 0.24847200659684884
2025-10-16 01:05:45,592 - train - INFO -     val_WER        : 0.24847200659684884
2025-10-16 01:05:45,592 - train - INFO -     val_CER        : 0.07940334027231717
2025-10-16 01:05:45,592 - train - INFO -     test_loss      : 0.2639189895919778
2025-10-16 01:05:45,592 - train - INFO -     test_CER_(Argmax): 0.07906222839036091
2025-10-16 01:05:45,592 - train - INFO -     test_WER_(Argmax): 0.2467830935703038
2025-10-16 01:05:45,592 - train - INFO -     test_WER       : 0.2467830935703038
2025-10-16 01:05:45,592 - train - INFO -     test_CER       : 0.07904224464832055
2025-10-16 01:05:46,206 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 01:07:22,051 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:08:02,388 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:10:48,748 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:10:56,086 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:16:24,729 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:25:47,709 - train - INFO -     epoch          : 58
2025-10-16 01:25:47,709 - train - INFO -     loss           : 0.36956372365355494
2025-10-16 01:25:47,710 - train - INFO -     grad_norm      : 0.59020700648427
2025-10-16 01:25:47,710 - train - INFO -     val_loss       : 0.2571919283696583
2025-10-16 01:25:47,710 - train - INFO -     val_CER_(Argmax): 0.07819992281237179
2025-10-16 01:25:47,710 - train - INFO -     val_WER_(Argmax): 0.24590658841056448
2025-10-16 01:25:47,710 - train - INFO -     val_WER        : 0.24590658841056448
2025-10-16 01:25:47,710 - train - INFO -     val_CER        : 0.07818871584590371
2025-10-16 01:25:47,710 - train - INFO -     test_loss      : 0.26166995834897866
2025-10-16 01:25:47,710 - train - INFO -     test_CER_(Argmax): 0.07749860080767827
2025-10-16 01:25:47,710 - train - INFO -     test_WER_(Argmax): 0.24307131531532164
2025-10-16 01:25:47,710 - train - INFO -     test_WER       : 0.24307131531532164
2025-10-16 01:25:47,711 - train - INFO -     test_CER       : 0.0774786170656379
2025-10-16 01:25:48,325 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 01:28:44,667 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:31:32,043 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:33:48,273 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:46:04,253 - train - INFO -     epoch          : 59
2025-10-16 01:46:04,253 - train - INFO -     loss           : 0.33486752002382997
2025-10-16 01:46:04,254 - train - INFO -     grad_norm      : 0.5633255804902945
2025-10-16 01:46:04,254 - train - INFO -     val_loss       : 0.25902849910678444
2025-10-16 01:46:04,254 - train - INFO -     val_CER_(Argmax): 0.07788373600524053
2025-10-16 01:46:04,254 - train - INFO -     val_WER_(Argmax): 0.24356013677092545
2025-10-16 01:46:04,254 - train - INFO -     val_WER        : 0.24356013677092545
2025-10-16 01:46:04,254 - train - INFO -     val_CER        : 0.07787252903877245
2025-10-16 01:46:04,254 - train - INFO -     test_loss      : 0.26355371505699376
2025-10-16 01:46:04,254 - train - INFO -     test_CER_(Argmax): 0.07704687640540066
2025-10-16 01:46:04,254 - train - INFO -     test_WER_(Argmax): 0.24105306456868927
2025-10-16 01:46:04,255 - train - INFO -     test_WER       : 0.24105306456868927
2025-10-16 01:46:04,255 - train - INFO -     test_CER       : 0.07702689266336028
2025-10-16 01:46:04,866 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 01:49:04,404 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:55:55,381 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 01:55:55,714 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:06:10,617 - train - INFO -     epoch          : 60
2025-10-16 02:06:10,617 - train - INFO -     loss           : 0.38520306527614595
2025-10-16 02:06:10,617 - train - INFO -     grad_norm      : 0.6394448788464069
2025-10-16 02:06:10,618 - train - INFO -     val_loss       : 0.2523955891093055
2025-10-16 02:06:10,618 - train - INFO -     val_CER_(Argmax): 0.07642980123388085
2025-10-16 02:06:10,618 - train - INFO -     val_WER_(Argmax): 0.24021242375268156
2025-10-16 02:06:10,618 - train - INFO -     val_WER        : 0.24021242375268156
2025-10-16 02:06:10,618 - train - INFO -     val_CER        : 0.07641859426741279
2025-10-16 02:06:10,618 - train - INFO -     test_loss      : 0.2567285626110705
2025-10-16 02:06:10,618 - train - INFO -     test_CER_(Argmax): 0.07615406577241463
2025-10-16 02:06:10,618 - train - INFO -     test_WER_(Argmax): 0.23853556294885694
2025-10-16 02:06:10,619 - train - INFO -     test_WER       : 0.23853556294885694
2025-10-16 02:06:10,619 - train - INFO -     test_CER       : 0.07614019151229019
2025-10-16 02:06:11,228 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 02:06:43,709 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:07:21,268 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:08:09,949 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:11:04,696 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:26:31,842 - train - INFO -     epoch          : 61
2025-10-16 02:26:31,844 - train - INFO -     loss           : 0.36128015503287314
2025-10-16 02:26:31,844 - train - INFO -     grad_norm      : 0.6772882167994976
2025-10-16 02:26:31,844 - train - INFO -     val_loss       : 0.25020998798228883
2025-10-16 02:26:31,844 - train - INFO -     val_CER_(Argmax): 0.07584409640850495
2025-10-16 02:26:31,844 - train - INFO -     val_WER_(Argmax): 0.23786885936936988
2025-10-16 02:26:31,845 - train - INFO -     val_WER        : 0.23786885936936988
2025-10-16 02:26:31,845 - train - INFO -     val_CER        : 0.075829165821292
2025-10-16 02:26:31,845 - train - INFO -     test_loss      : 0.25460747815668583
2025-10-16 02:26:31,845 - train - INFO -     test_CER_(Argmax): 0.07530382475604616
2025-10-16 02:26:31,845 - train - INFO -     test_WER_(Argmax): 0.23598896298484998
2025-10-16 02:26:31,845 - train - INFO -     test_WER       : 0.23598896298484998
2025-10-16 02:26:31,845 - train - INFO -     test_CER       : 0.07528315230877163
2025-10-16 02:26:32,993 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 02:26:52,328 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:26:54,618 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:27:29,413 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:28:46,742 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:29:27,005 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:30:43,684 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:34:56,804 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:36:39,409 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:43:32,699 - train - INFO - Saving model on keyboard interrupt
2025-10-16 02:43:33,623 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch62.pth ...
2025-10-16 02:49:17,502 - train - INFO - ConformerModel(
  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (conformer_blocks): Sequential(
    (0): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (1): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (2): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (3): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (4): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (5): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (6): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (7): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (8): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
    (9): ConformerBlock(
      (feedforward): FeedForward(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
        (swish): SiLU()
        (dropout_1): Dropout(p=0.1, inplace=False)
        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
        (dropout_2): Dropout(p=0.1, inplace=False)
      )
      (multiheadselfattn): MultiHeadSelfAttn(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (multiheadattn): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
        )
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (convmod): ConvolutionModule(
        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (GLu): GLU(dim=1)
        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (swish): SiLU()
        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
        (dp): Dropout(p=0.1, inplace=False)
      )
      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
    )
  )
  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
)
2025-10-16 02:49:17,523 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch62.pth ...
2025-10-16 02:49:17,913 - train - WARNING - Warning: Optimizer or lr_scheduler given in the config file is different from that of the checkpoint. Optimizer and scheduler parameters are not resumed.
2025-10-16 02:49:17,914 - train - INFO - Checkpoint loaded. Resume training from epoch 63
2025-10-16 02:52:15,957 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:55:47,500 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:56:00,240 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:57:01,514 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:57:38,947 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:58:11,042 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 02:59:37,819 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:00:38,610 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:01:03,954 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:02:05,006 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:03:14,868 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:03:46,604 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:12:15,075 - train - INFO -     epoch          : 63
2025-10-16 03:12:15,075 - train - INFO -     loss           : 0.3650146044299082
2025-10-16 03:12:15,076 - train - INFO -     grad_norm      : 0.732061750695185
2025-10-16 03:12:15,076 - train - INFO -     val_loss       : 0.25124785574999725
2025-10-16 03:12:15,076 - train - INFO -     val_CER_(Argmax): 0.0746809727347122
2025-10-16 03:12:15,076 - train - INFO -     val_WER_(Argmax): 0.2340455252925752
2025-10-16 03:12:15,077 - train - INFO -     val_WER        : 0.2340455252925752
2025-10-16 03:12:15,077 - train - INFO -     val_CER        : 0.07466787604501343
2025-10-16 03:12:15,077 - train - INFO -     test_loss      : 0.6272238085464555
2025-10-16 03:12:15,077 - train - INFO -     test_CER_(Argmax): 0.18450640920311695
2025-10-16 03:12:15,077 - train - INFO -     test_WER_(Argmax): 0.45838625598859056
2025-10-16 03:12:15,078 - train - INFO -     test_WER       : 0.45838625598859056
2025-10-16 03:12:15,078 - train - INFO -     test_CER       : 0.1844315619994462
2025-10-16 03:12:16,653 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 03:18:39,991 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:21:29,785 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:21:50,742 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:22:29,530 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:25:13,780 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:25:20,946 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:35:12,338 - train - INFO -     epoch          : 64
2025-10-16 03:35:12,339 - train - INFO -     loss           : 0.34100347862701225
2025-10-16 03:35:12,339 - train - INFO -     grad_norm      : 0.6329810723210826
2025-10-16 03:35:12,339 - train - INFO -     val_loss       : 0.24926169436763634
2025-10-16 03:35:12,339 - train - INFO -     val_CER_(Argmax): 0.07435775967825689
2025-10-16 03:35:12,339 - train - INFO -     val_WER_(Argmax): 0.23329625474160692
2025-10-16 03:35:12,339 - train - INFO -     val_WER        : 0.23329625474160692
2025-10-16 03:35:12,339 - train - INFO -     val_CER        : 0.07438597296022
2025-10-16 03:35:12,340 - train - INFO -     test_loss      : 0.6233528654794304
2025-10-16 03:35:12,340 - train - INFO -     test_CER_(Argmax): 0.18366725143983528
2025-10-16 03:35:12,340 - train - INFO -     test_WER_(Argmax): 0.45719180165705925
2025-10-16 03:35:12,340 - train - INFO -     test_WER       : 0.45719180165705925
2025-10-16 03:35:12,340 - train - INFO -     test_CER       : 0.18355957764546682
2025-10-16 03:35:12,971 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 03:38:54,738 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:42:35,097 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:45:20,154 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:47:35,186 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:48:14,719 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:49:30,920 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 03:58:14,580 - train - INFO -     epoch          : 65
2025-10-16 03:58:14,581 - train - INFO -     loss           : 0.31584615042113295
2025-10-16 03:58:14,581 - train - INFO -     grad_norm      : 0.5978777054885421
2025-10-16 03:58:14,581 - train - INFO -     val_loss       : 0.2521649480543353
2025-10-16 03:58:14,581 - train - INFO -     val_CER_(Argmax): 0.07417007913966524
2025-10-16 03:58:14,582 - train - INFO -     val_WER_(Argmax): 0.23324526469575566
2025-10-16 03:58:14,582 - train - INFO -     val_WER        : 0.23324526469575566
2025-10-16 03:58:14,582 - train - INFO -     val_CER        : 0.07415698244996646
2025-10-16 03:58:14,582 - train - INFO -     test_loss      : 0.6326038317412747
2025-10-16 03:58:14,583 - train - INFO -     test_CER_(Argmax): 0.1823612314736419
2025-10-16 03:58:14,583 - train - INFO -     test_WER_(Argmax): 0.4545763313591499
2025-10-16 03:58:14,583 - train - INFO -     test_WER       : 0.4545763313591499
2025-10-16 03:58:14,583 - train - INFO -     test_CER       : 0.18233351503535009
2025-10-16 03:58:15,691 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 04:02:20,768 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:04:19,315 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:09:07,248 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:09:07,646 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:09:21,702 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:11:07,133 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:11:42,931 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:21:07,208 - train - INFO -     epoch          : 66
2025-10-16 04:21:07,210 - train - INFO -     loss           : 0.35260840369896457
2025-10-16 04:21:07,210 - train - INFO -     grad_norm      : 0.6941393242038861
2025-10-16 04:21:07,210 - train - INFO -     val_loss       : 0.24919554303315553
2025-10-16 04:21:07,211 - train - INFO -     val_CER_(Argmax): 0.07394414424173303
2025-10-16 04:21:07,211 - train - INFO -     val_WER_(Argmax): 0.2325940054693939
2025-10-16 04:21:07,211 - train - INFO -     val_WER        : 0.2325940054693939
2025-10-16 04:21:07,211 - train - INFO -     val_CER        : 0.07393104755203425
2025-10-16 04:21:07,211 - train - INFO -     test_loss      : 0.6230674550241354
2025-10-16 04:21:07,212 - train - INFO -     test_CER_(Argmax): 0.18231329163386267
2025-10-16 04:21:07,212 - train - INFO -     test_WER_(Argmax): 0.4550589076913371
2025-10-16 04:21:07,212 - train - INFO -     test_WER       : 0.4550589076913371
2025-10-16 04:21:07,212 - train - INFO -     test_CER       : 0.18230684880807213
2025-10-16 04:21:08,325 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 04:22:33,557 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:27:24,290 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:27:45,211 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:30:06,656 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:33:36,847 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:34:10,539 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:34:23,483 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:34:37,393 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:43:57,489 - train - INFO -     epoch          : 67
2025-10-16 04:43:57,489 - train - INFO -     loss           : 0.3447438172843991
2025-10-16 04:43:57,489 - train - INFO -     grad_norm      : 0.6474652308590558
2025-10-16 04:43:57,490 - train - INFO -     val_loss       : 0.24890769882635636
2025-10-16 04:43:57,490 - train - INFO -     val_CER_(Argmax): 0.07402464042128627
2025-10-16 04:43:57,490 - train - INFO -     val_WER_(Argmax): 0.23276514236104118
2025-10-16 04:43:57,490 - train - INFO -     val_WER        : 0.23276514236104118
2025-10-16 04:43:57,490 - train - INFO -     val_CER        : 0.07401007745592768
2025-10-16 04:43:57,490 - train - INFO -     test_loss      : 0.6215816164503292
2025-10-16 04:43:57,490 - train - INFO -     test_CER_(Argmax): 0.18244981545202055
2025-10-16 04:43:57,490 - train - INFO -     test_WER_(Argmax): 0.4545860848775349
2025-10-16 04:43:57,490 - train - INFO -     test_WER       : 0.4545860848775349
2025-10-16 04:43:57,490 - train - INFO -     test_CER       : 0.18234336381594599
2025-10-16 04:48:59,867 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:49:49,544 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:52:50,756 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:54:56,214 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:56:32,796 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 04:56:41,395 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:06:56,800 - train - INFO -     epoch          : 68
2025-10-16 05:06:56,801 - train - INFO -     loss           : 0.34905940896332865
2025-10-16 05:06:56,801 - train - INFO -     grad_norm      : 0.6677498564575658
2025-10-16 05:06:56,801 - train - INFO -     val_loss       : 0.24816725386137312
2025-10-16 05:06:56,801 - train - INFO -     val_CER_(Argmax): 0.07392974273734511
2025-10-16 05:06:56,801 - train - INFO -     val_WER_(Argmax): 0.23159585286071424
2025-10-16 05:06:56,802 - train - INFO -     val_WER        : 0.23159585286071424
2025-10-16 05:06:56,802 - train - INFO -     val_CER        : 0.07391517977198651
2025-10-16 05:06:56,802 - train - INFO -     test_loss      : 0.6195810704815145
2025-10-16 05:06:56,802 - train - INFO -     test_CER_(Argmax): 0.18233763775457032
2025-10-16 05:06:56,802 - train - INFO -     test_WER_(Argmax): 0.4545479979074868
2025-10-16 05:06:56,802 - train - INFO -     test_WER       : 0.4545479979074868
2025-10-16 05:06:56,802 - train - INFO -     test_CER       : 0.1823116928582287
2025-10-16 05:06:57,368 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 05:07:50,812 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:09:15,900 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:09:28,324 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:12:10,737 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:12:15,674 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:15:57,493 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:17:11,071 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:17:28,170 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:18:48,935 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:19:16,909 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:20:11,772 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:20:34,940 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:29:55,155 - train - INFO -     epoch          : 69
2025-10-16 05:29:55,156 - train - INFO -     loss           : 0.34450486673013814
2025-10-16 05:29:55,156 - train - INFO -     grad_norm      : 0.6989231766177918
2025-10-16 05:29:55,157 - train - INFO -     val_loss       : 0.24752564846792005
2025-10-16 05:29:55,157 - train - INFO -     val_CER_(Argmax): 0.07375343535866713
2025-10-16 05:29:55,157 - train - INFO -     val_WER_(Argmax): 0.23090194026229824
2025-10-16 05:29:55,157 - train - INFO -     val_WER        : 0.23090194026229824
2025-10-16 05:29:55,157 - train - INFO -     val_CER        : 0.07373887239330854
2025-10-16 05:29:55,157 - train - INFO -     test_loss      : 0.6168282333077216
2025-10-16 05:29:55,157 - train - INFO -     test_CER_(Argmax): 0.18170050435403806
2025-10-16 05:29:55,157 - train - INFO -     test_WER_(Argmax): 0.45372425677781314
2025-10-16 05:29:55,157 - train - INFO -     test_WER       : 0.45372425677781314
2025-10-16 05:29:55,157 - train - INFO -     test_CER       : 0.1816881820827073
2025-10-16 05:29:55,750 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 05:31:10,506 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:32:32,422 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:37:27,413 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:38:39,694 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:39:33,806 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:39:38,992 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:40:03,551 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:43:34,425 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:52:58,744 - train - INFO -     epoch          : 70
2025-10-16 05:52:58,745 - train - INFO -     loss           : 0.3450617952644825
2025-10-16 05:52:58,745 - train - INFO -     grad_norm      : 0.6964107640087605
2025-10-16 05:52:58,745 - train - INFO -     val_loss       : 0.2472096932205287
2025-10-16 05:52:58,745 - train - INFO -     val_CER_(Argmax): 0.07284972328502712
2025-10-16 05:52:58,745 - train - INFO -     val_WER_(Argmax): 0.22901276614441682
2025-10-16 05:52:58,745 - train - INFO -     val_WER        : 0.22901276614441682
2025-10-16 05:52:58,745 - train - INFO -     val_CER        : 0.07284273607724429
2025-10-16 05:52:58,746 - train - INFO -     test_loss      : 0.6180139366461306
2025-10-16 05:52:58,746 - train - INFO -     test_CER_(Argmax): 0.1804781446442257
2025-10-16 05:52:58,746 - train - INFO -     test_WER_(Argmax): 0.45284049314400276
2025-10-16 05:52:58,746 - train - INFO -     test_WER       : 0.45284049314400276
2025-10-16 05:52:58,746 - train - INFO -     test_CER       : 0.1804666251609065
2025-10-16 05:52:59,372 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 05:56:08,152 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:59:33,037 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 05:59:56,321 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:05:25,117 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:07:33,143 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:08:00,984 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:16:10,784 - train - INFO -     epoch          : 71
2025-10-16 06:16:10,784 - train - INFO -     loss           : 0.34330349164692003
2025-10-16 06:16:10,784 - train - INFO -     grad_norm      : 0.7429921634532698
2025-10-16 06:16:10,785 - train - INFO -     val_loss       : 0.2456764829429713
2025-10-16 06:16:10,785 - train - INFO -     val_CER_(Argmax): 0.07272585291214713
2025-10-16 06:16:10,785 - train - INFO -     val_WER_(Argmax): 0.2281453037552794
2025-10-16 06:16:10,785 - train - INFO -     val_WER        : 0.2281453037552794
2025-10-16 06:16:10,785 - train - INFO -     val_CER        : 0.07276095324645183
2025-10-16 06:16:10,785 - train - INFO -     test_loss      : 0.6153945196039823
2025-10-16 06:16:10,785 - train - INFO -     test_CER_(Argmax): 0.18028797138951858
2025-10-16 06:16:10,785 - train - INFO -     test_WER_(Argmax): 0.45096762978426175
2025-10-16 06:16:10,785 - train - INFO -     test_WER       : 0.45096762978426175
2025-10-16 06:16:10,785 - train - INFO -     test_CER       : 0.18027404470283673
2025-10-16 06:16:11,370 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 06:22:36,692 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:22:50,342 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:24:49,221 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:25:27,796 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:27:48,359 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:29:38,242 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:39:03,837 - train - INFO -     epoch          : 72
2025-10-16 06:39:03,838 - train - INFO -     loss           : 0.339138802103322
2025-10-16 06:39:03,838 - train - INFO -     grad_norm      : 0.7133045122779981
2025-10-16 06:39:03,838 - train - INFO -     val_loss       : 0.2443471114066514
2025-10-16 06:39:03,839 - train - INFO -     val_CER_(Argmax): 0.07240100881127012
2025-10-16 06:39:03,839 - train - INFO -     val_WER_(Argmax): 0.22696484163654596
2025-10-16 06:39:03,839 - train - INFO -     val_WER        : 0.22696484163654596
2025-10-16 06:39:03,839 - train - INFO -     val_CER        : 0.07238644584591152
2025-10-16 06:39:03,839 - train - INFO -     test_loss      : 0.612513683888377
2025-10-16 06:39:03,840 - train - INFO -     test_CER_(Argmax): 0.1791687001827859
2025-10-16 06:39:03,840 - train - INFO -     test_WER_(Argmax): 0.4488865730597953
2025-10-16 06:39:03,840 - train - INFO -     test_WER       : 0.4488865730597953
2025-10-16 06:39:03,840 - train - INFO -     test_CER       : 0.17915718069946662
2025-10-16 06:39:04,972 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 06:41:02,810 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:45:51,176 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:47:05,013 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:49:14,158 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 06:49:39,422 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:01:47,234 - train - INFO -     epoch          : 73
2025-10-16 07:01:47,235 - train - INFO -     loss           : 0.3470729561895132
2025-10-16 07:01:47,235 - train - INFO -     grad_norm      : 0.7514531427621841
2025-10-16 07:01:47,235 - train - INFO -     val_loss       : 0.24378775940700012
2025-10-16 07:01:47,235 - train - INFO -     val_CER_(Argmax): 0.07183435190371569
2025-10-16 07:01:47,235 - train - INFO -     val_WER_(Argmax): 0.2256147255339385
2025-10-16 07:01:47,235 - train - INFO -     val_WER        : 0.2256147255339385
2025-10-16 07:01:47,235 - train - INFO -     val_CER        : 0.0718197889383571
2025-10-16 07:01:47,235 - train - INFO -     test_loss      : 0.6091715346793739
2025-10-16 07:01:47,236 - train - INFO -     test_CER_(Argmax): 0.17911457671301328
2025-10-16 07:01:47,236 - train - INFO -     test_WER_(Argmax): 0.44794237444369694
2025-10-16 07:01:47,236 - train - INFO -     test_WER       : 0.44794237444369694
2025-10-16 07:01:47,236 - train - INFO -     test_CER       : 0.17910649294741543
2025-10-16 07:01:47,826 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 07:04:43,210 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:05:38,351 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:07:33,361 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:10:39,941 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:16:21,980 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:24:38,614 - train - INFO -     epoch          : 74
2025-10-16 07:24:38,615 - train - INFO -     loss           : 0.33683984458446503
2025-10-16 07:24:38,615 - train - INFO -     grad_norm      : 0.7467496731877327
2025-10-16 07:24:38,615 - train - INFO -     val_loss       : 0.2443155725909905
2025-10-16 07:24:38,616 - train - INFO -     val_CER_(Argmax): 0.07227646308735522
2025-10-16 07:24:38,616 - train - INFO -     val_WER_(Argmax): 0.22735330118624314
2025-10-16 07:24:38,616 - train - INFO -     val_WER        : 0.22735330118624314
2025-10-16 07:24:38,616 - train - INFO -     val_CER        : 0.07227911775285062
2025-10-16 07:24:38,616 - train - INFO -     test_loss      : 0.6112303989274162
2025-10-16 07:24:38,616 - train - INFO -     test_CER_(Argmax): 0.17907364584589097
2025-10-16 07:24:38,616 - train - INFO -     test_WER_(Argmax): 0.44814157881320876
2025-10-16 07:24:38,616 - train - INFO -     test_WER       : 0.44814157881320876
2025-10-16 07:24:38,616 - train - INFO -     test_CER       : 0.17904936512532063
2025-10-16 07:25:13,751 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:25:37,831 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:28:57,741 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:29:38,177 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:34:16,623 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:37:09,990 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:47:25,461 - train - INFO -     epoch          : 75
2025-10-16 07:47:25,461 - train - INFO -     loss           : 0.33465448658370495
2025-10-16 07:47:25,461 - train - INFO -     grad_norm      : 0.7519346656811298
2025-10-16 07:47:25,462 - train - INFO -     val_loss       : 0.242401727729223
2025-10-16 07:47:25,462 - train - INFO -     val_CER_(Argmax): 0.07174316270698235
2025-10-16 07:47:25,462 - train - INFO -     val_WER_(Argmax): 0.2253097904291825
2025-10-16 07:47:25,462 - train - INFO -     val_WER        : 0.2253097904291825
2025-10-16 07:47:25,462 - train - INFO -     val_CER        : 0.07172859974162374
2025-10-16 07:47:25,462 - train - INFO -     test_loss      : 0.6091889444054389
2025-10-16 07:47:25,462 - train - INFO -     test_CER_(Argmax): 0.17898326704627793
2025-10-16 07:47:25,462 - train - INFO -     test_WER_(Argmax): 0.4477697155209368
2025-10-16 07:47:25,462 - train - INFO -     test_WER       : 0.4477697155209368
2025-10-16 07:47:25,462 - train - INFO -     test_CER       : 0.17895496802095612
2025-10-16 07:47:26,060 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 07:50:39,738 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:50:41,382 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:51:44,271 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:52:08,305 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:57:55,955 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 07:58:00,203 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:00:15,606 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:10:09,966 - train - INFO -     epoch          : 76
2025-10-16 08:10:09,967 - train - INFO -     loss           : 0.32825977680970675
2025-10-16 08:10:09,967 - train - INFO -     grad_norm      : 0.7922337020761404
2025-10-16 08:10:09,967 - train - INFO -     val_loss       : 0.24259263547984036
2025-10-16 08:10:09,967 - train - INFO -     val_CER_(Argmax): 0.07152227206748903
2025-10-16 08:10:09,967 - train - INFO -     val_WER_(Argmax): 0.22444476221779855
2025-10-16 08:10:09,967 - train - INFO -     val_WER        : 0.22444476221779855
2025-10-16 08:10:09,968 - train - INFO -     val_CER        : 0.0715126284252316
2025-10-16 08:10:09,968 - train - INFO -     test_loss      : 0.60749830001471
2025-10-16 08:10:09,968 - train - INFO -     test_CER_(Argmax): 0.1776300184520875
2025-10-16 08:10:09,968 - train - INFO -     test_WER_(Argmax): 0.4444251261265295
2025-10-16 08:10:09,968 - train - INFO -     test_WER       : 0.4444251261265295
2025-10-16 08:10:09,968 - train - INFO -     test_CER       : 0.177609227132328
2025-10-16 08:10:10,533 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 08:11:59,900 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:12:54,045 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:14:34,964 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:21:55,106 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:21:55,451 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:22:06,483 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:33:19,822 - train - INFO -     epoch          : 77
2025-10-16 08:33:19,822 - train - INFO -     loss           : 0.33436640658354394
2025-10-16 08:33:19,822 - train - INFO -     grad_norm      : 0.7152383050640222
2025-10-16 08:33:19,822 - train - INFO -     val_loss       : 0.24181210639124567
2025-10-16 08:33:19,823 - train - INFO -     val_CER_(Argmax): 0.07168098424058468
2025-10-16 08:33:19,823 - train - INFO -     val_WER_(Argmax): 0.22612596969878818
2025-10-16 08:33:19,823 - train - INFO -     val_WER        : 0.22612596969878818
2025-10-16 08:33:19,823 - train - INFO -     val_CER        : 0.07166642127522609
2025-10-16 08:33:19,823 - train - INFO -     test_loss      : 0.6055028849110311
2025-10-16 08:33:19,823 - train - INFO -     test_CER_(Argmax): 0.17730527841163873
2025-10-16 08:33:19,823 - train - INFO -     test_WER_(Argmax): 0.444182600467874
2025-10-16 08:33:19,823 - train - INFO -     test_WER       : 0.444182600467874
2025-10-16 08:33:19,823 - train - INFO -     test_CER       : 0.1772793335152971
2025-10-16 08:35:13,806 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:36:08,863 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:36:27,911 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:37:11,720 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:42:38,767 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:44:59,770 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:56:30,978 - train - INFO -     epoch          : 78
2025-10-16 08:56:30,979 - train - INFO -     loss           : 0.3246919604102571
2025-10-16 08:56:30,979 - train - INFO -     grad_norm      : 0.7791670113053154
2025-10-16 08:56:30,979 - train - INFO -     val_loss       : 0.24172794463282282
2025-10-16 08:56:30,979 - train - INFO -     val_CER_(Argmax): 0.07153011484291474
2025-10-16 08:56:30,979 - train - INFO -     val_WER_(Argmax): 0.22511833258022118
2025-10-16 08:56:30,979 - train - INFO -     val_WER        : 0.22511833258022118
2025-10-16 08:56:30,979 - train - INFO -     val_CER        : 0.071512884357283
2025-10-16 08:56:30,979 - train - INFO -     test_loss      : 0.6050408068968325
2025-10-16 08:56:30,980 - train - INFO -     test_CER_(Argmax): 0.17660421668923618
2025-10-16 08:56:30,980 - train - INFO -     test_WER_(Argmax): 0.44288891060599644
2025-10-16 08:56:30,980 - train - INFO -     test_WER       : 0.44288891060599644
2025-10-16 08:56:30,980 - train - INFO -     test_CER       : 0.1765579884047018
2025-10-16 08:59:27,293 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 08:59:27,869 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:02:30,628 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:07:50,034 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:09:45,540 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:10:48,602 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:19:14,555 - train - INFO -     epoch          : 79
2025-10-16 09:19:14,556 - train - INFO -     loss           : 0.32903695121558024
2025-10-16 09:19:14,556 - train - INFO -     grad_norm      : 0.7922589413144372
2025-10-16 09:19:14,556 - train - INFO -     val_loss       : 0.24085671488534321
2025-10-16 09:19:14,556 - train - INFO -     val_CER_(Argmax): 0.07120119172424885
2025-10-16 09:19:14,556 - train - INFO -     val_WER_(Argmax): 0.2238828798942847
2025-10-16 09:19:14,556 - train - INFO -     val_WER        : 0.2238828798942847
2025-10-16 09:19:14,556 - train - INFO -     val_CER        : 0.07118662875889026
2025-10-16 09:19:14,557 - train - INFO -     test_loss      : 0.6060074610369546
2025-10-16 09:19:14,557 - train - INFO -     test_CER_(Argmax): 0.17613761186333135
2025-10-16 09:19:14,557 - train - INFO -     test_WER_(Argmax): 0.4415207936896337
2025-10-16 09:19:14,557 - train - INFO -     test_WER       : 0.4415207936896337
2025-10-16 09:19:14,557 - train - INFO -     test_CER       : 0.1760987778408496
2025-10-16 09:19:15,154 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 09:21:32,328 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:25:32,846 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:26:24,808 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:27:11,142 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:31:43,693 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:33:07,799 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:42:14,548 - train - INFO -     epoch          : 80
2025-10-16 09:42:14,549 - train - INFO -     loss           : 0.32665394328946445
2025-10-16 09:42:14,549 - train - INFO -     grad_norm      : 0.785485486439125
2025-10-16 09:42:14,549 - train - INFO -     val_loss       : 0.23916942947967487
2025-10-16 09:42:14,549 - train - INFO -     val_CER_(Argmax): 0.07079503833489652
2025-10-16 09:42:14,549 - train - INFO -     val_WER_(Argmax): 0.2233928609416103
2025-10-16 09:42:14,549 - train - INFO -     val_WER        : 0.2233928609416103
2025-10-16 09:42:14,549 - train - INFO -     val_CER        : 0.07078805112711367
2025-10-16 09:42:14,549 - train - INFO -     test_loss      : 0.5997372880882147
2025-10-16 09:42:14,549 - train - INFO -     test_CER_(Argmax): 0.17529654974260578
2025-10-16 09:42:14,550 - train - INFO -     test_WER_(Argmax): 0.4405526126548696
2025-10-16 09:42:14,550 - train - INFO -     test_WER       : 0.4405526126548696
2025-10-16 09:42:14,550 - train - INFO -     test_CER       : 0.1752632917210163
2025-10-16 09:42:15,152 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 09:42:15,591 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:42:48,136 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:43:41,631 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:44:09,545 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:45:05,149 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:49:31,128 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:55:41,850 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 09:55:42,189 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:05:05,706 - train - INFO -     epoch          : 81
2025-10-16 10:05:05,707 - train - INFO -     loss           : 0.32321790718671045
2025-10-16 10:05:05,707 - train - INFO -     grad_norm      : 0.8345202321958061
2025-10-16 10:05:05,707 - train - INFO -     val_loss       : 0.2388677727431059
2025-10-16 10:05:05,707 - train - INFO -     val_CER_(Argmax): 0.07033447157901968
2025-10-16 10:05:05,707 - train - INFO -     val_WER_(Argmax): 0.22307846231609646
2025-10-16 10:05:05,707 - train - INFO -     val_WER        : 0.22307846231609646
2025-10-16 10:05:05,707 - train - INFO -     val_CER        : 0.0703199086136611
2025-10-16 10:05:05,707 - train - INFO -     test_loss      : 0.599141996429891
2025-10-16 10:05:05,708 - train - INFO -     test_CER_(Argmax): 0.174724708652118
2025-10-16 10:05:05,708 - train - INFO -     test_WER_(Argmax): 0.43903859863372224
2025-10-16 10:05:05,708 - train - INFO -     test_WER       : 0.43903859863372224
2025-10-16 10:05:05,708 - train - INFO -     test_CER       : 0.1747035251574909
2025-10-16 10:05:06,299 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 10:09:04,114 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:10:02,193 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:10:55,240 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:14:42,223 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:15:31,459 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:18:16,351 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:19:34,572 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:28:09,798 - train - INFO -     epoch          : 82
2025-10-16 10:28:09,799 - train - INFO -     loss           : 0.3183249425348924
2025-10-16 10:28:09,799 - train - INFO -     grad_norm      : 0.8161137418531293
2025-10-16 10:28:09,799 - train - INFO -     val_loss       : 0.2384590067985383
2025-10-16 10:28:09,799 - train - INFO -     val_CER_(Argmax): 0.07017255953778744
2025-10-16 10:28:09,799 - train - INFO -     val_WER_(Argmax): 0.22131364034164988
2025-10-16 10:28:09,799 - train - INFO -     val_WER        : 0.22131364034164988
2025-10-16 10:28:09,800 - train - INFO -     val_CER        : 0.07015799657242883
2025-10-16 10:28:09,800 - train - INFO -     test_loss      : 0.5989029520020193
2025-10-16 10:28:09,800 - train - INFO -     test_CER_(Argmax): 0.1743205254276692
2025-10-16 10:28:09,800 - train - INFO -     test_WER_(Argmax): 0.43704721422289666
2025-10-16 10:28:09,800 - train - INFO -     test_WER       : 0.43704721422289666
2025-10-16 10:28:09,800 - train - INFO -     test_CER       : 0.1743163534871922
2025-10-16 10:28:10,392 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 10:30:51,295 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:32:11,943 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:33:27,960 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:36:33,747 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:37:19,556 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:40:31,804 - train - WARNING - OOM on batch. Skipping batch.
2025-10-16 10:51:18,473 - train - INFO -     epoch          : 83
2025-10-16 10:51:18,473 - train - INFO -     loss           : 0.3176834620722574
2025-10-16 10:51:18,473 - train - INFO -     grad_norm      : 0.8232347652241213
2025-10-16 10:51:18,474 - train - INFO -     val_loss       : 0.23727865584871985
2025-10-16 10:51:18,474 - train - INFO -     val_CER_(Argmax): 0.07039769349766453
2025-10-16 10:51:18,474 - train - INFO -     val_WER_(Argmax): 0.2212025348655912
2025-10-16 10:51:18,474 - train - INFO -     val_WER        : 0.2212025348655912
2025-10-16 10:51:18,474 - train - INFO -     val_CER        : 0.07038313053230592
2025-10-16 10:51:18,474 - train - INFO -     test_loss      : 0.5976807195313123
2025-10-16 10:51:18,474 - train - INFO -     test_CER_(Argmax): 0.17417757347516163
2025-10-16 10:51:18,474 - train - INFO -     test_WER_(Argmax): 0.4383814222677989
2025-10-16 10:51:18,474 - train - INFO -     test_WER       : 0.4383814222677989
2025-10-16 10:51:18,474 - train - INFO -     test_CER       : 0.1741524139310583
2025-10-16 10:51:19,085 - train - INFO - Saving current best: model_best.pth ...
2025-10-16 10:51:40,238 - train - INFO - Saving model on keyboard interrupt
2025-10-16 10:51:40,720 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch84.pth ...