diff --git "a/info.log" "b/info.log"
new file mode 100644--- /dev/null
+++ "b/info.log"
@@ -0,0 +1,3454 @@
+2025-10-14 02:33:37,074 - train - INFO - ConformerModel(
+  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
+  (dropout): Dropout(p=0.1, inplace=False)
+  (conformer_blocks): Sequential(
+    (0): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (1): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (2): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (3): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (4): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (5): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (6): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (7): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (8): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (9): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+  )
+  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
+)
+2025-10-14 02:41:40,845 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 02:43:53,269 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 02:53:22,675 - train - INFO -     epoch          : 1
+2025-10-14 02:53:22,676 - train - INFO -     loss           : 1.8004077727144414
+2025-10-14 02:53:22,676 - train - INFO -     grad_norm      : 1.1968199670916857
+2025-10-14 02:53:22,676 - train - INFO -     val_loss       : 1.467006968049442
+2025-10-14 02:53:22,676 - train - INFO -     val_CER_(Argmax): 0.46757403776657935
+2025-10-14 02:53:22,676 - train - INFO -     val_WER_(Argmax): 0.91038943818923
+2025-10-14 02:53:22,676 - train - INFO -     val_WER        : 0.91038943818923
+2025-10-14 02:53:22,677 - train - INFO -     val_CER        : 0.4676158105801009
+2025-10-14 02:53:22,677 - train - INFO -     test_loss      : 1.430062472820282
+2025-10-14 02:53:22,677 - train - INFO -     test_CER_(Argmax): 0.4589772069767894
+2025-10-14 02:53:22,677 - train - INFO -     test_WER_(Argmax): 0.906752747897352
+2025-10-14 02:53:22,677 - train - INFO -     test_WER       : 0.906752747897352
+2025-10-14 02:53:22,677 - train - INFO -     test_CER       : 0.45909848600936254
+2025-10-14 02:53:23,214 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 03:03:20,978 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 03:05:39,207 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 03:13:20,217 - train - INFO -     epoch          : 2
+2025-10-14 03:13:20,217 - train - INFO -     loss           : 0.9497057100636276
+2025-10-14 03:13:20,217 - train - INFO -     grad_norm      : 1.2964627569045253
+2025-10-14 03:13:20,218 - train - INFO -     val_loss       : 0.9703210683429943
+2025-10-14 03:13:20,218 - train - INFO -     val_CER_(Argmax): 0.3104969995818503
+2025-10-14 03:13:20,218 - train - INFO -     val_WER_(Argmax): 0.7484133288798358
+2025-10-14 03:13:20,218 - train - INFO -     val_WER        : 0.7484133288798358
+2025-10-14 03:13:20,218 - train - INFO -     val_CER        : 0.30930462548815907
+2025-10-14 03:13:20,218 - train - INFO -     test_loss      : 0.9425025051686822
+2025-10-14 03:13:20,218 - train - INFO -     test_CER_(Argmax): 0.30274019803097907
+2025-10-14 03:13:20,218 - train - INFO -     test_WER_(Argmax): 0.7372494591821148
+2025-10-14 03:13:20,218 - train - INFO -     test_WER       : 0.7372494591821148
+2025-10-14 03:13:20,219 - train - INFO -     test_CER       : 0.30157728834330844
+2025-10-14 03:13:20,885 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 03:25:20,451 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 03:33:10,510 - train - INFO -     epoch          : 3
+2025-10-14 03:33:10,510 - train - INFO -     loss           : 0.7622273603081703
+2025-10-14 03:33:10,510 - train - INFO -     grad_norm      : 1.1402055078744888
+2025-10-14 03:33:10,511 - train - INFO -     val_loss       : 0.8829054685199962
+2025-10-14 03:33:10,511 - train - INFO -     val_CER_(Argmax): 0.28195997427460867
+2025-10-14 03:33:10,511 - train - INFO -     val_WER_(Argmax): 0.686879415725692
+2025-10-14 03:33:10,511 - train - INFO -     val_WER        : 0.686879415725692
+2025-10-14 03:33:10,511 - train - INFO -     val_CER        : 0.28205835407842134
+2025-10-14 03:33:10,511 - train - INFO -     test_loss      : 0.8557483960942525
+2025-10-14 03:33:10,511 - train - INFO -     test_CER_(Argmax): 0.2709563942448364
+2025-10-14 03:33:10,511 - train - INFO -     test_WER_(Argmax): 0.6692670294343694
+2025-10-14 03:33:10,511 - train - INFO -     test_WER       : 0.6692670294343694
+2025-10-14 03:33:10,512 - train - INFO -     test_CER       : 0.27099345931346924
+2025-10-14 03:33:11,148 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 03:53:06,907 - train - INFO -     epoch          : 4
+2025-10-14 03:53:06,908 - train - INFO -     loss           : 0.602354964017868
+2025-10-14 03:53:06,908 - train - INFO -     grad_norm      : 0.8039740589261055
+2025-10-14 03:53:06,908 - train - INFO -     val_loss       : 0.7007653839447919
+2025-10-14 03:53:06,908 - train - INFO -     val_CER_(Argmax): 0.22225459871101402
+2025-10-14 03:53:06,908 - train - INFO -     val_WER_(Argmax): 0.5930371723301392
+2025-10-14 03:53:06,908 - train - INFO -     val_WER        : 0.5930371723301392
+2025-10-14 03:53:06,908 - train - INFO -     val_CER        : 0.22210362264174635
+2025-10-14 03:53:06,908 - train - INFO -     test_loss      : 0.6907694921260927
+2025-10-14 03:53:06,908 - train - INFO -     test_CER_(Argmax): 0.2163203087967603
+2025-10-14 03:53:06,909 - train - INFO -     test_WER_(Argmax): 0.5772301195235712
+2025-10-14 03:53:06,909 - train - INFO -     test_WER       : 0.5772301195235712
+2025-10-14 03:53:06,909 - train - INFO -     test_CER       : 0.21606124644889366
+2025-10-14 03:53:07,539 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 03:58:05,821 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 04:13:08,317 - train - INFO -     epoch          : 5
+2025-10-14 04:13:08,318 - train - INFO -     loss           : 0.5589919736981392
+2025-10-14 04:13:08,318 - train - INFO -     grad_norm      : 0.6693760113418102
+2025-10-14 04:13:08,318 - train - INFO -     val_loss       : 0.6744126432082233
+2025-10-14 04:13:08,318 - train - INFO -     val_CER_(Argmax): 0.21458751555183747
+2025-10-14 04:13:08,319 - train - INFO -     val_WER_(Argmax): 0.5772959000644565
+2025-10-14 04:13:08,319 - train - INFO -     val_WER        : 0.5772959000644565
+2025-10-14 04:13:08,319 - train - INFO -     val_CER        : 0.2145634022145982
+2025-10-14 04:13:08,319 - train - INFO -     test_loss      : 0.6590640392245316
+2025-10-14 04:13:08,319 - train - INFO -     test_CER_(Argmax): 0.20839209387247756
+2025-10-14 04:13:08,319 - train - INFO -     test_WER_(Argmax): 0.5701414952271677
+2025-10-14 04:13:08,319 - train - INFO -     test_WER       : 0.5701414952271677
+2025-10-14 04:13:08,320 - train - INFO -     test_CER       : 0.20839523910387514
+2025-10-14 04:13:08,988 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 04:14:24,248 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 04:24:28,763 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 04:33:06,709 - train - INFO -     epoch          : 6
+2025-10-14 04:33:06,709 - train - INFO -     loss           : 0.510627674460411
+2025-10-14 04:33:06,709 - train - INFO -     grad_norm      : 0.5528287927806378
+2025-10-14 04:33:06,710 - train - INFO -     val_loss       : 0.6022388451239642
+2025-10-14 04:33:06,710 - train - INFO -     val_CER_(Argmax): 0.18296962699849365
+2025-10-14 04:33:06,710 - train - INFO -     val_WER_(Argmax): 0.5093214369543156
+2025-10-14 04:33:06,710 - train - INFO -     val_WER        : 0.5093214369543156
+2025-10-14 04:33:06,710 - train - INFO -     val_CER        : 0.18261087096328094
+2025-10-14 04:33:06,710 - train - INFO -     test_loss      : 0.6027363142589244
+2025-10-14 04:33:06,710 - train - INFO -     test_CER_(Argmax): 0.1820291797987071
+2025-10-14 04:33:06,710 - train - INFO -     test_WER_(Argmax): 0.5047745633151853
+2025-10-14 04:33:06,710 - train - INFO -     test_WER       : 0.5047745633151853
+2025-10-14 04:33:06,710 - train - INFO -     test_CER       : 0.18158809112179367
+2025-10-14 04:33:07,385 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 04:42:03,191 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 04:53:08,991 - train - INFO -     epoch          : 7
+2025-10-14 04:53:08,992 - train - INFO -     loss           : 0.49359407886188833
+2025-10-14 04:53:08,992 - train - INFO -     grad_norm      : 0.5190753033712282
+2025-10-14 04:53:08,992 - train - INFO -     val_loss       : 0.6014730471021988
+2025-10-14 04:53:08,992 - train - INFO -     val_CER_(Argmax): 0.181704769539811
+2025-10-14 04:53:08,993 - train - INFO -     val_WER_(Argmax): 0.5059981667294224
+2025-10-14 04:53:08,993 - train - INFO -     val_WER        : 0.5059981667294224
+2025-10-14 04:53:08,993 - train - INFO -     val_CER        : 0.1815978525961797
+2025-10-14 04:53:08,993 - train - INFO -     test_loss      : 0.5996043998293761
+2025-10-14 04:53:08,993 - train - INFO -     test_CER_(Argmax): 0.1791391732758246
+2025-10-14 04:53:08,993 - train - INFO -     test_WER_(Argmax): 0.4997126493658538
+2025-10-14 04:53:08,993 - train - INFO -     test_WER       : 0.4997126493658538
+2025-10-14 04:53:08,994 - train - INFO -     test_CER       : 0.179074904175568
+2025-10-14 04:53:09,676 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 04:58:15,378 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 05:13:07,029 - train - INFO -     epoch          : 8
+2025-10-14 05:13:07,030 - train - INFO -     loss           : 0.46707881450653077
+2025-10-14 05:13:07,030 - train - INFO -     grad_norm      : 0.48182750105857847
+2025-10-14 05:13:07,030 - train - INFO -     val_loss       : 0.6367673782741322
+2025-10-14 05:13:07,030 - train - INFO -     val_CER_(Argmax): 0.19087030186457948
+2025-10-14 05:13:07,030 - train - INFO -     val_WER_(Argmax): 0.5220166510054483
+2025-10-14 05:13:07,030 - train - INFO -     val_WER        : 0.5220166510054483
+2025-10-14 05:13:07,030 - train - INFO -     val_CER        : 0.190838427285644
+2025-10-14 05:13:07,031 - train - INFO -     test_loss      : 0.6175299279573487
+2025-10-14 05:13:07,031 - train - INFO -     test_CER_(Argmax): 0.18446621558922244
+2025-10-14 05:13:07,031 - train - INFO -     test_WER_(Argmax): 0.5084007759551228
+2025-10-14 05:13:07,031 - train - INFO -     test_WER       : 0.5084007759551228
+2025-10-14 05:13:07,031 - train - INFO -     test_CER       : 0.184502159264417
+2025-10-14 05:20:54,798 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 05:33:02,433 - train - INFO -     epoch          : 9
+2025-10-14 05:33:02,434 - train - INFO -     loss           : 0.45376209877244195
+2025-10-14 05:33:02,434 - train - INFO -     grad_norm      : 0.45064780400626026
+2025-10-14 05:33:02,435 - train - INFO -     val_loss       : 0.5756007843157824
+2025-10-14 05:33:02,435 - train - INFO -     val_CER_(Argmax): 0.16914851214323548
+2025-10-14 05:33:02,435 - train - INFO -     val_WER_(Argmax): 0.47379946747058904
+2025-10-14 05:33:02,435 - train - INFO -     val_WER        : 0.47379946747058904
+2025-10-14 05:33:02,435 - train - INFO -     val_CER        : 0.16900721738636365
+2025-10-14 05:33:02,435 - train - INFO -     test_loss      : 0.5721487871757368
+2025-10-14 05:33:02,436 - train - INFO -     test_CER_(Argmax): 0.16664663014275632
+2025-10-14 05:33:02,436 - train - INFO -     test_WER_(Argmax): 0.4681725557437241
+2025-10-14 05:33:02,436 - train - INFO -     test_WER       : 0.4681725557437241
+2025-10-14 05:33:02,436 - train - INFO -     test_CER       : 0.16649619330717766
+2025-10-14 05:33:03,081 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 05:33:14,650 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 05:43:25,713 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 05:52:54,270 - train - INFO -     epoch          : 10
+2025-10-14 05:52:54,271 - train - INFO -     loss           : 0.45315693199634555
+2025-10-14 05:52:54,271 - train - INFO -     grad_norm      : 0.4713628640770912
+2025-10-14 05:52:54,271 - train - INFO -     val_loss       : 0.5362565857522628
+2025-10-14 05:52:54,271 - train - INFO -     val_CER_(Argmax): 0.16329148533434748
+2025-10-14 05:52:54,271 - train - INFO -     val_WER_(Argmax): 0.46387223589891163
+2025-10-14 05:52:54,271 - train - INFO -     val_WER        : 0.46387223589891163
+2025-10-14 05:52:54,271 - train - INFO -     val_CER        : 0.16286558348739288
+2025-10-14 05:52:54,271 - train - INFO -     test_loss      : 0.5317229174259233
+2025-10-14 05:52:54,271 - train - INFO -     test_CER_(Argmax): 0.16059709717785184
+2025-10-14 05:52:54,271 - train - INFO -     test_WER_(Argmax): 0.45693877851173287
+2025-10-14 05:52:54,272 - train - INFO -     test_WER       : 0.45693877851173287
+2025-10-14 05:52:54,272 - train - INFO -     test_CER       : 0.1603862774668369
+2025-10-14 05:52:54,905 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 06:12:35,761 - train - INFO -     epoch          : 11
+2025-10-14 06:12:35,762 - train - INFO -     loss           : 0.39052830457687376
+2025-10-14 06:12:35,762 - train - INFO -     grad_norm      : 0.4450642728060484
+2025-10-14 06:12:35,762 - train - INFO -     val_loss       : 0.51932592532214
+2025-10-14 06:12:35,762 - train - INFO -     val_CER_(Argmax): 0.15941955542976455
+2025-10-14 06:12:35,762 - train - INFO -     val_WER_(Argmax): 0.45788092649283985
+2025-10-14 06:12:35,763 - train - INFO -     val_WER        : 0.45788092649283985
+2025-10-14 06:12:35,763 - train - INFO -     val_CER        : 0.15936533181396875
+2025-10-14 06:12:35,763 - train - INFO -     test_loss      : 0.5151232182979584
+2025-10-14 06:12:35,763 - train - INFO -     test_CER_(Argmax): 0.15455427775801173
+2025-10-14 06:12:35,763 - train - INFO -     test_WER_(Argmax): 0.44637718160637985
+2025-10-14 06:12:35,763 - train - INFO -     test_WER       : 0.44637718160637985
+2025-10-14 06:12:35,763 - train - INFO -     test_CER       : 0.15453517470721737
+2025-10-14 06:12:36,429 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 06:13:48,904 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 06:23:40,844 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 06:32:20,518 - train - INFO -     epoch          : 12
+2025-10-14 06:32:20,518 - train - INFO -     loss           : 0.34388998910784724
+2025-10-14 06:32:20,518 - train - INFO -     grad_norm      : 0.40590107560157773
+2025-10-14 06:32:20,518 - train - INFO -     val_loss       : 0.5381783243487863
+2025-10-14 06:32:20,518 - train - INFO -     val_CER_(Argmax): 0.16583726089869136
+2025-10-14 06:32:20,519 - train - INFO -     val_WER_(Argmax): 0.465543927183187
+2025-10-14 06:32:20,519 - train - INFO -     val_WER        : 0.465543927183187
+2025-10-14 06:32:20,519 - train - INFO -     val_CER        : 0.16531468827653925
+2025-10-14 06:32:20,519 - train - INFO -     test_loss      : 0.5295760235408458
+2025-10-14 06:32:20,519 - train - INFO -     test_CER_(Argmax): 0.16174688828818035
+2025-10-14 06:32:20,519 - train - INFO -     test_WER_(Argmax): 0.4550225790980045
+2025-10-14 06:32:20,519 - train - INFO -     test_WER       : 0.4550225790980045
+2025-10-14 06:32:20,519 - train - INFO -     test_CER       : 0.16122770436209705
+2025-10-14 06:43:29,714 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 06:52:09,495 - train - INFO -     epoch          : 13
+2025-10-14 06:52:09,496 - train - INFO -     loss           : 0.34937265180051325
+2025-10-14 06:52:09,496 - train - INFO -     grad_norm      : 0.4043967518210411
+2025-10-14 06:52:09,496 - train - INFO -     val_loss       : 0.48908867941183204
+2025-10-14 06:52:09,496 - train - INFO -     val_CER_(Argmax): 0.14971865099250545
+2025-10-14 06:52:09,497 - train - INFO -     val_WER_(Argmax): 0.4332590763851437
+2025-10-14 06:52:09,497 - train - INFO -     val_WER        : 0.4332590763851437
+2025-10-14 06:52:09,497 - train - INFO -     val_CER        : 0.1497014184247999
+2025-10-14 06:52:09,497 - train - INFO -     test_loss      : 0.49085995009759575
+2025-10-14 06:52:09,497 - train - INFO -     test_CER_(Argmax): 0.1494535796558252
+2025-10-14 06:52:09,497 - train - INFO -     test_WER_(Argmax): 0.4310647728310606
+2025-10-14 06:52:09,497 - train - INFO -     test_WER       : 0.4310647728310606
+2025-10-14 06:52:09,497 - train - INFO -     test_CER       : 0.14945445213192635
+2025-10-14 06:52:10,157 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 06:57:44,296 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 07:11:49,105 - train - INFO -     epoch          : 14
+2025-10-14 07:11:49,105 - train - INFO -     loss           : 0.32730326041579244
+2025-10-14 07:11:49,105 - train - INFO -     grad_norm      : 0.37786272332072257
+2025-10-14 07:11:49,105 - train - INFO -     val_loss       : 0.5277743637561798
+2025-10-14 07:11:49,106 - train - INFO -     val_CER_(Argmax): 0.15338718155863898
+2025-10-14 07:11:49,106 - train - INFO -     val_WER_(Argmax): 0.44184830517379275
+2025-10-14 07:11:49,106 - train - INFO -     val_WER        : 0.44184830517379275
+2025-10-14 07:11:49,106 - train - INFO -     val_CER        : 0.15328479401941472
+2025-10-14 07:11:49,106 - train - INFO -     test_loss      : 0.5241630139147363
+2025-10-14 07:11:49,106 - train - INFO -     test_CER_(Argmax): 0.14972207345168487
+2025-10-14 07:11:49,106 - train - INFO -     test_WER_(Argmax): 0.43158279188478127
+2025-10-14 07:11:49,106 - train - INFO -     test_WER       : 0.43158279188478127
+2025-10-14 07:11:49,106 - train - INFO -     test_CER       : 0.14960003782834835
+2025-10-14 07:31:25,217 - train - INFO -     epoch          : 15
+2025-10-14 07:31:25,218 - train - INFO -     loss           : 0.3190571042895317
+2025-10-14 07:31:25,219 - train - INFO -     grad_norm      : 0.3733240906894207
+2025-10-14 07:31:25,219 - train - INFO -     val_loss       : 0.4872164645615746
+2025-10-14 07:31:25,219 - train - INFO -     val_CER_(Argmax): 0.14572484758853044
+2025-10-14 07:31:25,219 - train - INFO -     val_WER_(Argmax): 0.4191253071785101
+2025-10-14 07:31:25,219 - train - INFO -     val_WER        : 0.4191253071785101
+2025-10-14 07:31:25,219 - train - INFO -     val_CER        : 0.1452825863232472
+2025-10-14 07:31:25,219 - train - INFO -     test_loss      : 0.48767780676120664
+2025-10-14 07:31:25,219 - train - INFO -     test_CER_(Argmax): 0.1442184158052019
+2025-10-14 07:31:25,219 - train - INFO -     test_WER_(Argmax): 0.4156251226875968
+2025-10-14 07:31:25,219 - train - INFO -     test_WER       : 0.4156251226875968
+2025-10-14 07:31:25,220 - train - INFO -     test_CER       : 0.14397894549224005
+2025-10-14 07:31:25,873 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 07:32:07,397 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 07:38:29,332 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 07:51:09,085 - train - INFO -     epoch          : 16
+2025-10-14 07:51:09,085 - train - INFO -     loss           : 0.32288431376218796
+2025-10-14 07:51:09,085 - train - INFO -     grad_norm      : 0.3875794377923012
+2025-10-14 07:51:09,085 - train - INFO -     val_loss       : 0.4824349988909329
+2025-10-14 07:51:09,086 - train - INFO -     val_CER_(Argmax): 0.1440481174169628
+2025-10-14 07:51:09,086 - train - INFO -     val_WER_(Argmax): 0.41937533251399106
+2025-10-14 07:51:09,086 - train - INFO -     val_WER        : 0.41937533251399106
+2025-10-14 07:51:09,086 - train - INFO -     val_CER        : 0.14402863422008916
+2025-10-14 07:51:09,086 - train - INFO -     test_loss      : 0.4875093171509301
+2025-10-14 07:51:09,086 - train - INFO -     test_CER_(Argmax): 0.1435495187572233
+2025-10-14 07:51:09,086 - train - INFO -     test_WER_(Argmax): 0.41857261206475077
+2025-10-14 07:51:09,086 - train - INFO -     test_WER       : 0.41857261206475077
+2025-10-14 07:51:09,086 - train - INFO -     test_CER       : 0.14345600543528397
+2025-10-14 07:53:04,340 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 08:11:00,249 - train - INFO -     epoch          : 17
+2025-10-14 08:11:00,250 - train - INFO -     loss           : 0.3117878006398678
+2025-10-14 08:11:00,250 - train - INFO -     grad_norm      : 0.37129794418811796
+2025-10-14 08:11:00,250 - train - INFO -     val_loss       : 0.46727428611587074
+2025-10-14 08:11:00,251 - train - INFO -     val_CER_(Argmax): 0.1398674099185118
+2025-10-14 08:11:00,251 - train - INFO -     val_WER_(Argmax): 0.4029957532757304
+2025-10-14 08:11:00,251 - train - INFO -     val_WER        : 0.4029957532757304
+2025-10-14 08:11:00,251 - train - INFO -     val_CER        : 0.138428207923737
+2025-10-14 08:11:00,251 - train - INFO -     test_loss      : 0.4605345202655327
+2025-10-14 08:11:00,251 - train - INFO -     test_CER_(Argmax): 0.13763281168297406
+2025-10-14 08:11:00,251 - train - INFO -     test_WER_(Argmax): 0.40026093361768017
+2025-10-14 08:11:00,251 - train - INFO -     test_WER       : 0.40026093361768017
+2025-10-14 08:11:00,251 - train - INFO -     test_CER       : 0.13695235893427762
+2025-10-14 08:11:00,897 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 08:20:41,969 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 08:31:03,757 - train - INFO -     epoch          : 18
+2025-10-14 08:31:03,757 - train - INFO -     loss           : 0.3081890671846256
+2025-10-14 08:31:03,758 - train - INFO -     grad_norm      : 0.37016375235576726
+2025-10-14 08:31:03,758 - train - INFO -     val_loss       : 0.4678590574685265
+2025-10-14 08:31:03,758 - train - INFO -     val_CER_(Argmax): 0.13379779068102082
+2025-10-14 08:31:03,758 - train - INFO -     val_WER_(Argmax): 0.3922874175956862
+2025-10-14 08:31:03,758 - train - INFO -     val_WER        : 0.3922874175956862
+2025-10-14 08:31:03,758 - train - INFO -     val_CER        : 0.13369347277137167
+2025-10-14 08:31:03,758 - train - INFO -     test_loss      : 0.4725317922307224
+2025-10-14 08:31:03,758 - train - INFO -     test_CER_(Argmax): 0.13567544579262084
+2025-10-14 08:31:03,758 - train - INFO -     test_WER_(Argmax): 0.3943974565677792
+2025-10-14 08:31:03,758 - train - INFO -     test_WER       : 0.3943974565677792
+2025-10-14 08:31:03,759 - train - INFO -     test_CER       : 0.13559223799657805
+2025-10-14 08:31:04,419 - train - INFO - Saving current best: model_best.pth ...
+2025-10-14 08:36:17,211 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 08:50:46,825 - train - INFO -     epoch          : 19
+2025-10-14 08:50:46,825 - train - INFO -     loss           : 0.2682218397408724
+2025-10-14 08:50:46,825 - train - INFO -     grad_norm      : 0.32187166772782805
+2025-10-14 08:50:46,826 - train - INFO -     val_loss       : 0.47410393462461586
+2025-10-14 08:50:46,826 - train - INFO -     val_CER_(Argmax): 0.14253732992734036
+2025-10-14 08:50:46,826 - train - INFO -     val_WER_(Argmax): 0.409711592751532
+2025-10-14 08:50:46,826 - train - INFO -     val_WER        : 0.409711592751532
+2025-10-14 08:50:46,826 - train - INFO -     val_CER        : 0.14251998090573448
+2025-10-14 08:50:46,826 - train - INFO -     test_loss      : 0.470459710170583
+2025-10-14 08:50:46,826 - train - INFO -     test_CER_(Argmax): 0.14044063030058693
+2025-10-14 08:50:46,826 - train - INFO -     test_WER_(Argmax): 0.40506228117177334
+2025-10-14 08:50:46,826 - train - INFO -     test_WER       : 0.40506228117177334
+2025-10-14 08:50:46,827 - train - INFO -     test_CER       : 0.1404145806112171
+2025-10-14 08:53:19,357 - urllib3.connectionpool - WARNING - Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ReadTimeoutError("HTTPSConnectionPool(host='www.comet.com', port=443): Read timed out. (read timeout=10)")': /clientlib/status-report/update
+2025-10-14 08:53:21,310 - urllib3.connectionpool - WARNING - Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ReadTimeoutError("HTTPSConnectionPool(host='www.comet.com', port=443): Read timed out. (read timeout=10)")': /clientlib/rest/v2/write/experiment/output
+2025-10-14 08:57:22,238 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 09:02:29,246 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 09:10:42,467 - train - INFO -     epoch          : 20
+2025-10-14 09:10:42,468 - train - INFO -     loss           : 0.26297851376235487
+2025-10-14 09:10:42,468 - train - INFO -     grad_norm      : 0.36333887211978433
+2025-10-14 09:10:42,468 - train - INFO -     val_loss       : 0.498136385048137
+2025-10-14 09:10:42,468 - train - INFO -     val_CER_(Argmax): 0.1409829398308886
+2025-10-14 09:10:42,468 - train - INFO -     val_WER_(Argmax): 0.40756040553729267
+2025-10-14 09:10:42,468 - train - INFO -     val_WER        : 0.40756040553729267
+2025-10-14 09:10:42,468 - train - INFO -     val_CER        : 0.14095097487519742
+2025-10-14 09:10:42,468 - train - INFO -     test_loss      : 0.48370018637761836
+2025-10-14 09:10:42,469 - train - INFO -     test_CER_(Argmax): 0.1360583083333615
+2025-10-14 09:10:42,469 - train - INFO -     test_WER_(Argmax): 0.39381178720670307
+2025-10-14 09:10:42,469 - train - INFO -     test_WER       : 0.39381178720670307
+2025-10-14 09:10:42,469 - train - INFO -     test_CER       : 0.1360182842490938
+2025-10-14 09:10:42,992 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch20.pth ...
+2025-10-14 09:11:48,738 - train - INFO - Saving model on keyboard interrupt
+2025-10-14 09:11:49,259 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch21.pth ...
+2025-10-14 23:15:37,958 - train - INFO - ConformerModel(
+  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
+  (dropout): Dropout(p=0.1, inplace=False)
+  (conformer_blocks): Sequential(
+    (0): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (1): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (2): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (3): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (4): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (5): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (6): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (7): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (8): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (9): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+  )
+  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
+)
+2025-10-14 23:15:37,974 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch21.pth ...
+2025-10-14 23:15:38,389 - train - INFO - Checkpoint loaded. Resume training from epoch 22
+2025-10-14 23:23:52,739 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 23:26:06,300 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 23:36:17,410 - train - INFO -     epoch          : 22
+2025-10-14 23:36:17,411 - train - INFO -     loss           : 0.2934816901129906
+2025-10-14 23:36:17,411 - train - INFO -     grad_norm      : 0.3821600427982783
+2025-10-14 23:36:17,411 - train - INFO -     val_loss       : 0.4874178209725548
+2025-10-14 23:36:17,411 - train - INFO -     val_CER_(Argmax): 0.13945358821010811
+2025-10-14 23:36:17,411 - train - INFO -     val_WER_(Argmax): 0.40280195242601624
+2025-10-14 23:36:17,412 - train - INFO -     val_WER        : 0.40280195242601624
+2025-10-14 23:36:17,412 - train - INFO -     val_CER        : 0.13942245845447518
+2025-10-14 23:36:17,412 - train - INFO -     test_loss      : 0.48479962312593694
+2025-10-14 23:36:17,412 - train - INFO -     test_CER_(Argmax): 0.13631144181611937
+2025-10-14 23:36:17,412 - train - INFO -     test_WER_(Argmax): 0.3958590163824199
+2025-10-14 23:36:17,412 - train - INFO -     test_WER       : 0.3958590163824199
+2025-10-14 23:36:17,412 - train - INFO -     test_CER       : 0.13629110738251396
+2025-10-14 23:46:20,954 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 23:48:42,744 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-14 23:56:39,785 - train - INFO -     epoch          : 23
+2025-10-14 23:56:39,786 - train - INFO -     loss           : 0.2551273109775093
+2025-10-14 23:56:39,786 - train - INFO -     grad_norm      : 0.3137171796368594
+2025-10-14 23:56:39,786 - train - INFO -     val_loss       : 0.46369018204071943
+2025-10-14 23:56:39,786 - train - INFO -     val_CER_(Argmax): 0.13684675847070465
+2025-10-14 23:56:39,786 - train - INFO -     val_WER_(Argmax): 0.39398508692774187
+2025-10-14 23:56:39,787 - train - INFO -     val_WER        : 0.39398508692774187
+2025-10-14 23:56:39,787 - train - INFO -     val_CER        : 0.13685407007272402
+2025-10-14 23:56:39,787 - train - INFO -     test_loss      : 0.4581556451029894
+2025-10-14 23:56:39,787 - train - INFO -     test_CER_(Argmax): 0.1350574156452121
+2025-10-14 23:56:39,787 - train - INFO -     test_WER_(Argmax): 0.3875261612050869
+2025-10-14 23:56:39,787 - train - INFO -     test_WER       : 0.3875261612050869
+2025-10-14 23:56:39,787 - train - INFO -     test_CER       : 0.13511500315245614
+2025-10-15 00:08:52,697 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 00:17:07,562 - train - INFO -     epoch          : 24
+2025-10-15 00:17:07,562 - train - INFO -     loss           : 0.245378298163414
+2025-10-15 00:17:07,563 - train - INFO -     grad_norm      : 0.3387820851057768
+2025-10-15 00:17:07,563 - train - INFO -     val_loss       : 0.5287014912156498
+2025-10-15 00:17:07,563 - train - INFO -     val_CER_(Argmax): 0.1539106275040438
+2025-10-15 00:17:07,563 - train - INFO -     val_WER_(Argmax): 0.42460000884399807
+2025-10-15 00:17:07,563 - train - INFO -     val_WER        : 0.42460000884399807
+2025-10-15 00:17:07,563 - train - INFO -     val_CER        : 0.15297842974722475
+2025-10-15 00:17:07,563 - train - INFO -     test_loss      : 0.5029914589916787
+2025-10-15 00:17:07,563 - train - INFO -     test_CER_(Argmax): 0.14657635076122771
+2025-10-15 00:17:07,564 - train - INFO -     test_WER_(Argmax): 0.41203503318541046
+2025-10-15 00:17:07,564 - train - INFO -     test_WER       : 0.41203503318541046
+2025-10-15 00:17:07,564 - train - INFO -     test_CER       : 0.1457842404666151
+2025-10-15 00:37:36,383 - train - INFO -     epoch          : 25
+2025-10-15 00:37:36,384 - train - INFO -     loss           : 0.23428807348012926
+2025-10-15 00:37:36,384 - train - INFO -     grad_norm      : 0.3239304776489735
+2025-10-15 00:37:36,384 - train - INFO -     val_loss       : 0.44715122440282035
+2025-10-15 00:37:36,384 - train - INFO -     val_CER_(Argmax): 0.12522702466393065
+2025-10-15 00:37:36,384 - train - INFO -     val_WER_(Argmax): 0.36798136361847184
+2025-10-15 00:37:36,385 - train - INFO -     val_WER        : 0.36798136361847184
+2025-10-15 00:37:36,385 - train - INFO -     val_CER        : 0.12516017792671708
+2025-10-15 00:37:36,385 - train - INFO -     test_loss      : 0.4525063423121848
+2025-10-15 00:37:36,385 - train - INFO -     test_CER_(Argmax): 0.12637926517100662
+2025-10-15 00:37:36,385 - train - INFO -     test_WER_(Argmax): 0.3720632078294957
+2025-10-15 00:37:36,385 - train - INFO -     test_WER       : 0.3720632078294957
+2025-10-15 00:37:36,385 - train - INFO -     test_CER       : 0.1263555695987811
+2025-10-15 00:37:36,962 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 00:42:33,247 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 00:57:31,683 - train - INFO -     epoch          : 26
+2025-10-15 00:57:31,684 - train - INFO -     loss           : 0.21956679798662662
+2025-10-15 00:57:31,684 - train - INFO -     grad_norm      : 0.30377400361001494
+2025-10-15 00:57:31,684 - train - INFO -     val_loss       : 0.4440635372610653
+2025-10-15 00:57:31,684 - train - INFO -     val_CER_(Argmax): 0.12553994948531128
+2025-10-15 00:57:31,684 - train - INFO -     val_WER_(Argmax): 0.3683140692106527
+2025-10-15 00:57:31,684 - train - INFO -     val_WER        : 0.3683140692106527
+2025-10-15 00:57:31,685 - train - INFO -     val_CER        : 0.12547953415857194
+2025-10-15 00:57:31,685 - train - INFO -     test_loss      : 0.43620326751615945
+2025-10-15 00:57:31,685 - train - INFO -     test_CER_(Argmax): 0.12184782350276652
+2025-10-15 00:57:31,685 - train - INFO -     test_WER_(Argmax): 0.36093858955137864
+2025-10-15 00:57:31,685 - train - INFO -     test_WER       : 0.36093858955137864
+2025-10-15 00:57:31,685 - train - INFO -     test_CER       : 0.12182641046616761
+2025-10-15 00:58:46,849 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 01:08:54,287 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 01:18:58,969 - train - INFO -     epoch          : 27
+2025-10-15 01:18:58,970 - train - INFO -     loss           : 0.23763787642121315
+2025-10-15 01:18:58,970 - train - INFO -     grad_norm      : 0.33571442432701587
+2025-10-15 01:18:58,970 - train - INFO -     val_loss       : 0.43435747272828046
+2025-10-15 01:18:58,970 - train - INFO -     val_CER_(Argmax): 0.12460465956934305
+2025-10-15 01:18:58,970 - train - INFO -     val_WER_(Argmax): 0.3689147427735292
+2025-10-15 01:18:58,970 - train - INFO -     val_WER        : 0.3689147427735292
+2025-10-15 01:18:58,970 - train - INFO -     val_CER        : 0.12435221723652463
+2025-10-15 01:18:58,970 - train - INFO -     test_loss      : 0.42551243159829116
+2025-10-15 01:18:58,971 - train - INFO -     test_CER_(Argmax): 0.12051501557557807
+2025-10-15 01:18:58,971 - train - INFO -     test_WER_(Argmax): 0.35871069551154516
+2025-10-15 01:18:58,971 - train - INFO -     test_WER       : 0.35871069551154516
+2025-10-15 01:18:58,971 - train - INFO -     test_CER       : 0.12040524447063847
+2025-10-15 01:28:06,616 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 01:40:43,152 - train - INFO -     epoch          : 28
+2025-10-15 01:40:43,152 - train - INFO -     loss           : 0.2343284837414871
+2025-10-15 01:40:43,152 - train - INFO -     grad_norm      : 0.32623336228293986
+2025-10-15 01:40:43,152 - train - INFO -     val_loss       : 0.45126108702491313
+2025-10-15 01:40:43,153 - train - INFO -     val_CER_(Argmax): 0.12340088072525852
+2025-10-15 01:40:43,153 - train - INFO -     val_WER_(Argmax): 0.36056492495645576
+2025-10-15 01:40:43,153 - train - INFO -     val_WER        : 0.36056492495645576
+2025-10-15 01:40:43,153 - train - INFO -     val_CER        : 0.12344191243753086
+2025-10-15 01:40:43,153 - train - INFO -     test_loss      : 0.44489473068132634
+2025-10-15 01:40:43,153 - train - INFO -     test_CER_(Argmax): 0.12100421883695911
+2025-10-15 01:40:43,153 - train - INFO -     test_WER_(Argmax): 0.3557473436617356
+2025-10-15 01:40:43,153 - train - INFO -     test_WER       : 0.3557473436617356
+2025-10-15 01:40:43,153 - train - INFO -     test_CER       : 0.1209957554068205
+2025-10-15 01:40:43,788 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 01:45:52,826 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 02:02:15,203 - train - INFO -     epoch          : 29
+2025-10-15 02:02:15,204 - train - INFO -     loss           : 0.2276789116859436
+2025-10-15 02:02:15,204 - train - INFO -     grad_norm      : 0.31875048592686656
+2025-10-15 02:02:15,204 - train - INFO -     val_loss       : 0.4515169536366182
+2025-10-15 02:02:15,204 - train - INFO -     val_CER_(Argmax): 0.12343411279442047
+2025-10-15 02:02:15,205 - train - INFO -     val_WER_(Argmax): 0.35693396607175665
+2025-10-15 02:02:15,205 - train - INFO -     val_WER        : 0.35693396607175665
+2025-10-15 02:02:15,205 - train - INFO -     val_CER        : 0.12296479435758914
+2025-10-15 02:02:15,205 - train - INFO -     test_loss      : 0.4444568338917523
+2025-10-15 02:02:15,205 - train - INFO -     test_CER_(Argmax): 0.12155681713388337
+2025-10-15 02:02:15,205 - train - INFO -     test_WER_(Argmax): 0.355160702184518
+2025-10-15 02:02:15,206 - train - INFO -     test_WER       : 0.355160702184518
+2025-10-15 02:02:15,206 - train - INFO -     test_CER       : 0.1213823591345638
+2025-10-15 02:02:16,139 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 02:10:06,354 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 02:23:50,140 - train - INFO -     epoch          : 30
+2025-10-15 02:23:50,141 - train - INFO -     loss           : 0.23757737919912866
+2025-10-15 02:23:50,141 - train - INFO -     grad_norm      : 0.3481074444313145
+2025-10-15 02:23:50,141 - train - INFO -     val_loss       : 0.4355435743051417
+2025-10-15 02:23:50,141 - train - INFO -     val_CER_(Argmax): 0.12227846859888573
+2025-10-15 02:23:50,141 - train - INFO -     val_WER_(Argmax): 0.3600137657491089
+2025-10-15 02:23:50,141 - train - INFO -     val_WER        : 0.3600137657491089
+2025-10-15 02:23:50,142 - train - INFO -     val_CER        : 0.12224294816692473
+2025-10-15 02:23:50,142 - train - INFO -     test_loss      : 0.4234782213844904
+2025-10-15 02:23:50,142 - train - INFO -     test_CER_(Argmax): 0.11799567883835432
+2025-10-15 02:23:50,142 - train - INFO -     test_WER_(Argmax): 0.3509967284700314
+2025-10-15 02:23:50,142 - train - INFO -     test_WER       : 0.3509967284700314
+2025-10-15 02:23:50,142 - train - INFO -     test_CER       : 0.11798016735938993
+2025-10-15 02:23:50,653 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch30.pth ...
+2025-10-15 02:24:02,264 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 02:34:18,495 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 02:45:15,288 - train - INFO -     epoch          : 31
+2025-10-15 02:45:15,289 - train - INFO -     loss           : 0.2335624401271343
+2025-10-15 02:45:15,289 - train - INFO -     grad_norm      : 0.33499817200005055
+2025-10-15 02:45:15,289 - train - INFO -     val_loss       : 0.42463123097139244
+2025-10-15 02:45:15,289 - train - INFO -     val_CER_(Argmax): 0.1214074309645935
+2025-10-15 02:45:15,289 - train - INFO -     val_WER_(Argmax): 0.36004170998968105
+2025-10-15 02:45:15,289 - train - INFO -     val_WER        : 0.36004170998968105
+2025-10-15 02:45:15,289 - train - INFO -     val_CER        : 0.12133784581497396
+2025-10-15 02:45:15,289 - train - INFO -     test_loss      : 0.4196070029241283
+2025-10-15 02:45:15,289 - train - INFO -     test_CER_(Argmax): 0.1190913597673928
+2025-10-15 02:45:15,289 - train - INFO -     test_WER_(Argmax): 0.3543684771257035
+2025-10-15 02:45:15,289 - train - INFO -     test_WER       : 0.3543684771257035
+2025-10-15 02:45:15,290 - train - INFO -     test_CER       : 0.11909188803428304
+2025-10-15 03:06:34,594 - train - INFO -     epoch          : 32
+2025-10-15 03:06:34,595 - train - INFO -     loss           : 0.19390573374927045
+2025-10-15 03:06:34,595 - train - INFO -     grad_norm      : 0.2884246703982353
+2025-10-15 03:06:34,595 - train - INFO -     val_loss       : 0.4251282506129321
+2025-10-15 03:06:34,595 - train - INFO -     val_CER_(Argmax): 0.11977977920474925
+2025-10-15 03:06:34,596 - train - INFO -     val_WER_(Argmax): 0.35403802314681054
+2025-10-15 03:06:34,596 - train - INFO -     val_WER        : 0.35403802314681054
+2025-10-15 03:06:34,596 - train - INFO -     val_CER        : 0.11974593748907238
+2025-10-15 03:06:34,596 - train - INFO -     test_loss      : 0.4268707185983658
+2025-10-15 03:06:34,596 - train - INFO -     test_CER_(Argmax): 0.11750315678556099
+2025-10-15 03:06:34,596 - train - INFO -     test_WER_(Argmax): 0.34796513829846193
+2025-10-15 03:06:34,596 - train - INFO -     test_WER       : 0.34796513829846193
+2025-10-15 03:06:34,596 - train - INFO -     test_CER       : 0.11745897923149805
+2025-10-15 03:06:35,206 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 03:07:47,566 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 03:17:49,399 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 03:27:58,262 - train - INFO -     epoch          : 33
+2025-10-15 03:27:58,263 - train - INFO -     loss           : 0.18811449602246286
+2025-10-15 03:27:58,263 - train - INFO -     grad_norm      : 0.3027683352679014
+2025-10-15 03:27:58,263 - train - INFO -     val_loss       : 0.4447146780350629
+2025-10-15 03:27:58,263 - train - INFO -     val_CER_(Argmax): 0.1167911485471282
+2025-10-15 03:27:58,263 - train - INFO -     val_WER_(Argmax): 0.34777324203356125
+2025-10-15 03:27:58,263 - train - INFO -     val_WER        : 0.34777324203356125
+2025-10-15 03:27:58,264 - train - INFO -     val_CER        : 0.11672586478730562
+2025-10-15 03:27:58,264 - train - INFO -     test_loss      : 0.44641188295876105
+2025-10-15 03:27:58,264 - train - INFO -     test_CER_(Argmax): 0.11520872571090347
+2025-10-15 03:27:58,264 - train - INFO -     test_WER_(Argmax): 0.34454126380885003
+2025-10-15 03:27:58,264 - train - INFO -     test_WER       : 0.34454126380885003
+2025-10-15 03:27:58,264 - train - INFO -     test_CER       : 0.11515496969675332
+2025-10-15 03:27:58,876 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 03:39:06,057 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 03:49:07,853 - train - INFO -     epoch          : 34
+2025-10-15 03:49:07,854 - train - INFO -     loss           : 0.19895173616707326
+2025-10-15 03:49:07,854 - train - INFO -     grad_norm      : 0.3446432762593031
+2025-10-15 03:49:07,854 - train - INFO -     val_loss       : 0.438978297920788
+2025-10-15 03:49:07,854 - train - INFO -     val_CER_(Argmax): 0.12138526768120507
+2025-10-15 03:49:07,854 - train - INFO -     val_WER_(Argmax): 0.3567880885491568
+2025-10-15 03:49:07,854 - train - INFO -     val_WER        : 0.3567880885491568
+2025-10-15 03:49:07,855 - train - INFO -     val_CER        : 0.12133834485438902
+2025-10-15 03:49:07,855 - train - INFO -     test_loss      : 0.4366752952337265
+2025-10-15 03:49:07,855 - train - INFO -     test_CER_(Argmax): 0.11889285769529587
+2025-10-15 03:49:07,855 - train - INFO -     test_WER_(Argmax): 0.3499597095170695
+2025-10-15 03:49:07,855 - train - INFO -     test_WER       : 0.3499597095170695
+2025-10-15 03:49:07,855 - train - INFO -     test_CER       : 0.11886283480129935
+2025-10-15 03:54:43,121 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 04:10:10,751 - train - INFO -     epoch          : 35
+2025-10-15 04:10:10,752 - train - INFO -     loss           : 0.18583452805876732
+2025-10-15 04:10:10,752 - train - INFO -     grad_norm      : 0.2995685636997223
+2025-10-15 04:10:10,752 - train - INFO -     val_loss       : 0.4410898643381455
+2025-10-15 04:10:10,752 - train - INFO -     val_CER_(Argmax): 0.11951493903695873
+2025-10-15 04:10:10,752 - train - INFO -     val_WER_(Argmax): 0.3514972872290408
+2025-10-15 04:10:10,752 - train - INFO -     val_WER        : 0.3514972872290408
+2025-10-15 04:10:10,752 - train - INFO -     val_CER        : 0.11950992517253951
+2025-10-15 04:10:10,752 - train - INFO -     test_loss      : 0.43057214050758175
+2025-10-15 04:10:10,753 - train - INFO -     test_CER_(Argmax): 0.11632696628536299
+2025-10-15 04:10:10,753 - train - INFO -     test_WER_(Argmax): 0.34279318429294053
+2025-10-15 04:10:10,753 - train - INFO -     test_WER       : 0.34279318429294053
+2025-10-15 04:10:10,753 - train - INFO -     test_CER       : 0.11630289332594408
+2025-10-15 04:10:11,240 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch35.pth ...
+2025-10-15 04:31:14,040 - train - INFO -     epoch          : 36
+2025-10-15 04:31:14,041 - train - INFO -     loss           : 0.20375656172633172
+2025-10-15 04:31:14,041 - train - INFO -     grad_norm      : 0.3344234121590853
+2025-10-15 04:31:14,041 - train - INFO -     val_loss       : 0.4425490912269143
+2025-10-15 04:31:14,042 - train - INFO -     val_CER_(Argmax): 0.12107380933012289
+2025-10-15 04:31:14,042 - train - INFO -     val_WER_(Argmax): 0.35624895795851813
+2025-10-15 04:31:14,042 - train - INFO -     val_WER        : 0.35624895795851813
+2025-10-15 04:31:14,042 - train - INFO -     val_CER        : 0.12094349863299866
+2025-10-15 04:31:14,042 - train - INFO -     test_loss      : 0.4421439832303582
+2025-10-15 04:31:14,042 - train - INFO -     test_CER_(Argmax): 0.1203417035792212
+2025-10-15 04:31:14,042 - train - INFO -     test_WER_(Argmax): 0.3539471761721452
+2025-10-15 04:31:14,042 - train - INFO -     test_WER       : 0.3539471761721452
+2025-10-15 04:31:14,042 - train - INFO -     test_CER       : 0.12014604748975138
+2025-10-15 04:31:55,800 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 04:38:23,938 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 04:52:26,034 - train - INFO -     epoch          : 37
+2025-10-15 04:52:26,035 - train - INFO -     loss           : 0.19795498616993426
+2025-10-15 04:52:26,035 - train - INFO -     grad_norm      : 0.3208508171141148
+2025-10-15 04:52:26,036 - train - INFO -     val_loss       : 0.4592762873453252
+2025-10-15 04:52:26,036 - train - INFO -     val_CER_(Argmax): 0.1294481027382875
+2025-10-15 04:52:26,036 - train - INFO -     val_WER_(Argmax): 0.3774834616766213
+2025-10-15 04:52:26,036 - train - INFO -     val_WER        : 0.3774834616766213
+2025-10-15 04:52:26,037 - train - INFO -     val_CER        : 0.1291189030153579
+2025-10-15 04:52:26,037 - train - INFO -     test_loss      : 0.45307019171191426
+2025-10-15 04:52:26,037 - train - INFO -     test_CER_(Argmax): 0.12595557229485574
+2025-10-15 04:52:26,037 - train - INFO -     test_WER_(Argmax): 0.36986993718068867
+2025-10-15 04:52:26,038 - train - INFO -     test_WER       : 0.36986993718068867
+2025-10-15 04:52:26,038 - train - INFO -     test_CER       : 0.12586377840829696
+2025-10-15 04:54:23,286 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 05:13:56,065 - train - INFO -     epoch          : 38
+2025-10-15 05:13:56,065 - train - INFO -     loss           : 0.19663494504988194
+2025-10-15 05:13:56,065 - train - INFO -     grad_norm      : 0.3321287203580141
+2025-10-15 05:13:56,066 - train - INFO -     val_loss       : 0.4284120608778561
+2025-10-15 05:13:56,066 - train - INFO -     val_CER_(Argmax): 0.11491743825574693
+2025-10-15 05:13:56,066 - train - INFO -     val_WER_(Argmax): 0.34405708317994527
+2025-10-15 05:13:56,066 - train - INFO -     val_WER        : 0.34405708317994527
+2025-10-15 05:13:56,066 - train - INFO -     val_CER        : 0.11487393368251399
+2025-10-15 05:13:56,066 - train - INFO -     test_loss      : 0.42923609730674
+2025-10-15 05:13:56,066 - train - INFO -     test_CER_(Argmax): 0.11365153750471271
+2025-10-15 05:13:56,066 - train - INFO -     test_WER_(Argmax): 0.34081102085255915
+2025-10-15 05:13:56,066 - train - INFO -     test_WER       : 0.34081102085255915
+2025-10-15 05:13:56,066 - train - INFO -     test_CER       : 0.11363074827669829
+2025-10-15 05:13:56,668 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 05:23:38,950 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 05:35:12,536 - train - INFO -     epoch          : 39
+2025-10-15 05:35:12,538 - train - INFO -     loss           : 0.18985670647728983
+2025-10-15 05:35:12,538 - train - INFO -     grad_norm      : 0.3164519183150488
+2025-10-15 05:35:12,538 - train - INFO -     val_loss       : 0.4361394615734325
+2025-10-15 05:35:12,538 - train - INFO -     val_CER_(Argmax): 0.11303924020618653
+2025-10-15 05:35:12,538 - train - INFO -     val_WER_(Argmax): 0.336099117293402
+2025-10-15 05:35:12,539 - train - INFO -     val_WER        : 0.336099117293402
+2025-10-15 05:35:12,539 - train - INFO -     val_CER        : 0.11297259763035278
+2025-10-15 05:35:12,539 - train - INFO -     test_loss      : 0.4445284605026245
+2025-10-15 05:35:12,539 - train - INFO -     test_CER_(Argmax): 0.11357265394174307
+2025-10-15 05:35:12,540 - train - INFO -     test_WER_(Argmax): 0.33712349274851
+2025-10-15 05:35:12,540 - train - INFO -     test_WER       : 0.33712349274851
+2025-10-15 05:35:12,540 - train - INFO -     test_CER       : 0.11356115257526862
+2025-10-15 05:35:13,651 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 05:40:26,534 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 05:56:08,877 - train - INFO -     epoch          : 40
+2025-10-15 05:56:08,878 - train - INFO -     loss           : 0.1758589457720518
+2025-10-15 05:56:08,878 - train - INFO -     grad_norm      : 0.3102634911984205
+2025-10-15 05:56:08,878 - train - INFO -     val_loss       : 0.43493274906102347
+2025-10-15 05:56:08,878 - train - INFO -     val_CER_(Argmax): 0.1127735913870602
+2025-10-15 05:56:08,878 - train - INFO -     val_WER_(Argmax): 0.3333324824481823
+2025-10-15 05:56:08,878 - train - INFO -     val_WER        : 0.3333324824481823
+2025-10-15 05:56:08,879 - train - INFO -     val_CER        : 0.11270196248096376
+2025-10-15 05:56:08,879 - train - INFO -     test_loss      : 0.4304133802652359
+2025-10-15 05:56:08,879 - train - INFO -     test_CER_(Argmax): 0.10964191141102644
+2025-10-15 05:56:08,879 - train - INFO -     test_WER_(Argmax): 0.3288502833506312
+2025-10-15 05:56:08,879 - train - INFO -     test_WER       : 0.3288502833506312
+2025-10-15 05:56:08,879 - train - INFO -     test_CER       : 0.10959007331535237
+2025-10-15 05:56:09,478 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 06:02:47,603 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 06:07:57,641 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 06:17:32,447 - train - INFO -     epoch          : 41
+2025-10-15 06:17:32,448 - train - INFO -     loss           : 0.1584758448600769
+2025-10-15 06:17:32,448 - train - INFO -     grad_norm      : 0.31132353775203225
+2025-10-15 06:17:32,448 - train - INFO -     val_loss       : 0.4486117271816029
+2025-10-15 06:17:32,449 - train - INFO -     val_CER_(Argmax): 0.11394301416811013
+2025-10-15 06:17:32,449 - train - INFO -     val_WER_(Argmax): 0.3352175680667114
+2025-10-15 06:17:32,449 - train - INFO -     val_WER        : 0.3352175680667114
+2025-10-15 06:17:32,449 - train - INFO -     val_CER        : 0.11388101864339778
+2025-10-15 06:17:32,449 - train - INFO -     test_loss      : 0.4439057616925821
+2025-10-15 06:17:32,450 - train - INFO -     test_CER_(Argmax): 0.11181283918602594
+2025-10-15 06:17:32,450 - train - INFO -     test_WER_(Argmax): 0.3330420680106056
+2025-10-15 06:17:32,450 - train - INFO -     test_WER       : 0.3330420680106056
+2025-10-15 06:17:32,450 - train - INFO -     test_CER       : 0.11175747260237462
+2025-10-15 06:38:32,900 - train - INFO -     epoch          : 42
+2025-10-15 06:38:32,901 - train - INFO -     loss           : 0.15154085498303174
+2025-10-15 06:38:32,901 - train - INFO -     grad_norm      : 0.31321163214743136
+2025-10-15 06:38:32,901 - train - INFO -     val_loss       : 0.4170303176431095
+2025-10-15 06:38:32,901 - train - INFO -     val_CER_(Argmax): 0.11403384671386754
+2025-10-15 06:38:32,901 - train - INFO -     val_WER_(Argmax): 0.339910982840436
+2025-10-15 06:38:32,901 - train - INFO -     val_WER        : 0.339910982840436
+2025-10-15 06:38:32,901 - train - INFO -     val_CER        : 0.11396475986393424
+2025-10-15 06:38:32,902 - train - INFO -     test_loss      : 0.4154184039046125
+2025-10-15 06:38:32,902 - train - INFO -     test_CER_(Argmax): 0.11247534045841451
+2025-10-15 06:38:32,902 - train - INFO -     test_WER_(Argmax): 0.3328717059031543
+2025-10-15 06:38:32,902 - train - INFO -     test_WER       : 0.3328717059031543
+2025-10-15 06:38:32,902 - train - INFO -     test_CER       : 0.1123930726890102
+2025-10-15 06:42:35,159 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 06:49:28,757 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 06:59:48,120 - train - INFO -     epoch          : 43
+2025-10-15 06:59:48,120 - train - INFO -     loss           : 0.15414640687406064
+2025-10-15 06:59:48,121 - train - INFO -     grad_norm      : 0.2877813006937504
+2025-10-15 06:59:48,121 - train - INFO -     val_loss       : 0.4414702657391043
+2025-10-15 06:59:48,121 - train - INFO -     val_CER_(Argmax): 0.12070044864926999
+2025-10-15 06:59:48,121 - train - INFO -     val_WER_(Argmax): 0.3537302879447558
+2025-10-15 06:59:48,121 - train - INFO -     val_WER        : 0.3537302879447558
+2025-10-15 06:59:48,121 - train - INFO -     val_CER        : 0.12068197627972231
+2025-10-15 06:59:48,121 - train - INFO -     test_loss      : 0.4438759840843154
+2025-10-15 06:59:48,121 - train - INFO -     test_CER_(Argmax): 0.11862870450615648
+2025-10-15 06:59:48,121 - train - INFO -     test_WER_(Argmax): 0.34733577061982585
+2025-10-15 06:59:48,121 - train - INFO -     test_WER       : 0.34733577061982585
+2025-10-15 06:59:48,122 - train - INFO -     test_CER       : 0.11862613781757472
+2025-10-15 07:20:43,415 - train - INFO -     epoch          : 44
+2025-10-15 07:20:43,415 - train - INFO -     loss           : 0.1363305367529392
+2025-10-15 07:20:43,416 - train - INFO -     grad_norm      : 0.2479817882925272
+2025-10-15 07:20:43,416 - train - INFO -     val_loss       : 0.4520348629530738
+2025-10-15 07:20:43,416 - train - INFO -     val_CER_(Argmax): 0.11507168537958189
+2025-10-15 07:20:43,416 - train - INFO -     val_WER_(Argmax): 0.3395088421236314
+2025-10-15 07:20:43,416 - train - INFO -     val_WER        : 0.3395088421236314
+2025-10-15 07:20:43,417 - train - INFO -     val_CER        : 0.11507427832449559
+2025-10-15 07:20:43,417 - train - INFO -     test_loss      : 0.4543668962106472
+2025-10-15 07:20:43,417 - train - INFO -     test_CER_(Argmax): 0.11321039333306016
+2025-10-15 07:20:43,417 - train - INFO -     test_WER_(Argmax): 0.3319809926281677
+2025-10-15 07:20:43,417 - train - INFO -     test_WER       : 0.3319809926281677
+2025-10-15 07:20:43,417 - train - INFO -     test_CER       : 0.1131822929806515
+2025-10-15 07:20:51,021 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 07:23:10,474 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 07:41:51,854 - train - INFO -     epoch          : 45
+2025-10-15 07:41:51,855 - train - INFO -     loss           : 0.13987333193421364
+2025-10-15 07:41:51,855 - train - INFO -     grad_norm      : 0.26614324234426023
+2025-10-15 07:41:51,855 - train - INFO -     val_loss       : 0.4230976984781377
+2025-10-15 07:41:51,855 - train - INFO -     val_CER_(Argmax): 0.11541515342609154
+2025-10-15 07:41:51,855 - train - INFO -     val_WER_(Argmax): 0.34157605694474263
+2025-10-15 07:41:51,855 - train - INFO -     val_WER        : 0.34157605694474263
+2025-10-15 07:41:51,856 - train - INFO -     val_CER        : 0.11539626185146624
+2025-10-15 07:41:51,856 - train - INFO -     test_loss      : 0.4274728712512226
+2025-10-15 07:41:51,856 - train - INFO -     test_CER_(Argmax): 0.11464870047179306
+2025-10-15 07:41:51,856 - train - INFO -     test_WER_(Argmax): 0.3363408865261514
+2025-10-15 07:41:51,856 - train - INFO -     test_WER       : 0.3363408865261514
+2025-10-15 07:41:51,856 - train - INFO -     test_CER       : 0.11463597320095606
+2025-10-15 07:41:52,350 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch45.pth ...
+2025-10-15 07:49:37,815 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 08:03:12,872 - train - INFO -     epoch          : 46
+2025-10-15 08:03:12,873 - train - INFO -     loss           : 0.15541664376180975
+2025-10-15 08:03:12,873 - train - INFO -     grad_norm      : 0.30704583459763074
+2025-10-15 08:03:12,873 - train - INFO -     val_loss       : 0.4262906141140882
+2025-10-15 08:03:12,873 - train - INFO -     val_CER_(Argmax): 0.10697360241698037
+2025-10-15 08:03:12,873 - train - INFO -     val_WER_(Argmax): 0.31894312216255877
+2025-10-15 08:03:12,873 - train - INFO -     val_WER        : 0.31894312216255877
+2025-10-15 08:03:12,873 - train - INFO -     val_CER        : 0.10697432792093566
+2025-10-15 08:03:12,874 - train - INFO -     test_loss      : 0.4236972459205767
+2025-10-15 08:03:12,874 - train - INFO -     test_CER_(Argmax): 0.1036966429887784
+2025-10-15 08:03:12,874 - train - INFO -     test_WER_(Argmax): 0.31260322305849975
+2025-10-15 08:03:12,874 - train - INFO -     test_WER       : 0.31260322305849975
+2025-10-15 08:03:12,874 - train - INFO -     test_CER       : 0.10368049391363919
+2025-10-15 08:03:13,468 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 08:11:04,939 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 08:14:33,659 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 08:24:28,330 - train - INFO -     epoch          : 47
+2025-10-15 08:24:28,331 - train - INFO -     loss           : 0.1484343280369912
+2025-10-15 08:24:28,331 - train - INFO -     grad_norm      : 0.2978131380212966
+2025-10-15 08:24:28,331 - train - INFO -     val_loss       : 0.41686498592881593
+2025-10-15 08:24:28,331 - train - INFO -     val_CER_(Argmax): 0.10715906838873794
+2025-10-15 08:24:28,331 - train - INFO -     val_WER_(Argmax): 0.3189208901687594
+2025-10-15 08:24:28,331 - train - INFO -     val_WER        : 0.3189208901687594
+2025-10-15 08:24:28,331 - train - INFO -     val_CER        : 0.1070721680237797
+2025-10-15 08:24:28,331 - train - INFO -     test_loss      : 0.4248736776956698
+2025-10-15 08:24:28,332 - train - INFO -     test_CER_(Argmax): 0.10606248870942041
+2025-10-15 08:24:28,332 - train - INFO -     test_WER_(Argmax): 0.31392775456406125
+2025-10-15 08:24:28,332 - train - INFO -     test_WER       : 0.31392775456406125
+2025-10-15 08:24:28,332 - train - INFO -     test_CER       : 0.10608059527809617
+2025-10-15 08:24:28,964 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 08:45:42,227 - train - INFO -     epoch          : 48
+2025-10-15 08:45:42,227 - train - INFO -     loss           : 0.1307941133156419
+2025-10-15 08:45:42,228 - train - INFO -     grad_norm      : 0.27077246375381947
+2025-10-15 08:45:42,228 - train - INFO -     val_loss       : 0.42694155994583577
+2025-10-15 08:45:42,228 - train - INFO -     val_CER_(Argmax): 0.10582719959543849
+2025-10-15 08:45:42,228 - train - INFO -     val_WER_(Argmax): 0.31559900742699704
+2025-10-15 08:45:42,228 - train - INFO -     val_WER        : 0.31559900742699704
+2025-10-15 08:45:42,228 - train - INFO -     val_CER        : 0.10572084591343127
+2025-10-15 08:45:42,228 - train - INFO -     test_loss      : 0.43384504790713146
+2025-10-15 08:45:42,228 - train - INFO -     test_CER_(Argmax): 0.10381538597811517
+2025-10-15 08:45:42,228 - train - INFO -     test_WER_(Argmax): 0.311420565217544
+2025-10-15 08:45:42,229 - train - INFO -     test_WER       : 0.311420565217544
+2025-10-15 08:45:42,229 - train - INFO -     test_CER       : 0.10370990247742001
+2025-10-15 08:45:42,872 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 08:50:42,467 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 08:53:44,773 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 09:07:09,369 - train - INFO -     epoch          : 49
+2025-10-15 09:07:09,371 - train - INFO -     loss           : 0.10918797556329612
+2025-10-15 09:07:09,371 - train - INFO -     grad_norm      : 0.25354656966487366
+2025-10-15 09:07:09,371 - train - INFO -     val_loss       : 0.45092080375727484
+2025-10-15 09:07:09,371 - train - INFO -     val_CER_(Argmax): 0.10998150896043028
+2025-10-15 09:07:09,371 - train - INFO -     val_WER_(Argmax): 0.3251663764785473
+2025-10-15 09:07:09,372 - train - INFO -     val_WER        : 0.3251663764785473
+2025-10-15 09:07:09,372 - train - INFO -     val_CER        : 0.10883912407170318
+2025-10-15 09:07:09,372 - train - INFO -     test_loss      : 0.45026707503853775
+2025-10-15 09:07:09,372 - train - INFO -     test_CER_(Argmax): 0.1083685399307039
+2025-10-15 09:07:09,372 - train - INFO -     test_WER_(Argmax): 0.31903264381702373
+2025-10-15 09:07:09,373 - train - INFO -     test_WER       : 0.31903264381702373
+2025-10-15 09:07:09,373 - train - INFO -     test_CER       : 0.10773803375770985
+2025-10-15 09:28:10,598 - train - INFO -     epoch          : 50
+2025-10-15 09:28:10,598 - train - INFO -     loss           : 0.10687003966420888
+2025-10-15 09:28:10,598 - train - INFO -     grad_norm      : 0.2543030245602131
+2025-10-15 09:28:10,599 - train - INFO -     val_loss       : 0.45245280335931215
+2025-10-15 09:28:10,599 - train - INFO -     val_CER_(Argmax): 0.10794419929359747
+2025-10-15 09:28:10,599 - train - INFO -     val_WER_(Argmax): 0.319912166248811
+2025-10-15 09:28:10,599 - train - INFO -     val_WER        : 0.319912166248811
+2025-10-15 09:28:10,599 - train - INFO -     val_CER        : 0.10779546715487702
+2025-10-15 09:28:10,599 - train - INFO -     test_loss      : 0.44923570715799566
+2025-10-15 09:28:10,599 - train - INFO -     test_CER_(Argmax): 0.10577866073952201
+2025-10-15 09:28:10,599 - train - INFO -     test_WER_(Argmax): 0.3148882348303448
+2025-10-15 09:28:10,599 - train - INFO -     test_WER       : 0.3148882348303448
+2025-10-15 09:28:10,599 - train - INFO -     test_CER       : 0.10566427550858948
+2025-10-15 09:28:11,086 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch50.pth ...
+2025-10-15 09:31:04,615 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 09:33:16,245 - train - INFO - Saving model on keyboard interrupt
+2025-10-15 09:33:16,720 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch51.pth ...
+2025-10-15 21:28:51,805 - train - INFO - ConformerModel(
+  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
+  (dropout): Dropout(p=0.1, inplace=False)
+  (conformer_blocks): Sequential(
+    (0): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (1): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (2): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (3): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (4): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (5): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (6): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (7): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (8): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (9): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+  )
+  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
+)
+2025-10-15 21:28:51,826 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/conformer_30m/checkpoint-epoch51.pth ...
+2025-10-15 21:29:48,755 - train - INFO - ConformerModel(
+  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
+  (dropout): Dropout(p=0.1, inplace=False)
+  (conformer_blocks): Sequential(
+    (0): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (1): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (2): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (3): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (4): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (5): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (6): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (7): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (8): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (9): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+  )
+  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
+)
+2025-10-15 21:29:48,772 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch51.pth ...
+2025-10-15 21:29:49,382 - train - WARNING - Warning: Optimizer or lr_scheduler given in the config file is different from that of the checkpoint. Optimizer and scheduler parameters are not resumed.
+2025-10-15 21:29:49,383 - train - INFO - Checkpoint loaded. Resume training from epoch 52
+2025-10-15 21:32:46,047 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 21:36:14,907 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 21:36:28,019 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 21:37:11,355 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 21:37:28,040 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 21:38:05,327 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 21:38:37,856 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 21:59:34,376 - train - INFO - ConformerModel(
+  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
+  (dropout): Dropout(p=0.1, inplace=False)
+  (conformer_blocks): Sequential(
+    (0): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (1): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (2): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (3): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (4): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (5): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (6): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (7): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (8): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (9): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+  )
+  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
+)
+2025-10-15 21:59:34,392 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch51.pth ...
+2025-10-15 21:59:34,755 - train - WARNING - Warning: Optimizer or lr_scheduler given in the config file is different from that of the checkpoint. Optimizer and scheduler parameters are not resumed.
+2025-10-15 21:59:34,756 - train - INFO - Checkpoint loaded. Resume training from epoch 52
+2025-10-15 22:02:34,318 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:06:06,199 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:06:18,792 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:07:20,904 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:07:57,912 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:08:30,148 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:09:56,709 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:10:56,816 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:18:26,896 - train - INFO -     epoch          : 52
+2025-10-15 22:18:26,897 - train - INFO -     loss           : 0.5125516548677145
+2025-10-15 22:18:26,897 - train - INFO -     grad_norm      : 0.5027066829240867
+2025-10-15 22:18:26,897 - train - INFO -     val_loss       : 0.3037505878524466
+2025-10-15 22:18:26,897 - train - INFO -     val_CER_(Argmax): 0.09129654682855147
+2025-10-15 22:18:26,897 - train - INFO -     val_WER_(Argmax): 0.28161343918875303
+2025-10-15 22:18:26,897 - train - INFO -     val_WER        : 0.28161343918875303
+2025-10-15 22:18:26,897 - train - INFO -     val_CER        : 0.09130862404528663
+2025-10-15 22:18:26,897 - train - INFO -     test_loss      : 0.30807594836435537
+2025-10-15 22:18:26,897 - train - INFO -     test_CER_(Argmax): 0.09054438299605952
+2025-10-15 22:18:26,898 - train - INFO -     test_WER_(Argmax): 0.2782349555610264
+2025-10-15 22:18:26,898 - train - INFO -     test_WER       : 0.2782349555610264
+2025-10-15 22:18:26,898 - train - INFO -     test_CER       : 0.09054140648346386
+2025-10-15 22:18:27,452 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 22:18:34,798 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:19:35,681 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:20:45,068 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:21:17,097 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:28:13,972 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:28:43,629 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:37:01,553 - train - INFO -     epoch          : 53
+2025-10-15 22:37:01,554 - train - INFO -     loss           : 0.4767994123697281
+2025-10-15 22:37:01,554 - train - INFO -     grad_norm      : 0.5589224849641323
+2025-10-15 22:37:01,554 - train - INFO -     val_loss       : 0.287550592979232
+2025-10-15 22:37:01,555 - train - INFO -     val_CER_(Argmax): 0.08663647521630864
+2025-10-15 22:37:01,555 - train - INFO -     val_WER_(Argmax): 0.26653980578276465
+2025-10-15 22:37:01,555 - train - INFO -     val_WER        : 0.26653980578276465
+2025-10-15 22:37:01,555 - train - INFO -     val_CER        : 0.08663647998507391
+2025-10-15 22:37:01,555 - train - INFO -     test_loss      : 0.29402880726212804
+2025-10-15 22:37:01,555 - train - INFO -     test_CER_(Argmax): 0.08634445495520625
+2025-10-15 22:37:01,555 - train - INFO -     test_WER_(Argmax): 0.26760766956081206
+2025-10-15 22:37:01,555 - train - INFO -     test_WER       : 0.26760766956081206
+2025-10-15 22:37:01,555 - train - INFO -     test_CER       : 0.0863314313346999
+2025-10-15 22:37:02,160 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 22:38:36,055 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:41:57,959 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:42:05,218 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:47:32,830 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:55:34,476 - train - INFO -     epoch          : 54
+2025-10-15 22:55:34,476 - train - INFO -     loss           : 0.4517164458334446
+2025-10-15 22:55:34,476 - train - INFO -     grad_norm      : 0.6237075063586235
+2025-10-15 22:55:34,476 - train - INFO -     val_loss       : 0.28015144562328254
+2025-10-15 22:55:34,476 - train - INFO -     val_CER_(Argmax): 0.08501164964665332
+2025-10-15 22:55:34,477 - train - INFO -     val_WER_(Argmax): 0.26355578235185695
+2025-10-15 22:55:34,477 - train - INFO -     val_WER        : 0.26355578235185695
+2025-10-15 22:55:34,477 - train - INFO -     val_CER        : 0.08501273757687683
+2025-10-15 22:55:34,477 - train - INFO -     test_loss      : 0.28677379729395563
+2025-10-15 22:55:34,477 - train - INFO -     test_CER_(Argmax): 0.08556362216950926
+2025-10-15 22:55:34,477 - train - INFO -     test_WER_(Argmax): 0.26548957249503236
+2025-10-15 22:55:34,477 - train - INFO -     test_WER       : 0.26548957249503236
+2025-10-15 22:55:34,477 - train - INFO -     test_CER       : 0.08552682603878249
+2025-10-15 22:55:35,084 - train - INFO - Saving current best: model_best.pth ...
+2025-10-15 22:58:30,490 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 22:59:07,816 - urllib3.connectionpool - WARNING - Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ReadTimeoutError("HTTPSConnectionPool(host='www.comet.com', port=443): Read timed out. (read timeout=10)")': /clientlib/rest/v2/write/experiment/output
+2025-10-15 23:03:27,906 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:14:15,775 - train - INFO -     epoch          : 55
+2025-10-15 23:14:15,775 - train - INFO -     loss           : 0.43951718381900884
+2025-10-15 23:14:15,775 - train - INFO -     grad_norm      : 0.610138273718369
+2025-10-15 23:14:15,775 - train - INFO -     val_loss       : 0.28494494465681225
+2025-10-15 23:14:15,775 - train - INFO -     val_CER_(Argmax): 0.08762042370466316
+2025-10-15 23:14:15,775 - train - INFO -     val_WER_(Argmax): 0.26894677637977005
+2025-10-15 23:14:15,776 - train - INFO -     val_WER        : 0.26894677637977005
+2025-10-15 23:14:15,776 - train - INFO -     val_CER        : 0.08761403647985697
+2025-10-15 23:14:15,776 - train - INFO -     test_loss      : 0.284894541583278
+2025-10-15 23:14:15,776 - train - INFO -     test_CER_(Argmax): 0.08618727251740227
+2025-10-15 23:14:15,776 - train - INFO -     test_WER_(Argmax): 0.2651266555833503
+2025-10-15 23:14:15,776 - train - INFO -     test_WER       : 0.2651266555833503
+2025-10-15 23:14:15,776 - train - INFO -     test_CER       : 0.08613433873893521
+2025-10-15 23:14:16,264 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch55.pth ...
+2025-10-15 23:17:14,837 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:24:01,730 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:32:58,682 - train - INFO -     epoch          : 56
+2025-10-15 23:32:58,682 - train - INFO -     loss           : 0.4343975530564785
+2025-10-15 23:32:58,682 - train - INFO -     grad_norm      : 0.6229039686918258
+2025-10-15 23:32:58,682 - train - INFO -     val_loss       : 0.29983231277911215
+2025-10-15 23:32:58,682 - train - INFO -     val_CER_(Argmax): 0.08955679162254075
+2025-10-15 23:32:58,683 - train - INFO -     val_WER_(Argmax): 0.27534571803696956
+2025-10-15 23:32:58,683 - train - INFO -     val_WER        : 0.27534571803696956
+2025-10-15 23:32:58,683 - train - INFO -     val_CER        : 0.08951839197980865
+2025-10-15 23:32:58,683 - train - INFO -     test_loss      : 0.29415979016233573
+2025-10-15 23:32:58,683 - train - INFO -     test_CER_(Argmax): 0.08593879618718768
+2025-10-15 23:32:58,683 - train - INFO -     test_WER_(Argmax): 0.27041946687163093
+2025-10-15 23:32:58,683 - train - INFO -     test_WER       : 0.27041946687163093
+2025-10-15 23:32:58,683 - train - INFO -     test_CER       : 0.0859091788688324
+2025-10-15 23:34:07,974 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:34:55,062 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:37:46,718 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:51:41,538 - train - INFO -     epoch          : 57
+2025-10-15 23:51:41,539 - train - INFO -     loss           : 0.44212916776537897
+2025-10-15 23:51:41,539 - train - INFO -     grad_norm      : 0.6302911515533924
+2025-10-15 23:51:41,539 - train - INFO -     val_loss       : 0.3111286821601155
+2025-10-15 23:51:41,539 - train - INFO -     val_CER_(Argmax): 0.09671470586458569
+2025-10-15 23:51:41,539 - train - INFO -     val_WER_(Argmax): 0.2970807443308442
+2025-10-15 23:51:41,539 - train - INFO -     val_WER        : 0.2970807443308442
+2025-10-15 23:51:41,539 - train - INFO -     val_CER        : 0.09666179815724249
+2025-10-15 23:51:41,540 - train - INFO -     test_loss      : 0.3062010456553914
+2025-10-15 23:51:41,540 - train - INFO -     test_CER_(Argmax): 0.09478064453852167
+2025-10-15 23:51:41,540 - train - INFO -     test_WER_(Argmax): 0.2917665250029616
+2025-10-15 23:51:41,540 - train - INFO -     test_WER       : 0.2917665250029616
+2025-10-15 23:51:41,540 - train - INFO -     test_CER       : 0.09473352732799264
+2025-10-15 23:52:00,536 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:52:02,784 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:52:37,963 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:53:55,377 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:54:35,227 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:55:49,514 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-15 23:59:59,392 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:01:41,820 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:11:38,086 - train - INFO -     epoch          : 58
+2025-10-16 00:11:38,087 - train - INFO -     loss           : 0.4711415856028322
+2025-10-16 00:11:38,088 - train - INFO -     grad_norm      : 0.5886639985606898
+2025-10-16 00:11:38,088 - train - INFO -     val_loss       : 0.3353017005291614
+2025-10-16 00:11:38,088 - train - INFO -     val_CER_(Argmax): 0.10235041302713359
+2025-10-16 00:11:38,088 - train - INFO -     val_WER_(Argmax): 0.3116658465074636
+2025-10-16 00:11:38,088 - train - INFO -     val_WER        : 0.3116658465074636
+2025-10-16 00:11:38,088 - train - INFO -     val_CER        : 0.1023209039028333
+2025-10-16 00:11:38,088 - train - INFO -     test_loss      : 0.3331021143292839
+2025-10-16 00:11:38,089 - train - INFO -     test_CER_(Argmax): 0.09998714099883693
+2025-10-16 00:11:38,089 - train - INFO -     test_WER_(Argmax): 0.30518309281193207
+2025-10-16 00:11:38,089 - train - INFO -     test_WER       : 0.30518309281193207
+2025-10-16 00:11:38,089 - train - INFO -     test_CER       : 0.10000657190144936
+2025-10-16 00:15:31,484 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:17:40,029 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:21:20,102 - train - INFO - Saving model on keyboard interrupt
+2025-10-16 00:21:20,725 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch59.pth ...
+2025-10-16 00:25:35,941 - train - INFO - ConformerModel(
+  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
+  (dropout): Dropout(p=0.1, inplace=False)
+  (conformer_blocks): Sequential(
+    (0): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (1): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (2): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (3): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (4): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (5): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (6): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (7): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (8): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (9): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+  )
+  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
+)
+2025-10-16 00:25:35,957 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch55.pth ...
+2025-10-16 00:25:36,354 - train - WARNING - Warning: Optimizer or lr_scheduler given in the config file is different from that of the checkpoint. Optimizer and scheduler parameters are not resumed.
+2025-10-16 00:25:36,354 - train - INFO - Checkpoint loaded. Resume training from epoch 56
+2025-10-16 00:28:38,563 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:32:12,325 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:32:25,198 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:33:27,019 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:34:03,944 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:34:36,076 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:36:03,448 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:37:05,549 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:45:33,019 - train - INFO -     epoch          : 56
+2025-10-16 00:45:33,019 - train - INFO -     loss           : 0.3975452154420959
+2025-10-16 00:45:33,020 - train - INFO -     grad_norm      : 0.5853364494851399
+2025-10-16 00:45:33,020 - train - INFO -     val_loss       : 0.26601492441617525
+2025-10-16 00:45:33,020 - train - INFO -     val_CER_(Argmax): 0.08095286654242909
+2025-10-16 00:45:33,020 - train - INFO -     val_WER_(Argmax): 0.25238181992836795
+2025-10-16 00:45:33,020 - train - INFO -     val_WER        : 0.25238181992836795
+2025-10-16 00:45:33,020 - train - INFO -     val_CER        : 0.08094647931762287
+2025-10-16 00:45:33,020 - train - INFO -     test_loss      : 0.2680981419980526
+2025-10-16 00:45:33,020 - train - INFO -     test_CER_(Argmax): 0.08014114209410332
+2025-10-16 00:45:33,020 - train - INFO -     test_WER_(Argmax): 0.2506958176100273
+2025-10-16 00:45:33,021 - train - INFO -     test_WER       : 0.2506958176100273
+2025-10-16 00:45:33,021 - train - INFO -     test_CER       : 0.08013405791041706
+2025-10-16 00:45:33,634 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 00:45:40,678 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:46:41,544 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:47:51,335 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:48:23,005 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 00:55:25,594 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:05:45,591 - train - INFO -     epoch          : 57
+2025-10-16 01:05:45,591 - train - INFO -     loss           : 0.3919293682277203
+2025-10-16 01:05:45,591 - train - INFO -     grad_norm      : 0.5571760645508766
+2025-10-16 01:05:45,592 - train - INFO -     val_loss       : 0.26085271825502204
+2025-10-16 01:05:45,592 - train - INFO -     val_CER_(Argmax): 0.07941454723878524
+2025-10-16 01:05:45,592 - train - INFO -     val_WER_(Argmax): 0.24847200659684884
+2025-10-16 01:05:45,592 - train - INFO -     val_WER        : 0.24847200659684884
+2025-10-16 01:05:45,592 - train - INFO -     val_CER        : 0.07940334027231717
+2025-10-16 01:05:45,592 - train - INFO -     test_loss      : 0.2639189895919778
+2025-10-16 01:05:45,592 - train - INFO -     test_CER_(Argmax): 0.07906222839036091
+2025-10-16 01:05:45,592 - train - INFO -     test_WER_(Argmax): 0.2467830935703038
+2025-10-16 01:05:45,592 - train - INFO -     test_WER       : 0.2467830935703038
+2025-10-16 01:05:45,592 - train - INFO -     test_CER       : 0.07904224464832055
+2025-10-16 01:05:46,206 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 01:07:22,051 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:08:02,388 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:10:48,748 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:10:56,086 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:16:24,729 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:25:47,709 - train - INFO -     epoch          : 58
+2025-10-16 01:25:47,709 - train - INFO -     loss           : 0.36956372365355494
+2025-10-16 01:25:47,710 - train - INFO -     grad_norm      : 0.59020700648427
+2025-10-16 01:25:47,710 - train - INFO -     val_loss       : 0.2571919283696583
+2025-10-16 01:25:47,710 - train - INFO -     val_CER_(Argmax): 0.07819992281237179
+2025-10-16 01:25:47,710 - train - INFO -     val_WER_(Argmax): 0.24590658841056448
+2025-10-16 01:25:47,710 - train - INFO -     val_WER        : 0.24590658841056448
+2025-10-16 01:25:47,710 - train - INFO -     val_CER        : 0.07818871584590371
+2025-10-16 01:25:47,710 - train - INFO -     test_loss      : 0.26166995834897866
+2025-10-16 01:25:47,710 - train - INFO -     test_CER_(Argmax): 0.07749860080767827
+2025-10-16 01:25:47,710 - train - INFO -     test_WER_(Argmax): 0.24307131531532164
+2025-10-16 01:25:47,710 - train - INFO -     test_WER       : 0.24307131531532164
+2025-10-16 01:25:47,711 - train - INFO -     test_CER       : 0.0774786170656379
+2025-10-16 01:25:48,325 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 01:28:44,667 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:31:32,043 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:33:48,273 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:46:04,253 - train - INFO -     epoch          : 59
+2025-10-16 01:46:04,253 - train - INFO -     loss           : 0.33486752002382997
+2025-10-16 01:46:04,254 - train - INFO -     grad_norm      : 0.5633255804902945
+2025-10-16 01:46:04,254 - train - INFO -     val_loss       : 0.25902849910678444
+2025-10-16 01:46:04,254 - train - INFO -     val_CER_(Argmax): 0.07788373600524053
+2025-10-16 01:46:04,254 - train - INFO -     val_WER_(Argmax): 0.24356013677092545
+2025-10-16 01:46:04,254 - train - INFO -     val_WER        : 0.24356013677092545
+2025-10-16 01:46:04,254 - train - INFO -     val_CER        : 0.07787252903877245
+2025-10-16 01:46:04,254 - train - INFO -     test_loss      : 0.26355371505699376
+2025-10-16 01:46:04,254 - train - INFO -     test_CER_(Argmax): 0.07704687640540066
+2025-10-16 01:46:04,254 - train - INFO -     test_WER_(Argmax): 0.24105306456868927
+2025-10-16 01:46:04,255 - train - INFO -     test_WER       : 0.24105306456868927
+2025-10-16 01:46:04,255 - train - INFO -     test_CER       : 0.07702689266336028
+2025-10-16 01:46:04,866 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 01:49:04,404 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:55:55,381 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 01:55:55,714 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:06:10,617 - train - INFO -     epoch          : 60
+2025-10-16 02:06:10,617 - train - INFO -     loss           : 0.38520306527614595
+2025-10-16 02:06:10,617 - train - INFO -     grad_norm      : 0.6394448788464069
+2025-10-16 02:06:10,618 - train - INFO -     val_loss       : 0.2523955891093055
+2025-10-16 02:06:10,618 - train - INFO -     val_CER_(Argmax): 0.07642980123388085
+2025-10-16 02:06:10,618 - train - INFO -     val_WER_(Argmax): 0.24021242375268156
+2025-10-16 02:06:10,618 - train - INFO -     val_WER        : 0.24021242375268156
+2025-10-16 02:06:10,618 - train - INFO -     val_CER        : 0.07641859426741279
+2025-10-16 02:06:10,618 - train - INFO -     test_loss      : 0.2567285626110705
+2025-10-16 02:06:10,618 - train - INFO -     test_CER_(Argmax): 0.07615406577241463
+2025-10-16 02:06:10,618 - train - INFO -     test_WER_(Argmax): 0.23853556294885694
+2025-10-16 02:06:10,619 - train - INFO -     test_WER       : 0.23853556294885694
+2025-10-16 02:06:10,619 - train - INFO -     test_CER       : 0.07614019151229019
+2025-10-16 02:06:11,228 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 02:06:43,709 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:07:21,268 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:08:09,949 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:11:04,696 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:26:31,842 - train - INFO -     epoch          : 61
+2025-10-16 02:26:31,844 - train - INFO -     loss           : 0.36128015503287314
+2025-10-16 02:26:31,844 - train - INFO -     grad_norm      : 0.6772882167994976
+2025-10-16 02:26:31,844 - train - INFO -     val_loss       : 0.25020998798228883
+2025-10-16 02:26:31,844 - train - INFO -     val_CER_(Argmax): 0.07584409640850495
+2025-10-16 02:26:31,844 - train - INFO -     val_WER_(Argmax): 0.23786885936936988
+2025-10-16 02:26:31,845 - train - INFO -     val_WER        : 0.23786885936936988
+2025-10-16 02:26:31,845 - train - INFO -     val_CER        : 0.075829165821292
+2025-10-16 02:26:31,845 - train - INFO -     test_loss      : 0.25460747815668583
+2025-10-16 02:26:31,845 - train - INFO -     test_CER_(Argmax): 0.07530382475604616
+2025-10-16 02:26:31,845 - train - INFO -     test_WER_(Argmax): 0.23598896298484998
+2025-10-16 02:26:31,845 - train - INFO -     test_WER       : 0.23598896298484998
+2025-10-16 02:26:31,845 - train - INFO -     test_CER       : 0.07528315230877163
+2025-10-16 02:26:32,993 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 02:26:52,328 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:26:54,618 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:27:29,413 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:28:46,742 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:29:27,005 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:30:43,684 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:34:56,804 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:36:39,409 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:43:32,699 - train - INFO - Saving model on keyboard interrupt
+2025-10-16 02:43:33,623 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch62.pth ...
+2025-10-16 02:49:17,502 - train - INFO - ConformerModel(
+  (linear_layer_1): Linear(in_features=128, out_features=256, bias=True)
+  (dropout): Dropout(p=0.1, inplace=False)
+  (conformer_blocks): Sequential(
+    (0): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (1): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (2): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (3): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (4): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (5): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (6): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (7): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (8): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+    (9): ConformerBlock(
+      (feedforward): FeedForward(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (linear_1): Linear(in_features=256, out_features=1024, bias=True)
+        (swish): SiLU()
+        (dropout_1): Dropout(p=0.1, inplace=False)
+        (linear_2): Linear(in_features=1024, out_features=256, bias=True)
+        (dropout_2): Dropout(p=0.1, inplace=False)
+      )
+      (multiheadselfattn): MultiHeadSelfAttn(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (multiheadattn): MultiheadAttention(
+          (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
+        )
+        (dropout): Dropout(p=0.1, inplace=False)
+      )
+      (convmod): ConvolutionModule(
+        (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+        (conv_1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
+        (GLu): GLU(dim=1)
+        (conv_2): Conv1d(256, 256, kernel_size=(31,), stride=(1,), padding=(15,))
+        (bn): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (swish): SiLU()
+        (conv_3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (dp): Dropout(p=0.1, inplace=False)
+      )
+      (layer_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
+    )
+  )
+  (linear_layer_2): Linear(in_features=256, out_features=28, bias=True)
+)
+2025-10-16 02:49:17,523 - train - INFO - Loading checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch62.pth ...
+2025-10-16 02:49:17,913 - train - WARNING - Warning: Optimizer or lr_scheduler given in the config file is different from that of the checkpoint. Optimizer and scheduler parameters are not resumed.
+2025-10-16 02:49:17,914 - train - INFO - Checkpoint loaded. Resume training from epoch 63
+2025-10-16 02:52:15,957 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:55:47,500 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:56:00,240 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:57:01,514 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:57:38,947 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:58:11,042 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 02:59:37,819 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:00:38,610 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:01:03,954 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:02:05,006 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:03:14,868 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:03:46,604 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:12:15,075 - train - INFO -     epoch          : 63
+2025-10-16 03:12:15,075 - train - INFO -     loss           : 0.3650146044299082
+2025-10-16 03:12:15,076 - train - INFO -     grad_norm      : 0.732061750695185
+2025-10-16 03:12:15,076 - train - INFO -     val_loss       : 0.25124785574999725
+2025-10-16 03:12:15,076 - train - INFO -     val_CER_(Argmax): 0.0746809727347122
+2025-10-16 03:12:15,076 - train - INFO -     val_WER_(Argmax): 0.2340455252925752
+2025-10-16 03:12:15,077 - train - INFO -     val_WER        : 0.2340455252925752
+2025-10-16 03:12:15,077 - train - INFO -     val_CER        : 0.07466787604501343
+2025-10-16 03:12:15,077 - train - INFO -     test_loss      : 0.6272238085464555
+2025-10-16 03:12:15,077 - train - INFO -     test_CER_(Argmax): 0.18450640920311695
+2025-10-16 03:12:15,077 - train - INFO -     test_WER_(Argmax): 0.45838625598859056
+2025-10-16 03:12:15,078 - train - INFO -     test_WER       : 0.45838625598859056
+2025-10-16 03:12:15,078 - train - INFO -     test_CER       : 0.1844315619994462
+2025-10-16 03:12:16,653 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 03:18:39,991 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:21:29,785 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:21:50,742 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:22:29,530 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:25:13,780 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:25:20,946 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:35:12,338 - train - INFO -     epoch          : 64
+2025-10-16 03:35:12,339 - train - INFO -     loss           : 0.34100347862701225
+2025-10-16 03:35:12,339 - train - INFO -     grad_norm      : 0.6329810723210826
+2025-10-16 03:35:12,339 - train - INFO -     val_loss       : 0.24926169436763634
+2025-10-16 03:35:12,339 - train - INFO -     val_CER_(Argmax): 0.07435775967825689
+2025-10-16 03:35:12,339 - train - INFO -     val_WER_(Argmax): 0.23329625474160692
+2025-10-16 03:35:12,339 - train - INFO -     val_WER        : 0.23329625474160692
+2025-10-16 03:35:12,339 - train - INFO -     val_CER        : 0.07438597296022
+2025-10-16 03:35:12,340 - train - INFO -     test_loss      : 0.6233528654794304
+2025-10-16 03:35:12,340 - train - INFO -     test_CER_(Argmax): 0.18366725143983528
+2025-10-16 03:35:12,340 - train - INFO -     test_WER_(Argmax): 0.45719180165705925
+2025-10-16 03:35:12,340 - train - INFO -     test_WER       : 0.45719180165705925
+2025-10-16 03:35:12,340 - train - INFO -     test_CER       : 0.18355957764546682
+2025-10-16 03:35:12,971 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 03:38:54,738 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:42:35,097 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:45:20,154 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:47:35,186 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:48:14,719 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:49:30,920 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 03:58:14,580 - train - INFO -     epoch          : 65
+2025-10-16 03:58:14,581 - train - INFO -     loss           : 0.31584615042113295
+2025-10-16 03:58:14,581 - train - INFO -     grad_norm      : 0.5978777054885421
+2025-10-16 03:58:14,581 - train - INFO -     val_loss       : 0.2521649480543353
+2025-10-16 03:58:14,581 - train - INFO -     val_CER_(Argmax): 0.07417007913966524
+2025-10-16 03:58:14,582 - train - INFO -     val_WER_(Argmax): 0.23324526469575566
+2025-10-16 03:58:14,582 - train - INFO -     val_WER        : 0.23324526469575566
+2025-10-16 03:58:14,582 - train - INFO -     val_CER        : 0.07415698244996646
+2025-10-16 03:58:14,582 - train - INFO -     test_loss      : 0.6326038317412747
+2025-10-16 03:58:14,583 - train - INFO -     test_CER_(Argmax): 0.1823612314736419
+2025-10-16 03:58:14,583 - train - INFO -     test_WER_(Argmax): 0.4545763313591499
+2025-10-16 03:58:14,583 - train - INFO -     test_WER       : 0.4545763313591499
+2025-10-16 03:58:14,583 - train - INFO -     test_CER       : 0.18233351503535009
+2025-10-16 03:58:15,691 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 04:02:20,768 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:04:19,315 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:09:07,248 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:09:07,646 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:09:21,702 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:11:07,133 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:11:42,931 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:21:07,208 - train - INFO -     epoch          : 66
+2025-10-16 04:21:07,210 - train - INFO -     loss           : 0.35260840369896457
+2025-10-16 04:21:07,210 - train - INFO -     grad_norm      : 0.6941393242038861
+2025-10-16 04:21:07,210 - train - INFO -     val_loss       : 0.24919554303315553
+2025-10-16 04:21:07,211 - train - INFO -     val_CER_(Argmax): 0.07394414424173303
+2025-10-16 04:21:07,211 - train - INFO -     val_WER_(Argmax): 0.2325940054693939
+2025-10-16 04:21:07,211 - train - INFO -     val_WER        : 0.2325940054693939
+2025-10-16 04:21:07,211 - train - INFO -     val_CER        : 0.07393104755203425
+2025-10-16 04:21:07,211 - train - INFO -     test_loss      : 0.6230674550241354
+2025-10-16 04:21:07,212 - train - INFO -     test_CER_(Argmax): 0.18231329163386267
+2025-10-16 04:21:07,212 - train - INFO -     test_WER_(Argmax): 0.4550589076913371
+2025-10-16 04:21:07,212 - train - INFO -     test_WER       : 0.4550589076913371
+2025-10-16 04:21:07,212 - train - INFO -     test_CER       : 0.18230684880807213
+2025-10-16 04:21:08,325 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 04:22:33,557 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:27:24,290 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:27:45,211 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:30:06,656 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:33:36,847 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:34:10,539 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:34:23,483 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:34:37,393 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:43:57,489 - train - INFO -     epoch          : 67
+2025-10-16 04:43:57,489 - train - INFO -     loss           : 0.3447438172843991
+2025-10-16 04:43:57,489 - train - INFO -     grad_norm      : 0.6474652308590558
+2025-10-16 04:43:57,490 - train - INFO -     val_loss       : 0.24890769882635636
+2025-10-16 04:43:57,490 - train - INFO -     val_CER_(Argmax): 0.07402464042128627
+2025-10-16 04:43:57,490 - train - INFO -     val_WER_(Argmax): 0.23276514236104118
+2025-10-16 04:43:57,490 - train - INFO -     val_WER        : 0.23276514236104118
+2025-10-16 04:43:57,490 - train - INFO -     val_CER        : 0.07401007745592768
+2025-10-16 04:43:57,490 - train - INFO -     test_loss      : 0.6215816164503292
+2025-10-16 04:43:57,490 - train - INFO -     test_CER_(Argmax): 0.18244981545202055
+2025-10-16 04:43:57,490 - train - INFO -     test_WER_(Argmax): 0.4545860848775349
+2025-10-16 04:43:57,490 - train - INFO -     test_WER       : 0.4545860848775349
+2025-10-16 04:43:57,490 - train - INFO -     test_CER       : 0.18234336381594599
+2025-10-16 04:48:59,867 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:49:49,544 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:52:50,756 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:54:56,214 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:56:32,796 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 04:56:41,395 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:06:56,800 - train - INFO -     epoch          : 68
+2025-10-16 05:06:56,801 - train - INFO -     loss           : 0.34905940896332865
+2025-10-16 05:06:56,801 - train - INFO -     grad_norm      : 0.6677498564575658
+2025-10-16 05:06:56,801 - train - INFO -     val_loss       : 0.24816725386137312
+2025-10-16 05:06:56,801 - train - INFO -     val_CER_(Argmax): 0.07392974273734511
+2025-10-16 05:06:56,801 - train - INFO -     val_WER_(Argmax): 0.23159585286071424
+2025-10-16 05:06:56,802 - train - INFO -     val_WER        : 0.23159585286071424
+2025-10-16 05:06:56,802 - train - INFO -     val_CER        : 0.07391517977198651
+2025-10-16 05:06:56,802 - train - INFO -     test_loss      : 0.6195810704815145
+2025-10-16 05:06:56,802 - train - INFO -     test_CER_(Argmax): 0.18233763775457032
+2025-10-16 05:06:56,802 - train - INFO -     test_WER_(Argmax): 0.4545479979074868
+2025-10-16 05:06:56,802 - train - INFO -     test_WER       : 0.4545479979074868
+2025-10-16 05:06:56,802 - train - INFO -     test_CER       : 0.1823116928582287
+2025-10-16 05:06:57,368 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 05:07:50,812 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:09:15,900 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:09:28,324 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:12:10,737 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:12:15,674 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:15:57,493 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:17:11,071 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:17:28,170 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:18:48,935 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:19:16,909 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:20:11,772 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:20:34,940 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:29:55,155 - train - INFO -     epoch          : 69
+2025-10-16 05:29:55,156 - train - INFO -     loss           : 0.34450486673013814
+2025-10-16 05:29:55,156 - train - INFO -     grad_norm      : 0.6989231766177918
+2025-10-16 05:29:55,157 - train - INFO -     val_loss       : 0.24752564846792005
+2025-10-16 05:29:55,157 - train - INFO -     val_CER_(Argmax): 0.07375343535866713
+2025-10-16 05:29:55,157 - train - INFO -     val_WER_(Argmax): 0.23090194026229824
+2025-10-16 05:29:55,157 - train - INFO -     val_WER        : 0.23090194026229824
+2025-10-16 05:29:55,157 - train - INFO -     val_CER        : 0.07373887239330854
+2025-10-16 05:29:55,157 - train - INFO -     test_loss      : 0.6168282333077216
+2025-10-16 05:29:55,157 - train - INFO -     test_CER_(Argmax): 0.18170050435403806
+2025-10-16 05:29:55,157 - train - INFO -     test_WER_(Argmax): 0.45372425677781314
+2025-10-16 05:29:55,157 - train - INFO -     test_WER       : 0.45372425677781314
+2025-10-16 05:29:55,157 - train - INFO -     test_CER       : 0.1816881820827073
+2025-10-16 05:29:55,750 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 05:31:10,506 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:32:32,422 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:37:27,413 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:38:39,694 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:39:33,806 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:39:38,992 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:40:03,551 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:43:34,425 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:52:58,744 - train - INFO -     epoch          : 70
+2025-10-16 05:52:58,745 - train - INFO -     loss           : 0.3450617952644825
+2025-10-16 05:52:58,745 - train - INFO -     grad_norm      : 0.6964107640087605
+2025-10-16 05:52:58,745 - train - INFO -     val_loss       : 0.2472096932205287
+2025-10-16 05:52:58,745 - train - INFO -     val_CER_(Argmax): 0.07284972328502712
+2025-10-16 05:52:58,745 - train - INFO -     val_WER_(Argmax): 0.22901276614441682
+2025-10-16 05:52:58,745 - train - INFO -     val_WER        : 0.22901276614441682
+2025-10-16 05:52:58,745 - train - INFO -     val_CER        : 0.07284273607724429
+2025-10-16 05:52:58,746 - train - INFO -     test_loss      : 0.6180139366461306
+2025-10-16 05:52:58,746 - train - INFO -     test_CER_(Argmax): 0.1804781446442257
+2025-10-16 05:52:58,746 - train - INFO -     test_WER_(Argmax): 0.45284049314400276
+2025-10-16 05:52:58,746 - train - INFO -     test_WER       : 0.45284049314400276
+2025-10-16 05:52:58,746 - train - INFO -     test_CER       : 0.1804666251609065
+2025-10-16 05:52:59,372 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 05:56:08,152 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:59:33,037 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 05:59:56,321 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:05:25,117 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:07:33,143 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:08:00,984 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:16:10,784 - train - INFO -     epoch          : 71
+2025-10-16 06:16:10,784 - train - INFO -     loss           : 0.34330349164692003
+2025-10-16 06:16:10,784 - train - INFO -     grad_norm      : 0.7429921634532698
+2025-10-16 06:16:10,785 - train - INFO -     val_loss       : 0.2456764829429713
+2025-10-16 06:16:10,785 - train - INFO -     val_CER_(Argmax): 0.07272585291214713
+2025-10-16 06:16:10,785 - train - INFO -     val_WER_(Argmax): 0.2281453037552794
+2025-10-16 06:16:10,785 - train - INFO -     val_WER        : 0.2281453037552794
+2025-10-16 06:16:10,785 - train - INFO -     val_CER        : 0.07276095324645183
+2025-10-16 06:16:10,785 - train - INFO -     test_loss      : 0.6153945196039823
+2025-10-16 06:16:10,785 - train - INFO -     test_CER_(Argmax): 0.18028797138951858
+2025-10-16 06:16:10,785 - train - INFO -     test_WER_(Argmax): 0.45096762978426175
+2025-10-16 06:16:10,785 - train - INFO -     test_WER       : 0.45096762978426175
+2025-10-16 06:16:10,785 - train - INFO -     test_CER       : 0.18027404470283673
+2025-10-16 06:16:11,370 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 06:22:36,692 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:22:50,342 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:24:49,221 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:25:27,796 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:27:48,359 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:29:38,242 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:39:03,837 - train - INFO -     epoch          : 72
+2025-10-16 06:39:03,838 - train - INFO -     loss           : 0.339138802103322
+2025-10-16 06:39:03,838 - train - INFO -     grad_norm      : 0.7133045122779981
+2025-10-16 06:39:03,838 - train - INFO -     val_loss       : 0.2443471114066514
+2025-10-16 06:39:03,839 - train - INFO -     val_CER_(Argmax): 0.07240100881127012
+2025-10-16 06:39:03,839 - train - INFO -     val_WER_(Argmax): 0.22696484163654596
+2025-10-16 06:39:03,839 - train - INFO -     val_WER        : 0.22696484163654596
+2025-10-16 06:39:03,839 - train - INFO -     val_CER        : 0.07238644584591152
+2025-10-16 06:39:03,839 - train - INFO -     test_loss      : 0.612513683888377
+2025-10-16 06:39:03,840 - train - INFO -     test_CER_(Argmax): 0.1791687001827859
+2025-10-16 06:39:03,840 - train - INFO -     test_WER_(Argmax): 0.4488865730597953
+2025-10-16 06:39:03,840 - train - INFO -     test_WER       : 0.4488865730597953
+2025-10-16 06:39:03,840 - train - INFO -     test_CER       : 0.17915718069946662
+2025-10-16 06:39:04,972 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 06:41:02,810 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:45:51,176 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:47:05,013 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:49:14,158 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 06:49:39,422 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:01:47,234 - train - INFO -     epoch          : 73
+2025-10-16 07:01:47,235 - train - INFO -     loss           : 0.3470729561895132
+2025-10-16 07:01:47,235 - train - INFO -     grad_norm      : 0.7514531427621841
+2025-10-16 07:01:47,235 - train - INFO -     val_loss       : 0.24378775940700012
+2025-10-16 07:01:47,235 - train - INFO -     val_CER_(Argmax): 0.07183435190371569
+2025-10-16 07:01:47,235 - train - INFO -     val_WER_(Argmax): 0.2256147255339385
+2025-10-16 07:01:47,235 - train - INFO -     val_WER        : 0.2256147255339385
+2025-10-16 07:01:47,235 - train - INFO -     val_CER        : 0.0718197889383571
+2025-10-16 07:01:47,235 - train - INFO -     test_loss      : 0.6091715346793739
+2025-10-16 07:01:47,236 - train - INFO -     test_CER_(Argmax): 0.17911457671301328
+2025-10-16 07:01:47,236 - train - INFO -     test_WER_(Argmax): 0.44794237444369694
+2025-10-16 07:01:47,236 - train - INFO -     test_WER       : 0.44794237444369694
+2025-10-16 07:01:47,236 - train - INFO -     test_CER       : 0.17910649294741543
+2025-10-16 07:01:47,826 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 07:04:43,210 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:05:38,351 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:07:33,361 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:10:39,941 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:16:21,980 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:24:38,614 - train - INFO -     epoch          : 74
+2025-10-16 07:24:38,615 - train - INFO -     loss           : 0.33683984458446503
+2025-10-16 07:24:38,615 - train - INFO -     grad_norm      : 0.7467496731877327
+2025-10-16 07:24:38,615 - train - INFO -     val_loss       : 0.2443155725909905
+2025-10-16 07:24:38,616 - train - INFO -     val_CER_(Argmax): 0.07227646308735522
+2025-10-16 07:24:38,616 - train - INFO -     val_WER_(Argmax): 0.22735330118624314
+2025-10-16 07:24:38,616 - train - INFO -     val_WER        : 0.22735330118624314
+2025-10-16 07:24:38,616 - train - INFO -     val_CER        : 0.07227911775285062
+2025-10-16 07:24:38,616 - train - INFO -     test_loss      : 0.6112303989274162
+2025-10-16 07:24:38,616 - train - INFO -     test_CER_(Argmax): 0.17907364584589097
+2025-10-16 07:24:38,616 - train - INFO -     test_WER_(Argmax): 0.44814157881320876
+2025-10-16 07:24:38,616 - train - INFO -     test_WER       : 0.44814157881320876
+2025-10-16 07:24:38,616 - train - INFO -     test_CER       : 0.17904936512532063
+2025-10-16 07:25:13,751 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:25:37,831 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:28:57,741 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:29:38,177 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:34:16,623 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:37:09,990 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:47:25,461 - train - INFO -     epoch          : 75
+2025-10-16 07:47:25,461 - train - INFO -     loss           : 0.33465448658370495
+2025-10-16 07:47:25,461 - train - INFO -     grad_norm      : 0.7519346656811298
+2025-10-16 07:47:25,462 - train - INFO -     val_loss       : 0.242401727729223
+2025-10-16 07:47:25,462 - train - INFO -     val_CER_(Argmax): 0.07174316270698235
+2025-10-16 07:47:25,462 - train - INFO -     val_WER_(Argmax): 0.2253097904291825
+2025-10-16 07:47:25,462 - train - INFO -     val_WER        : 0.2253097904291825
+2025-10-16 07:47:25,462 - train - INFO -     val_CER        : 0.07172859974162374
+2025-10-16 07:47:25,462 - train - INFO -     test_loss      : 0.6091889444054389
+2025-10-16 07:47:25,462 - train - INFO -     test_CER_(Argmax): 0.17898326704627793
+2025-10-16 07:47:25,462 - train - INFO -     test_WER_(Argmax): 0.4477697155209368
+2025-10-16 07:47:25,462 - train - INFO -     test_WER       : 0.4477697155209368
+2025-10-16 07:47:25,462 - train - INFO -     test_CER       : 0.17895496802095612
+2025-10-16 07:47:26,060 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 07:50:39,738 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:50:41,382 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:51:44,271 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:52:08,305 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:57:55,955 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 07:58:00,203 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:00:15,606 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:10:09,966 - train - INFO -     epoch          : 76
+2025-10-16 08:10:09,967 - train - INFO -     loss           : 0.32825977680970675
+2025-10-16 08:10:09,967 - train - INFO -     grad_norm      : 0.7922337020761404
+2025-10-16 08:10:09,967 - train - INFO -     val_loss       : 0.24259263547984036
+2025-10-16 08:10:09,967 - train - INFO -     val_CER_(Argmax): 0.07152227206748903
+2025-10-16 08:10:09,967 - train - INFO -     val_WER_(Argmax): 0.22444476221779855
+2025-10-16 08:10:09,967 - train - INFO -     val_WER        : 0.22444476221779855
+2025-10-16 08:10:09,968 - train - INFO -     val_CER        : 0.0715126284252316
+2025-10-16 08:10:09,968 - train - INFO -     test_loss      : 0.60749830001471
+2025-10-16 08:10:09,968 - train - INFO -     test_CER_(Argmax): 0.1776300184520875
+2025-10-16 08:10:09,968 - train - INFO -     test_WER_(Argmax): 0.4444251261265295
+2025-10-16 08:10:09,968 - train - INFO -     test_WER       : 0.4444251261265295
+2025-10-16 08:10:09,968 - train - INFO -     test_CER       : 0.177609227132328
+2025-10-16 08:10:10,533 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 08:11:59,900 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:12:54,045 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:14:34,964 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:21:55,106 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:21:55,451 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:22:06,483 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:33:19,822 - train - INFO -     epoch          : 77
+2025-10-16 08:33:19,822 - train - INFO -     loss           : 0.33436640658354394
+2025-10-16 08:33:19,822 - train - INFO -     grad_norm      : 0.7152383050640222
+2025-10-16 08:33:19,822 - train - INFO -     val_loss       : 0.24181210639124567
+2025-10-16 08:33:19,823 - train - INFO -     val_CER_(Argmax): 0.07168098424058468
+2025-10-16 08:33:19,823 - train - INFO -     val_WER_(Argmax): 0.22612596969878818
+2025-10-16 08:33:19,823 - train - INFO -     val_WER        : 0.22612596969878818
+2025-10-16 08:33:19,823 - train - INFO -     val_CER        : 0.07166642127522609
+2025-10-16 08:33:19,823 - train - INFO -     test_loss      : 0.6055028849110311
+2025-10-16 08:33:19,823 - train - INFO -     test_CER_(Argmax): 0.17730527841163873
+2025-10-16 08:33:19,823 - train - INFO -     test_WER_(Argmax): 0.444182600467874
+2025-10-16 08:33:19,823 - train - INFO -     test_WER       : 0.444182600467874
+2025-10-16 08:33:19,823 - train - INFO -     test_CER       : 0.1772793335152971
+2025-10-16 08:35:13,806 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:36:08,863 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:36:27,911 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:37:11,720 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:42:38,767 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:44:59,770 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:56:30,978 - train - INFO -     epoch          : 78
+2025-10-16 08:56:30,979 - train - INFO -     loss           : 0.3246919604102571
+2025-10-16 08:56:30,979 - train - INFO -     grad_norm      : 0.7791670113053154
+2025-10-16 08:56:30,979 - train - INFO -     val_loss       : 0.24172794463282282
+2025-10-16 08:56:30,979 - train - INFO -     val_CER_(Argmax): 0.07153011484291474
+2025-10-16 08:56:30,979 - train - INFO -     val_WER_(Argmax): 0.22511833258022118
+2025-10-16 08:56:30,979 - train - INFO -     val_WER        : 0.22511833258022118
+2025-10-16 08:56:30,979 - train - INFO -     val_CER        : 0.071512884357283
+2025-10-16 08:56:30,979 - train - INFO -     test_loss      : 0.6050408068968325
+2025-10-16 08:56:30,980 - train - INFO -     test_CER_(Argmax): 0.17660421668923618
+2025-10-16 08:56:30,980 - train - INFO -     test_WER_(Argmax): 0.44288891060599644
+2025-10-16 08:56:30,980 - train - INFO -     test_WER       : 0.44288891060599644
+2025-10-16 08:56:30,980 - train - INFO -     test_CER       : 0.1765579884047018
+2025-10-16 08:59:27,293 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 08:59:27,869 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:02:30,628 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:07:50,034 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:09:45,540 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:10:48,602 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:19:14,555 - train - INFO -     epoch          : 79
+2025-10-16 09:19:14,556 - train - INFO -     loss           : 0.32903695121558024
+2025-10-16 09:19:14,556 - train - INFO -     grad_norm      : 0.7922589413144372
+2025-10-16 09:19:14,556 - train - INFO -     val_loss       : 0.24085671488534321
+2025-10-16 09:19:14,556 - train - INFO -     val_CER_(Argmax): 0.07120119172424885
+2025-10-16 09:19:14,556 - train - INFO -     val_WER_(Argmax): 0.2238828798942847
+2025-10-16 09:19:14,556 - train - INFO -     val_WER        : 0.2238828798942847
+2025-10-16 09:19:14,556 - train - INFO -     val_CER        : 0.07118662875889026
+2025-10-16 09:19:14,557 - train - INFO -     test_loss      : 0.6060074610369546
+2025-10-16 09:19:14,557 - train - INFO -     test_CER_(Argmax): 0.17613761186333135
+2025-10-16 09:19:14,557 - train - INFO -     test_WER_(Argmax): 0.4415207936896337
+2025-10-16 09:19:14,557 - train - INFO -     test_WER       : 0.4415207936896337
+2025-10-16 09:19:14,557 - train - INFO -     test_CER       : 0.1760987778408496
+2025-10-16 09:19:15,154 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 09:21:32,328 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:25:32,846 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:26:24,808 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:27:11,142 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:31:43,693 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:33:07,799 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:42:14,548 - train - INFO -     epoch          : 80
+2025-10-16 09:42:14,549 - train - INFO -     loss           : 0.32665394328946445
+2025-10-16 09:42:14,549 - train - INFO -     grad_norm      : 0.785485486439125
+2025-10-16 09:42:14,549 - train - INFO -     val_loss       : 0.23916942947967487
+2025-10-16 09:42:14,549 - train - INFO -     val_CER_(Argmax): 0.07079503833489652
+2025-10-16 09:42:14,549 - train - INFO -     val_WER_(Argmax): 0.2233928609416103
+2025-10-16 09:42:14,549 - train - INFO -     val_WER        : 0.2233928609416103
+2025-10-16 09:42:14,549 - train - INFO -     val_CER        : 0.07078805112711367
+2025-10-16 09:42:14,549 - train - INFO -     test_loss      : 0.5997372880882147
+2025-10-16 09:42:14,549 - train - INFO -     test_CER_(Argmax): 0.17529654974260578
+2025-10-16 09:42:14,550 - train - INFO -     test_WER_(Argmax): 0.4405526126548696
+2025-10-16 09:42:14,550 - train - INFO -     test_WER       : 0.4405526126548696
+2025-10-16 09:42:14,550 - train - INFO -     test_CER       : 0.1752632917210163
+2025-10-16 09:42:15,152 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 09:42:15,591 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:42:48,136 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:43:41,631 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:44:09,545 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:45:05,149 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:49:31,128 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:55:41,850 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 09:55:42,189 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:05:05,706 - train - INFO -     epoch          : 81
+2025-10-16 10:05:05,707 - train - INFO -     loss           : 0.32321790718671045
+2025-10-16 10:05:05,707 - train - INFO -     grad_norm      : 0.8345202321958061
+2025-10-16 10:05:05,707 - train - INFO -     val_loss       : 0.2388677727431059
+2025-10-16 10:05:05,707 - train - INFO -     val_CER_(Argmax): 0.07033447157901968
+2025-10-16 10:05:05,707 - train - INFO -     val_WER_(Argmax): 0.22307846231609646
+2025-10-16 10:05:05,707 - train - INFO -     val_WER        : 0.22307846231609646
+2025-10-16 10:05:05,707 - train - INFO -     val_CER        : 0.0703199086136611
+2025-10-16 10:05:05,707 - train - INFO -     test_loss      : 0.599141996429891
+2025-10-16 10:05:05,708 - train - INFO -     test_CER_(Argmax): 0.174724708652118
+2025-10-16 10:05:05,708 - train - INFO -     test_WER_(Argmax): 0.43903859863372224
+2025-10-16 10:05:05,708 - train - INFO -     test_WER       : 0.43903859863372224
+2025-10-16 10:05:05,708 - train - INFO -     test_CER       : 0.1747035251574909
+2025-10-16 10:05:06,299 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 10:09:04,114 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:10:02,193 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:10:55,240 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:14:42,223 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:15:31,459 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:18:16,351 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:19:34,572 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:28:09,798 - train - INFO -     epoch          : 82
+2025-10-16 10:28:09,799 - train - INFO -     loss           : 0.3183249425348924
+2025-10-16 10:28:09,799 - train - INFO -     grad_norm      : 0.8161137418531293
+2025-10-16 10:28:09,799 - train - INFO -     val_loss       : 0.2384590067985383
+2025-10-16 10:28:09,799 - train - INFO -     val_CER_(Argmax): 0.07017255953778744
+2025-10-16 10:28:09,799 - train - INFO -     val_WER_(Argmax): 0.22131364034164988
+2025-10-16 10:28:09,799 - train - INFO -     val_WER        : 0.22131364034164988
+2025-10-16 10:28:09,800 - train - INFO -     val_CER        : 0.07015799657242883
+2025-10-16 10:28:09,800 - train - INFO -     test_loss      : 0.5989029520020193
+2025-10-16 10:28:09,800 - train - INFO -     test_CER_(Argmax): 0.1743205254276692
+2025-10-16 10:28:09,800 - train - INFO -     test_WER_(Argmax): 0.43704721422289666
+2025-10-16 10:28:09,800 - train - INFO -     test_WER       : 0.43704721422289666
+2025-10-16 10:28:09,800 - train - INFO -     test_CER       : 0.1743163534871922
+2025-10-16 10:28:10,392 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 10:30:51,295 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:32:11,943 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:33:27,960 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:36:33,747 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:37:19,556 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:40:31,804 - train - WARNING - OOM on batch. Skipping batch.
+2025-10-16 10:51:18,473 - train - INFO -     epoch          : 83
+2025-10-16 10:51:18,473 - train - INFO -     loss           : 0.3176834620722574
+2025-10-16 10:51:18,473 - train - INFO -     grad_norm      : 0.8232347652241213
+2025-10-16 10:51:18,474 - train - INFO -     val_loss       : 0.23727865584871985
+2025-10-16 10:51:18,474 - train - INFO -     val_CER_(Argmax): 0.07039769349766453
+2025-10-16 10:51:18,474 - train - INFO -     val_WER_(Argmax): 0.2212025348655912
+2025-10-16 10:51:18,474 - train - INFO -     val_WER        : 0.2212025348655912
+2025-10-16 10:51:18,474 - train - INFO -     val_CER        : 0.07038313053230592
+2025-10-16 10:51:18,474 - train - INFO -     test_loss      : 0.5976807195313123
+2025-10-16 10:51:18,474 - train - INFO -     test_CER_(Argmax): 0.17417757347516163
+2025-10-16 10:51:18,474 - train - INFO -     test_WER_(Argmax): 0.4383814222677989
+2025-10-16 10:51:18,474 - train - INFO -     test_WER       : 0.4383814222677989
+2025-10-16 10:51:18,474 - train - INFO -     test_CER       : 0.1741524139310583
+2025-10-16 10:51:19,085 - train - INFO - Saving current best: model_best.pth ...
+2025-10-16 10:51:40,238 - train - INFO - Saving model on keyboard interrupt
+2025-10-16 10:51:40,720 - train - INFO - Saving checkpoint: /home/nyakovchuk/wave_rover/rover-Conformer-ASR/saved/conformer_30m/checkpoint-epoch84.pth ...